-
为什么要做这个项目?? 答: 我想从服务器后台开发角度深入了解一个简单的http服务器的运行原理,并从本质上理解http协议的特征,掌握该协议的定制过程。 -
什么是http服务器?? 答:通过浏览器(客户端)对服务器的访问,连接远程的http服务器,服务器通过分析http请求,构建http响应,将解析出来的数据返回给客户端,从外在表现就是得到一个相对应的web页面。
做这个项目我们最终达成的目标:
- 实现一个基于HTTP/1.0的web服务器,客户端能使用GET、POST方法访问相应资源
- 服务器通过读取请求,分析请求并处理请求,最终能够返回相应的资源,并能够进行差错处理(如若访问资源不存在,服务器返回一个404页面)
- 服务器能进行简单的cgi运行。(如:客户在表单输入数据后,服务器能将运行结果返回给客户)
一、基础知识
HTTP协议
- 超文本传输协议,是互联网上应用最广泛的网络协议。它本身位于应用层,底层基于TCP协议通信。
- 工作流程:客户通过浏览器向服务器发送文档请求,浏览器将请求的资源回应给浏览器,然后关闭连接。即:连接->请求->响应->关闭连接。
- 基本特征:无连接 、无状态 、简单快速 。
- URL(统一资源定位符)、URI(统一资源标识符)
平时我们所说的“网址”,指的就是URL,是用来定位互联网上的资源的,通常以路径的形式展现(资源所处的路径)。 URL是 URI 的子集。任何东西,只要能够唯一地标识出来,都可以说这个标识是 URI 。如果这个标识是一个可获取到上述对象的路径,那么同时它也可以是一个 URL ;但如果这个标识不提供获取到对象的路径,那么它就必然不是 URL 。 - GET与POST方法
GET方法使用带参数的URL,参数通过URL传递;POST方法使用不带参数的URL,参数通过正文传递。
HTTP请求与响应 具体请求: 具体响应:
二、服务器的基本实现思路
- http是基于TCP通信的,因此需要熟悉基于TCP的基本套接字编程,用于实现跨网络不主机间通信。
- 保证两个主机通信后接着就是处理逻辑了,当服务器收到http请求后,根据请求的基本结构,分析请求,请求方法得重视(因为web服务器需要支持cgi模式,我们的服务器项目中只处理GET和POST方法)。
- 方法确定后,应当分析请求的URI,我们需要根据URI找到相应的资源,予以返还(注意URI中参数的提取,GET方法携带参数就是在URI当中)。
- 判断资源是否存在,不存在直接返回404页面,如果存在,判断该资源是一个目录(目录需要拼接一个默认的index.html)、普通文件、还是一个可执行程序。
非cgi模式 :如果是GET方法且不带参数就是非cgi模式,直接将资源返回;否则就是cgi模式运行(GET方法带参,POST方法)。 http下的cgi 上面的图描述运行cgi的基本过程,首先从浏览器读取参数,然后创建出一个子进程,进行cgi处理,根据cgi标准GET方法通过环境变量的方式进行传参,POST方法通过管道进行传参,父进程将参数传给子进程,子进程运行完成将结果交给父进程,父进程输出给浏览器。在这个过程中父进程只是“ 中转站 ”的工作,因此子进程将标准输入标准输出进行重定向,宏观上看是子进程直接与浏览器关联。 下面来看一下具体父子进程都干了哪些工作:
三、差错处理
当请求页面不存在时,服务器给客户端返回一个404页面,告知客户端资源不存在!!
四、项目文件
cgi: 运行cgi部分的代码。 ctrl.sh:服务器控制脚本,用于实现服务器的启动,暂停,重启和状态查看。 HttpServer.hpp:具体服务器的实现细节的封装。 Log.hpp:日志信息,边写边观察,具体理解协议细节,还有助于后面调试。 main.cc:服务器的主逻辑 Protocol.hpp:具体协议细节的处理,封装三个大类,Request(对读上来的请求做分析)、Response(构建响应)、Endpoint(桥接请求与响应)。 Sock.hpp:对基本套接字的封装 tags文件:用命令ctags -R 生成,用于实现过程中文件间的跳转 ThreadPool.hpp:线程池的封装 Util.hpp:实现过程中基本工具的封装(如:读取请求的方法) wwwroot:本服务器的web根目录
五、项目成果
请求资源: 通过表单提交参数,运行cgi后的结果:
六、项目源码
点击这里
七、项目的扩展与不足
- 可以将请求方法,状态码多样化,本服务器有点单一。
- 在业务处理方面可以进行扩展,由于本人没有学过前端页面,所以对cgi程序执行后返回的页面没法优化。
|