使用python实现HTTP请求报文是否结束的判断。

1. 目的

使用python实现HTTP请求报文是否结束的判断。

2. 项目意义

  • 理解socket通信中的接收recv字节数大小
  • 掌握HTTP协议报文格式
  • 完善web服务器的请求信息解析
  • 实现返回页面显示请求信息

3. 项目技术要点

  • 基于python3.6语言编写
  • 此项目通过mini_web.py来实现web服务器解析请求信息功能
  • request_end方法实现请求报文解析和结束判断
  • deal_with_request实现返回页面显示请求信息
  • 请求信息同步打印显示在终端窗口
  • 默认测试地址localhost:8888

4. HTTP协议

  • 完整的HTTP请求包括:一个请求行、若干HTTP头域和可选的实体内容三部分

  • 请求行

    • 请求行以一个方法符号开头,以空格分开,后面跟着请求的URI和协议版本,格式如下:
      Method Request-URI HTTP-Version CRLF
    • 其中的Method表示请求方法,Request-URI是同一资源标识符,HTTP-Version表示请求的HTTP协议版本,CRLF表示回车换行。
  • 其中的Method表示请求方法,Request-URI是同一资源标识符,HTTP-Version表示请求的HTTP协议版本,CRLF表示回车换行。

  • 请求方法有8种,方法名全为大写:
    (1)GET 请求获取Request-URI指定的资源
    (2)HEAD 请求获取Request-URI制定资源的响应消息报头
    (3)POST 用于向服务器提交数据,正常情况下带有“消息体”

    (4)PUT 请求服务器存储一个资源,并用Request-URI作为其标识
    (5)DELETE 请求服务器删除Request-URI所标识的资源
    (6)TRACE 请求服务器回送收到的请求信息,主要用于测试或诊断
    (7)CONNECT 保留将来使用
    (8)OPTIONS 请求查询服务器的性能,或者查询与资源相关的选项和需求。

  • HTTP头域分为四种:通用头域、请求头域、响应头域和实体头域。每个头域由一个域名、冒号和域值三部分组成,域名大小写无关,域值前可以添加任何数量的空格符。
    通用头域

  • 通用头域是指请求和响应都支持的HTTP头域,最常见的有Cache-Control、Connection和Transfer-Encoding,具体含义如下:
    (1) Cache-Control:指定请求和相应遵循的缓存机制,最常见的值是no-cache,指示请求和响应消息不能缓存;
    (2) Connection:用于指定处理完本次请求/响应后,客户端和服务器是否还要继续保持连接。
    (3) Transfer-Encoding:用于指定实体内容的传输编码方式。

  • 请求头域
    请求头域是只有在请求头中带有的,用于向服务器传递关于请求或者关于客户端的附件信息。常见的有:Accept、Accept-Encoding、Accept-Language、Accept-Charset、Host、Referer、User-Agent和Cookie,具体含义如下:
    (1) Accept: 用于指定客户端程序能够处理的MIME类型,多个时用逗号隔开;
    (2) Accept-Encoding:指定客户端程序支持的压缩方式;
    (3) Accept-Language: 指定客户端期望返回哪个国家语言的文档;
    (4) Accept-Charset:指定客户端程序可以使用的字符集;
    (5) Host:指定资源所在的主机名和端口号;
    (6) Referer:指定请求uri的源资源地址,也就是用户从哪个uri过来,允许服务器生成回退链表;
    (7) User-Agent:浏览器客户端信息,如使用哪种浏览器等;
    (8) Cookie:服务器在浏览器端留下的信息,这是最重要的请求头字段之一。

  • 实体头域
    HTTP请求和响应中都可以包含实体头域,实体头域包含实体内容的一些信息。常见的实体头域有:Content-Encoding、Content-Length、Content-Type和Expires,具体含义如下:
    (1) Content-Encoding:指明实体内容采用的压缩方式;
    (2) Content-Length:指明实体内容的长度,单位为字节;
    (3) Content-Type:指定实体内容的MIME类型;
    (4) Expires:指明实体内容在什么时间之后过期,不再缓存。
    因此,由Content-Length头域标明后续的实体内容的字节长度,浏览器或者服务器根据解析出来的Content-Length去读取后续的实体内容。以此来判断是否传输完数据

5. 技术细节

  • 服务器类基本功能实现:
    • 初始化功能init
      • 创建服务器端套接字、绑定端口、监听设置等一系列操作socket
    • 永久启动功能run_forvever
      • 接收客户端请求后通过协程来建立调用浏览器请求处理措施
    • _request_end判断并解析请求数据
    • 浏览器请求处理deal_with_request
      • 接收解析信息,并将相关内容返回给浏览器以显示
  • _request_end方法的处理逻辑


    http请求报文接收完毕判断逻辑

完整源码链接:
https://github.com/ScrappyZhang/http_request_close_judgement

    def _request_end(self, client_socket):
        # 判断并解析请求数据
        recv_data = ''
        request_header = ''  # 请求头字符串
        request_headers = {}  # 请求头解析后的字典
        content_entity = ''  # 实体
        content_length = 0  # 实体长度
        request_line = ''  # 请求行
        while True:
            # 完整读取请求数据
            recv_data_s = client_socket.recv(256)
            print('接收长度为', len(recv_data_s))
            if recv_data_s == b'':
                request_line = '0'
                return request_line, request_headers, content_entity
            try:
                recv_data_s = recv_data_s.decode()
            except Exception as e:
                recv_data_s = recv_data_s.decode('gbk')

            if "\r\n\r\n" not in recv_data:
                recv_data += recv_data_s
            if "\r\n\r\n" not in recv_data:
                pass

            else:
                if request_header == '':
                    # 第一次接收到, 空行 说明请求头结束
                    space_line_index = recv_data.index("\r\n\r\n")
                    request_header = recv_data[0: space_line_index]
                    content_entity = recv_data[space_line_index + 4:]
                    for index, request in enumerate(request_header.split('\r\n')):
                        if index == 0:
                            request_line = request
                        else:
                            key = request.split(':')[0]
                            value = request.lstrip(key).lstrip(':')
                            key = key.strip(' ').lower()
                            value = value.strip(' ')
                            request_headers[key] = value

                    if "content-length" in request_headers.keys():
                        # 查看content_length是否在请求头,若在,需要获取其值
                        content_length = int(request_headers['content-length'])
                        if content_length == len(content_entity.encode()):
                            print("接收请求数据完毕")
                            return request_line, request_headers, content_entity
                    else:
                        # 不存在则说明只有请求头,没有实体
                        return request_line, request_headers, content_entity
                else:
                    # 实体数据
                    content_entity += recv_data_s
                    if content_length == len(content_entity.encode()):
                        print("接收请求数据完毕")
                        return request_line, request_headers, content_entity

你可能感兴趣的:(使用python实现HTTP请求报文是否结束的判断。)