超简洁的实例 ——关于HTTP协议分析

网络通信的本质是两台计算机上的两个进程之间的通信。比如,浏览器进程和新浪服务器上的某个Web服务进程在通信,而QQ进程是和腾讯的某个服务器上的某个进程在通信。

当我们访问新浪的时候,发生了什么?
本地电脑上的一个进程(浏览器)向 新浪的服务器发起一个tcp的连接请求。这个请求的格式是什么?

下面写一个python实现的例子,建立一个socket,然后连接新浪,连接之后,发送一个字符串。代码如下:

s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
s.connect(('www.sina.com.cn',80))
s.send(b'GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')

当建立连接之后,本地进程向新浪的服务器发送的消息的格式是上面这段代码。

GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n

这个字符串,其实就是http协议的 request请求。


下面讨论的是http协议的格式:

http协议分成两个大的部分,一个是请求,一个是相应。无论是请求还是相应都包含两个部分,一个是header,另外一个是body。(body是可选 的)

HTTP GET请求的格式:

GET /path HTTP/1.1
Header1: Value1
Header2: Value2
Header3: Value3

注意:每个Header一行一个,换行符是\r\n。

HTTP POST请求的格式:

POST /path HTTP/1.1
Header1: Value1
Header2: Value2
Header3: Value3

body data goes here...

注意:当遇到连续两个\r\n时,Header部分结束,后面的数据全部是Body。

HTTP响应的格式:

200 OK
Header1: Value1
Header2: Value2
Header3: Value3

body data goes here...

再次注意:HTTP响应如果包含body,也是通过\r\n\r\n来分隔的。

请再次注意,Body的数据类型由Content-Type头来确定,如果是网页,Body就是文本,如果是图片,Body就是图片的二进制数据。


通过上面的描述,利用socket写一个小的demo,理解一下http协议

思路:在本地创建一个socket,向新浪的服务器发起连接,然后伪造一个request请求。请求如下:

GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n
超简洁的实例 ——关于HTTP协议分析_第1张图片
image.png

执行如下代码:

#coding:utf-8
import socket

#創建tcp socket
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
#建立鏈接
s.connect(('www.sina.com.cn',80))
s.send(b'GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')

#創建一個buff等待接受
buffer=[]
while True:
    d=s.recv(1024)
    if d:
        buffer.append(d)
    else:
        break;
#把接受緩存的數據都保存到data
data = b''.join(buffer)
print (data)

#斷開socket
s.close()

#把網頁的header和body分離
header, html = data.split(b'\r\n\r\n', 1)
print(header.decode('utf-8'))
# 把接收的数据写入文件:
with open('sina.html', 'wb') as f:
    f.write(html)

运行结果:


超简洁的实例 ——关于HTTP协议分析_第2张图片
image.png
超简洁的实例 ——关于HTTP协议分析_第3张图片
image.png
超简洁的实例 ——关于HTTP协议分析_第4张图片
image.png

PS:
HTTP之状态码
状态代码有三位数字组成,第一个数字定义了响应的类别,共分五种类别:
1xx:指示信息--表示请求已接收,继续处理
2xx:成功--表示请求已被成功接收、理解、接受
3xx:重定向--要完成请求必须进行更进一步的操作
4xx:客户端错误--请求有语法错误或请求无法实现
5xx:服务器端错误--服务器未能实现合法的请求

PPS:
常见状态码:
200 OK //客户端请求成功
400 Bad Request //客户端请求有语法错误,不能被服务器所理解
401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden //服务器收到请求,但是拒绝提供服务
404 Not Found //请求资源不存在,eg:输入了错误的URL
500 Internal Server Error //服务器发生不可预期的错误
503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常

PPPS: 补充一个小例子,提供一个掉坑的例子
打算写一个模拟并发请求的压力测试demo,核心的思路就是多进程+每个进程发送http请求。要做到不错的性能,打算用c去写。

问题是这样的,在构建http请求的时候,

    char buf[1500];
    strcpy(request,"GET / HTTP/1.0");
    strcat(request,"\r\n");
    strcat(request,"User-Agent: WebBench 1.5");
    strcat(request,"\r\n");
    strcat(request,"Host: localhost");
    strcat(request,"\r\n");
    //bug 出现在这里,刚开始没有加上这一行。http get请求每一行是通过\r\n 来换行的
    //结尾的标识是通过两个\r\r 来表示,但是第一次的时候,我只写了一个。
    //但是把请求打印出来,是看不来少了一个\r\n的,一通好找,找不到bug
    //最后,我测试用的服务器是nginx,去看nginx的log
    //看到一个log里面的状态码是400,400对应的是 请求无效,然后就执行的查请求这个,最够终于找到这个bug
    strcat(request,"\r\n");        
    int rlen=strlen(request);

我把源码贴在这里,感兴趣的可以复盘一下问题
main.c

#include "socket.c"
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

#define REQUEST_SIZE 2048
char request[REQUEST_SIZE];   // 发送的构造的HTTP请求


int main(){
    char buf[1500];

    strcpy(request,"GET / HTTP/1.0");
    strcat(request,"\r\n");
    strcat(request,"User-Agent: WebBench 1.5");
    strcat(request,"\r\n");
    strcat(request,"Host: localhost");
    strcat(request,"\r\n");
    strcat(request,"\r\n");
    int rlen=strlen(request);

    printf("----test ----- the http request is ----   : \n");
    printf("%s",request);
    printf("----end  ------\n");


    char *host="localhost";
    int port=80;
    int s=Socket(host,port);
    if(s<0){        
        printf("error \n");
        return -1;
    }
    else{
        printf("ok \n");
    }

    //write
    if(rlen!=write(s,request,rlen)){
        printf("fail \n");
        close(s);
        return -1;
    }
    printf("write len is %d",rlen);

    //read
    int i=0;
    while(1){
        i=read(s,buf,1500);
        printf("len i is : %d",i);
        if(i<0){
            printf("fail \n");
            close(s);
            return -1;
        }
        if(i==0){
            printf("%s",buf);
            printf("read comlete \n");
            break;
        }
        else{
            printf("%s",buf);
        }
    }
    close(s);
    return 0;
}

socket.c

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

int Socket(const char *host, int clientPort)
{
    int sock;
    unsigned long inaddr;
    struct sockaddr_in ad;
    struct hostent *hp;
    
    memset(&ad, 0, sizeof(ad));
    ad.sin_family = AF_INET;
    
    // 将字符串转换为32位二进制网络字节序的IPv4地址
    inaddr = inet_addr(host);
    if (inaddr != INADDR_NONE)
        memcpy(&ad.sin_addr, &inaddr, sizeof(inaddr));
    else
    {
        // 使用域名或主机名获取ip地址
        hp = gethostbyname(host);
        if (hp == NULL)
            return -1;
        memcpy(&ad.sin_addr, hp->h_addr, hp->h_length);
    }
    ad.sin_port = htons(clientPort);
    
    sock = socket(AF_INET, SOCK_STREAM, 0);
    if (sock < 0)
        return sock;
    if (connect(sock, (struct sockaddr *)&ad, sizeof(ad)) < 0)
        return -1;
    return sock;
}

你可能感兴趣的:(超简洁的实例 ——关于HTTP协议分析)