网络通信的本质是两台计算机上的两个进程之间的通信。比如,浏览器进程和新浪服务器上的某个Web服务进程在通信,而QQ进程是和腾讯的某个服务器上的某个进程在通信。
当我们访问新浪的时候,发生了什么?
本地电脑上的一个进程(浏览器)向 新浪的服务器发起一个tcp的连接请求。这个请求的格式是什么?
下面写一个python实现的例子,建立一个socket,然后连接新浪,连接之后,发送一个字符串。代码如下:
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
s.connect(('www.sina.com.cn',80))
s.send(b'GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')
当建立连接之后,本地进程向新浪的服务器发送的消息的格式是上面这段代码。
GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n
这个字符串,其实就是http协议的 request请求。
下面讨论的是http协议的格式:
http协议分成两个大的部分,一个是请求,一个是相应。无论是请求还是相应都包含两个部分,一个是header,另外一个是body。(body是可选 的)
HTTP GET请求的格式:
GET /path HTTP/1.1
Header1: Value1
Header2: Value2
Header3: Value3
注意:每个Header一行一个,换行符是\r\n。
HTTP POST请求的格式:
POST /path HTTP/1.1
Header1: Value1
Header2: Value2
Header3: Value3
body data goes here...
注意:当遇到连续两个\r\n时,Header部分结束,后面的数据全部是Body。
HTTP响应的格式:
200 OK
Header1: Value1
Header2: Value2
Header3: Value3
body data goes here...
再次注意:HTTP响应如果包含body,也是通过\r\n\r\n来分隔的。
请再次注意,Body的数据类型由Content-Type头来确定,如果是网页,Body就是文本,如果是图片,Body就是图片的二进制数据。
通过上面的描述,利用socket写一个小的demo,理解一下http协议
思路:在本地创建一个socket,向新浪的服务器发起连接,然后伪造一个request请求。请求如下:
GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n
执行如下代码:
#coding:utf-8
import socket
#創建tcp socket
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
#建立鏈接
s.connect(('www.sina.com.cn',80))
s.send(b'GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')
#創建一個buff等待接受
buffer=[]
while True:
d=s.recv(1024)
if d:
buffer.append(d)
else:
break;
#把接受緩存的數據都保存到data
data = b''.join(buffer)
print (data)
#斷開socket
s.close()
#把網頁的header和body分離
header, html = data.split(b'\r\n\r\n', 1)
print(header.decode('utf-8'))
# 把接收的数据写入文件:
with open('sina.html', 'wb') as f:
f.write(html)
运行结果:
PS:
HTTP之状态码
状态代码有三位数字组成,第一个数字定义了响应的类别,共分五种类别:
1xx:指示信息--表示请求已接收,继续处理
2xx:成功--表示请求已被成功接收、理解、接受
3xx:重定向--要完成请求必须进行更进一步的操作
4xx:客户端错误--请求有语法错误或请求无法实现
5xx:服务器端错误--服务器未能实现合法的请求
PPS:
常见状态码:
200 OK //客户端请求成功
400 Bad Request //客户端请求有语法错误,不能被服务器所理解
401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden //服务器收到请求,但是拒绝提供服务
404 Not Found //请求资源不存在,eg:输入了错误的URL
500 Internal Server Error //服务器发生不可预期的错误
503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常
PPPS: 补充一个小例子,提供一个掉坑的例子
打算写一个模拟并发请求的压力测试demo,核心的思路就是多进程+每个进程发送http请求。要做到不错的性能,打算用c去写。
问题是这样的,在构建http请求的时候,
char buf[1500];
strcpy(request,"GET / HTTP/1.0");
strcat(request,"\r\n");
strcat(request,"User-Agent: WebBench 1.5");
strcat(request,"\r\n");
strcat(request,"Host: localhost");
strcat(request,"\r\n");
//bug 出现在这里,刚开始没有加上这一行。http get请求每一行是通过\r\n 来换行的
//结尾的标识是通过两个\r\r 来表示,但是第一次的时候,我只写了一个。
//但是把请求打印出来,是看不来少了一个\r\n的,一通好找,找不到bug
//最后,我测试用的服务器是nginx,去看nginx的log
//看到一个log里面的状态码是400,400对应的是 请求无效,然后就执行的查请求这个,最够终于找到这个bug
strcat(request,"\r\n");
int rlen=strlen(request);
我把源码贴在这里,感兴趣的可以复盘一下问题
main.c
#include "socket.c"
#include
#include
#include
#include
#include
#include
#include
#include
#include
#define REQUEST_SIZE 2048
char request[REQUEST_SIZE]; // 发送的构造的HTTP请求
int main(){
char buf[1500];
strcpy(request,"GET / HTTP/1.0");
strcat(request,"\r\n");
strcat(request,"User-Agent: WebBench 1.5");
strcat(request,"\r\n");
strcat(request,"Host: localhost");
strcat(request,"\r\n");
strcat(request,"\r\n");
int rlen=strlen(request);
printf("----test ----- the http request is ---- : \n");
printf("%s",request);
printf("----end ------\n");
char *host="localhost";
int port=80;
int s=Socket(host,port);
if(s<0){
printf("error \n");
return -1;
}
else{
printf("ok \n");
}
//write
if(rlen!=write(s,request,rlen)){
printf("fail \n");
close(s);
return -1;
}
printf("write len is %d",rlen);
//read
int i=0;
while(1){
i=read(s,buf,1500);
printf("len i is : %d",i);
if(i<0){
printf("fail \n");
close(s);
return -1;
}
if(i==0){
printf("%s",buf);
printf("read comlete \n");
break;
}
else{
printf("%s",buf);
}
}
close(s);
return 0;
}
socket.c
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
int Socket(const char *host, int clientPort)
{
int sock;
unsigned long inaddr;
struct sockaddr_in ad;
struct hostent *hp;
memset(&ad, 0, sizeof(ad));
ad.sin_family = AF_INET;
// 将字符串转换为32位二进制网络字节序的IPv4地址
inaddr = inet_addr(host);
if (inaddr != INADDR_NONE)
memcpy(&ad.sin_addr, &inaddr, sizeof(inaddr));
else
{
// 使用域名或主机名获取ip地址
hp = gethostbyname(host);
if (hp == NULL)
return -1;
memcpy(&ad.sin_addr, hp->h_addr, hp->h_length);
}
ad.sin_port = htons(clientPort);
sock = socket(AF_INET, SOCK_STREAM, 0);
if (sock < 0)
return sock;
if (connect(sock, (struct sockaddr *)&ad, sizeof(ad)) < 0)
return -1;
return sock;
}