网络通信socket详解

socket学习网站:
http://c.biancheng.net/view/2124.html

一.什么是socket

socket 的原意是“插座”,在计算机通信领域,socket 被翻译为“套接字”,它是计算机之间进行通信的一种约定或一种方式。通过 socket 这种约定,一台计算机可以接收其他计算机的数据,也可以向其他计算机发送数据。

socket 的典型应用就是 Web 服务器和浏览器:浏览器获取用户输入的 URL,向服务器发起请求,服务器分析接收到的 URL,将对应的网页内容返回给浏览器,浏览器再经过解析和渲染,就将文字、图片、视频等元素呈现给用户。

二.套接字的类型

1.流格式套接字(SOCK_STREAM)

流格式套接字(Stream Sockets)也叫“面向连接的套接字”,在代码中使用 SOCK_STREAM 表示。

SOCK_STREAM 是一种可靠的、双向的通信数据流,数据可以准确无误地到达另一台计算机,如果损坏或丢失,可以重新发送。

特征:
数据在传输过程中不会消失;
数据是按照顺序传输的;
数据的发送和接收不是同步的(有的教程也称“不存在数据边界”)

使用了TCP协议,所以流格式套接字可以达到高质量的数据传输

2.数据报格式套接字(SOCK_DGRAM)

数据报格式套接字(Datagram Sockets)也叫“无连接的套接字”,在代码中使用 SOCK_DGRAM 表示。

数据报套接字是一种不可靠的、不按顺序传递的、以追求速度为目的的套接字。

特征:
强调快速传输而非传输顺序;
传输的数据可能丢失也可能损毁;
限制每次传输的数据大小;
数据的发送和接收是同步的(有的教程也称“存在数据边界”)。

使用了UDP协议,所以传输速率很快

三.OSI 网络7层模型

1.OSI模型 只是存在于概念和理论上的一种模型,它的缺点是分层太多,增加了网络工作的复杂性,所以没有大规模应用

2.TCP/IP 模型 对OSI模型 进行了简化,合并了一些层,最终只保留了 4 层,从下到上分别是接口层、网络层、传输层和应用层

3.“TCP/IP”,TCP 用来确保数据的正确性,IP(Internet Protocol,网络协议)用来控制数据如何从源头到达目的地,也就是常说的“路由”

网络通信socket详解_第1张图片

4.这个网络模型是用来进行数据封装的。

我们平常使用的程序(或者说软件)一般都是通过应用层来访问网络的,程序产生的数据会一层一层地往下传输,直到最后的网络接口层,就通过网线发送到互联网上去了。数据每往下走一层,就会被这一层的协议增加一层包装,等到发送到互联网上时,已经比原始数据多了四层包装。整个数据封装的过程就像俄罗斯套娃。

当另一台计算机接收到数据包时,会从网络接口层再一层一层往上传输,每传输一层就拆开一层包装,直到最后的应用层,就得到了最原始的数据,这才是程序要使用的数据。

给数据加包装的过程,实际上就是在数据的头部增加一个标志(一个数据块),表示数据经过了这一层,我已经处理过了。给数据拆包装的过程正好相反,就是去掉数据头部的标志,让它逐渐现出原形。

5.我们所说的 socket 编程,是站在传输层的基础上,所以可以使用 TCP/UDP 协议,但是不能干「访问网页」这样的事情,因为访问网页所需要的 http 协议位于应用层。

四.TCP/IP协议族

1.协议(Protocol)就是网络通信过程中的约定或者合同,通信的双方必须都遵守才能正常收发数据。协议有很多种,例如 TCP、UDP、IP 等,通信的双方必须使用同一协议才能通信。协议是一种规范,由计算机组织制定,规定了很多细节,例如,如何建立连接,如何相互识别等。

2.TCP/IP 模型包含了 TCP、IP、UDP、Telnet、FTP、SMTP 等上百个互为关联的协议,其中 TCP 和 IP 是最常用的两种底层协议,所以把它们统称为“TCP/IP 协议族”。也就是说,“TCP/IP模型”中所涉及到的协议称为“TCP/IP协议族”。

网络通信socket详解_第2张图片

TCP 和 UDP 协议的层级关系

五.IP,MAC,端口号

1.IP地址

  • IP地址是 Internet Protocol Address 的缩写,译为“网际协议地址”。
    目前大部分软件使用 IPv4 地址,但 IPv6 也正在被人们接受

  • 1.2一台计算机可以拥有一个独立的 IP 地址,一个局域网也可以拥有一个独立的 IP 地址,所以一个IP地址不一定能标识一台计算机

  • 1.3在因特网上进行通信时,必须要知道对方的 IP 地址。实际上数据包中已经附带了 IP 地址,把数据包发送给路由器以后,路由器会根据 IP 地址找到对方的地里位置,完成一次数据的传递。路由器有非常高效和智能的算法,很快就会找到目标计算机。

2.MAC地址

  • 一个局域网往往才能拥有一个独立的 IP,IP 地址只能定位到一个局域网,无法定位到具体的一台计算机

  • MAC 地址是 Media Access Control Address 的缩写,直译为“媒体访问控制地址”,也称为局域网地址(LAN Address),以太网地址(Ethernet Address)或物理地址(Physical Address)。

  • 真正能唯一标识一台计算机的是 MAC 地址,每个网卡的 MAC 地址在全世界都是独一无二的。计算机出厂时,MAC 地址已经被写死到网卡里面了。局域网中的路由器/交换机会记录每台计算机的 MAC 地址

  • 数据包中除了会附带对方的 IP 地址,还会附带对方的 MAC 地址,当数据包达到局域网以后,路由器/交换机会根据数据包中的 MAC 地址找到对应的计算机,然后把数据包转交给它,这样就完成了数据的传递。

3.端口号

  • 有了 IP 地址和 MAC 地址,虽然可以找到目标计算机,但是一台计算机可以同时提供多种网络服务,例如 Web 服务(网站)、FTP 服务(文件传输服务)、SMTP 服务(邮箱服务)等

  • 仅有 IP 地址和 MAC 地址,计算机虽然可以正确接收到数据包,但是却不知道要将数据包交给哪个网络程序来处理,所以通信失败

  • 为了区分不同的网络程序,计算机会为每个网络程序分配一个独一无二的端口号(Port Number),例如,Web 服务的端口号是 80,FTP 服务的端口号是 21,SMTP 服务的端口号是 25。

  • 端口(Port)是一个虚拟的、逻辑上的概念。可以将端口理解为一道门,数据通过这道门流入流出,每道门有不同的编号,就是端口号。

网络通信socket详解_第3张图片

六.socket() 函数创建套接字

int socket(int af, int type, int protocol);

1.af参数-IP 地址类型

  • af 为地址族(Address Family),也就是 IP 地址类型,常用的有 AF_INET 和 AF_INET6。

  • AF_INET 表示 IPv4 地址,例如 127.0.0.1(本机地址);AF_INET6 表示 IPv6 地址,例如 1030::C9B4:FF12:48AA:1A2B。

  • AF 是“Address Family”的简写,INET是“Inetnet”的简写。

  • 你也可以使用 PF 前缀,PF 是“Protocol Family”的简写,它和 AF 是一样的。

2.type参数- 数据传输方式/套接字类型

  • SOCK_STREAM(流格式套接字/面向连接的套接字)
  • SOCK_DGRAM(数据报套接字/无连接的套接字)

3.protocol参数-传输协议

  • IPPROTO_TCP 表示 TCP 传输协议
  • IPPTOTO_UDP 表示 UDP 传输协议

4.第三个参数的意义

  • 一般情况下有了 af 和 type 两个参数就可以创建套接字了,操作系统会自动推演出协议类型,除非遇到这样的情况:有两种不同的协议支持同一种地址类型和数据传输类型。如果我们不指明使用哪种协议,操作系统是没办法自动推演的。

  • 参数 af 的值为 PF_INET。如果使用 SOCK_STREAM 传输数据,那么满足这两个条件的协议只有 TCP,这种套接字称为 TCP 套接字

int tcp_socket = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP); 
  • 参数 af 的值为 PF_INET。如果使用 SOCK_DGRAM 传输方式,那么满足这两个条件的协议只有 UDP,这种套接字称为 UDP 套接字
int udp_socket = socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP);  
  • 简化写法:上面两种情况都只有一种协议满足条件,可以将 protocol 的值设为 0,系统会自动推演出应该使用什么协议
//创建TCP套接字
nt tcp_socket = socket(AF_INET, SOCK_STREAM, 0);  

//创建UDP套接字
int udp_socket = socket(AF_INET, SOCK_DGRAM, 0);  

七.bind() 函数-将套接字与特定的 IP 地址和端口绑定

int bind(int sock, struct sockaddr *addr, socklen_t addrlen);  
  • 参数解释:sock 为 socket 文件描述符也就是我们的套接字,addr 为 sockaddr 结构体变量的指针,addrlen 为 addr 变量的大小,可由 sizeof() 计算得出。
//创建套接字
int serv_sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);

//创建sockaddr_in结构体变量
struct sockaddr_in serv_addr;
memset(&serv_addr, 0, sizeof(serv_addr));  //每个字节都用0填充
serv_addr.sin_family = AF_INET;  //使用IPv4地址
serv_addr.sin_addr.s_addr = inet_addr("127.0.0.1");  //具体的IP地址
//serv_addr.sin_addr.s_addr = htonl(INADDR_ANY);//绑定IP地址为任意
serv_addr.sin_port = htons(1234);  //端口

//将套接字和IP、端口绑定
bind(serv_sock, (struct sockaddr*)&serv_addr, sizeof(serv_addr));
  • 例子:创建的套接字与IP地址 127.0.0.1、端口 1234 绑定

1.为什么bind() 第二个参数的类型为 sockaddr,而代码中却使用 sockaddr_in,然后再强制转换为 sockaddr

网络通信socket详解_第4张图片

//sockaddr 结构体
struct sockaddr{
    sa_family_t  sin_family;   //地址族(Address Family),也就是地址类型
    char         sa_data[14];  //IP地址和端口号
};

//sockaddr_in结构体
struct sockaddr_in{
    sa_family_t     sin_family;   //地址族(Address Family),也就是地址类型
    uint16_t        sin_port;     //16位的端口号
    struct in_addr  sin_addr;     //32位IP地址
    char            sin_zero[8];  //不使用,一般用0填充
};

//sockaddr_in6结构体
struct sockaddr_in6 { 
    sa_family_t sin6_family;  //(2)地址类型,取值为AF_INET6
    in_port_t sin6_port;  //(2)16位端口号
    uint32_t sin6_flowinfo;  //(4)IPv6流信息
    struct in6_addr sin6_addr;  //(4)具体的IPv6地址
    uint32_t sin6_scope_id;  //(4)接口范围ID
};

sockaddr 和 sockaddr_in 的长度相同,都是16字节,只是将IP地址和端口号合并到一起,用一个成员 sa_data 表示

想给 sa_data 赋值,必须同时指明IP地址和端口号,例如”127.0.0.1:80“,遗憾的是,没有相关函数将这个字符串转换成需要的形式,也就很难给 sockaddr 类型的变量赋值,所以使用 sockaddr_in 来代替

这两个结构体的长度相同,强制转换类型时不会丢失字节,也没有多余的字节。

可以认为,sockaddr 是一种通用的结构体,可以用来保存多种类型的IP地址和端口号,而 sockaddr_in 是专门用来保存 IPv4 地址的结构体。另外还有 sockaddr_in6,用来保存 IPv6 地址

2.sockaddr_in结构体参数解释

struct sockaddr_in{
    sa_family_t     sin_family;   //地址族(Address Family),也就是地址类型
    uint16_t        sin_port;     //16位的端口号
    struct in_addr  sin_addr;     //32位IP地址
    char            sin_zero[8];  //不使用,一般用0填充
};

网络通信socket详解_第5张图片

sin_family: 和 socket() 的第一个参数的含义相同,取值也要保持一致。

sin_prot :端口号。uint16_t 的长度为两个字节,理论上端口号的取值范围为 0~65536,但 0~1023 的端口一般由系统分配给特定的服务程序,例如 Web 服务的端口号为 80,FTP 服务的端口号为 21,所以我们的程序要尽量在 1024~65536 之间分配端口号。端口号需要用 htons() 函数转换。

sin_addr : struct in_addr 结构体类型的变量

sin_zero[8] :是多余的8个字节,没有用,一般使用 memset() 函数填充为 0。上面的代码中,先用 memset() 将结构体的全部字节填充为 0,再给前3个成员赋值,剩下的 sin_zero 自然就是 0 了。

3.in_addr结构体的参数解释

struct in_addr{
    in_addr_t  s_addr;  //32位的IP地址
};

in_addr_t 在头文件 中定义,等价于 unsigned long,长度为4个字节。也就是说,s_addr 是一个整数,而IP地址是一个字符串,所以需要 inet_addr() 函数进行转换

八.connect() 函数-客户端程序发起连接

int connect(int sock, struct sockaddr *serv_addr, socklen_t addrlen);

各个参数和bind()函数相同

九.listen(),accept()函数-服务端程序被动监听,响应服务端请求

对于服务器端程序,使用 bind() 绑定套接字后,还需要使用 listen() 函数让套接字进入被动监听状态,再调用 accept() 函数,就可以随时响应客户端的请求了。

1.listen()函数-让套接字进入被动监听状态

int listen(int sock, int backlog);
  • sock :需要进入监听状态的套接字,backlog :请求队列的最大长度。

  • 被动监听:是指当没有客户端请求时,套接字处于“睡眠”状态,只有当接收到客户端请求时,套接字才会被“唤醒”来响应请求。

  • 请求队列:当套接字正在处理客户端请求时,如果有新的请求进来,套接字是没法处理的,只能把它放进缓冲区,待当前请求处理完毕后,再从缓冲区中读取出来处理。如果不断有新的请求进来,它们就按照先后顺序在缓冲区中排队,直到缓冲区满。这个缓冲区,就称为请求队列

  • 缓冲区的长度(能存放多少个客户端请求):可以通过 listen() 函数的 backlog 参数指定,但究竟为多少并没有什么标准,可以根据你的需求来定,并发量小的话可以是10或者20。如果将 backlog 的值设置为 SOMAXCONN,就由系统来决定请求队列长度,这个值一般比较大,可能是几百,或者更多。

  • 请求队列满时:不再接收新的请求,对于 Linux,客户端会收到 ECONNREFUSED 错误,对于 Windows,客户端会收到 WSAECONNREFUSED 错误。

  • listen() 只是让套接字处于监听状态,并没有接收请求。接收请求需要使用 accept() 函数。

2.accept() 函数-通过 accept() 函数来接收客户端请求

int accept(int sock, struct sockaddr *addr, socklen_t *addrlen);
  • 参数与 bind() 和 connect() 是相同的,sock 为服务器端套接字,addr 为 sockaddr_in 结构体变量,addrlen 为参数 addr 的长度,可由 sizeof() 求得。

  • accept() 返回一个新的套接字来和客户端通信,addr 保存了客户端的IP地址和端口号,而 sock 是服务器端的套接字。后面和客户端通信时,要使用这个新生成的套接字,而不是原来服务器端的套接字。

  • listen() 只是让套接字进入监听状态,并没有真正接收客户端请求,listen() 后面的代码会继续执行,直到遇到 accept()。accept() 会阻塞程序执行(后面代码不能被执行),直到有新的请求到来

十.write() , read()函数-发送和接受数据

两台计算机之间的通信相当于两个套接字之间的通信,在服务器端用 write() 向套接字写入数据,客户端就能收到,然后再使用 read() 从套接字中读取出来,就完成了一次通信。

ssize_t:size_t 是通过 typedef 声明的 unsigned int 类型;ssize_t 在 "size_t" 前面加了一个"s",代表 signed,即 ssize_t 是通过 typedef 声明的 signed int 类型。

1.write()函数(send)

ssize_t write(int fd, const void *buf, size_t nbytes);
  • fd 为要写入的文件的描述符即连接的socket,buf 为要写入的数据的缓冲区地址,nbytes 为要写入的数据的字节数。

  • write() 函数会将缓冲区 buf 中的 nbytes 个字节写入文件 fd,成功则返回写入的字节数,失败则返回 -1。

2.read()函数(recv)

ssize_t read(int fd, void *buf, size_t nbytes);
  • fd 为要读取的文件的描述符即连接的socket,buf 为要接收数据的缓冲区地址,nbytes 为要读取的数据的字节数。

  • read() 函数会从 fd 文件中读取 nbytes 个字节并保存到缓冲区 buf,成功则返回读取到的字节数(但遇到文件结尾则返回0),失败则返回 -1。

十一.TCP三次握手建立连接

TCP建立连接时要传输三个数据包,俗称三次握手(Three-way Handshaking)。可以形象的比喻为下面的对话:
[Shake 1] 套接字A:“你好,套接字B,我这里有数据要传送给你,建立连接吧。”
[Shake 2] 套接字B:“好的,我这边已准备就绪。”
[Shake 3] 套接字A:“谢谢你受理我的请求。”

十二.TCP四次握手断开连接

建立连接需要三次握手,断开连接需要四次握手,可以形象的比喻为下面的对话:
[Shake 1] 套接字A:“任务处理完毕,我希望断开连接。”
[Shake 2] 套接字B:“哦,是吗?请稍等,我准备一下。”
等待片刻后……
[Shake 3] 套接字B:“我准备好了,可以断开连接了。”
[Shake 4] 套接字A:“好的,谢谢合作。”

十三.类型转换

1.htonl()

简述:
  将主机的无符号长整形数转换成网络字节顺序。
  #include
  u_long PASCAL FAR htonl( u_long hostlong);
  hostlong:主机字节顺序表达的32位数。
  注释:
  本函数将一个32位数从主机字节顺序转换成网络字节顺序。
  返回值:
  htonl()返回一个网络字节顺序的值。
  参见:
  htons(), ntohl(), ntohs().

2.htons()

简述:
  将主机的无符号短整形数转换成网络字节顺序。
  #include
  u_short PASCAL FAR htons( u_short hostshort);
  hostshort:主机字节顺序表达的16位数。
  注释:
  本函数将一个16位数从主机字节顺序转换成网络字节顺序。
  返回值:
  htons()返回一个网络字节顺序的值。
  参见:
  htonl(), ntohl(), ntohs().
  ---------------------------------------------
  简单地说,htons()就是将一个数的高低位互换(如:12 34 --> 34 12)
VB表示:
  MsgBox Hex(htons(&H1234))
  显示值为 3412

3.inet_addr()

简述:将一个点间隔地址转换成一个in_addr。
  #include
  unsigned long PASCAL FAR inet_addr( const struct FAR* cp);
  cp:一个以Internet标准“.”间隔的字符串。
  注释:
  本函数解释cp参数中的字符串,这个字符串用Internet的“.”间隔格式表示一个数字的Internet地址。返回值可用作Internet地址。所有Internet地址以网络字节顺序返回(字节从左到右排列)。
  Internet地址用“.”间隔的地址可有下列几种表达方式:
  a.b.c.d,a.b.c,a.b,a
  当四个部分都有定值时,每个都解释成一个字节数据,从左到右组成Internet四字节地址。请注意,当一个Internet地址在Intel机器上表示成一个32位整型数时,则上述的字节为“d.c.b.a”。这是因为Intel处理器的字节是从右向左排列的。
  请注意:只有Berkeley支持下述表达法,Internet其余各处均不支持。考虑到与软件的兼容性,应按规定进行使用。
  对一个三部分地址,最后一部分解释成16位数据并作为网络地址的最右两个字节。这样,三部分地址便很容易表示B组网络地址,如“128.net.host”.
  对一个两部分地址,最后一部分解释成24位数据并作为网络地址的最右三个字节,这样,两部分地址便很容易表示C组网络地址,如“net.host”。
  对仅有一个部分的地址,则将它的值直接存入网络地址不作任何字节的重组。
  返回值:
  若无错误发生,inet_addr()返回一个无符号长整型数,其中以适当字节顺序存放Internet地址。如果传入的字符串不是一个合法的Internet地址,如“a.b.c.d”地址中任一项超过255,那么inet_addr()返回INADDR_NONE。
  参见:
  inet_ntoa().
inet_addr()函数的实现
输入是点分的IP地址格式(如A.B.C.D)的字符串,从该字符串中提取出每一部分,转换为ULONG,假设得到4个ULONG型的A,B,C,D,
ulAddress(ULONG型)是转换后的结果,
ulAddress = D<<24 + C<<16 + B<<8 + A(网络字节序),即inet_addr(const char *)的返回结果
另外,我们也可以得到把该IP转换为主机序的结果,转换方法一样
A<<24 + B<<16 + C<<8 + D

4.inet_ntoa()

简述:
  将网络地址转换成“.”点隔的字符串格式。
  #include
  char FAR* PASCAL FAR inet_ntoa( struct in_addr in);
  in:一个表示Internet主机地址的结构。
  注释:
  本函数将一个用in参数所表示的Internet地址结构转换成以“.” 间隔的诸如“a.b.c.d”的字符串形式。请注意inet_ntoa()返回的字符串存放在WINDOWS套接口实现所分配的内存中。应用程序不应假设该内存是如何分配的。在同一个线程的下一个WINDOWS套接口调用前,数据将保证是有效。
  返回值:
  若无错误发生,inet_ntoa()返回一个字符指针。否则的话,返回NULL。其中的数据应在下一个WINDOWS套接口调用前复制出来。
  测试代码如下
  include
  #include
  #include
  #include
  #include
  int main(int aargc, char* argv[])
  {
  struct in_addr addr1,addr2;
  ulong l1,l2;
  l1= inet_addr("192.168.0.74");
  l2 = inet_addr("211.100.21.179");
  memcpy(&addr1, &l1, 4);
  memcpy(&addr2, &l2, 4);
  printf("%s : %s\n", inet_ntoa(addr1), inet_ntoa(addr2)); //注意这一句的运行结果
  printf("%s\n", inet_ntoa(addr1));
  printf("%s\n", inet_ntoa(addr2));
  return 0;
  }
  实际运行结果如下:
  192.168.0.74 : 192.168.0.74 //从这里可以看出,printf里的inet_ntoa只运行了一次。
  192.168.0.74
  211.100.21.179
  inet_ntoa返回一个char *,而这个char *的空间是在inet_ntoa里面静态分配的,所以inet_ntoa后面的调用会覆盖上一次的调用。第一句printf的结果只能说明在printf里面的可变参数的求值是从右到左的,仅此而已。

你可能感兴趣的:(Network,udp,tcp/ip)