DNS,即Domain Name System,域名系统。DNS是一整套从域名映射到IP的系统。
TCP/IP中使用IP地址来确定网络上的一台主机,但是IP地址不方便记忆,且不能表达地址组织信息,于是人们发明了域名,并通过域名系统来映射域名和IP地址。
域名是一个字符串,如 www.baidu.com , hr.nowcoder.com
域名系统为一个树形结构的系统,包含多个根节点。其中:
DNS域名服务器,即提供域名转换为IP地址的服务器,浏览器、主机系统、路由器中都保存有DNS缓存,Windows系统的DNS缓存在C:\Windows\System32\drivers\etc\hosts 文件中,Mac/Linux系统的DNS缓存在 /etc/hosts 文件中。
网络通信发送数据时,如果使用目的主机的域名,需要先通过域名解析查找到对应的IP地址:
之前我们讨论了,IPv4协议中,IP地址数量不充足的问题,NAT技术是当前解决IP地址不够用的主要手段,是路由器的一个重要功能;
NAT能够将私有IP对外通信时转为全局IP。也就是就是一种将私有IP和全局IP相互转化的技术方法:
很多学校,家庭,公司内部采用每个终端设置私有IP,而在路由器或必要的服务器上设置全局IP;
全局IP要求唯一,但是私有IP不需要;在不同的局域网中出现相同的私有IP是完全不影响的;
那么问题来了,如果局域网内,有多个主机都访问同一个外网服务器,那么对于服务器返回的数据中,目的IP都是相同的。那么NAT路由器如何判定将这个数据包转发给哪个局域网的主机?
这时候NAPT来解决这个问题了。使用IP+port来建立这个关联关系
这种关联关系也是由NAT路由器自动维护的。例如在TCP的情况下,建立连接时,就会生成这个表项;在断开连接后,就会删除这个表项
由于NAT依赖这个转换表,所以有诸多限制:
TCP,即Transmission Control Protocol,传输控制协议。人如其名,要对数据的传输进行一个详细的控制。
6位标志位:
TCP对数据传输提供的管控机制,主要体现在两个方面:安全和效率。
这些机制和多线程的设计原则类似:保证数据传输安全的前提下,尽可能的提高传输效率。
每一个ACK都带有对应的确认序列号,意思是告诉发送者,我已经收到了哪些数据;下一次你从哪里开始发。
例如确认序号1001 的含义:
注意:确认序号取的是发送方送过来的所有数据的最后一个字节序号 + 1,并且接收方的序号和发送方的序号无关。
超时的时间如何确定呢?
TCP为了保证无论在任何环境下都能比较高性能的通信,因此会动态计算这个最大超时时间。
但是,主机A未收到B发来的确认应答,也可能是因为ACK丢失了;
因此主机B会收到很多重复数据。那么TCP协议需要能够识别出那些包是重复的包,并且把重复的丢弃掉。
这时候我们可以利用前面提到的序列号,就可以很容易做到去重的效果。
在正常情况下,TCP要经过三次握手建立连接,四次挥手断开连接
三次握手是指在建立 TCP 连接时,客户端和服务器之间进行的三次通信过程。
第一次握手:客户端向服务器发送一个 SYN(同步)包,告诉服务器自己要建立连接。
第二次握手:服务器收到客户端的 SYN 包后,会回复一个 SYN-ACK(同步-确认)包,表示同意建立连接。
第三次握手:客户端收到服务器的 SYN-ACK 包后,会再发送一个 ACK(确认)包给服务器,表示客户端也同意建立连接。
通过这三次握手,建立了客户端和服务器之间的 TCP 连接。
什么样的报文算是syn报文呢?观察TCP报头结构:
三次握手这个过程,本质上是投石问路~验证了客户端和服务器,各自的发送能力和接收能力是否正常!!!
这就好比每天地铁的第一趟是空车,不载客人的,这就是为了确认地铁路线是否通畅安全,这空车跑一趟就说投石问路
当两个设备(客户端和服务器)希望建立一个TCP连接时,需要进行三次握手来验证彼此的发送和接收能力是否正常。
现在,让我们来解释一下为什么这个过程可以验证发送和接收能力是否正常:
通过三次握手的过程,客户端和服务器可以互相验证彼此的发送和接收能力,确保双方都能正常通信。
四次挥手是指TCP连接的主动关闭过程,用于终止TCP连接。它是建立在三次握手的基础上的,确保数据完整可靠地传输。下面是四次挥手的详细步骤:
客户端发起关闭连接请求:客户端首先发送一个FIN(Finish)报文段给服务器,用来请求关闭连接。
服务器确认关闭请求:服务器收到客户端发送的FIN报文段后,会向客户端发送一个ACK(Acknowledgment)报文段,用来确认收到了关闭请求。
服务器发送关闭请求:服务器在确认客户端的关闭请求后,会发送一个FIN报文段给客户端,表示服务器也希望关闭连接。
客户端确认关闭:客户端收到服务器发送的FIN报文段后,会向服务器发送一个ACK报文段,表示客户端已经确认关闭请求,然后等待一段时间,确保服务器收到了该确认。
注意:关闭连接的一方在发送完最后的ACK报文段后,并不立即关闭连接,而是等待一段时间(即等待2倍的最大报文段生存时间,也就是2MSL),以确保双方都能收到对方的确认。这样可以避免在网络中产生的延迟导致的数据包重传。
四次挥手的过程保证了双方在关闭连接时的可靠性和完整性。通过这个过程,双方能够停止数据的传输,并释放TCP连接所占用的资源。
四次挥手仅在双方均希望关闭连接时才发生。如果其中一方不希望关闭连接,可以不发送FIN报文段或不回复ACK报文段,从而保持连接的持续性。
为啥 三次握手 能 100%合并四次挥手 就不能合并??这是因为:
刚才我们讨论了确认应答策略,对每一个发送的数据段,都要给一个ACK确认应答。收到ACK后再发送下一个数据段。这样做有一个比较大的缺点,就是性能较差。尤其是数据往返的时间较长的时候。
既然这样一发一收的方式性能较低,那么我们一次发送多条数据,就可以大大的提高性能(其实是将多个段的等待时间重叠在一起了)。
当收到 2001 这个 ack 意味着 1001-2000 这个数据得到了确认,此时就会立即发下一个5001-6000 这个数据
此时看到的效果,就好像,窗口还是这么大,但是往后挪了一个格子.如果收到的 ack 非常快,此时这个窗口就在快速的往后滑动~~
但是如果在传输过程中出现了丢包,如何进行重传?这里分两种情况讨论。
情况一:数据包已经抵达,ACK被丢了。
这种情况下,部分ACK丢了并不要紧,因为可以通过后续的ACK进行确认,如果是最后一个包丢了,就照常超时重传。
这种机制被称为 “高速重发控制”(也叫 “快重传”)。
接收端处理数据的速度是有限的。如果发送端发的太快,导致接收端的缓冲区被打满,这个时候如果发送端继续发送,就会造成丢包,继而引起丢包重传等等一系列连锁反应。因此TCP支持根据接收端的处理能力,来决定发送端的发送速度。这个机制就叫做流量控制(FlowControl);
接收端如何把窗口大小告诉发送端呢?回忆我们的TCP首部中,有一个16位窗口字段,就是存放了窗口大小信息;
那么问题来了,16位数字最大表示65535,那么TCP窗口最大就是65535字节么?
实际上,TCP首部40字节选项中还包含了一个窗口扩大因子M,实际窗口大小是 窗口字段的值左移 M位;
虽然TCP有了滑动窗口这个大杀器,能够高效可靠的发送大量的数据。但是如果在刚开始阶段就发送大量的数据,仍然可能引发问题。
因为网络上有很多的计算机,可能当前的网络状态就已经比较拥堵。在不清楚当前网络状态下,贸然发送大量的数据,是很有可能引起雪上加霜的。
TCP引入 慢启动 机制,先发少量的数据,探探路,摸清当前的网络拥堵状态,再决定按照多大的速度传输数据;
像上面这样的拥塞窗口增长速度,是指数级别的。“慢启动” 只是指初使时慢,但是增长速度非常快。
少量的丢包,我们仅仅是触发超时重传;大量的丢包,我们就认为网络拥塞,当TCP通信开始后,网络吞吐量会逐渐上升;随着网络发生拥堵,吞吐量会立刻下降;
拥塞控制,归根结底是TCP协议想尽可能快的把数据传输给对方,但是又要避免给网络造成太大压力的折中方案。
如果接收数据的主机立刻返回ACK应答,这时候返回的窗口可能比较小。
一定要记得,窗口越大,网络吞吐量就越大,传输效率就越高。我们的目标是在保证网络不拥塞的情况下尽量提高传输效率;
那么所有的包都可以延迟应答么?肯定也不是;
具体的数量和超时时间,依操作系统不同也有差异;一般N取2,超时时间取200ms;
在延迟应答的基础上,我们发现,很多情况下,客户端服务器在应用层也是 “一发一收” 的。意味着客户端给服务器说了 “How are you”,服务器也会给客户端回一个 “Fine, thank you”;
那么这个时候ACK就可以搭顺风车,和服务器回应的 “Fine,thank you” 一起回给客户端
当我们创建一个TCP的socket,同时在内核中创建一个 发送缓冲区 和一个 接收缓冲区;
由于缓冲区的存在,TCP程序的读和写不需要一一匹配,例如:
那么如何避免粘包问题呢?归根结底就是一句话,明确两个包之间的边界。
对于UDP协议来说,并不会像TCP协议那样存在严格意义上的粘包问题。
因为对于UDP,如果还没有上层交付数据,UDP的报文长度仍然在。同时,UDP是一个一个把数据交付给应用层。就有很明确的数据边界。站在应用层的站在应用层的角度,使用UDP的时候,要么收到完整的UDP报文,要么不收。不会出现"半个"的情况。
进程终止:进程终止会释放文件描述符,仍然可以发送FIN。和正常关闭没有什么区别。
机器重启:和进程终止的情况相同。
机器掉电/网线断开:接收端认为连接还在,一旦接收端有写入操作,接收端发现连接已经不在了,就会进行reset。即使没有写入操作,TCP自己也内置了一个保活定时器,会定期询问对方是否还在。如果对方不在,也会把连接释放。
另外,应用层的某些协议,也有一些这样的检测机制。例如HTTP长连接中,也会定期检测对方的状态。例如QQ,在QQ断线之后,也会定期尝试重新连接。
UDP传输的过程类似于寄信。
知道对端的IP和端口号就直接进行传输,不需要建立连接;
没有任何安全机制,发送端发送数据报以后,如果因为网络故障该段无法发到对方,UDP协议层也不会给应用层返回任何错误信息;
应用层交给UDP多长的报文,UDP原样发送,既不会拆分,也不会合并;用UDP传输100个字节的数据:如果发送端一次发送100个字节,那么接收端也必须一次接收100个字节;而不能循环接收10次,每次接收10个字节。
UDP只有接收缓冲区,没有发送缓冲区:
UDP没有真正意义上的 发送缓冲区。发送的数据会直接交给内核,由内核将数据传给网络层协议进行后续的传输动作;
UDP具有接收缓冲区,但是这个接收缓冲区不能保证收到的UDP报的顺序和发送UDP报的顺序一致;如果缓冲区满了,再到达的UDP数据就会被丢弃;
UDP的socket既能读,也能写,这个概念叫做 全双工
UDP协议首部中有一个16位的最大长度。也就是说一个UDP能传输的数据最大长度是64K(包含UDP首部)。
基于UDP的应用层协议:
当然,也包括自己写UDP程序时自定义的应用层协议。
在复杂的网络环境中确定一个合适的路径。
4位版本号(version):指定IP协议的版本,对于IPv4来说,就是4。
4位头部长度(header length):IP头部的长度是多少个32bit,也就是 length * 4
的字节数。4bit表示最大的数字是15,因此IP头部最大长度是60字节。
8位服务类型(Type Of Service):3位优先权字段(已经弃用),4位TOS字段,和1位保留字段(必须置为0)。4位TOS分别表示:最小延时,最大吞吐量,最高可靠性,最小成本。这四者相互冲突,只能选择一个。对于ssh/telnet这样的应用程序,最小延时比较重要;对于ftp这样的程序,最大吞吐量比较重要。
16位总长度(total length):IP数据报整体占多少个字节。
16位标识(id):唯一的标识主机发送的报文。如果IP报文在数据链路层被分片了,那么每一个片里面的这个id都是相同的。
3位标志字段:第一位保留(保留的意思是现在不用,但是还没想好说不定以后要用到)。第二位置为1表示禁止分片,这时候如果报文长度超过MTU,IP模块就会丢弃报文。第三位表示"更多分片",如果分片了的话,最后一个分片置为1,其他是0。类似于一个结束标记。
13位分片偏移(framegament offset):是分片相对于原始IP报文开始处的偏移。其实就是在表示当前分片在原报文中处在哪个位置。实际偏移的字节数是这个值 * 8 得到的。因此,除了最后一个报文之外,其他报文的长度必须是8的整数倍(否则报文就不连续了)。
8位生存时间(Time To Live,TTL):数据报到达目的地的最大报文跳数。一般是64。每次经过一个路由,TTL -= 1,一直减到0还没到达,那么就丢弃了。这个字段主要是用来防止出现路由循环。
8位协议:表示上层协议的类型。
16位头部校验和:使用CRC进行校验,来鉴别头部是否损坏。
32位源地址和32位目标地址:表示发送端和接收端。
选项字段(不定长,最多40字节):略。
MTU相当于发快递时对包裹尺寸的限制。这个限制是不同的数据链路对应的物理层,产生的限制。
MTU对IP协议的影响:
由于数据链路层MTU的限制,对于较大的IP数据包要进行分包。
让我们回顾一下UDP协议:
让我们再回顾一下TCP协议:
TCP的一个数据报也不能无限大,还是受制于MTU。TCP的单个数据报的最大消息长度,称为MSS(Max Segment Size);
TCP在建立连接的过程中,通信双方会进行MSS协商。
最理想的情况下,MSS的值正好是在IP不会被分片处理的最大长度(这个长度仍然是受制于数据链路层的MTU)。
双方在发送SYN的时候会在TCP头部写入自己能支持的MSS值。
然后双方得知对方的MSS值之后,选择较小的作为最终MSS。
MSS的值就是在TCP首部的40字节变长选项中(kind=2);
虽然我们在这里介绍ARP协议,但是需要强调,ARP不是一个单纯的数据链路层的协议,而是一个介于数据链路层和网络层之间的协议;
ARP协议建立了主机 IP地址 和 MAC地址 的映射关系。
源主机发出ARP请求,询问“IP地址是192.168.0.1的主机的硬件地址是多少”,并将这个请求广播到本地网段(以太网帧首部的硬件地址填FF:FF:FF:FF:FF:FF表示广播);
目的主机接收到广播的ARP请求,发现其中的IP地址与本机相符,则发送一个ARP应答数据包给源主机,将自己的硬件地址填写在应答包中;
每台主机都维护一个ARP缓存表,可以用arp
-a命令查看。缓存表中的表项有过期时间(一般为20分钟),如果20分钟内没有再次使用某个表项,则该表项失效,下次还要发ARP请求来获得目的主机的硬件地址