本部分按照数据链路层、网络层、传输层以及应用层进行分类,共有 10 个实验。
1.1.1 帧结构组成
在以太网链路上的数据包称作以太帧(Ethernet)。以太帧起始部分由前导码和帧开始符组成。后面紧跟着一个以太网报头,以MAC地址说明目的地址和源地址。帧的中部是该帧负载的包含其他协议报头的数据包(例如IP协议)。以太帧由一个32位冗余校验码结尾。它用于检验数据传输是否出现损坏。
1.1.2 使用 Wireshark 任意进行抓包,熟悉 Ethernet 帧的结构,如:目的 MAC、源 MAC、类型、字段等。
选择你要抓包的网络
选择任意网络进行抓包
查看目的mac和源mac地址
问题 你会发现 Wireshark 展现给我们的帧中没有校验字段,请了解一下原因。
Wireshark 抓包前,在物理层网卡已经去掉了一些之前几层加的东西,比如前导同步码,FCS等等,之后利用校验码CRC校验,正确时才会进行下一步操作,因此,抓包软件抓到的是去掉前导同步码、FCS之外的数据,没有校验字段。
ping 你旁边的计算机(同一子网),同时用 Wireshark 抓这些包(可使用 icmp 关键字进行过滤以利于分析),记录一下发出帧的目的 MAC 地址以及返回帧的源 MAC 地址是多少?这个 MAC 地址是谁的?
返回的这个MAC地址为:00:74:9c:9f:40:13。它是我旁边电脑的MAC地址
然后 ping qige.io (或者本子网外的主机都可以),同时用 Wireshark 抓这些包(可 icmp 过滤),记录一下发出帧的目的 MAC 地址以及返回帧的源 MAC 地址是多少?这个 MAC 地址是谁的?!
发出帧的目的mac地址为 00-74-9c-9f-40-13,它就是网关的mac地址。因为本机发送信息的下个地址必定是网关的mac地址。同理本机接收到的信息必定经由网关发送给我。
再次 ping www.cqjtu.edu.cn (或者本子网外的主机都可以),同时用 Wireshark 抓这些包(可 icmp 过滤),记录一下发出帧的目的 MAC 地址以及返回帧的源 MAC 地址又是多少?这个 MAC 地址又是谁的?
发出帧的目的 MAC 地址以及返回帧的源 MAC 地址都是00-74-9c-9f-40-13,这个地址就是本机的网关的mac地址
✎ 问题 通过以上的实验,你会发现:
访问本子网的计算机时,目的 MAC 就是该主机的
访问非本子网的计算机时,目的 MAC 一致是网关的
访问本子网的计算机时,目的 MAC 就是该主机的 访问非本子网的计算机时,目的 MAC 是网关的 请问原因是什么?
因为本子网内的信息可以直接到达,而本机接收到的本子网以外的信息必定经由网关发送给我,同理本机发送到本子往外信息的下个地址必定是网关的mac地址。
为防止干扰,先使用 arp -d * 命令清空 arp 缓存
ping 你旁边的计算机(同一子网),同时用 Wireshark 抓这些包(可 arp 过滤),查看 ARP 请求的格式以及请求的内容,注意观察该请求的目的 MAC 地址是什么。再查看一下该请求的回应,注意观察该回应的源 MAC 和目的 MAC 地址是什么。
可以发现 发出帧,广播地址:ff:ff:ff:ff:ff:ff
回复时,是对方的MAC物理地址。
然后 ping qige.io (或者本子网外的主机都可以),同时用 Wireshark 抓这些包(可 arp 过滤)。查看这次 ARP 请求的是什么,注意观察该请求是谁在回应。
回复的mac地址为子网的网关MAC地址
✎ 问题 通过以上的实验,你应该会发现,
ARP 请求都是使用广播方式发送的 如果访问的是本子网的 IP,那么 ARP 解析将直接得到该 IP 对应的 MAC;如果访问的非本子网的
IP, 那么 ARP 解析将得到网关的 MAC。 请问为什么?
代理ARP原理:对于没有配置缺省网关的计算机要和其他网络中的计算机实现通信,网关收到源计算机的ARP请求会使用自己的MAC地址与目标计算机的IP地址对源计算机进行应答,访问非子网IP时是通过路由器访问的,路由器再把发出去,目标IP收到请求后,再通过路由器端口IP返回去,那么ARP解析将会得到网关的MAC。
使用 Wireshark 任意进行抓包(可用 ip 过滤),熟悉 IP 包的结构,如:版本、头部长度、总长度、TTL、协议类型等字段。
✎ 问题 为提高效率,我们应该让 IP 的头部尽可能的精简。但在如此珍贵的 IP 头部你会发现既有头部长度字段,也有总长度字段。请问为什么?
头部长度是来表明该包头部的长度,可以使得接收端计算出报头在何处结束及从何处开始读数据。总长度是为了接收方的网络层了解到传输的数据包含哪些,如果没有该部分,当数据链路层在传输时,对数据进行了填充,对应的网络层不会把填充的部分给去掉。
根据规定,一个 IP 包最大可以有 64K 字节。但由于 Ethernet 帧的限制,当 IP 包的数据超过 1500 字节时就会被发送方的数据链路层分段,然后在接收方的网络层重组。
缺省的,ping 命令只会向对方发送 32 个字节的数据。我们可以使用 ping 202.202.240.16 -l 2000 命令指定要发送的数据长度。此时使用 Wireshark 抓包(用 ip.addr == 202.202.240.16 进行过滤),了解 IP 包如何进行分段,如:分段标志、偏移量以及每个包的大小等
可以看出,因为IP包最大长度只能1500B,所以就分成了1500B和500B分别进行传输,第一个包总长为1514B是因为还有帧结构目的MAC地址6B和源MAC地址6B和类型2B共14,而第二个包总长就是562B中除过500B内容外,14B是帧结构,而多的48B就可能和ICMP协议格式有关了。
✎ 问题 分段与重组是一个耗费资源的操作,特别是当分段由传送路径上的节点即路由器来完成的时候,所以 IPv6 已经不允许分段了。那么
IPv6 中,如果路由器遇到了一个大数据包该怎么办?
因为在 IPv6中分段只能在源与目的地上执行,不能在路由器上进行。因此当数据包过大时,路由器就会直接丢弃该数据包包,并向发送端发回一个"分组太大"的ICMP差错报文,之后发送端就会使用较小长度的IP数据报重发数据,所以路由器会直接丢弃再通知发送端进行重传。
在 IP 包头中有一个 TTL 字段用来限定该包可以在 Internet上传输多少跳(hops),一般该值设置为 64、128等。
在验证性实验部分我们使用了 tracert 命令进行路由追踪。其原理是主动设置 IP 包的 TTL 值,从 1 开始逐渐增加,直至到达最终目的主机。
请使用 tracert www.baidu.com 命令进行追踪,此时使用 Wireshark 抓包(用 icmp 过滤),分析每个发送包的 TTL 是如何进行改变的,从而理解路由追踪原理。
路由追踪原理:
通过向目标发送不同 IP 生存时间 (TTL) 值的"Internet 控制消息协议 (ICMP)"回应数据包,Tracert诊断程序确定到目标所采取的路由。要求路径上的每个路由器在转发数据包之前至少将数据包上的 TTL 递减 1。 数据包上的 TTL 减为 0 时,路由器应该将"ICMP 已超时"的消息发回源系统。
Tracert 先发送 TTL 为 1 的回应数据包,并在随后的每次发送过程将 TTL 递增 1,直到目标响应或 TTL 达到最大值,从而确定路由。 通过检查中间路由器发回的"ICMP 已超时"的消息确定路由。某些路由器不经询问直接丢弃 TTL 过期的数据包,这在 Tracert 实用程序中看不到。
Tracert 命令按顺序打印出返回"ICMP 已超时"消息的路径中的近端路由器接口列表。如果使用 -d 选项,则 Tracert 实用程序不在每个 IP 地址上查询 DNS。
寻找第一个ip 10.160.255.254
可以发现通过tracert路由追踪找到它到本机的TTL为64。
寻找第二个ip 172.19.2.2
可以发现经过一个节点TTL的值就会减少1。
✎ 问题
在 IPv4 中,TTL 虽然定义为生命期即 Time To Live,但现实中我们都以跳数/节点数进行设置。如果你收到一个包,其 TTL
的值为 50,那么可以推断这个包从源点到你之间有多少跳?
跳数为128-50=78跳或者64-50=14跳。
用 Wireshark 任意抓包(可用 tcp 过滤),熟悉 TCP 段的结构,如:源端口、目的端口、序列号、确认号、各种标志位等字段。
用 Wireshark 任意抓包(可用 udp 过滤),熟悉 UDP 段的结构,如:源端口、目的端口、长度等。
udp结构
✎ 问题
由上大家可以看到 UDP 的头部比 TCP 简单得多,但两者都有源和目的端口号。请问源和目的端口号用来干什么?
源端口来表示发送终端的某个应用程序,目的端口来表示接收终端的某个应用程序。
端口号就是来标识终端的应用程序,从而实现应用程序之间的通信。
打开浏览器访问 qige.io 网站,用 Wireshark 抓包(可用 tcp 过滤后再使用加上 Follow TCP Stream),不要立即停止 Wireshark 捕获,待页面显示完毕后再多等一段时间使得能够捕获释放连接的包。
第一次握手,同步位(SYN)是1,确认位(ACK)是0
第三次握手,同步位(SYN)是0,确认位(ACK)是1
连接建立成功!
请在你捕获的包中找到三次握手建立连接的包,并说明为何它们是用于建立连接的,有什么特征。
第一次握手,同步位(SYN)是1,确认位(ACK)是0
第二次握手,同步位(SYN)是1,确认位(ACK)是1
第三次握手,同步位(SYN)是0,确认位(ACK)是1
请在你捕获的包中找到四次挥手释放连接的包,并说明为何它们是用于释放连接的,有什么特征。
通过发送FIN报文,来告诉对方数据已经发送完毕,断开连接
✎ 问题一
去掉 Follow TCP Stream,即不跟踪一个 TCP 流,你可能会看到访问 qige.io
时我们建立的连接有多个。请思考为什么会有多个连接?作用是什么?
它们之间的连接是属于短连接,一旦数据发送完成后,就会断开连接。虽然,断开连接,但是页面还是存在,由于页面已经被缓存下来。一旦需要重新进行发送数据,就要再次进行连接。这样的连接,是为了实现多个用户进行访问,对业务频率不高的场合,节省通道的使用,不让其长期占用通道。
✎ 问题二
我们上面提到了释放连接需要四次挥手,有时你可能会抓到只有三次挥手。原因是什么?
可能第二次和第三次合并了。如果对方也没有数据发给本端,那么对方也会发送FIN给本端,用于关闭从对方到本端的连接,这时候就可能出现ACK和FIN合在一起的情况。
应用层的协议非常的多,我们只对 DNS 和 HTTP 进行相关的分析。
先使用 ipconfig /flushdns 命令清除缓存,再使用 nslookup qige.io 命令进行解析,同时用 Wireshark 任意抓包(可用 dns 过滤)。
你应该可以看到当前计算机使用 UDP,向默认的 DNS 服务器的 53 号端口发出了查询请求,而 DNS 服务器的 53 号端口返回了结果。
可了解一下 DNS 查询和应答的相关字段的含义
验证成功。
✎ 问题
你可能会发现对同一个站点,我们发出的 DNS 解析请求不止一个,思考一下是什么原因?
为了使服务器的负载得到平衡(因为每天访问站点的次数非常多)网站就设有好几个计算机,每一个计算机都运行同样的服务器软件。这些计算机的IP地址不一样,但它们的域名却是相同的。这样,第一个访问该网址的就得到第一个计算机的IP地址,而第二个访问者就得到第二个计算机的IP地址等等。这样可使每一个计算机的负荷不会太大。
打开浏览器访问 qige.io 网站,用 Wireshark 抓包(可用http 过滤再加上 Follow TCP Stream),不要立即停止 Wireshark 捕获,待页面显示完毕后再多等一段时间以将释放连接的包捕获。
可以看出一个消息是request另一个是response
而回应消息有一个200,意思是请求成功
请在你捕获的包中找到 HTTP 请求包,查看请求使用的什么命令,如:GET, POST。并仔细了解请求的头部有哪些字段及其意义。
Accept:告诉WEB服务器自己接受什么介质类型
Content-Type:WEB 服务器告诉浏览器自己响应的对象的类型
Content-Length:WEB 服务器告诉浏览器自己响应的对象的长度
Cache-Control:用来指示缓存系统(服务器上的,或者浏览器上的)应该怎样处理缓存
Host:客户端指定自己想访问的WEB服务器的域名/IP 地址和端口号
POST:请求的方式,其中包括URI和版本
请在你捕获的包中找到 HTTP 应答包,查看应答的代码是什么,如:200, 304, 404 等。并仔细了解应答的头部有哪些字段及其意义。
应答代码是200
Server:服务器通过这个头告诉浏览器服务器的类型。Transfer-Encoding:告诉浏览器数据的传送格式。Content- Type:表示后面的文档属于什么MIME类型。Cache-Control:指定请求和响应遵循的缓存机制
✎ 问题
刷新一次 qige.io 网站的页面同时进行抓包,你会发现不少的 304
代码的应答,这是所请求的对象没有更改的意思,让浏览器使用本地缓存的内容即可。那么服务器为什么会回答 304 应答而不是常见的 200 应答?
浏览器中的缓存,可以直接在缓存区获取到需要的内容,不需要服务器在回复对应的内容,可以减少服务器的一些工作,减小开销。采用200应答就是要完全的将内容发送给客服端,这个会增加服务器的一些开销等。
这个实验主要是使用wireshark软件进行抓包并对这些包进行分析,刚开始做的时候其实还是有很多问题,比如不知道抓的包去哪了、以及如何分析帧、ip包等结构,但是通过自己上网搜寻资料以及结合老师课上所讲的知识,自己还是独立完成了这些实验,做完之后,对于这些包的结构也是有了一定的了解,并且也能较为熟练地使用wireshark软件,但是还是需要继续学习。