我们学习socket模块就是为了完成C/S架构的开发
须知一个完整的计算机系统是由硬件、操作系统、应用软件三者组成。具备了这三个条件,一台计算机系统就可以自己跟自己玩了(打个单机游戏,玩个扫雷)。但是如果你想和别人玩,那你就需要上网了,什么是互联网?
互联网的核心就是一堆协议组成,协议就是标准,比如全世界人通信的标准是英语。如果把计算机比作人,互联网协议就是计算机界的英语。所有计算机都学会了互联网协议,那所有计算机就可以按照统一的标准去收发信息从而完成通信了。互联网是物理连接介质和通信协议组成。
协议:规定数据的组织格式
格式:头部+数据部分
人们按照分功不同把互联网协议从逻辑上划分了层级,详见下一小节。21
osi七层协议,有些人把七层合并成五层或者四层,本质都是一样的。应表会传网数物
每层运行常见的物理设备:
osi七层协议数据传输的封包与解包的过程:
我们将应用层,表示层和会话层并作为应用层,从tcp/ip五层协议的角度来阐述每层的由来和功能,搞清楚了每层的主要协议,就理解了整个互联网通信的原理。
首先用户感知到的是应用层,自上而下的每层都依赖于下一层,所以我们最下一层开始切入,比较好理解。每层都运行特定的协议,越往上越靠近用户,越往下越靠近硬件。
物理层的由来:上面提到,孤立的计算机要是想一起玩,就必须接入internet,言外之意就是计算机必须完成组网(通过光缆,电缆,双绞线,或者无线电波)。
物理层功能:主要是基于电气特性发送高低电压(电信号),高电压对应数字1,低电压对应数字0。一组物理层的数据称之为“位”。
但是,单纯的电信号毫无意义,必须知道如何对其进行分组。才让二进制的数字有了意义,这就需要再上一层协议对分组做出标准要求。
数据链路层的由来:物理层发送的单纯的电信号0和1没有任何意义,必须规定电信号多少位一组,每组什么意思。
数据链路层的功能:定义了电信号的分组方式。
以太网协议:
早期的时候各个公司都有自己的分组方式,后来形成了统一的标准,即以太网协议ethernet。
ethernet规定
报头 | 数据 |
---|
head包含:(固定18个字节)
data包含:(最短46个字节,最长1500字节)
head长度+data长度=最短64个字节,最长1518个字节,超过最大限制就分片发送
mac地址:
head地址中包含源和目标地址的由来:ethernet规定接入internet的设备接入internet都必须具备网卡,发送端和接收端的地址便是指网卡的地址,即mac地址。
mac地址:每块网卡出厂时都会被烧制上一个世界唯一的mac地址,长度为48位2进制,通常由12位16进制数来表示(前6位时厂商编号,后六位是流水线号)。
广播:
有了mac地址,同一网络内的两台主机就可以通信了(一台主机通过arp协议获取另外一台主机的mac地址)ethernet采用最原始的方式——广播的方式进行通信,即计算机通信基本靠吼。
eg. 广播域内的所有人都会听到源(交换机)发出的数据包,打开数据包检查以太网协议封装后的数据头,不管源mac地址,看目标mac地址是不是自己,如果是自己,进一步打开包;如果不是自己,则把包丢掉。
网络层由来:有了ethernet,mac地址,广播的发送方式,世界上的计算机就可以批次通信了,问题是世界范围的互联网是由一个个批次隔离的小的局域网组成的,那么如果所有的通信都采用以太网的广播方式,那么一台机器发送的包全世界都会收到,这就不仅仅是效率的问题了,这会是一场灾难。
上图结论:必须找出一种方法来区分哪些计算机属于统一广播域,哪些不是,如果是就采用广播的方式发送,如果不是,就采用路由的方式(向不同广播域/子网分发数据包),mac地址是无法区分的,它只和厂商有关。
广播域1想给广播域2发数据包需要先广播一下找到广播域1的网关。网关双手工作,左手连广播域内的计算机,右手连广播域外的上层设备。网关中的数据包走路由协议(网安的工作)发往广播域2的网关。
网络层的功能:
IP协议:
一个合法的IPV4地址组成部分=IP地址/子网掩码地址,还会查到默认网关的IP,这个默认网关的地址后面有大用。通过IP地址与子网掩码的“与”方法可以比较出两个IP地址是不是在一个广播域内。
ip地址分为两部分:
注意:单纯的ip地址段只是标识了ip地址的种类,从网络部分或主机部分都无法辨识一个ip所处的子网。例,192.16.10.1与192.16.10.2并不能确定两者在同一子网。
子网掩码
所谓‘子网掩码’,就是表示子网络特征的一个参数。它在形式上等同于ip地址,也是一个32位二进制数字,它的网络部分全部为1,主机部分全部为0。比如,ip地址172.16.10.1,如果一直网络部分是前24位,主机部分是后8位,那么子网络掩码就是11111111.11111111.11111111.00000000,写成十进制就是255.255.255.0.
知道了子网掩码,我们就能判断,任意两个ip地址是否处于同一个子网络。方法就是将两个ip地址与子网掩码分别进行AND运算(两个数都为1,运算结果为1,否则为0),然后比较结果是否相同,如果是的话,就表明它们在同一个自网络中,否则就不是。
比如,已知ip地址172.16.10.1和172.16.10.2的子网掩码都是255.255.255.0,请问他们是否在同一个子网络?
172.16.10.1: 10101100.00010000.00001010.00000001
255.255.255.0:11111111.11111111.11111111.00000000-----》10101100.00010000.00001010.00000000转换成十进制172.16.10.0
172.16.10.2: 10101100.00010000.00001010.00000010
255.255.255.0:11111111.11111111.11111111.00000000-----》10101100.00010000.00001010.00000000转换成十进制172.16.10.0
最终结果都是172.16.10.0,说明他们在同一个网络。
总结一下,ip地址的作用主要有两个,一个是位每一台计算机分配ip地址,另一个是确定哪些地址在同一个子网络。
IP数据包:
ip数据包也分为head和data 部分,无需为IP包定义单独的栏位,直接放入以太网包的data部分。
head:长度为20-60字节
data:最长为65616字节
而以太网数据包的‘数据部分,最长只有1500字节。因此,如果ip数据包超过了1500字节,他就需要分割成几个以太网数据包,分开发送了。
以太网头 | ip头 | ip数据 |
---|
交换机的学习机制:
应用层产生的数据在走完传输层,网络层和数据链路层后,数据包就被转换成了二进制数。在交换机之间被传输,当遇到二层交换机时,会将二进制转换成数据包,拆一层找到源MAC地址和目标MAC 地址,然后在广播域内广播。现在的交换机有MAC地址学习功能,只要发送过数据包或接受过数据包的mac地址,交换机都会记录,有个MAC地址列表。下次来就比照地址表发送,无需广播。
ARP协议:
arp协议的由来:计算机通信基本靠吼,即广播的方式,所有上层的包到最后都要封装上以太网头,然后通过以太网协议发送,在谈及以太网协议的时候,我们了解到,通信是基于mac的广播方式实现的,计算机在发包的时候获取自身mac地址是很容易的,如何获取目标主机的mac,就需要通过arp协议。
arp协议的功能:广播的方式发送数据包,获取目标主机的mac地址。
协议工作方式:每台主机IP都是已知的。
例如:主机172.16.10.10/24访问172.16.10.11/24
一:首先通过ip地址子网掩码区分出自己所在的子网
场景 | 数据包报头地址 |
---|---|
同一子网 | 目标主机mac,目标主机ip |
不同子网 | 网关mac,目标主机ip |
二:分析172.16.10.10/24和172.16.10.11/24处于同一网络(如果不是同一网络,那么下表中目标ip为172.16.10.1,通过arp获取得是网关的mac)
… | 源mac | 目标mac | 源ip | 目标ip | 数据部分 |
---|---|---|---|---|---|
发送端主机 | 发送端mac | FF:FF:FF:FF:FF:FF | 172.16.10.10/24 | 172.16.10.11/24 | 数据 |
1.两台计算机在同一个局域网内
--------------计算机1-------------------直接--------------->计算机2
ARP:172.16.10.10/24 -----------------------------172.16.10.11/24
(1)计算两者的网络地址,如果在同一个局域网内,拿到计算机2的mac地址就可以了
(2)发送数据包
发送端mac地址-----FF:FF:FF:FF:FF:FF-----172.16.10.10/24-----172.16.10.11/24 data
这个数据包的目标mac全是FF的意思就是在局域网内找其他设备要mac地址。当这个包被广播出来的时候,局域网内的其他设备收到这个包都会拆开解析,当看到“发送端mac地址”的时候一点不慌,当看到“FF:FF:FF:FF:FF:FF”的时候会开始紧张起来,不知道要不要告知自己的mac地址,再拆一层看里面的IP地址,如果目标IP和自己的IP地址匹配,则把自己的mac地址发送回去。
2.两台计算机不在同一个局域网内
--------------计算机1-------------------直接--------------->计算机2
ARP:172.16.10.10/24 -------------------------101.100.200.11/10
(1)计算两者的网络地址,不在同一个局域网内,拿到网关的mac地址(前面的默认网关发挥了作用)
(2)①先拿网关ip地址发送数据包(第一次发送数据包。源IP自己,目标IP网关),拿到网关mac地址
发送端mac地址-----FF:FF:FF:FF:FF:FF-----172.16.10.10/24-----网关对内IP data
②再发发送端的mac(第二次发送数据包。源IP网关,目标IP转换成公网IP的目标IP!!!)
发送端mac地址-----arp协议通过网关IP算出的网关mac地址-----网关对外IP-----转换成公网IP的目标IP
因为目标mac地址是本局域网的网关,当网关拿到这个数据包之后解析发现目标IP不是本局域网内的IP时,将IP地址交给路由协议进行下一步处理。
三:这个包会以广播的方式在发送端所处的自网内传输,所有主机接收后拆开包,发现目标ip为自己的,就响应,返回自己的mac。
传输层的由来:网络层的ip帮我们区分子网,以太网的mac帮我们找到主机,然后大家使用的都是应用程序,你的电脑上可能同时开启qq,影音风暴等多个应用程序。那么我们通过ip和mac找到了一台特定的主机,如果表示这台主机上的应用程序,答案就是端口,端口即应用程序与往卡关联的编号。端口号是操作系统开的小窗户,当别人访问服务器时,操作系统通过端口号指向对应的应用程序。
传输层的功能:建立端口和端口的通信。
补充:端口范围0-65535,0-1023为系统占用端口。
以太网头 | ip头 | tcp头 | 数据 |
---|
以太网头 | ip头 | udp头 | 数据 |
---|
tcp报文:
基于TCP协议通信之前:必须建立一个双向通信的链接
C---------------------------------------------->S
S<----------------------------------------------C
三次握手建立链接:
建立链接是为了传数据做准备的,三次握手即可
四次挥手建立链接:
断开链接时,由于链接内有数据传输,所以必须分四次断开
TCP有6种标示:
- SYN:建立链接
- ACK:确认
- PSH:传送
- FIN:结束
- RST:重置
- URG:紧急
TCP协议三次握手:(非常重要)
client发送了第一个链接请求的报文,但是由于网络不好,这个请求没有立即到达服务端,而是在某个网络节点滞留了,直到某个时间才到达server,本来这已经是一个失效的报文,但是server端接受到这个请求报文后,还是会向client端发送确认的报文,表示同意链接。假如不采用三次握手,那么只要server发出确认,新的建立就链接了,但其实这个请求是失效的请求,client是不会理睬server确认信息的,也不会像服务端发送确认的请求,但是server认为新的连接已经建立起来了,并一致等待client发来数据,这样,server的很多资源就被白白浪费掉了,采用三次握手就是为了防止这种情况的发生,server会因为收不到确认的报文,就知道client并没有建立连接。这就是三次握手的作用。
建立链接后,两台主机就可以相互传输数据了。如下图所示:
1)主机A初始seq为1200,滑动窗体为100,向主机B传递数据的过程。
2)假设主机B在完全成功接收数据的基础上,那么主机B为了确认这一点,向主机A发送 ACK 包,并将 Ack 号设置为 1301。因此按如下的公式确认 Ack 号:
Ack号 = Seq号 + 传递的字节数 + 1 (这是在完全接受成功的情况下)
3)主机A获得B传来的ack(1301)后,开始发送seq为1301,滑动窗体为100的数据。
…
与三次握手协议相同,最后加 1 是为了告诉对方要传递的 Seq 号。上面说了,主机B完全成功接收A发来的数据才是这样的,如果存在丢包该如何。
下面分析传输过程中数据包丢失的情况,如下图所示:
上图表示通过 Seq 1301 数据包向主机B传递100字节的数据,但中间发生了错误,主机B未收到。经过一段时间后,主机A仍未收到对于 Seq 1301 的ACK确认,因此尝试
重传数据。为了完成数据包的重传,TCP套接字每次发送数据包时都会启动定时器,如果在一定时间内没有收到目标机器传回的 ACK 包,那么定时器超时,数据包会重传。
上面也只是一种可能,比如数据1250丢失,那么Ack返回的就是1250。关于TCP和滑动窗口的介绍
TCP四次挥手:(非常重要)
第一次挥手
TCP发送一个FIN(结束),用来关闭客户端到服务端的链接。
客户端进程发出链接释放报文,并且停止发送数据。释放数据报文首部,FIN=1,其序列号为seq=u(等于前面已经传送过来的数据的最后一个字节的序号加1),此时,客户端进入FIN-WAIT-1(终止等待1)状态。TCP规定,FIN报文段即时不携带数据,也要消耗一个序号。
第二次挥手
服务端收到这个FIN,他发回一个ACK(确认),确认收到序号为收到序号+1,和SYN一样,一个FIN将占用一个序号。
服务器收到链接释放报文,发出确认报文,ACK=1,ack=u+1,并且带上自己的seq=v,此时,服务端就进入了CLOSE-WAIT(关闭等待)状态。TCP服务器通知高层的应用进程,客户端向服务器的方向释放了,这时候处于半关闭状态,即客户端已经没有数据要发送了,但是服务器若发送数据,客户端依然要接受。这个状态还要持续一段时间,也就是整个CLOSE-WAIT状态持续的时间。
客户端收到服务器的确认请求后,此时,客户端就进入了FIN-WAIT(终止等待2)状态,等待服务器发送链接释放报文(在这之前还需要接收服务器发送的最后的数据)。
第三次挥手
服务端发送一个FIN(结束)到客户端,服务端关闭客户端的链接。
服务器将最后的数据发送完毕后,就向客户端发送链接释放报文,FIN=1,ack=u+1,由于在半关闭状态,服务器很可能有发送了一些数据,假定此时的序列号为seq=w,此时,服务器就进入了LAST-ACK(最后确认)状态,等待客户端的确认。
第四次挥手
客户端发送ACK(确认)报文确认,必须发出确认,ACK=1,ack=w+1,而自己的序列号是seq=u+1,此时,客户端就进入了TIME-WAIT(时间等待)阶段。注意此时TCP链接还没有释放,必须经过2*MSL(最长报文段寿命)的时间后,当客户端撤销相应的TCB之后,才进入CLOSED状态。
服务器只要收到客户端的确认,立即进入了CLOSED状态。同样,撤销TCB之后,就结束了这次的TCP链接。可以看到,服务器结束TCP链接的时间要比客户端早一些。
思考:为什么是四次挥手呢?
为了保证数据完整传输。
关闭链接时,当收到对方的FIN报文通知时,它仅仅表示对方没有数据给你了;但未必你所有的数据都全部发送给对方了,所以你可以未必会马上关闭socket,也即你可能还需要发送一些数据给对方之后,再发送FIN报文来表示你同意现在可以关闭链接了,所以它这里的ACK报文和FIN报文多数情况下都是分开发送的。
可能有人会有疑问,TCP我握手的时候为何ACK(确认)和SYN(建立链接)是一起发送的。挥手的时候为什么要分开发送呢?
因为当时server端收到client的SYN请求报文后,可以直接发送SYN+ACK报文。其中ACK报文是用来应答的,SYN报文是用来同步的。但是关闭链接时,当server端收到FIN报文时,很可能并不会立即关闭socket,所以只能先回复一个ACK报文,告诉client端,“你发送的FIN报文我收到了”。只有等到我server端所有的报文都发送完了,我才能发送FIN报文,因此不能一起发送。故需要四步挥手。
思考:客户端突然挂掉怎么办?
正常连接时,客户端突然挂掉了,如果没有措施处理这种情况,那么就会出现客户端和服务端出现长期的空闲。解决方法是在服务端设置保活计时器,每当服务器收到客户端的消息,就将计时器复位。超时时间通常设置为2小时。若服务器超过两小时没有收到客户消息,他就发送探测报文段。若发送了10个探测报文段,每一个相隔75秒,还没有相应客户端出现了故障,因而终止该链接。
背景:
初始化链接的SYN超时问题client发送SYN包给server后挂了,server回给client的SYN-ACK一直没收到client的ACK确认,这个时候这个链接既没有建立起来,也不能算失败。这就需要一个超时时间让server将这个链接断开,否则这个链接一直占用着SYN连接队列中的一个位置,大量这样的连接就会将server的SYN链接队列耗尽,让正常的链接无法得到处理。
目前,linux下默认会进行5次SYN-ACK包,重试的时间间隔从1s开始,下次的重试时间间隔是前一次的双倍,5次的重试时间间隔为1s,2s,4s,8s,16s,总共31s。第五次发出后还要等32s直到第五次也超时了。所以,总共需要 1s + 2s + 4s+ 8s+ 16s + 32s = 63s,TCP才会把断开这个连接。由于SYN超时需要63s,那么就给攻击者一个攻击服务器的机会,攻击者在短时间内发送大量SYN包给server(俗称SYN flood攻击),用于耗尽server的SYN队列。
什么是SYN攻击?
SYN攻击指的是,攻击客户端在短时间内伪造大量不存在的IP地址,向服务器不断发送SYN包,服务器回复确认包,并等待用户的确认。由于源地址是不存在的,服务器需要不断的重发直至超时,这些伪造的SYN包将长时间占用未连接队列,正常的SYN请求被丢弃,导致目标系统运行缓慢,严重者会引起网络堵塞甚至系统瘫痪。SYN攻击是一种典型的DoS攻击。
如何检测SYN攻击?
监测SYN攻击非常简单,当你在服务器上看到大量的半连接状态,特别是IP地址是随机的,基本上可以断定这是一次SYN攻击。在Linux和unix上可以使用系统自带的netstats命令来检测SYN攻击。
如何防御SYN攻击?
SYN攻击不能完美被阻止,除非将TCP协议重新设计。我们所能做的是尽可能的减轻SYN攻击的危害,常见的SYN攻击方法有如下几种:
应用层的由来:用户使用的都是应用程序,军工作与应用层,互联网是开发的,大家都可以开发自己的应用程序,数据多种多样,必须规定好程序的数据形式。
应用层功能:规定应用程序的数据格式。
例:TCP协议可以为各种各样的程序传递数据,比如Email,WWW,FTP等等。那么,必须有不同的协议规定电子邮件,网页,FTP数据的格式,这些应用程序就构成了“应用层”。
http协议
https协议
我们知道两个进程如果需要进行通讯最基本的一个前提是能够唯一的标识一个进程,在本地通讯中我们可以使用PID来唯一标识一个进程,但PID只在本地唯一,网络中的两个进程PID冲突的几率很大,这时候我们需要另辟蹊径了。我们知道IP层的IP地址可以唯一地表示主机,而TCP层协议和端口号可以唯一标识主机的一个进程,这样我们可以利用IP地址+TCP协议+端口号唯一标识基于网络通讯的一个应用程序。
能够唯一的标识网络中的进程后,它们就可以利用socket层进行通信了,什么是socket呢?我们经常讲socket翻译为套接字,socket是在应用层和传输层之间的一个抽象层,它把TCP/IP层复杂的操作抽象为集个简单的接口供应用调用已实现进程在网络中通信。
先从服务端说起。服务端先初始化Socket,然后绑定端口(bind),对端口进行监听(listen),调用accept,等待客户端初始化一个socket,然后链接服务器(connect),如果连接成功,这时客户端与服务器端的连接就建立了。客户端发送数据请求,服务接受请求并处理请求,再把回应的数据发送给客户端,客户端读取数据,最后关闭连接,一次交互结束。
import socket
socket.socket(socket_family,socket_type,protocal=0)
socket_family 可以是 AF_UNIX 或 AF_INET。socket_type 可以是 SOCK_STREAM 或 SOCK_DGRAM。protocol 一般不填,默认值为 0。
# 获取tcp/ip套接字
tcpSock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 获取udp/ip套接字
udpSock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
# 由于 socket 模块中有太多的属性。我们在这里破例使用了'from module import *'语句。使用 'from socket import *',我们就把 socket 模块里的所有属性都带到我们的命名空间里了,这样能 大幅减短我们的代码。
例如tcpSock = socket(AF_INET, SOCK_STREAM)
服务端套接字函数:
方法 | 作用 |
---|---|
s.bind() |
绑定(主机,端口)到套接字 |
s.listen() |
开始tcp监听 |
s.accept() |
被动接受tcp客户的连接,(阻塞式)等待连接的到来 |
客户端套接字函数:
方法 | 作用 |
---|---|
s.connect() |
主动初始化 |
s.connect_ex() |
connect()函数的扩展版本,出错时返回出错码,而不是抛出异常 |
公共用途的套接字函数:
方法 | 作用 |
---|---|
s.recv() |
接收TCP数据 |
s.send() |
发送TCP数据(send在待发送数据量大于己端缓存区剩余空间时,数据丢失,不会发完) |
s.sendall() |
发送完整的TCP数据(本质就是循环调用send,sendall在待发送数据量大于己端缓存区剩余空间时,数据不丢失,循环调用send直到发完) |
s.recvfrom() |
接收UDP数据 |
s.sendto() |
发送UDP数据 |
s.getpeername() |
连接到当前套接字的远端的地址 |
s.getsockname() |
当前套接字的地址 |
s.getsockopt() |
返回指定套接字的参数 |
s.setsockopt() |
设置指定套接字的参数 |
s.close() |
关闭套接字 |
面向锁的套接字方法:
方法 | 作用 |
---|---|
s.setblocking() |
设置套接字的阻塞与非阻塞模式 |
s.settimeout() |
设置阻塞套接字操作的超时时间 |
s.gettimeout() |
得到阻塞套接字操作的超时时间 |
面向文件的套接字的函数:
方法 | 作用 |
---|---|
s.fileno() |
套接字的文件描述符 |
s.makefile() |
创建一个与该套接字相关的文件 |
想实现网络通信,每台主机需具备四要素:
获取这四要素分两种方式:
以太网头 | ip头 | udp头 | dhcp数据包 |
---|
(1)最前面的“以太网标头”,设置发出方(本机)的MAC地址和接收方(DHCP服务器)的MAC地址。前者就是本机网卡的MAC地址,后者这时不知道,就填入一个广播地址:FF-FF-FF-FF-FF-FF。
(2)后面的“IP标头”,设置发出方的IP地址和接收方的IP地址。这时,对于这两者,本机都不知道。于是,发出方的IP地址就设为0.0.0.0,接收方的IP地址设为255.255.255.255。
(3)最后的“UDP标头”,设置发出方的端口和接收方的端口。这部分是DHCP协议规定毫安的,发出方是68端口,接收方是67端口。
这个数据包构造完成后,就可以发出了。数据包在以太网内是以广播的方式发出,同一个子网络(局域网)内的每台计算机都收到了这个包。因为接收方的MAC地址是FF-FF-FF-FF-FF-FF,看不出是发给谁的,还必须分析这个数据包的目标IP地址是不是自己。所以每台收到这个数据包的计算机,还必须分析这个包得到IP地址,才能确定是不是发给自己的。当看到发出方的IP地址是0.0.0.0,接收方是255.255.255.255时。于是DHCP服务器才知道“这个包是发给我的”,而其他计算机就可以丢弃这个包。
接下来,DHCP服务器读出这个包的数据内容,分配好IP地址,发送回去一个“DHCP响应”数据包。这个响应包的结构也是类似的,以太网标头的MAC地址是双方的网卡地址,IP标头的IP地址是DHCO服务器的IP地址(发出方)和255.255.255.255(接收方),UDP标头的端口是67(发出方)和68(接收方),分配给请求端的IP地址和本网络的具体参数则包含在Data部分。
新加入网络的计算机收到这个响应包,于是就知道了自己的IP地址,子网掩码,网关地址和DNS服务器等等参数。
DNS的作用:在互联网中,其实没有类似于www.xxx.com这种域名方式,而替代的是IP地址和端口号,如222.222.222.222,那我们在IE地址栏中应当输入222.222.222.222这样的ip地址才能打开网站www.xxx.com,但我们细想一下,互联网上的网站成千上万
,如果每个网站登录都需要记住一大串数字,那是不是特别不方便,对于记忆力不强的人来说,根本记不住这么多繁琐的数字。这个时候DNS就出现了,它的作用就是将222.222.222.222解析为www.xxx.com,那么我们登陆的时候直接输入域名就可以了。
为什么一定需要设置DNS才能上网?有些朋友可能会发现,为什么我可能登录QQ,MSN,但始终打不开网页呢? 其实大部分原因都是因为DNS服务器故障造成的,DNS服务器地址是唯一的,是运营商提供给终端用户用来解析IP地址及域名的关系,而如果不设定DNS服务器地址,那么就无法查询地址的去向,自然就打不开网页了,而qq,msn等即时聊天软件,采用的是UDP传输协议,即不可靠传输协议,无需提供DNS服务器地址,也同样可以登录。
递归
主机向本地域名服务器的查询一般都是采用递归查询。所谓递归查询就是:如果主机所询问的本地域名服务器不知道被查询的域名的IP地址,那么本地域名服务器就以DNS客户的身份,向其他根域名服务器继续发出查询请求报文(即替主机继续查询),而不是让主机自己进行下一步查询。因此,递归查询返回地查询结果或者是所要查询的IP地址,或者是报错,标识无法查询到所需的IP地址。
迭代
本地域名服务器向根域名服务器的查询的迭代查询。迭代查询的特点:当根域名服务器收到本地域名服务器发出的迭代查询请求报文时,要么给出所要查询的IP地址,要么告诉本地服务器:“你下一步应当向哪一个域名服务器进行查询”。然后让主机服务器进行后续的查询。根域名服务器通常是把自己知道的顶级域名服务器的IP地址告诉本地服务器,让本地域名服务器再向顶级域名服务器查询。顶级域名服务器在收到本地域名服务器的查询请求后,要么给出所要查询的IP地址,要么告诉本地服务器下一步应当向哪一个权限域名服务器进行查询。最后,知道了所要解析的IP地址或报错,然后把这个结果返回给发起查询的主机。
#下面举一个例子演示整个查询过程:
假定域名为m.xyz.com的主机想知道另一个主机y.abc.com的IP地址。例如,主机m.xyz.com打算发送邮件给y.abc.com。这时就必须知道主机y.abc.com的IP地址。下面是图2的几个查询步骤:
1、主机m.abc.com先向本地服务器dns.xyz.com进行递归查询。
2、本地服务器采用迭代查询。它先向一个根域名服务器查询。
3、根域名服务器告诉本地服务器,下一次应查询的顶级域名服务器dns.com的IP地址。
4、本地域名服务器向顶级域名服务器dns.com进行查询。
5、顶级域名服务器dns.com告诉本地域名服务器,下一步应查询的权限服务器dns.abc.com的IP地址。
6、本地域名服务器向权限域名服务器dns.abc.com进行查询。
7、权限域名服务器dns.abc.com告诉本地域名服务器,所查询的主机的IP地址。
8、本地域名服务器最后把查询结果告诉m.xyz.com。
# 整个查询过程共用到了8个UDP报文。
为了提高DNS查询效率,并减轻服务器的负荷和减少因特网上的DNS查询报文数量,在域名服务器中广泛使用了高速缓存,用来存放最近查询过的域名以及从何处获得域名映射信息的记录。
例如,在上面的查询过程中,如果在m.xyz.com的主机上不久前已经有用户查询过y.abc.com的IP地址,那么本地域名服务器就不必向根域名服务器重新查询y.abc.com的IP地址,而是直接把告诉缓存中存放的上次查询结果(即y.abc.com的IP地址)告诉用户。
由于名字到地址的绑定并不经常改变,为保持告诉缓存中的内容正确,域名服务器应为每项内容设置计时器并处理超过合理时间的项(例如每个项目两天)。当域名服务器已从缓存中删去某项信息后又被请求查询该项信息,就必须重新到授权管理该项的域名服务器绑定信息。当权限服务器回答一个查询请求时,在响应中都指明绑定有效存在的时间值。增加此时间值可减少网络开销,而减少此时间值可提高域名解析的正确性。
不仅在本地域名服务器中需要高速缓存,在主机中也需要。许多主机在启动时从本地服务器下载名字和地址的全部数据库,维护存放自己最近使用的域名的高速缓存,并且只在从缓存中找不到名字时才使用域名服务器。维护本地域名服务器数据库的主机应当定期地检查域名服务器以获取新的映射信息,而且主机必须从缓存中删除无效的项。由于域名改动并不频繁,大多数网点不需花精力就能维护数据库的一致性。
如上图所示,我们将详细阐述DNS解析流程。
1、首先客户端位置是一台电脑或手机,在打开浏览器以后,比如输入http://www.zdns.cn的域名,它首先是由浏览器发起一个DNS解析请求,如果本地缓存服务器中找不到结果,则首先会向根服务器查询,根服务器里面记录的都是各个顶级域所在的服务器的位置,当向根请求http://www.zdns.cn的时候,根服务器就会返回.cn服务器的位置信息。
2、递归服务器拿到.cn的权威服务器地址以后,就会寻问cn的权威服务器,知不知道http://www.zdns.cn的位置。这个时候cn权威服务器查找并返回http://zdns.cn服务器的地址。
3、继续向http://zdns.cn的权威服务器去查询这个地址,由http://zdns.cn的服务器给出了地址:202.173.11.10
4、最终才能进行http的链接,顺利访问网站。
5、这里补充说明,一旦递归服务器拿到解析记录以后,就会在本地进行缓存,如果下次客户端再请求本地的递归域名服务器相同域名的时候,就不会再这样一层一层查了,因为本地服务器里面已经有缓存了,这个时候就直接把http://www.zdns.cn的A记录返回给客户端就可以了。
DNS缓存指DNS返回了正确的IP之后,系统就会将这个结果临时储存起来。并且它会为缓存设定一个失效时间 (例如N小时),在这N小时之内,当你再次访问这个网站时,系统就会直接从你电脑本地的DNS缓存中把结果交还给你,而不必再去询问DNS服务器,变相“加速”了网址的解析。
当然,在超过N小时之后,系统会自动再次去询问DNS服务器获得新的结果。所以,当你修改了 DNS 服务器,并且不希望电脑继续使用之前的DNS缓存时,就需要手动去清除本地的缓存了。
1)浏览器DNS缓存(内存中): 浏览器会按照一定频率缓存DNS记录
2)本地操作系统DNS缓存(内存中): 如果浏览器缓存中找不到需要的DNS记录,那就去操作系统找。
3)本地HOSTS文件(硬盘中): Windows系统中位于C:\Windows\System32\drivers\etc
4)路由器指定的DNS(远程): 路由器自动获取DNS地址,也可以手动修改-登录后台设置DNS服务器地址
ps:路由器DNS被篡改会造成域名劫持,你访问的网址都会被定位到同一个位置,但是IP直接可以访问
5)ISP的DNS服务器(远程): ISP(Internet Service Provider互联网服务提供商、联通电信移动),ISP有专门的DNS服务器应 对DNS查询请求 6)根服务器(远程,跨国): ISP的DNS服务器还找不到的话,它就会向根服务器发出查询请求
调用系统缓存需要跨进程,消耗大,因此为了解析速度的方便,就有了一系列缓存来加快IP查找速度。
浏览器DNS缓存->本地系统DNS缓存->本地计算机HOSTS文件->ISP DNS缓存->递归or迭代搜索
期间如果查询到了,也就直接访问ip地址了,这个就像三级缓存原理一样,例如,能够在hosts文件中找到就不会再去查其他的了。、
打开cmd执行:ipconfig/all
全国通用DNS地址(国内用户推荐使用,速度较快!)
首先DNS服务器地址添:114.114.114.114 (位于北京人民英雄纪念碑)
备用DNS服务器地址添:114.114.115.115
全球通用DNS地址(此DNS地址为谷歌服务器的)
首选DNS服务器地址添:8.8.8.8
备用DNS服务器地址添:8.8.4.4
查看本地dns缓存命令:ipconfig/displaydns
清除本地dns缓存命令:ipconfig/flushdns
清除浏览器缓存:
我们在开发的时候,有时候会给某个域名绑hosts,用于本地开发测试,但是绑了之后,用谷歌浏览器访问会发现并没有生效,按F12会发现访问的还是线上的ip,说明浏览器是有该域名的dns缓存的,那么如何清除浏览器的dns缓存呢?
# 1、针对谷歌浏览器
谷歌浏览器清除方法如下:打开浏览器,访问如下地址
chrome://net-internals/#dns
点击 clear host cache,就清楚了浏览器的dns缓存,再访问绑hosts的域名,就会发现ip变啦
# 2、针对火狐浏览器
如果是firefox火狐浏览器的话,可以按照以下方式:
在地址栏中 about:config 并回车,可能会出现一个警告信息,直接点击按钮进入,会出现firefox的所有配置信息,通过搜索dns 进行过滤,可以看到一项名为 network.dnsCacheExpirationGracePeriod 项,它对应的值就是DNS缓存的时间,双击此项,会出现修改的提示框,填入 0 (不缓存DNS)即可。
打开浏览器,想访问google,在地址栏输入www.google.com
dns协议(基于udp协议)
HTTP部分内容,类似于下面的内容:
GET / HTTP/1.1
Host: www.google.com
Connection: keep-alive
User-Agent: Mozilla/5.0 (Windows NT 6.1) ……
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip,deflate,sdch
Accept-Language: zh-CN,zh;q=0.8
Accept-Charset: GBK,utf-8;q=0.7,*;q=0.3
Cookie: … …
我们假定这个部分对的长度为4960字节,它会被嵌在TCP数据包中。