zyx22334

网络原理知识

这部分知识我主要是给大家介绍TCP/IP协议这里的关键协议

一、自定义协议

1.为什么要自定义协议?

因为不同的应用程序解决的业务场景是错综复杂的,比如遇到一些特例情况就需要自定义协议.因此,很难有一个通用的协议满足所有的业务需求.

这里说一下,业务是一个公司的命脉,在公司中业务远比技术要重要!!!

2.如何自定义协议

1)结合需求,分析清楚,请求响应(服务器/客户端之间)要传递哪些信息.

比如:点外卖

我们查看外卖列表

请求:外卖列表

你当前的位置,你的身份信息(根据你的身份信息进行食品的推荐)

响应:一个列表

列表中要有商家信息(名称,图片,距离,位置,简介)

再比如,我们要指定搜索某个店铺的名字

请求:店铺的名字/id

响应:一个列表,列表中要有店铺的信息(名字,图片,价格,简介,口味......)

2)明确传递的信息以什么样的格式进行组织

比如我们使用最简单最朴素的文本格式进行传输:

请求:用户id;地址\n

响应:商家名字;商家图片地址;商家简介;商家地址\n

我们怎么构造这个传输格式,服务器就怎么解析.但这个组织格式和我们的业务没有太大的关系(不用自定义了,可以按照某种指定的格式),所以说一些大佬就发明了一些格式的模板:

XML:

标签化的组织形式,使用标签来表示键值对,以及树形结构

如:

(开始标签)

(结束标签)

这两个标签必须要成对出现,中间的内容可以使字符串也可以是数字,嵌套的放在标签的里面

如:

123456

北京市......

HTML就是XML的特殊形式

2.json

在2010年之前XML很流行,但之后发现它很啰嗦,所以就发明了json,出自js这个语言.

如:

请求:

{

userId:123456,

position:"北京市.......",

}

响应:

{

name:".......",

show:"很好吃",

}

这种格式明显比XML简单,所以json就逐渐取代了XML.

上述的XML和json是采用了文本的组织形式,有点是好观察,但是缺点是有很多多余的标签占据了过多的IO.效率上不去.

因此发明了protobuffer(谷歌)

3.protobuffer

这是一种二进制的数据传输形式.

特点:效率高,缺点:肉眼观察不了.

以及最为经典的传输数据组织形式:HTTP.(后面会讲)

二、传输层协议

传输层虽然是操作系统已经实现好了的,但程序员要网络编程调用的socket api实际上就是属于传输层的部分.还记得五元组吗?只关注起点和终点的特征在这里鲜明的体现着.

1.端口号

比如,mysql数据库的默认端口号就是3306.

端口号起到的作用是在一台计算机上明确的区分不同的应用程序.

要求:在一台主机上,一个端口号不能被多个进程所绑定.

端口号是传输层的概念,TCP和UDP中都包含原端口和目的端口.

构成:端口号是由2个字节16个bit位组成的,所以说端口号的范围:0--->65535.

以上信息需要记忆!!!

但是如果我们字节写程序并且设定端口号,需要从1024开始选取.

因为0->1023的端口号,被称为"知名端口号/具名端口号",这些端口号已经分配给了一些知名并且广泛使用的应用程序了

2.UDP

之前我们讲过也写过,UDP的性质是:无连接、不可靠传输、面向字节报、全双工.

1)UDP报文结构

这张是广大教科书上的UDO报文结构:

但实际上不应该长这个样子,这样只是为了排版方便.

实际上应该是这样:

报头和载荷的关系,就是相当于车厢和车头一样:载荷中装有完整的应用层数据报.

因为这是在传输层,所以说系统会接收到应用层的数据报,然后对它进行再封装,加上UDP报头然后传给网络层.

这里的的UDP报头里装有一些特定的属性,就携带了一些重要的信息,对于UDP来说,报头一共是8个字节,分成了4个部分(每个部分2个字节):

我们之前说过:进行一次网络通信,就要涉及到一次五元组:

原IP、目的IP、原端口、目的端口、协议类型

在UDP报头中原端口和目的端口各占两个字节,所以说范围才是0->65535.

而UDP报文长度是两个字节,换算单位就是64KB(其实也就是货车的"载重量",其实很小)

在我们如今的网络通信中,一个照片就几个MB,那我们要如何解决这个问题呢?

在应用层拆分成多个报进行传输.

不用UDP改用TCP进行数据的传输.(一般都是使用第二个)

还有一个就是校验和:其目的在与检验传输数据的是否正确.

在网络上,数据传输的过程中,时常发生一种叫做"比特翻转"的错误,也就是:1->0;0->1.

为了检验这种错误,就引入了校验和进行检验:就是针对要传输的数据,进行数学计算,得到一个比较短的结果,在传输之前和传输之后分别计算一次,如果数据内容一定,那么校验和也就一定.

生成校验和的算法有很多,其中比较知名的几个:

CRC(就是进行简单的循环计算,万一结果同时变动了两个bit位,那么CRC也不会变,错误率高,几乎不用)

MD5(有一系列的书序公式进行复杂的运算)

MD5的特点:

1)定长(不管数有多大,长度也是一定的)

2)冲突概率很小(哪怕只变动一bit位,MD5变化都会很大,解决了上述CRC的问题,准确率高)

3)不可逆(只能通过原始数据计算MD5,但很难通过MD5计算于是数据)

MD5的作用:

1)校验和

2)hash值

3)加密领域

SHA1

3.TCP

TCP的性质是:有连接、可靠传输、面向字节流、全双工.在前面的代码编写中都曾验证过.

1)报文格式

首先是第一层:16位原/目的端口号和UDP一样.

4位首部长度:其实就是报头,只是翻译不一样(TCP报文=TCP报头(又称首部,英文header)+TCP载荷(英文payload/body)),因为TCP的报头可变的,不是像UDP一样是固定的.所以说我们整一个首部长度是为了确定选项部分的长度.但是,4个bit位是0->15,而前面的固定部分就有20字节了?如何表示呢?所以这里我们的首部长度的单位这个"位"不是1字节,而是4字节.(就是说实际上的结果应该是可见结果乘以4)

保留:英文resevered,意思就是现在不用,但是保留以后再用.此处的TCP保留6位是为了以后的扩容做准备.(解决了UDP只有64KB的这个缺点)

选项:英文option =>optional(可选的,可有可无的)此处的选项对于TCP报文的一些选项进行解释说明的,我们可以计算一下,一行是4个字节,而在选项前面的内容固定共有20个字节,因此首部长度-20字节,就是选项部分的长度.

剩下的之后再说.

2)TCP工作机制

TCP是一个复杂的协议,其中有很多个机制,这里我们主要讨论其中的10个核心机制.

1.应答机制

我们都知道TCP的性质其中有一条:可靠传输.这个可靠的意思不是一定能把消息传过去,是让你知道传没传过去.就是如果传输失败后会告知你传输失败.

而应答机制就是实现我们可靠传输的最为核心的一个机制

在这个情景中,"不可以!!!我在用"就是应答报文,也叫作ack(acknowledge的前三个字母)TCP实现可靠传输就是通过这个应答报文实现的.

如果情景再复杂一点:

但如果在网络上有可能会出现"后发先至"的情况.

如果出现以上两种情况,那么在互联网的沟通中,我们的交流就出现了语义的错乱了,此时语句就出现歧义了.

出现原因:

举个例子:(接亲)

新郎要把新娘迎回就需要组织一大串的车队,而这些车队有虽然在出发是按顺序出发的,但是速度有快又慢,而且走的路段也不同,那么到达新娘家的顺序也就可能和出发时的顺序相差很大了.

在网络通信中,那句"同学能把电脑借我"和"那能借我纸和笔用一下吗"可能走的都是不同路线,比如一个进过了路由器,而另一个走的交换机,而且二者的"路况"也不太一样,所以说到达的顺序也就不一样.

所以说,网络中传输信息"后发先至"的情况是客观存在的,不可避免,在信息传输中就需要考虑如何解决这种歧义.

解决方法:只要把传输的信息和应答报文都编号就可以了!!!

这里我们给传输信息取的名字1、2就被称为序号,而我们为了回答信息而取的应答1、应答2就是确认序号.

而这个序号和确认序号,就在报文结构中有所提及:

任何一条数据(包含应答报文),都是有序号的;确认序号,则是只有应答报文有.(普通报文包含应答报文无意义)

而这一条报文是不是应答报文取决于这个标志位:

而这个sck标志位为1则是应答报文,而如果为0就不是应答报文.

如果A向B发送一串信息,假如说有1000个字节,那么每个字节从1到1000进行编号,而报文中只写1就可以了,如果之后A又发送了一串1000个字节的消息,则这条详细从1001开始编号,并且报文中只需填写1001就可以了!!!

知道第一个字节序号+TCP报文长度,就可以知道每个字节的序号了!!!

出自<图解TCP/IP>很好的书,大家可以去看看.

表示的含义:

如果应答报文传输的应答报文是1001,则可以说明序号<1000的数据B已经收到了,同样,A向B传输1001-2000的数据,如果B向A传输的应答报文是2001,则可以说明B已经收到了1001-2000的数据了.

A应当从1001继续发送数据.(B向A索要1001的数据)

小结:可靠传输是通过应答机制来实现的,通过应答报文,就可以清楚的确认数据的传输是否成功.引入的序号可以用于解决"后发先至"的问题.

2.超时重传

在确认应答的时候,我们只是讨论了顺利传输的情况.但是如果丢包了呢?

丢包的原因有两种:

发的数据丢了

返回的ack丢了

这两种情况都会被认定为丢包,如果过判断系统丢包了,就会引发TCP的重传机制.

就是重发一遍,但如果不是传输数据丢了,而是在路上还没到呢?TCP就引入了一个时间阈值,如果超过这个时间,就会重传.

咱们再来考虑一下第二个图:

1-1000这个数据主机B收到了两回,那如果这个数据是个转账数据呢?

解决方法:

TCP存在一个"接收缓冲区"(操作系统内核中的一段内存),当B的网卡读到数据之后,会先将数据存入"接收缓冲区",再从接收缓冲区中获取读到的数据.(就是类似"阻塞队列"之类的数据结构),然后在这个"接收缓冲区"中依照序号大小排序,并查重,删除相同内容后再进行B的读取,能够保证应用程序的read操作不读取到相同的内容.

相当于是接亲车队开到新娘家门口先进行等待,等所有人都到了后,排序回出发顺序再开进新娘家.

小结:由于超时和重排序机制的存在,只要发现ACK没有按时到达,就会重新传输数据,及时顺序乱了都没事,接收方可以很好的处理数据.(去重和重排序都依赖报头的序号)

总结:可靠传输是TCP传输机制的核心,是通过确认应答+超时重传来体现的,其中确认应答是传输顺利的情况,而超时重传是传输出现问题的情况,这两种机制互相配合共同支撑着TCP传输的可靠性.

3.连接管理(高频考点)

连接:英文是Connection,在网络通信中,连接是在A记录上B的IP与端口号,并且B记录上A的IP和端口号之后,将这部分信息保存在一个数据结构中,这个过程就叫做"建立连接",而连接(Connection)是这个过程的结果.

比如说结婚,不是举行完婚礼算是结婚,而是领证后算是结婚.

同时,A和B分别将储存在数据结构中的双方的IP和端口号,删除了,就叫做断开连接.

(1)建立连接(三次握手)

双方各自要记录双方信息,彼此之间要相互认同.

举个例子:

假如两个人(甲和乙)在打游戏,现在要求连麦,为了确认双方的耳机和麦克风都正常:

此时确认的内容:

甲:无

乙:已知甲的麦克风和乙的耳机都是正常的.

此时确认的内容:

甲:已知乙的麦克风和甲的耳机是正常的.由于之前甲的信息被回复,因此根据甲和乙之间默认的约定,甲也得知了甲的麦克风和乙的耳机都是正常的.

乙:已知甲的麦克风和乙的耳机都是正常的.

此时确认的内容:

甲:已知甲的麦克风和耳机都是正常的,并且乙的麦克风和耳机也都是正常的

乙:已知甲的麦克风和乙的耳机都是正常的.

此时确认的内容:

甲:已知甲的麦克风和耳机都是正常的,并且乙的麦克风和耳机也都是正常的.

乙:已知甲的麦克风和乙的耳机都是正常的,因为刚才乙的问题被回应,所以根据默认的约定,乙得知甲的耳机和乙的麦克风都是正常的.

这是双方都知道了双方的耳机和麦克风都是正常的,都具备着发送以及接收的能力,此时连接建立!!!

这里我们发现,其实图三和图二双方获取的内容都是一样的,所以可以把这两次信息交互合并为一次,那么:

这三次信息交互被称为"三次握手"

"三次握手"的三种作用:

双方建立对对方的认同.(保存对方的信息)

检验收信方和发信方的发送和接收能力都是否正常.

在握手的过程中,双方来协商一些重要的参数.

总结:所谓的三次握手,其实是四次信息交互,通信双方都要各自向对方发送一个"建立连接"的请求,同时还要回应对方一个ack,这里其实有四次信息交互,但是中间两次可以合并为一次交互,因此被称为"三次握手".

这里的SYN全称是synchronize,是"同步"的意思.这里指同步报文段.

就是这个,同步标志位.等于上面的"喂喂喂,听得到吗"属于同步报文段(SYN),而"听得到,那你听得到我说话吗?"既是同步报文段(SYN),也是应答报文(ACK),最后的"听得到"是应答报文(ACK).

还有

这里指的是TCP的状态,类似之前讲的线程状态,但是很复杂,需要认识几个常见的状态:

建立连接状态:

LISTEN

服务器的状态,表示服务器已经准备就绪了,随时可以建立连接,相当于手机开机,信号良好,随时有人可以打电话.

ESTABUSHED

指客户端和服务器都有了,连接建立完成,接下来就可以正常通信了,相当于电话打过去对方接通了,现在可以随时说话了!!!

接下来

这部分是描述了TCP和socket api之间的关系.(此处不关注)因为此处是C语言版本的.

(2)断开连接(四次挥手)

这里再举个例子:(一对情侣要分手)

为什么是四次挥手,而不是跟三次握手一样是三次挥手呢?中间的两次可不可以合并呢?

答案:不完全可以!!!

因为三次握手中间的两次可以合并是因为它俩是同一时机执行的,具体来说三次握手的这三次交互,是纯内核中完成(应用程序感知不到,也干预不了)服务器内核在收到syn之后,就会立即发送ack,之后也会立即发送syn.

而四次挥手则不是:

第一个fin的发起,不是由内核控制的,而是由应用程序,调用socket的close()方法(或者是进程退出),才会出发fin,而ack则是由内核控制的,在收到fin之后会立即发送ack.而第二个fin是由服务器的应用程序执行到了对应的close()方法,才会出发fin,内核和应用程序的close()之间会隔着一个时间(时间的长短由你的代码控制)

还记得上个博客写的服务器代码吗?

程序随着循环的结束而结束,而循环的结束随着这个break的触发而结束,而break由hasNext()判断为false就触发了,hasNext()判断为false是因为读到了EOF(文件结束标志),而EOF是因为内核收到了对方发来的fin数据报从而调用了socket.close方法.

循环结束后,就调用到了下面的那个close()方法,这时就是服务器给客户端发送了fin,就是最后的两次交互.

在上述代码中,相当于是循环一结束就立即close发起了fin,此时ack和fin之间的时间间隔就比较短.此时很有可能系统就把这两个包裹合并成了一个,但是如果间隔时间长了,比如在close之前干了别的事了,

就比如这样:

在结束之前睡了个觉,此时就无法合并成一个了.

小结:所以说我们通常把大多数发生的这四次信息交互,称为"四次挥手".少数的中间两次可以合成一次的情况就自动忽律不计了!!!

大概就是上面那一部分,这里也有两个特别重要的TCP状态:

CLOSE_WAIT(等待关闭)

出现在被动发起断开连接的一方

这里要注意:建立连接一定是客户端主动发起请求,但是断开连接可能是客户端主动发起请求,也可能是服务器主动发起请求.

这个状态就是等待关闭,也就是等待调用close()方法关闭socket.

TIME_WAIT

出现在主动发起断开连接的一方,假设是客户端主动发起断开连接,当客户端进入TIME_WAIT状态时,相当于四次挥手已经完成了,只差一步给服务器返回ack了.

此时这里的TIME_WAIT要保持一会儿当前的TCP连接不要立即就释放.(连接还没有断开)

另外,在三次握手和四次挥手的过程中也是存在超时重传的.

如果是最后一个ack丢包了,站在服务器的视角来看,服务器不知道是因为ack丢了,还是自己发的fin丢了,所以统一视为fin丢了,重新进行重传fin操作.

既然服务器可能进行fin的重传,客户端就需要能够针对这个重传的fin进行ack响应.很明显,如果客户端最后一个ack传完后就直接断开连接,这样ack就无法进行了,因此使用TIME_WAIT保留一段时间,是为了能够处理最后一个ack丢包的情况.能够在收到重传的fin后,进行ack的响应.

TIME_WAIT具体保持的时间是2MSL(指的是互联网上两个节点之间,数据传输消耗的最大时间为什么事2MSL? 其实就是传ack+回传fin的时间).

如果2MSL后,客户端还是没有接收到重传的fin,那么就认为上个ack正常到达了!!!

总结:TCP作为一个有连接的协议,就需要建立连接和断开连接,其中建立连接是三次握手,断开连接是四次挥手.终点理解三次握手的意义(3点),重点理解为什么是四次挥手,而不是三次?重点理解fin和ack的传输时机以及TIME_WAIT的意义和作用.

4.滑动窗口

确认应答、超时重传、连接管理都是给TCP的可靠性提供支持的.但是引入了可靠性就会牺牲传输效率.因此UDP没有可靠性所以说它的传输效率更高.但是TCP也在效率上面做了一些补救措施,其中滑动窗口就是其中一个,它降低了确认应答、等待ack消耗的时间.

我们要注意,可靠性与效率本身是矛盾的.(我们的TCP肯定是可靠性是最优先的)

IO操作花费的时间:

等待

数据传输(数据拷贝)

大多数的时间都是花在等上面.

这是我们确认应答的机制实现的功能,我们发现在每次发送报文的时候都需要等待ack花费了大量的时间.

而这就是我们的滑动窗口实现的功能:

本质上就是不等待的批量发送一组数据,然后使用一份时间来等待着一组数据的多个ack.

就比如说,我们现在想吃肉夹馍,煎饼.我们可以先去店铺点两份食物,然后一起等待出餐,这样比分批去点两份食物更加节省时间.

我们把不需要等待,最大能够发送的数据的最大的量称为"窗口大小".

滑动窗口原理:

滑动窗口不是发完四条然后再一起等待,而是向上图一样,发24条然后等待回应,收到一条回应然后窗口向后"滑动"一条.(如上面发了1001-5000的数据,然后等待接收2001的ack,在接收到2001的ack后发送5001-6000的数据报,以此类推).

也就是说,前提是接收ack比发数据报要慢.而且发数据报和接收ack是相互独立的,而且发送下一条数据报的条件是接收到窗口第一条数据报的ack.就像向前滑动了一个窗口一样,所以被称为"滑动窗口".

但如果再上述情况下,丢包了怎么办呢?

丢包大概分为两类:

ack丢了

根据ack的机制,我们发现这种情况不需要过多处理!!!

因为我们发现,根据应答序号的定义,如上图,如果1001的ack丢包了,只要我们的2001ack能够顺利到达,就说明1-1000以及1001-2000的数据也就顺利到达了,也就不需要考虑之前的1001ack丢包的情况了.

数据丢了

如上图,1-1000的数据和1001的ack都顺利到达了,但是1001-2000的数据却丢包了,则是B给A的ack仍然是1001.(此时和A发送的数据报是什么序号的没什么关系了),大概的意思就是B主机在向A主机索要1001开头的数据报,当主机A再向主机B发送2001-3000、3001-4000、4001-5000、5001-6000、6001-7000主机B在传给主机A的ack全部都是1001,意思依然是告诉主机A 1001开头的数据报丢包了,让它重新传,此时主机A重传1001-2000的数据,主机B确认收到后才开始检验2001到7000的数据,发现也收到后,才会发送7001的ack代表之前的都收到了.

(以上重点理解)

上述重传数据的形式,起了个名字,叫做"快速重传".

这种快速重传可以说是超时重传在滑动窗口模式下的一个变形.

如果当前传输数据密集,则按照"快速重传"的方式进行重传;

如果当前传输数据稀疏,则按照之前的"超时重传"的方式进行重传.

5.流量控制

这是一种干预发送的窗口大小的机制,窗口越大,传输效率就越高(一份时间等的ack就越多),但是窗口不能无限大.

会遇上这几种情况:

完全不等ack,会影响TCP的可靠性.

窗口太大,会消过多的系统资源.

发送速度太快,接收方处理不过来.

也就是说,发送方的处理速度,不能超过接收方的处理能力.

所以说如何衡量接收方的处理能力,这时就用到了流量控制:

这里我们利用查看缓冲区的剩余大小来衡量接收方的处理能力.

每次A给B发送数据,B就需要算一下接收缓冲区的剩余空间还有多少,然后通过ack将这个值还给A,A再通过这个值来决定接下来发送的速率是多少.(窗口大小是多少)

我们还记得再TCP的报头结构中就有一个窗口大小:

报文是ack的时候才能存入16位窗口大小

这里的16位不是说窗口大小最大是64KB,在选项中有一个"窗口扩展因子"能够进一步扩大窗口大小.(就是说窗口扩展因子里写的是几,就将数据向右移几位,如64KB<<2=> 256KB)

由于接收缓冲区剩余空间都是在不断变化的,所以说,每次返回的ack的窗口大小都是在不断变化的,发送方也是在动态调整的.

这张图具体解释了流量控制的过程:

当窗口大小为零的时候,发送方A就会暂时暂停发送数据,但会定期发送一个窗口探测报文这个报文不携带业务数据,只是为了触发ack探查窗口大小.

6.拥塞控制

流量控制和拥塞控制共同决定发送方的窗口大小是多少.

拥塞控制描述的是传输过程中,中间节点的处理能力.

也就是说前面考虑A的发送速率只是考虑了B的处理能力,而没有考虑中间节点的的处理能力.

网络信息传输是一个"木桶效应",就是信息传输的效率取决于处理能力最差的交换机或者路由器.

那么我们在网络上通信的工程中,如何量化中间交换机或路由器的信息处理能力呢?

制作TCP的人采用了"实验"的方式来逐渐找到一个合适的窗口大小,来逐渐找到一个合适的发送速率.

拥塞窗口就是尝试以多大的窗口大小进行发送.

初始阶段由于窗口大小不是特别的大,所以以指数的形式进行增长.当增长速率达到阈值之后,指数增长就变成了线性增长(增长的前提是不丢包),接下来当传输过程中一但丢包了,说明此时发送的速率接近了极限了,此时就把窗口大小一下缩成很小(初始的窗口大小)的值(接下来继续重复刚才指数增长到线性增长的过程).

随着时间的推移逐渐到达了动态平衡的过程.

好处:这样既解决了问题,又课随着网络的动态变化而变化.

拥塞窗口和流量控制的窗口,共同决定了发送方实际的发送窗口.(拥塞控制和流量控制的较小值)

7.延时应答

这个也是提升效率的机制,作用就是让滑动窗口的窗口大一点,这样就可以让传输的速度快一点.

在接收方能够处理得了的前提下,尽可能的把窗口大小放大一点.(类似电脑的超频)

原理:收到数据之后,不是立即返回ack了,而是等一会儿再返回(延时).等待一会儿后,让应用程序再把接收缓存区中的数据消耗一会儿,这时接收缓存区的剩余部分就变大了,此时再返回ack.

实际上,采用延时应答的方式,就是在滑动窗口下,ack不再是每一条数据都返回了,比如如上图是隔一条数据返回一次ack.

实际上的剩余空间的处理大小,既取决于发送方的发送,又取决于接收方的处理.

8. 捎带应答

这也是提高效率的一种方式.在延时应答的基础上,引入了捎带应答.

一问一答形式是服务器客户端的经典表现形式:

捎带应答:我们已知"现在几点了"是客户端向服务器的请求,而"ack"是内核发出的立即返回的.而"11:42"是业务上的响应,本身他们俩是存在时间差的,但是由于TCP有延时应答,在A等待B的ack的时候,这是业务"11:42"也要发出了,而此时让业务捎上这个ack在一个报中一起派寄给A就可以了(其实就是让两个数据报合并为一个).

本来这两个报是有时间差的,但因为延时应答,让这两个报成为了同一时机,就合并了.(注意:三次握手的那个合并本身就是相同时机,三次握手是一定会合并的,而这个捎带应答是可能会合并,但和四次挥手很像)

9.面向字节流

面向字节流引入了一个麻烦事:粘包问题

因为接收缓冲区,其实就是把收到的多个数据都放在了一起,应用程序read的时候,读到哪里才算是一个完整的应用层数据报呢?

如果这里有三个TCP数据报:

aaaaaaa

bbbbbbb

ccccccc

因为TCP是按照字节流的读法,一次可以读一个字节,也可以读N个字节,所以说上述字节流,可能读到的是8个字节:aaaaaaab、bbbbbbbc、ccccccc读到的根本就不是传输者想要表达的意思.

所以说,在TCP层次,没有在socket api中告诉我们应该读几个字节全凭借程序员自己的代码.

解决方法:

约定号应用层协议规定好数据报与数据报之间的边界即可.

使用换行符分割数据报:

aaaaaaa\n

bbbbbbb\n

ccccccc\n

2.约定号每个报的长度.

10.TCP中的一些异常情况

在TCP通信中出现的异常情况一般有:

出现了这几种情况TCP都无法继续正常传输了!!!

程序崩溃了

电脑关机了(依照电脑的正常步骤进行的关机)

1和2 是一种情况,进程没了对应的TCP也就跟着没了,对应的文件描述符表也就没了,相当于socket.close(),此时内核会正常完成4次挥手.这是一种正常的情况.

3. 电脑掉电了

4. 网线断开了

3和4是一种情况,加入对方掉电了,这种情况显然就来不及4次挥手了.

假设是接收方掉电了:

发送方发送完数据后仍然在等待ack,但等不到,进入超时重传功能,但超过超时重传指定的次数,开始尝试复原TCP连接(传输复位报文段),这个重试也会失败.只能由发送方单方面宣布断开连接.

假设是发送方掉电了:

接收方发现一段时间间没有来数据了,接收方会先等,然后接收方会周期性的给发送方发送一个消息(这个消息叫做"心跳包"),确认一下对方是否还在工作.

讲到这里,TCP协议也就告一段落了.要想深入了解TCP,请去官方参考TCP文档:RFC 9293: Transmission Control Protocol (TCP) (ietf.org)

4. UDP和TCP的适用场景

TCP的优势在于,可靠传输,绝大多数场合都需要考虑可靠传输.

而UDP的优势在于,效率更高,如果默写场景对于性能要求更加苛刻(比如一个机房内,服务器与服务器之间的通信,网络带宽相对充裕,结构相对简单,丢包的可能性比较小)而且UDP有一个天然的优势,就是天然适应广播,就是在一个局域网中的各设备之间的信息交互.

IP地址中有一个特殊的IP,叫做"广播IP".通过UDP往广播IP上发送此时在此局域网中的所有设备都能接收到炬.(就比如说在家中的电视投屏功能,手机先要在局域网中进行广播寻找电视,需要到的电视会在手机的屏幕上出现一个电视列表,选中列表然后手机会通过局域网传输当前视频的地址)

这两个协议在日常生活中用到的很多,但并不是只有这两个协议.

就比如说,王者,使用的是TCP还是UDP呢:它即需要可靠性又需要高效率.当然有的传输层协议专门为了游戏而打造(因为TCP与UDP太极端了),所以研发了专门应对游戏环境的KCP

三、网络层

网络层要完成了两种功能:1.地址管理2.路径选择

IP协议

涉及到的东西:TCP/IP协议栈(总而言之就是TCP+IP)

上图是IP协议的IPv4版本(v4版本的意思)

这个就是当前IP协议的版本:只有4和6两个版本(本博客只介绍IPv4)

描述了IP报头有多长(IP报头是可变长度)选项中有一个功能能够改变报头报文长度,但此处是4个字节

这里说是8位,但实际上只有4位是有效位,这四位只有一位可以是1,其余都得是0.

4位就表示了IP协议的四种状态/四种工作模式.(类似于一个怪的四种模式,开了这个就不能开那个)

四种形态:最小延迟、最大吞吐量、最高可能性、最小成本.

在实际的工作中就可以切换IP的模式来达到最优的效果.这都是站在技术角度上的瓶颈,但一般来说性能瓶颈都是业务角度带来的.

描述了一个IP数据报的长度.(头+载荷),这个长度减去IP报头长度,就能够得到一个完整的TCP/UDP数据报长度.

注意:这里的16位并不是以为着这个IP数据报最大只能运输64KB的数据!!!

确实有这个限制,但是IP自身支持对包的拆分和组装功能(就比如一张床,整件比较大运不过来,我就把它拆成零件运过来)

发送方:把100KB的数据,交给传输层进行封装,传输层交给网络层进行封装,网络层把这个100KB的数据包拆成64KB+36KB再将这两份数据交给数据链路层,由以太网封装成两个数据帧并发送.

接收方:数据链路层根据这两个数据帧进行分用等到两个IP数据包然后交给网络层,网络层针对这两个IP数据包进行解析,并把里面的载荷拼接成一个,交给传输层.

这几个字段都是用来辅助拆包/组包而提供的.

16位标识:同一个数据拆成的数据包标识是相同的.(名牌)

3位标志:结束标志.

13位片偏移:便是了多个包的先后顺序

一个数据包在网络上上能够传输的最大时间.(英文是TTL,这个时间单位不是秒,而是次数,一个包被构造出来,都有一个初始的TTL值,如32或者64,每经过一个交换机或者路由器,TTL就会-1,如果一直减到0了,就认为这个包永远也到不了,就遗弃了)

描述了当时的载荷部分内容是符合当前哪个协议的(TCP/UDP)

此处只需要针对首部进行校验,载荷部分(TCP/UDP数据报部分)已经有校验和了

然后就是IP协议中最重要的部分了:IP地址

IP地址本质上是32位的整数(给计算机看的),但是为了更好的让人们阅读,就把这32位的4个字节分割开,分割成4个部分,每个部分分别使用0-255的十进制进行表示,这种表示形式被称为点分十进制(给人看的).

那么,32位IP地址,世界上只能由42亿9千万的IP地址,但是只要和计算机有关系的都需要使用一个IP地址(空调,冰箱,服务器,计算机等),很显然已经不够我们现在使用的了,那么我们该如何解决这个问题呢?

解决措施:

动态分配IP地址(就是说比如说美国那边没在使用这时我们这边就可以使用同一个IP地址),但是仍然无法增加IP地址的使用总量,治标不治本.

NAT网络地址转换,本质上就是使用一个IP代表一批设备,也能够大大提升IP地址的利用率.

在NAT的背景下,就把IP地址分成两个大类:

内网IP(私有IP) 分为这三种: '10.*' '172.16.*-172.31.*' '192.168.*'

外网IP(公网IP) 剩下的都是公网IP

NAT要求,公网IP必须是唯一的.

私网IP可以在可以在不同的局域网中重复出现.

如果某个私网中的设备想要访问公网中的设备,就需要对应的NAT设备(路由器),把IP地址进行映射,从而完成网络访问.

反之,公网的设备,无法直接访问私网的设备.不同局域网的私网的设备没法直接相互的访问.

使用cmd的ipconfig代码可以查看内网ip:

我们的笔记本电脑中的以192.168开头的都指的是局域网中的私有IP(内网IP)内网IP在不同局域网中是可以重复的,但在局域网内部是可以重复的.

要想进行主机与主机之间的通信,需要使用外网IP进行通信:

每台主机都有一个外网ip我们可以使用:iP地址查询--手机号码查询归属地 | 邮政编码查询 | iP地址归属地查询 | 身份证号码验证在线查询网 (ip138.com)

这个网址来查询我们这台主机的ip地址.

比如说我们外网IP是:114.252.000.000

我的内网IP是:192.168.1.180

现在我需要去访问目的IP为1.2.3.4的主机.

这是站在服务器的视角看到的我的主机的IP.

如果这是有复数个主机接入运营商路由器,这些主机的内网IP都会被替换成运营商路由器的外网IP114.252.000.000(当然,每个主机有自己的端口号进行区分).

此时,只要是这个电脑经过运营商路由器发给了服务器,服务器看到的源IP都是一样的.但如果是多个电脑同时访问同一个服务器,服务器的响应就会根据发来数据的源端口来进行区分.

因此,服务器能拿到的只是路由器的IP不能拿到我的内网ip,如果我的主机不主动和服务器进行联系,服务器也不知道我的端口.

NAT之间能够有效的解决IP地址不够用的情况,但是也带来了网络环境更加复杂的问题.

3.IPv6(从根本上解决了IP不够用的问题)

使用16个字节128位表示IP地址.就算给地球上每粒沙子一个外网IP都够用.

但是现在的IPv6的普及度还是极低的.

原因:要想使用IPv6需要更换路由器等一系列配件,费钱.

但是IPv6在我国普及度已经达到80%左右了!!!(中美贸易战是契机,虽然都已经普及了,但都还没有开启:随时严阵以待,切换IPv6)

2.地址管理

把一个地址分成了两部分,一部分是网络号,一部分是主机号:(比如有这么一个地址)

前半部分是网络号,后半部分是主机号.

网络号是:192.168.0

主机号是:10

一个典型的局域网环境:

科普一下路由器:

路由器有WAN口和LAN口,WAN口通常是连接光猫的,而LAN口通常是连接主机的.LAN口和WAN口都是一个独立的局域网,相当于一个路由器有两个局域网.而路由器可以使信息在两个局域网中进行转发.

这是光猫:

这是路由器:

两个绿圈是两个局域网,而路由器的功能就是将两个局域网的信息可以互相沟通.

注意:

1.这些设备和路由器都是在一个局域网中的,这些局域网的网络号都是192.168.0,主机号都是不同的.(如果主机号相同,那么就没法上网了!!! )

2.相邻的局域网之间的网络号是不能相同的.

一个IP地址从哪到哪是网络号,从哪到哪是主机号:

这是子网掩码,子网掩码是一个32位的整数左侧都是1右侧都是0,1的部分就描述了IP有多少位是网络号.

一些特殊IP:

第一个咱们都已经见过了,就是主机号是0然后就是子网掩码了,也就是网络号了.

第二个主机地址都是1了也就是说变成了192.168.0.255,就成为了广播地址,使用UDP往这个地址发送整个局域网都能收到.

第三个我们在网络编程中也是常见的,127开头的都是本机环回.(常用测试)

另外,主机号为1,通常是"网关地址"(不绝对可以配置)网关就是局域网的出入口,也就是路由器的LAN口或者WAN口.

3.路由选择

就是路径规划,相当于使用地图导航一下,由于网络环境比较复杂,任何一个节点都无法感知到网络的全貌的,如果进行一个比较长的的路径转发,就比较麻烦.需要"一边走一边问".

路径选择就相当于是一个你要去哪,就边走便查.(每个路由器都会保存一定的周围设备的信息(路由表),每次一个IP数据报经过路由器,都需要匹配路由表,看看接下来咋走,如果路由表上有匹配项就按照它走,如果没有就朝着那个方向走,方向错不了)

还是之前那个TTL-1,如果减到0就丢弃这份数据.根据六度空间理论32左右的TTL就可以将信息发送给世界上任何一台主机上了!!!

四、数据链路层

这一层主要考虑两个节点之间的传输(通过光纤和网线进行连接两个设备)

这里的典型协议最为知名的就是"以太网".(比如我们的网线,也被称为"以太网线") 具体就是遵守以太网的网线

1.以太网数据帧

以太网数据帧=帧头+载荷+帧尾

载荷中包含完整的IP数据报

帧头中包含目的地址、源地址、类型

此处不是使用IP地址了,使用的是mac地址(也被称为物理地址,注意和IP地址完全独立,另一套地址体系,6个字节)

mac地址:6个字节构成,48位有效位.不是动态分配的,而是网卡出厂时就已经设置好了

有线网卡的mac地址:

无线网卡的mac地址:

既然已经有了IP地址为什么还需要mac地址呢?IP地址/mac地址可不可以自己就搞定一切呢?

答案是可以!!!主要是负责网络层和数据链路层的是两拨人,所以每一层所遵循的协议也不一样,逐步演化为了两种地址相互配合的局面.

所以说,当下IP地址和mac地址是如何相互配合的呢?

IP地址来描述整个传输过程的起点和终点,mac地址用来描述相邻两个节点的起点和终点.

就比如:我想要从北京到上海.

通过网络层的数据规划,我们选取了从北京 -> 天津 -> 上海这条路线:

北京 -> 天津

源IP:北京

目的IP:上海

源mac:北京

目的mac:天津

中间选取了乘坐长途汽车.

天津 -> 上海

源IP:北京

目的IP:上海

源mac:天津

目的mac:上海

中间选取了乘坐飞机.

IP描述的是全程的起终点,而mac描述的是当前任务的起终点.

类型:

0800指的是普通的以太网数据帧,载荷部分就是一个完整的IP数据报.

0806载荷部分是一个ARP报文

8035载荷部分是一个RARP报文

通过RAP协议可以在交换机/路由器中建立出一个表,这相当于一个hash表,能够建立出IP和mac之间的映射关系.(相当于是知道mac就可以知道IP,知道IP也可以知道mac)

2. 认识MTU

MTU是一个数据链路层的数据帧,能够承载数据的最大长度

载荷具体多长,和使用的物理介质、数据链路层使用的协议有很大的关系,比如以太网数据帧MTU 1500(字节)

正是这个MTU引起了IP协议的分包组包

五、DNS

DNS也被称为"域名解析系统",是当前互联网的基石.也就是网址,类似"www.baidu.com"这样的.就是IP地址太过拗口,也不好记,所以开发了DNS.

举个例子:

打开cmd ,ping一个网址,比如说"www.baidu.com"

就可以使域名和IP地址对应上.

之前使用的是hosts文件(需要手动设置IP地址和域名的键值对,类似hash表),现在就是使用DNS服务器(自动联网查询服务器中的键值对,这个服务器在你的电脑中)

当前我们要求,域名要保证唯一,域名分为一级域名(.com)、二级域名(baidu)、三级域名(www.)有一级不重复就可以.

手动设置DNS可以百度搜一下,一搜一大堆.

你可能感兴趣的:(JavaEE,网络协议,网络)

基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
多子女家庭问题 3e5c5362403c
杨宁宁焦点解决网络初17中19坚持分享589天（2021.3.20）本周约练我1次，总计166次，读书打卡第256天案例督导收获：【家有老大篇】被爱与高期待下的独舞家里的第一个孩子往往集万千宠爱于一身。爸爸妈妈、爷爷奶奶、姥姥姥爷的目光都聚焦在他的身上。在这种光环下长大的孩子，就如小皇帝一般，衣来伸手、饭来张口。拥有爱的同时，也意味着拥有了更高的被期待，父母会花血本给你报各种各样的早教班，给你买各
父母教育孩子的方式，将影响孩子一生树英教育
为什么有些孩子总是充满自信与快乐？独立、有主见又坚强？而有些孩子却自卑、胆怯，软弱又过度依赖父母？为什么有些孩子总是健康、阳光又富于创造力？而有些孩子却悲观、孤僻又思想空乏？一个孩子的行为取决于孩子的思想，思想取决于环境和自己的认知，认知取决于教育。父母是孩子人生中的第一位教育者，父母养育孩子的方式，将决定他们人生的高度，影响他们的一生。网络图，侵权即删优秀的父母就像园丁，既要浇水施肥，又要修剪杂
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
戴容容中原焦点团队.网络初级第33期,坚持分享第19天 2022年3月9日 TessDai
《每个人眼中的世界都是不同的》“一千个人眼里有一千个哈姆雷特”世界是多元的,每个人都有自己的道理,人人按照自己的理解去看待这个世界的人和物.我们如此,其他人也是如此.因此,任何事情,我们要放下自己以为的真理,去理解他人认为的真理,只有同频方能共振.孩子在慢慢长大的过程中慢慢学会独立,甚至对抗.尤其当孩子处于青春期的时候,他们开始有很多自己独立的想法,和一些特立独行的做法,家长常常会觉得不可思议,觉
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
高考后该不该给孩子买电脑，什么情况能买？什么情况不能买？寻求改变
我知道家长们很担心，怕买了电脑小孩沉迷游戏，耽误了学业，也不利于身体健康。对于准大学生来说，基本上在18岁左右，也不算小了，但在很多父母眼里，依旧是个小孩子。数据显示，这种情况是有发生的，大学生约70%的电脑主要被用于玩网络游戏，如果没有养成一个用良好的习惯，对孩子影响是非常大的。我总结为三买，三不买。最近有看到群里很多家长再问，小孩上大学该不该给他买电脑，要买和不买两种观点的家长都有，那么哪种情
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
中国广电永久9元流量套餐！性价比最高流量卡套餐介绍！优惠攻略官
中国广电是中国最大的传媒集团之一，其推出的流量套餐备受消费者青睐。中国广电最实惠的流量套餐不仅价格亲民，而且提供了优质的网络体验。首先，中国广电的流量套餐价格实惠，适合不同消费者的需求。无论是短期的日租卡还是长期有效的月租卡，用户都可以根据自己的实际情况选择适合自己的套餐。而且，流量的价格相对于其他运营商的套餐来说更加合理，给用户提供了更大的选择空间。☞大流量卡套餐「→点这免费申请办理」或者截图扫
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
4 大低成本娱乐方式: 小说, 音乐, 视频, 电子游戏穷人小水滴娱乐音视频低成本小说游戏
穷人如何获得快乐?小说,音乐,视频,游戏,本文简单盘点一下这4大低成本(安全)娱乐方式.这里是穷人小水滴,专注于穷人友好型低成本技术.(本文为58号作品.)目录1娱乐方式1.1小说(网络小说)1.2音乐1.3视频(b站)1.4游戏(电子游戏/计算机软件)2低成本:一只手机即可3总结与展望1娱乐方式这几种,也可以说是艺术的具体形式.更专业的说,(娱乐)是劳动力再生产的重要组成部分.使人放松,获得快乐
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
计算机网络八股总结 Petrichorzncu 八股总结计算机网络笔记
这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
每日头像|爱与时光，终年不遇一宝先生
小可爱们晚上好呀今天晚上来推送一期情侣头像~喜欢的小可爱可以点赞收藏评论哟~部分素材来自网络，版权归原创者，如有侵权请联系删除今天的头像结束啦喜欢的小可爱可以点下关注哟~如果喜欢本期的内容可以转发分享哦~那我们下期再见咯~拜了个拜~
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
年的味道~ 心理疗愈师英子
小时候，最期盼过年，一想到过年有压岁钱拿、有新衣服穿、不用上学还有好东西吃，就兴奋不已。可是不知道从什么时候开始，很多人那种儿时满怀期待过年的感觉没有了，对年的期盼也越来越少。现在物质极大丰富，以前过年才有的丰盛年夜饭，现在几乎已成家常便饭，对过年有好东西吃的期盼没了。现在网络购物发达，服装店也遍布大街小巷，随时都可以添置新衣服，而不必非要等到过年，儿时那种大年初一从头新到脚的仪式感没有了。放鞭炮
2021-07-09 2018心如止水
张雲芳焦点解决网络课程学习坚持分享第816天20210709本周第2次（约练总291）渴了喝水；饿了吃饭；累了休息。看似简单的选择与行为，做起来却没那么容易。尤其是作为成年人，每天有工作需要完成，有孩子、家人需要陪伴，有时候各种事情赶在一起，忙的晕头转向、焦头烂额，即使自己特别累，也没有间隙去休息一下下，想象一下身体疲惫，精力耗竭是什么样的状态？对于孩子的哭闹你还会有更多的耐心吗？我想多数情况下都
寓美于心琴韵无声
今天是“语文湿地2021网络年会”第一天。年会早上七点在尹东老师和王君老师的激情开幕致辞中开始。一天下来听了八节课，真是“八仙过海，各显神通。”精彩纷呈。愚笨如我，真的是找不出一个恰切的词来形容她们的美妙绝伦。今天一口气吃下了饕餮盛宴，留待日后慢慢反刍吧。今天的压轴大戏是王君老师的《若爱，深深爱；若写，深情写》——跟《土地的誓言》学意象铺排”艺术。又加上是最后一节听的，印象最为深刻。凭着印象先略记
RabbitMQ生产者重复机制与确认机制 java炒饭小能手 java-rabbitmq rabbitmq java
重复机制生产者发送消息时，出现了网络故障，导致与MQ的连接中断。为了解决这个问题，SpringAMQP提供的消息发送时的重试机制。即：当RabbitTemplate与MQ连接超时后，多次重试。需要修该发送端模块的application.yaml文件，添加下面的内容：spring:rabbitmq:connection-timeout:1s#设置MQ的连接超时时间template:retry:ena
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

网络原理知识

一、自定义协议

1.为什么要自定义协议?

2.如何自定义协议

1)结合需求,分析清楚,请求响应(服务器/客户端之间)要传递哪些信息.

2)明确传递的信息以什么样的格式进行组织

我们怎么构造这个传输格式,服务器就怎么解析.但这个组织格式和我们的业务没有太大的关系(不用自定义了,可以按照某种指定的格式),所以说一些大佬就发明了一些格式的模板:

XML:

2.json

3.protobuffer

二、传输层协议

1.端口号

要求:在一台主机上,一个端口号不能被多个进程所绑定.

构成:端口号是由2个字节16个bit位组成的,所以说端口号的范围:0--->65535.

以上信息需要记忆!!!

2.UDP

1)UDP报文结构

这里的的UDP报头里装有一些特定的属性,就携带了一些重要的信息,对于UDP来说,报头一共是8个字节,分成了4个部分(每个部分2个字节):

生成校验和的算法有很多,其中比较知名的几个:

CRC(就是进行简单的循环计算,万一结果同时变动了两个bit位,那么CRC也不会变,错误率高,几乎不用)

MD5(有一系列的书序公式进行复杂的运算)

MD5的特点:

MD5的作用:

SHA1

3.TCP

1)报文格式

首先是第一层:16位原/目的端口号和UDP一样.

保留:英文resevered,意思就是现在不用,但是保留以后再用.此处的TCP保留6位是为了以后的扩容做准备.(解决了UDP只有64KB的这个缺点)

选项:英文option =>optional(可选的,可有可无的)此处的选项对于TCP报文的一些选项进行解释说明的,我们可以计算一下,一行是4个字节,而在选项前面的内容固定共有20个字节,因此首部长度-20字节,就是选项部分的长度.

2)TCP工作机制

1.应答机制

如果情景再复杂一点:

但如果在网络上有可能会出现"后发先至"的情况.

出现原因:

举个例子:(接亲)

在网络通信中,那句"同学能把电脑借我"和"那能借我纸和笔用一下吗"可能走的都是不同路线,比如一个进过了路由器,而另一个走的交换机,而且二者的"路况"也不太一样,所以说到达的顺序也就不一样.

解决方法:只要把传输的信息和应答报文都编号就可以了!!!

而这个序号和确认序号,就在报文结构中有所提及:

表示的含义:

小结:可靠传输是通过应答机制来实现的,通过应答报文,就可以清楚的确认数据的传输是否成功.引入的序号可以用于解决"后发先至"的问题.

2.超时重传

丢包的原因有两种:

解决方法:

小结:由于超时和重排序机制的存在,只要发现ACK没有按时到达,就会重新传输数据,及时顺序乱了都没事,接收方可以很好的处理数据.(去重和重排序都依赖报头的序号)

总结:可靠传输是TCP传输机制的核心,是通过确认应答+超时重传来体现的,其中确认应答是传输顺利的情况,而超时重传是传输出现问题的情况,这两种机制互相配合共同支撑着TCP传输的可靠性.

3.连接管理(高频考点)

连接:英文是Connection,在网络通信中,连接是在A记录上B的IP与端口号,并且B记录上A的IP和端口号之后,将这部分信息保存在一个数据结构中,这个过程就叫做"建立连接",而连接(Connection)是这个过程的结果.

同时,A和B分别将储存在数据结构中的双方的IP和端口号,删除了,就叫做断开连接.

(1)建立连接(三次握手)

举个例子:

这三次信息交互被称为"三次握手"

"三次握手"的三种作用:

总结:所谓的三次握手,其实是四次信息交互,通信双方都要各自向对方发送一个"建立连接"的请求,同时还要回应对方一个ack,这里其实有四次信息交互,但是中间两次可以合并为一次交互,因此被称为"三次握手".

这里指的是TCP的状态,类似之前讲的线程状态,但是很复杂,需要认识几个常见的状态:

建立连接状态:

(2)断开连接(四次挥手)

为什么是四次挥手,而不是跟三次握手一样是三次挥手呢?中间的两次可不可以合并呢?

还记得上个博客写的服务器代码吗?

小结:所以说我们通常把大多数发生的这四次信息交互,称为"四次挥手".少数的中间两次可以合成一次的情况就自动忽律不计了!!!

大概就是上面那一部分,这里也有两个特别重要的TCP状态:

4.滑动窗口

IO操作花费的时间:

而这就是我们的滑动窗口实现的功能:

滑动窗口原理:

丢包大概分为两类:

ack丢了

数据丢了

5.流量控制

所以说如何衡量接收方的处理能力,这时就用到了流量控制:

每次A给B发送数据,B就需要算一下接收缓冲区的剩余空间还有多少,然后通过ack将这个值还给A,A再通过这个值来决定接下来发送的速率是多少.(窗口大小是多少)

我们还记得再TCP的报头结构中就有一个窗口大小:

这张图具体解释了流量控制的过程:

6.拥塞控制

好处:这样既解决了问题,又课随着网络的动态变化而变化.

7.延时应答

原理:收到数据之后,不是立即返回ack了,而是等一会儿再返回(延时).等待一会儿后,让应用程序再把接收缓存区中的数据消耗一会儿,这时接收缓存区的剩余部分就变大了,此时再返回ack.

8. 捎带应答

9.面向字节流

解决方法:

约定号应用层协议规定好数据报与数据报之间的边界即可.