输入www.bilibili.com之后,浏览器的背后发生了什么

今天来复盘一道计网中最经典,也最具延展性的题,从这题可以延伸到非常多计算机网络的知识——“请介绍一下,从浏览器输入一个网址到最终看到页面,经历了哪些过程。”


概述

答曰:大概经历了这么几大过程——

  • DNS 域名解析
  • TCP 连接建立
  • HTTP 请求报文发送
  • 负载均衡
  • 服务器处理请求,并返回响应
  • 浏览器渲染页面
  • 断开连接

在这当中还会有一些较底层的过程,比如路由选择和 ARP 地址解析。

展开描述

1. DNS 域名解析

在网络中,要知道目标站的 IP 地址才有找到其服务器的位置。而我们现在只有 bilibili.com 这个域名,所以要将这个域名转换成它对应的 IP 地址。DNS 域名解析就是负责这一工作的。

我们会在 DNS 缓存中查找这个域名的缓存,如果没有找到则向 DNS 服务器请求解析域名。DNS 缓存一般在这几个地方:浏览器缓存、操作系统缓存、路由器缓存、ISP 通信服务商缓存。向 DNS 服务请求的过程是:

客户机 --> 本地服务器 --> 根服务器

                        --> 顶级域服务器 

                        --> 下一级服务器(权威服务器) 

客户机 <== 本地服务器 <== 根服务器

客户机向本地服务器发起请求查询,如果在本地服务器中不命中,本地服务器再向根服务器查询;根服务器将请求重定向至对应的顶级域服务器,顶级域服务器将其重定向至对应的权威服务器,最终将结果返回给本地服务器。

在查询方式上,client 向本地服务器请求,本地服务器必须答复一个准确的查询结果给到 client,如果它的自身没有储存相应信息,他会再去访问其他服务器以给 client 答复,这叫做递归查询;本地服务器(这里我们把它看作是此次的 client)去请求根服务器,根服务器并不会直接答复最终结果,而是告诉它下一级的地址,本地服务器再去请求下一级服务器,如此迭代直至查询到最终结果,这叫迭代查询

2. TCP 连接建立

与服务器三次握手建立可靠的连接,以发送和接受接下来的 HTTP 报文。

问:”为什么建立连接握手要有三次呢“

”为了确认通信双方的收发功能都正常;为了防止滞留网络的旧的重复连接的初始化;为了同步双方的初始序列号。“

三次握手是一个非常重要,细节也颇多,需要反复理解的过程。其中重点关注 TCP 报文结构的几个地方:

序列号 sequence

夺命追问:“seq 的单位是什么?seq 是从多少开始的呢?seq 是用来干嘛的?”

"seq 的单位是字节。seq 是由客户端和服务端在建立连接时各自随机生成的,为了使旧的无效连接的报文段被丢弃。seq 可以实现接收方报文段的去重和按序接受。"

确认应答号 acknowledgement

ack 指出了”期望的“下一次收到的数据的字节 seq。配合超时重传、滑动窗口机制保证 TCP 的可靠性。

几个控制位的含意 FIN SYN RST PSH ACK URG

小林coding: 吊打面试官!近 40 张图解被问千百遍的 TCP 三次握手和四次挥手面试题

3. HTTP 请求报文发送

cxuan: HTTP 进阶

4. 负载均衡

报文抵达真正的业务服务器前会先被(诸如 Nginx 的)负载均衡服务器接收,再交给业务节点。负载均衡服务器时负责均衡地将大量请求分摊给众多业务节点的服务器。

常用的负载均衡算法有:(加权)随机算法、(加权平滑)轮询算法、(引用虚拟节点的)哈希(环)算法。

5. 服务器处理请求,并返回响应

6. 浏览器渲染页面

7. 断开连接(四次挥手)


路由选择

无论是通过 TCP 传输的 HTTP 报文,还是通过 UDP 传输的域名解析请求,在网络中都要经过网络层的协议来进行分组的传递。IP 分组中有源 IP 地址和目的 IP 地址,但往往目的节点和当前节点不处于同一网络,需要有若干个路由器跳转。如果选择下一跳的地址呢?机器会在路由表中查询。路由表中会有默认网关和其他路由表项,如果没有具体目的地址记录,就会跳转至默认网关,由默认网关在判断下一跳。

特性

下一跳路由选择:只保留下一个路由,而不保留从源站到目的站的完整路由。

特定网络路由选择:不对每个目的站主机保留一个路由表项,而只对目的网络保留。用 0.0.0.0 默认路由表项表示剩余的目的网络。

ARP 地址解析

数据要转发到下一个机器的接口,须知道机器的物理地址。ARP 能够将逻辑上的 IP 地址映射成物理上的 MAC 地址。

一台机器要将包发向下一跳机器前,会在 ARP 缓存中查询有没有下一跳 IP 所对应的 MAC。如果没有,那么他会向该网段广播 ARP 请求。请求时长这样的

包含了源 IP 地址、源 MAC 地址和目的 IP 地址,机器收到了不属于自己的 ARP 请求会丢弃;而如果目的地址就时自己的则响应自己的 MAC 地址给请求者,并将请求者的 "IP 地址 ==> MAC 地址" 缓存在自己的 ARP 缓存中。请求者收到响应后将对方的 MAC 地址写入数据链路帧中,知道了目的 MAC 地址后就能从数据链路层将包发到下一跳机器的接口。

IP 包中的目的地址不会改变,而由 ARP 将下一跳地址映射成 MAC,写入帧中间接交付到下一跳。

你可能感兴趣的:(输入www.bilibili.com之后,浏览器的背后发生了什么)