吊打名企面试官 | 当我们打开一个网页时,究竟发生了什么?
吊打名企面试官 | 如何理解java的反射机制?
这个题目主要考察面试者对整个计算机网络的理解。涉及的知识面非常广泛,协议、软件、安全、硬件、高并发、高可用等等。
回答要点
浏览器做了哪些事情。
内核协议栈做了哪些事情。
web服务器相关话题。
CDN加速网络服务。
下面我们就上面4个点分别说明。
当输入https://www.baidu.com/index.html,浏览器进行URL解析,首先会看https,就知道我们要访问的是web服务器,www.baidu.com是web服务器名字,后面index.html就是数据源路径和文件名。
根据上面的解析结果生成HTTP请求消息。
GET /index.html HTTP/1.1
User-Agent: curl/7.29.0
Host: www.baidu.com
Accept: */*
发送请求后,会得到服务器的响应消息。
HTTP/1.1 200 OK
Accept-Ranges: bytes
Cache-Control: private, no-cache, no-store, proxy-revalidate, no-transform
Connection: keep-alive
Content-Length: 2443
Content-Type: text/html
浏览器生成了HTTP请求后,需要操作系统来把数据发送出去,内核协议栈用的是IP,并不是域名,所以要进行域名(DNS)解析。web浏览器中其实就是gethostbyname ("www.baidu.com"),就可以获得IP地址。
gethostbyname函数内部实现就是生成DNS查询消息,发送UDP查询消息到DNS服务器,得到DNS服务器的响应,从响应消息中取出IP。这里需要注意,我们要去DNS服务器查询信息,需要知道DNS服务器的IP地址,所以要配置正确。国内移动、电信、联通的通用DNS:114.114.114.114。
DNS系统是三层树状、分布式服务。
目前全球有13组根域名服务器,又有几百台镜像,保证一定能被访问得到。有了这个系统,我们查询域名www.baidu.com对应的IP,按照如下顺序:
访问根域名服务器,它告诉我们com域名服务器地址。
访问com域名服务器,它告诉我们baidu.com域名服务器的地址。
访问baidu.com域名服务器,得到www.baidu.com的地址。
我们为了加速域名解析,也可以在自己公司内部搭建DNS服务器,缓存域名对应的IP。其实我们操作系统也会缓存曾经访问过的域名。当然,我们还可以在操作系统的hosts文件中,记录域名对应的IP地址。如果在这些地方能够找到ip地址,就避免了远程访问DNS服务器,加快了DNS解析过程,也减轻了DNS服务器的压力。
得到了目标机器IP地址,浏览器就可以用socket,委托内核帮我们发送数据了,代码如下:
int fd = socket(AF_INET, SOCK_STREAM, 0);
connect(fd, 服务器地址);
while ( 1 ) {
write(fd, http请求数据);
read(fd,服务器响应的数据)
}
close(fd);
浏览器拿到服务器的响应数据,解析报文,对于HTML文件,调用排版引擎、js引擎等来处理,然后在浏览器展示。
当然,如果近期访问过的网页,很有可能缓存在本地,这样再次访问,就不需要去服务器拿数据,直接访问本地缓存数据,可以降低服务器的压力,提高响应速度。
因为HTTP协议底层用的是TCP协议,所以要经过三次握手进行连接,传送数据,最后四次挥手断开连接。
内核协议栈主要是将应用层HTTP请求按照TCP/IP协议栈的要求,经过层层封装后成帧,然后将报文的类似0101001串转换成电信号发送出去。
这里要注意MAC头部的目标机器MAC,是下一跳机器的MAC,如果当前机器没有缓存,就需要ARP广播,先得到去往目标机器的下一跳机器的MAC,这样才能逐跳转发。还有,局域网的IP地址也不能在公网上使用,所以在出网关的时候,IP地址通过NAT转换成公网地址。
目标服务器得到了客户端的HTTP请求,如果找到相应的资源文件,组成HTTP响应报文,将资源发送回来,如果没有找到,就会给客户端返回404错误。
目标网站的服务器对外表现是一个IP,为了能够扛住高并发,内部往往是一套非常复杂的架构,入口有负载均衡设备,比如四层的LVS和七层的Nginx,后面有许多服务器构成一个集群。
负载均衡服务器先访问内存级的缓存,比如redis,把频繁访问的数据缓存几秒到几分钟,减轻后端服务器的压力。如果缓存没有相应的数据,再把请求转发给应用服务器,应用服务器如果需要数据,再访问后端的数据库服务器。为了提高数据库并发能力,可以做成读写分离,目前主流的数据库都实现了这个功能。
互联网虽然是一个大网,其实它由好多个小网组成,各个小网又相互连通,比如电信、移动、联通,各自是一个网络,它们之间需要联通。
小的网络内部很流畅,网络之间只有很少的联通点。如果网站在中国移动,笔记本在中国联通,那么就必须跨网传输。大量的用户去抢这个联通点,就会带来网络压力,产生比较大的延迟。另外,每过一个网络节点,都需要停顿一下,二层、三层的解析转发,也会带来延迟。为了解决这种上网速度慢的问题,CDN就出现了。
CDN中文名称是内容分发网络,它主要解决的问题是就近访问的问题。CDN分发源站的内容,也就是把源站的内容缓存在各个节点上。用户上网就不直接访问源站的内容,而是访问距离它最近的一个CDN节点,术语叫边缘节点,其实就是缓存了源站的内容,就是源站的一个代理服务器,避免远距离访问源站,实现网络加速。
CDN里面缓存的数据,主要是html、图片、视频等静态资源。动态资源往往都需要源站实时生成,缓存也没有太大意义,不过,我们也可以短暂的缓存动态资源,在这段短暂的时间内,动态资源也就变成了静态资源,可以被CDN缓存以实现加速。
网络上的资源无穷无尽,CDN不可能全部缓存起来,只能缓存最常见的资源。如果所访问的资源就在CDN缓存中,也就是命中了,直接返回给客户端。如果没有命中,则要去源站取数据,也叫回源。
我们应该尽可能的提高命中率,降低回源率。这就需要在存储系统上做更多的事情,比如硬件上,要更大的内存,更大和快速的磁盘,比如SSD,万兆以太网,更高速的CPU等。软件上,可以用redis等尽可能高效利用存储,存下更多的内容。
1.浏览器主要发送HTTP请求,接收HTTP响应,然后然后进行渲染,展示到界面。
2.HTTP底层走的是TCP/IP,如果不知道IP,就需要DNS协议解析。
3.TCP连接后收发HTTP数据包。
4.为了降低服务器压力,加快访问速度,有很多缓存,比如,客户端缓存,CDN缓存,负载均衡器缓存等。
由于网络是非常复杂的,本文对所涉及的知识点,只是浅尝辄止,旨在让读者对浏览器输入URL后的过程有一个总体认识。