爬虫的原理

1 什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序

原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做

2 爬虫的本质

模拟浏览器打开网页,获取网页中想要的那部分数据

浏览器打开网页的过程如下:
爬虫的原理_第1张图片

请求的过程:

  1. 浏览器先向地址栏中的url发起请求,并获取相应

  2. 在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应

  3. 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应

  4. 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

注:

在爬虫中,爬虫只会请求url地址,对应的拿到url地址对应的响应(该响应的内容可以是html,css,js,图片等)

浏览器渲染出来的页面和爬虫请

你可能感兴趣的:(python爬虫,爬虫的原理,认识爬虫,爬虫的本质,Python爬虫)