2.网络爬虫基本原理

01.网络爬虫本质
最大的爬虫就是各种搜索引擎,如谷歌、百度。
网络爬虫就是按照一定规则去抓取人类所需要的信息的程序,主要通过对URL的请求实现。


image.png

浏览器的一次请求,网站服务器的一次响应,就构成一次网络爬虫行为。

02.网络爬虫基础流程
1.获取网页的URL地址
2.分辨请求网页的方法
GET/POST
3.查看网页的源代码
4.撰写爬虫请求头
5.解析页面内容
bs4/xpath/re
6.存储信息到本地
03.开发者工具

你可能感兴趣的:(2.网络爬虫基本原理)