数据采集----网络爬虫(一)

数据采集----网络爬虫(一)_第1张图片

网络爬虫(Web Crawler/Spider)

数据采集的主要方式
按照一定规则,自动抓取万维网信息的程序或者脚本
部分或者全部抽取抓取到的信息,使数据进一步结构化

合法性–Robots协议

深度与广度优先

* 静态和动态网页爬虫

静态网页:爬虫逻辑比较简单
动态网页:网页读取过程需要额外的加载过程
数据采集----网络爬虫(一)_第2张图片

泛用和主爬虫

数据采集----网络爬虫(一)_第3张图片

网络爬虫的基本架构

数据采集----网络爬虫(一)_第4张图片

爬取模块

URL批量获取数据,模拟http请求过程

抽取模块

抽取URL加入队列,使程序持久化
将原本被HTML、XML、JSON进一步结构化

数据存储模块

辅助模块

持久化、队列与多线程

网络爬虫的HTTP原理

数据采集----网络爬虫(一)_第5张图片
linux下在终端输入以下命令:

curl -v http://httpbin.org/get

可以查看HTTP请求的简要过程

你可能感兴趣的:(数据科学,爬虫)