Python 爬虫基础知识


1.技术选型
一般采用 scrapy + beautifulsoup 或者是 request + beautifulsoup
1.1
scrapy是一个框架,requests和beautifulsoup都是库,层级不同
scrapy是一个框架可以加入 requests和beautifulsoup的库
scrapy基于twisted,性能卓越(异步的io框架)
scrapy方便扩展,有着丰富的内置功能
scrapy内置CSS和Xpath selector 非常方便,相较于beautifulsoup,beautiful最大缺点是慢
项目采用:scrapy和requests 来主要实现


2.网页分类
静态网页
在服务器端事先生成好的一种页面,不会改变。


动态网页
通过传递数据/参数的不同,服务器返回不同的数据


webservice(restapi)
属于动态网页的一种,动态填充数据


3.python爬虫所能实现的功能
3.1 搜索引擎:百度、google、垂直领域搜索引擎(搜索指定数据)
3.2 推荐引擎:今日头条
3.3 机器学习的数据样本
3.4 数据分析:金融分析、舆情分析


基于目标网页特征
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:
(1) 预先给定的初始抓取种子样本;
(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;
(3) 通过用户行为确定的抓取目标样例,分为:
(a) 用户浏览过程中显示标注的抓取样本;
(b) 通过用户日志挖掘得到访问模式及相关样本。

你可能感兴趣的:(python)