爬虫的概念:
爬虫就是获取网页并提取和保存信息的自动化程序
爬虫的分类:
主要有四类:
通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫
爬虫的流程:
常见的几种爬虫问题:
主要有五类:
静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用
常见的爬虫框架:
pyspider框架,Scrapy框架
分布式爬虫:
在多台机器上运行爬虫程序
爬虫的一些常用"库":
解析库:lxml;Beautiful Soup;pyquery;tesserocr
请求库:requests;
数据库:MySql;MongoDB;Redis
Web库:Flask;Tornado
了解熟练这些基本上就对爬虫有了很深的理解了。
爬虫项目实战:
抓取猫眼电影排行,爬取淘宝商品,几种验证码的识别,使用代理爬取微信公众号文章,使用Scrapy爬取新浪微博(分布式)
我会将自己所学的(以上所列的一一记录在博客里),温故而知新吧。