Python3网络爬虫入门详解(一)

爬虫的概念:

爬虫就是获取网页并提取和保存信息的自动化程序

爬虫的分类:

主要有四类:

通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫

爬虫的流程:

Python3网络爬虫入门详解(一)_第1张图片

常见的几种爬虫问题:

主要有五类:

静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用

常见的爬虫框架:

pyspider框架,Scrapy框架

分布式爬虫:

在多台机器上运行爬虫程序

爬虫的一些常用"库":

解析库:lxml;Beautiful Soup;pyquery;tesserocr

请求库:requests;

数据库:MySql;MongoDB;Redis

Web库:Flask;Tornado

了解熟练这些基本上就对爬虫有了很深的理解了。

爬虫项目实战:

抓取猫眼电影排行,爬取淘宝商品,几种验证码的识别,使用代理爬取微信公众号文章,使用Scrapy爬取新浪微博(分布式)

我会将自己所学的(以上所列的一一记录在博客里),温故而知新吧。

 

 

 

你可能感兴趣的:(爬虫,python)