Python3网络爬虫开发实战(第二版)

爬虫,是人工智能行业获取数据时最方便、最常用的一种手段。爬虫,也是很多人文社科领域内,获取数据的有效方法,比如用户行为研究、传播学研究、文本分析等等。学好爬虫,找数据不求人。

Python3网络爬虫开发实战(第二版)_第1张图片

Python3网络爬虫开发实战(第二版)_第2张图片 

Python3网络爬虫开发实战(第二版)_第3张图片 

 

厚厚的一本书,一共包括了17章,内容丰富:

第1章介绍学习爬虫前需要了解的基础知识,如HTTP、网页结构、多线程等等,适合初学者。

第2章介绍了最基本的请求库和正则表达式的基本用法。

第3章介绍了网页解析库,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取信息更加方便快捷。

第4章介绍了数据存储的常见形式及数据库存储操作,包括txt文件、jason文件、csv文件的存储,MySQL,MongoDB、Redis的基本存储操作等等。

第5章介绍了Ajax数据爬取,适用于有些网页是用Ajax请求API接口的方式加载的,所以常规方法无法获取。

第6章讲异步爬虫,爬取效率大大提高。

第7章讲动态渲染页面的爬取,介绍了使用Selenium、Splash、Playwright等工具模拟浏览器来进行数据爬取。

第8—11章分别介绍了验证码的处理方法、代理的使用、模拟浏览器登陆、JS逆向等知识。

第12章介绍了App的爬取方法,包括基本的抓包软件如何使用等等。

第13章介绍了Android逆向的相关知识。

第14章介绍了页面智能解析技术,让我大开眼界,推荐阅读!

第15章介绍了目前使用最广泛的Scrapy爬虫框架及用法,包括其基本架构、原理及各个组件的使用方法,以及对接Selenium等的方法。

第16-17章介绍了分布式爬虫,包括基本原理、实现方法、部署及管理,极大提高爬虫效率。

作者还开发了一个爬虫案例平台,覆盖了现在爬虫和反爬虫相关的大多数技术,在这也强烈推荐一下,这么用心的书籍应该被大家看到!

你可能感兴趣的:(爬虫,python,开发语言)