Day9 Python系列之爬虫 2019-05-31

为什么做爬虫

互联网的数据爆炸式的增长,而利用 Python 爬虫我们可以获取大量有价值的数据:

1.爬取数据,进行市场调研和商业分析

爬取知乎优质答案,筛选各话题下最优质的内容; 抓取房产网站买卖信息,分析房价变化趋势、做不同区域的房价分析;爬取招聘网站职位信息,分析各行业人才需求情况及薪资水平。

2.作为机器学习、数据挖掘的原始数据

比如你要做一个推荐系统,那么你可以去爬取更多维度的数据,做出更好的模型。

3.爬取优质的资源:图片、文本、视频

爬取商品(店铺)评论以及各种图片网站,获得图片资源以及评论文本数据。
掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现。
但建议你从一开始就要有一个具体的目标,在目标的驱动下,你的学习才会更加精准和高效。这里给你一条平滑的、零基础快速入门的学习路径:

  1. 了解爬虫的基本原理及过程
  2. Requests+Xpath 实现通用爬虫套路
  3. 了解非结构化数据的存储
  4. 应对特殊网站的反爬虫措施
  5. Scrapy 与 MongoDB,进阶分布式

爬虫原理等知识,请查看这篇文章介绍

Python中爬虫相关的包

urllib、requests、bs4、scrapy、pyspider

实战例子

Github地址:Alfred的实验室

你可能感兴趣的:(Day9 Python系列之爬虫 2019-05-31)