(2018-05-17.Python从Zero到One)1、(爬虫)爬虫原理与数据抓取__1.1.0爬虫数据与数据抓取

为什么要做爬虫?

首先请问:都说现在是"大数据时代",那数据从何而来?

  • 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数

  • 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所

  • 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。

  • 数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询

  • 爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。拉勾网Python爬虫职位

爬虫是什么?

百度百科:网络爬虫

关于Python爬虫,我们需要学习的有:

1. Python基础语法学习(基础知识)
2. HTML页面的内容抓取(数据抓取)
3. HTML页面的数据提取(数据清洗)
4. Scrapy框架以及scrapy-redis分布式策略(第三方框架)
6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

你可能感兴趣的:((2018-05-17.Python从Zero到One)1、(爬虫)爬虫原理与数据抓取__1.1.0爬虫数据与数据抓取)