爬虫原理与数据抓取--爬虫基础教程(python)(一)

为什么要写网络爬虫?

首先,我们知道如今大数据十分火热,那么数据从何而来呢?
小编整理了一下:

  • 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
  • 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所
  • 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
  • 数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询
  • 爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。拉勾网Python爬虫职位

网络爬虫的定义是什么?

百度百科:网络爬虫
按照自己的话来说,互联网就是一个很大的蜘蛛网,而爬虫就是网上爬来爬去的蜘蛛。

那么这个蜘蛛除了爬取数据还有什么其他用处呢?

我们会在掌握基础后,实现以下功能:

  • 12306抢票
  • 网站上的抢票
  • 等等...

python写网络爬虫我们需要掌握:

  • Python基础语法(基础知识)
  • 对前端页面结构的掌握(html,js),内容的抓取(数据抓取)
  • 对HTML页面的数据提取(json数据的提取)
  • Scrapy框架以及scrapy-redis分布式策略(第三方框架)
  • 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)的战争。。。

内容参考传智播客

你可能感兴趣的:(爬虫原理与数据抓取--爬虫基础教程(python)(一))