数据的获取——爬虫

在数据科学领域阶段,很多人往往将焦点着眼于数据的处理和分析,殊不知数据本身才是最大的价值,无论是看上去再无用的数据,往往都蕴含着量变引起质变的魅力,而如今是“大数据”的时代,互联网每天产生约33ZB(2018年,1ZB=10244GB)的数据,所以:

Data is treasure!

爬虫的概念:

简单的来说,爬虫就是一个模拟人类请求网站行为的脚本。它通过自动请求网页、将数据抓取下来,然后使用一定的规则提取有价值的数据。

爬虫的例子:

  • 数据分析研究软件
  • 搜索引擎
  • 抢票软件

爬虫的类别:

  • 聚焦爬虫 (自己学习的内容~~)
    在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
  • 通用爬虫
    搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份

你可能感兴趣的:(数据的获取——爬虫)