数据分析1 -- 数据集的获取

一、获取现成的数据集

现成的数据集大概有两种:比赛数据集和行业数据集。

比赛数据集

目前数据分析大赛认可度比较高的比赛一个是国际上的 kaggle,一个是国内的天池。

kaggle 可以说是所有数据分析大赛的鼻祖,也是目前世界范围内规模最大的数据分析比赛,但存在两个问题:一是全英文网站,二是国内访问速度较慢。整体来说对新手并不是很友好。

天池是国内目前影响力最大的比赛,整体平台的配置、数据集的丰富度都有保障,并且还有一系列新手赛帮助入门。

这里以天池平台为例,示范如何获得比赛的数据集。

(1)访问天池官网:https://tianchi.aliyun.com/,并使用淘宝账户注册、登录。

(2)选择天池大赛 - 学习赛,进入学习赛列表。

数据分析1 -- 数据集的获取_第1张图片

(3)下滑列表,选择二手车交易价格预测比赛,标题为:“零基础入门金融风险 - 贷款违约预测”。

(4)进入比赛详情页后,点击报名参赛。

(5)点击左侧的赛题与数据,进入数据集的页面,这个页面的上方是数据集的下载链接,下面则是数据集的描述。

 行业数据集

除了比赛用的数据集之外,个人还可以从一些行业公开的网站上获得用于分析的数据。在这里列举三个比较常用的,供简单参考。

(1)清博智能:http://www.gsdata.cn/

清博智能是一个聚焦新媒体行业的大数据服务网站,提供了大量新媒体渠道的优质榜单,比如微信、头条、抖音……。只需要登录便可查看,同时支持下载为 Excel 格式。

2)房天下房价指数:https://fdc.fang.com/index/

顾名思义,这里提供的是房价相关的数据集,但数据均值以表格的形式提供的,没有 Excel 的形式。

(3)移动观象台:http://mi.talkingdata.com/app-rank.html

移动观象台提供了热门手机 App 的排行数据,手机 App 排行一直都是数据分析的热点。很多公司都希望通过对榜单进行分析来抓住用户的最新的兴趣以及来调整自己的业务方向。不过遗憾的是,它和房天下一样,移动观象台仅提供了网页访问,不可以下载 Excel 或者 CSV 格式文件。

二、 爬虫进行数据集构建

爬虫是一类程序的名称,也有人称之为网络爬虫。爬虫程序简单理解就是下载网页并按照一定的规则提取网页中的信息,而 Python 则是市面上最适合用来开发爬虫程序的语言。

1. 爬虫的主要流程

本质上,爬虫的原理类似于我们拿来上网的浏览器,比如 Chrome、Edge 。我们首先来说一下浏览器的工作原理,以 Chrome 为例:

数据分析1 -- 数据集的获取_第2张图片

如图所示,浏览器的流程大致分为四个步骤:

1. 用户输入网址,告诉浏览器想看的网页;

2. 浏览器根据网址,去找网址对应的服务器请求网页内容;

3. 网址对应的服务器将网页内容返回给浏览器;

4. 浏览器将收到的网页内容画在窗口中展示给用户。

了解了浏览器的工作内容,我们来看一下爬虫的工作流程:

数据分析1 -- 数据集的获取_第3张图片

可以看到,爬虫的工作流程和浏览器非常相似,第二步和第三步与浏览器完全相同。爬虫的工作主要包括以下步骤:

1. 用户在代码中指定要抓取的网页的网址;

2. 请求网址对应的服务器;

3. 服务器返回网页内容;

4. 根据用户指定的规则提取感兴趣的内容。

从上面的例子可以看出,我们要实现一个爬虫程序,主要要实现三大模块。

  • 数据请求:可以像浏览器一样,根据一个网址去下载对应的网页内容。
  • 网页分析:根据规则,从网页繁多的文字、图片中筛选出感兴趣的内容。
  • 数据保存:抓取到的感兴趣的内容保存到CSV、Excel 文件中,为后续的分析环节做好准备。

你可能感兴趣的:(玩转Python数据分析,数据分析,数据挖掘)