DDDDDC-01Part

一、 数据分析的流程

1. 定义问题

2. 获取数据,清洗以及存储数据,分析以及建模

3. 网站系统or报告的形式展示分析结果

二、 常用的获取数据的方法

1. 公开的数据集

从一些开放数据的网站如某些政府官网获取公开数据集

数据竞赛举办方同样也会提供一些数据集

2. 通过网站爬虫获取数据

某些网站会提供一些API接口,但使用API会有一定的限制,只能访问网站允许你访问的内容

网页爬虫:下载整个页面,抽取对应位置的所需的信息

三、 数据清洗以及存储

1. 数据清洗

也就是对一些重复的数据、缺失的数据进行处理

2. 数据存储

通常用数据库来存储大量的数据,数据库的结构应合理设置以便于插入以及查询数据

四、数据分析以及建模

数据分析背后的原理是统计学原理,比如说大数定理、中心极限定理等

基于这些统计学原理得到一些用于数据分析的技术,比如有假设检验、线性回归等。这些分析类技术可以概括为两大部分,第一部分是Exploratory Data Analysis探索性数据分析,这个是从已经得到的数据中提取这些数据的特征和特性;第二部分是Statistical Inference统计推理,这个是从数据的特征中推理得到结论、知识或者是一些决策

你可能感兴趣的:(DDDDDC-01Part)