一、 数据分析的流程
1. 定义问题
2. 获取数据,清洗以及存储数据,分析以及建模
3. 网站系统or报告的形式展示分析结果
二、 常用的获取数据的方法
1. 公开的数据集
从一些开放数据的网站如某些政府官网获取公开数据集
数据竞赛举办方同样也会提供一些数据集
2. 通过网站爬虫获取数据
某些网站会提供一些API接口,但使用API会有一定的限制,只能访问网站允许你访问的内容
网页爬虫:下载整个页面,抽取对应位置的所需的信息
三、 数据清洗以及存储
1. 数据清洗
也就是对一些重复的数据、缺失的数据进行处理
2. 数据存储
通常用数据库来存储大量的数据,数据库的结构应合理设置以便于插入以及查询数据
四、数据分析以及建模
数据分析背后的原理是统计学原理,比如说大数定理、中心极限定理等
基于这些统计学原理得到一些用于数据分析的技术,比如有假设检验、线性回归等。这些分析类技术可以概括为两大部分,第一部分是Exploratory Data Analysis探索性数据分析,这个是从已经得到的数据中提取这些数据的特征和特性;第二部分是Statistical Inference统计推理,这个是从数据的特征中推理得到结论、知识或者是一些决策