1)数据获取:
1.1.了解公开数据集的渠道1.2.用爬虫爬取网站数据
2)数据存储、提前:
2.1.SQL实现数据存储、查询、提前
2.2.数据库的分组、聚合
2.3.SQL建立多表联系
3)数据预处理:
3.1.用python进行数据预处理
4)数据建模与分析:
4.1.统计学基础知识
4.2.统计量的描述与展示
4.3.假设检验
4.4.常用的回归分析
4.5.基本的分类、聚类算法
4.6.提升分析进度--特征工程
5)数据可视化:
5.1.用python进行可视化分析
5.2.分析结果展示、数据报告撰写一、数据获取:公开数据、python爬虫
1.获取外部的公开数据:2.python爬虫:
1)了解python的基础知识:元素(列表、字典、元组等)、变量、循环、函数...
2)python库(BeautifulSoup、requests、scrapy)
3)高级技巧:正则表达式、使用cookie信息、模拟用户登陆、抓包分析、搭建代理池二、数据储存:SQL
1.提取特定情况下的数据
2.数据库的删、增、查、改
3.数据的分组聚合、如何建立多个表之间的联系三、数据预处理:python(pandas)
1.选择:数据访问(标签、特定值、布尔索引等)
2.缺失值处理:对缺失数据行进行删除或填充
3.重复值处理:重复值的判断与删除
4.异常值处理:消除不必要的空格和极端、异常数据
5.相关操作:描述性统计、Apply、直方图等
6.合并:符合各种逻辑关系的合并操作
7.分组:数据划分、分别执行函数、数据重组
8.Reshaping:快速生成数据透视表四、概率论及统计学知识:
1.基本统计量:均值、中位数、众数、百分位数、极值等;
2.其他描述性统计:偏度、方差、标准差、显著性等;
3.其他统计知识:总体和样本、参数和统计量、ErrarBar;
4.概率分布与假设检验:各种分布、假设检验流程;
5.其他概率论知识:条件概率、贝叶斯等;
五、python数据分析:
1.回归分析:线性回归、逻辑回归
2.基本的分类算法:决策树、随机森林
3.基本的聚类算法:k-means
4.特征工程基础:如何用特征选择优化模型
5.调参方法:如何调节参数优化模型
6.python数据分析包:scipy、numpy、sctiti-learn等
在数据分析这个阶段,重点了解回归分析的方法,利用描述性的统计分析和回归分析。更高级的算法:分类、聚类。一个好的分析师,应该也是一个初级的数据挖掘工程师。