Python数据分析学习路线

#Python数据分析学习路线

一、数据获取

1、从公开数据源

UCI:加州大学欧文分校开放的经典数据集,真的很经典,被很多机器学习实验室采用。

http://archive.ics.uci.edu/ml/datasets.html

国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。

http://data.stats.gov.cn/index.htm

CEIC:超过128个国家的经济数据,能够精确查找GDP、CPI、进出口以及国际利率等深度数据。

https://www.ceicdata.com/zh-hans

中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息。

http://www.tjcn.org/

政务数据网站:现在各个省都在很大程度上地开放政务数据,比如北京、上海、广东、贵州等等,都有专门的数据开放网站,搜索比如“北京政务数据开放”。

2、网络爬虫

通过爬虫获取数据

3、其他数据获取方式

如果你暂时不会爬虫,但又有采集数据的需求,可以尝试各种采集软件,不需要编程知识也可以轻松爬取信息,比如火车头、八爪鱼等。很多数据竞赛网站也会公开不错的数据集,比如国外的Kaggle,国内的DataCastle、天池。这些数据都是真实的业务数据,且规模通常不小,可以经常去搜集和整理。

推荐数据汇总资源:

数据获取方式汇总  https://dwz.cn/Q44MsDkH

二、数据存储与提取(以MySQL为例)

1、【数据库】数据库连接、创建、删除、查看、选择

https://www.runoob.com/python/python-mysql.html

2、【数据增删改】创建表、删除表、修改表、插入行、删除行、更新行

https://blog.csdn.net/qq_36761831/article/details/83245727

3、【数据查询】之基础查询

https://www.cnblogs.com/wangwei13631476567/p/8999429.html

4、【数据查询】之子查询

https://blog.csdn.net/weixin_44699728/article/details/90320104

5、【排序与索引】之排序语句

https://www.runoob.com/mysql/mysql-order-by.html

6、【排序与索引】之索引:创建索引、添加索引、建表时指定索引、删除索引

https://www.runoob.com/mysql/mysql-index.html

三、数据清洗与预分析(以Pandas框架为例)

1、【生成数据表】之数据读取

https://blog.csdn.net/weixin_42223833/article/details/92841384

2、【生成数据表】之创建数据表

https://blog.csdn.net/mengenqing/article/details/80548208

3、【数据查看】之基本信息

https://blog.csdn.net/qq1195365047/article/details/88561518

4、【数据查看】之查看空值和唯一值

https://blog.csdn.net/starter_____/article/details/79184196

5、【数据查看】之查看前/后 10行

http://sofasofa.io/forum_main_post.php?postid=1004019

6、【数据清洗】之缺失值处理

https://blog.csdn.net/lwgkzl/article/details/80948548

7、【数据清洗】之字符处理

https://www.cnblogs.com/gloria-zhang/p/10696307.html

8、【数据清洗】之重复值处理

https://www.cnblogs.com/hankleo/p/11462532.html

9、【数据预处理】之数据表合并

https://blog.csdn.net/qq_42413820/article/details/80780886

10、【数据预处理】之排序

https://blog.csdn.net/sinat_29957455/article/details/78993732

11、【数据提取】之loc和iloc

https://blog.csdn.net/jiangjiang_jian/article/details/81038638

12、【数据提取】之ix

https://blog.csdn.net/anshuai_aw1/article/details/82801435

13、【数据统计】之采样

https://blog.csdn.net/u013069552/article/details/88935644

14、【数据统计】之汇总

https://www.cnblogs.com/zhanghongfeng/p/8438891.html

四、Numpy框架

1、【数组】之创建数组

https://blog.csdn.net/qq_28893679/article/details/80969005

2、【数组】之切片和索引

https://www.cnblogs.com/sunshinewang/p/6882031.html

3、【数组】之数组操作

https://blog.csdn.net/somilong/article/details/79065847

4、【函数】之字符串函数

https://blog.csdn.net/phinoo/article/details/89678395

5、【函数】之数学函数

https://blog.csdn.net/mooneve/article/details/80156316

6、【函数】之统计函数

https://blog.csdn.net/weixin_44056331/article/details/89949742

五、数据分析统计

【描述性分析】之统计学基础:均值,中位数、众数、百分位数、极值

【描述性分析】之统计学基础:偏度、方差、标准差、显著性

【描述性分析】之统计学基础:总体和样本,参数和统计量,ErrorBar

【描述性分析】之统计学基础:概率分布和假设检验,各种分布,假设检验流程

【描述性分析】之统计学基础:条件概率,贝叶斯

【探索性分析及可视化】之直方图

【探索性分析及可视化】之条形图

【探索性分析及可视化】之计数图

【探索性分析及可视化】之散点图

【探索性分析及可视化】之箱线图

【探索性分析及可视化】之回归图

【探索性分析及可视化】之热力图

【预测性分析】之基本算法模型《回归》:一元线性回归

【预测性分析】之基本算法模型《回归》:多重线性回归

【预测性分析】之基本算法模型《回归》:逻辑回归

【预测性分析】之基本算法模型《分类》:决策树

【预测性分析】之基本算法模型《分类》:朴素贝叶斯

【预测性分析】之基本算法模型《分类》:KNN

【预测性分析】之基本算法模型《聚类》:Kmeans

【预测性分析】之基本算法模型《聚类》:密度聚类

推荐看,可汗学院的公开课-统计学:

http://open.163.com/movie/2011/6/6/0/M82IC6GQU_M83J9IK60.html

你可能感兴趣的:(Python数据分析学习路线)