python数据分析记录

  1. Numpy
    Python没有提供数组,列表(List)可以完成数组,但不是真正的数据,当数据量增大时,,它的速度很慢。所以Numpy扩展包提供了数组支持,同时很多高级扩展包依赖它。例如:Scipy、Matplotlib、Pandas。
    官方文档

  2. Scipy
    该包提供矩阵支持,以及矩阵相关的数值计算模块。如果说Numpy让Python有了Matlab的味道,那么Scipy就让Python真正地成为二半个Matlib。
    官方文档

  3. Pandas
    Pandas是面板数据(Panel Data)的简写。它是Python最强大的数据分析和探索工具,因金融数据分析工具而开发,支持类似SQL的数据增删改查,支持时间序列分析,灵活处理缺失数据。
    官方文档

  4. Scikit-Learn
    Scikit-Learn是一个基于python的用于数据挖掘和数据分析的简单且有效的工具,它的基本功能主要被分为六个部分:分类(Classification)、回归(Regression)、聚类(Clustering)、数据降维(Dimensionality Reduction)、模型选择(Model Selection)、数据预处理(Preprocessing),前面写的很多文章算法都是出自该扩展包。
    官方文档

  5. Matplotlib
    该包主要用于绘图和绘表,强大的数据可视化工具,做图库,语法类似MATLAB。同时,Seaborn也是数据可视化的工具包。
    官方文档

工作过程中遇到数据分析任务,个人数据分析的选型过程

阶段 使用工具 总结
1 使用powershell 在windows 平台使用方便,无需部署第三方工具与环境,缺点执行效率底下,适合小数据量,临时统计分析
2 python 脚本 使用自己编写的python 脚本,没有使用第三方分析库,速度较快,但是中间文件较多,调试脚本较为麻烦
3 mysql 使用python 脚本导入,导入速度较慢,需要自己拼接sql,超过200万行大表记录,sql语句执行经常超时
4 sqlserver 使用BULK INSERT 导入,导入速度较快,可以方便查询,查看中间结果,但是需要提前建好表和库
5 python 第三方统计分析库 很方便从导入各种数据源,处理速度快,处理灵活

你可能感兴趣的:(python)