Python数据分析笔记#0 引言

Python数据分析学习笔记#0

Yuan的学习笔记
作者:Yuan

Python数据分析笔记#0 引言_第1张图片

为什么写这个笔记?

写这个笔记一方面是对我学习Python数据分析的复习,整理和巩固,另一方面是希望对那些想要学习Python数据分析的同学有所帮助。

这个笔记会写些什么?

如何利用Python进行数据控制,处理,整理,分析等方面的内容。

这个笔记的特点?

原书是《利用python进行数据分析》,作者韦斯·麦金尼是Python Pandas项目的创始人,所以我就选了这本读,然后我会尽量把这个笔记做的精简和通俗易懂,零门槛。

为什么要用Python进行数据分析?

Python数据分析笔记#0 引言_第2张图片O‘Reily年度报告:Python霸榜最受欢迎语言

  • 自1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之
  • Python成为数据科学,机器学习,学界和工业界软件开发最重要的语言之一
  • Python的库强大
  • Python作为胶水语言,可以集成C,C++以及Fortran代码

Python的缺点是:要比用编译型语言(如Java和C++)编写的代码运行慢得多

重要的Python库

(都是后面可能遇到的库,我就简单介绍一下,因为有些功能看起来很复杂,挺唬人的,后面遇到再学吧)

Numpy

Numerical Python的简称,是Python科学计算的基础包。功能有(只列举部分):

  • 快速高效多维数组对象
  • 对数组执行数学运算的函数
  • 线性代数运算,傅里叶变换,以及随机数生成

对于数值型数据,Numpy数组在存储和处理数据时要比内置的Python数据结构高效的多。

pandas

名字源于panel data(面板数据,多维结构化数据集在计量经济学中的术语),开始我还觉得奇怪,你怎么叫熊猫?pandas提供了快速便捷处理结构化数据的大量数据结构和函数,兼具Numpy高性能的数组计算功能以及电子表格和关系型数据库。

matplotlib
Python数据分析笔记#0 引言_第3张图片

最流行的用于绘制图表和其他二维数据可视化的Python库。

Scipy

专门解决科学计算中各种标准问题域的包的集合。

Numpy和Scipy结合使用,便形成了一个完备和成熟的计算平台

scikit-learn

Python数据分析笔记#0 引言_第4张图片
2010年诞生以来,scikit-learn成为了Python的通用机器学习工具包,子模块包括:

  • 分类:SVM,近邻,随机森林,逻辑回归等
  • 回归:Lasso,岭回归等
  • 聚类:k-均值,谱聚类等
  • 降维:PCA,特征选择,矩阵分解等
  • 选型:网格搜索,交叉验证,度量
  • 预处理:特征提取,标准化

看不懂?没关系,这些都是机器学习相关的东西,这本书基本不涉及。

statsmodels

统计分析包,起源于斯坦福大学统计学教授Jonathan Taylor。子模块包括:

  • 回归模型
  • 方差分析
  • 时间序列分析
  • 统计模型结果可视化

statsmodels更关注统计推断,scikit-learn注重预测。

集成开发环境和文本编辑器

推荐在IPython或Jupyter notebooks中测试和调试每条代码。可以交互式操作数据和可视化验证数据。

创建软件时可以用特点更丰富的IDE:

  • PyDev(免费,基于Eclipse平台的IDE)
  • PyCharm(商业用户订阅,开源开发者免费)
  • Visual Studio(微软的,Windows用户)
  • Spider(免费,Anaconda附带的IDE)

喜欢哪个用哪个吧,我用的是Jupyter notebooks(超级推荐)和Visual Studio。

那下一篇就正式开始吧!

-完-

微信公众号:Yuan的学习笔记
关注微信公众号一起学习,分享吧

Python数据分析笔记#0 引言_第5张图片

你可能感兴趣的:(Python数据分析笔记,python,数据分析)