Numpy
Python没有提供数组功能,虽然列表可以完成基本的数组功能,但他不是真正的数组。Numpy内置函数处理速度是c语言级别,因此尽量使用内置函数,避免出现效率瓶颈的现象。
Numpy的安装:
Windows中,pip install numpy
也可以自行下载源代码:
python setup.py install
安装完后,可以使用以下命令进行测试。
Scipy
Scipy提供了多维数据功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。
Scipy包含功能有最优化,线性代数,积分,插值,拟合,特殊函数,快速傅里叶变换,信号处理,图像处理,常微分方程求解等。显然这些功能是挖掘和建模必须的。
安装方法与numpy一样。
以下命令简单试用:
Matplotlib
数据可视化,著名的绘图库。可以进行简单的三维绘图。
安装与上相同。
Matplotlib作图的基本代码:
如果读者试用的中文标签,就会出现中文标签无法正常显示,由于matplotlib默认字体是英文所致,解决他的办法是在作图之前手动添加黑体。
Plt.rcparams[‘font.sans-serif’]=[‘SimHei’] #这句话用来正常显示中文标签
另外作图可能出现负号不能正常显示,可以用过如下代码解决:
Plt.rcparams[‘axes.unicode-minus’]=False #解决保存图像是负号
Pandas
Pandas 是python中最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具,使得在python中处理数据非常快速和简单。Pandas来自于版面数据(panel data)和python数据分析(data analysis)。
Pandas功能非常强大,支持SQL的数据增,删,查,改,并且带有丰富的数据处理函数,支持时间序列分析功能;支持灵活处理确实数据等。
安装:
pip install pandas 或下载源码 python setup.py install
需要安装xlrd(读)和xlwt(写)库才能支持excel的读写。
Pip install xlrd #为python添加读取excel功能
Pip install xlwt #为python添加写入excel功能
使用:
pandas基本的数据结构为Series和Dataframe.
Series是序列,类似一维数组
Dataframe相当于一张二维的表格,它的每一个列是一个series。
Index,用来标记不同的元素,Index的内容不一定是数字,也可以是字母,中文等,它类似SQL中的主键。
Pandas的简单使用:
其他常见的工具
StatsModels
统计建模和计量经济学,包括描述统计,统计模型评估和推断
Scikit-Learn
支持回归,分类,聚类等强大的机器学习库
Keras
深度学习库,用于建立神经网络以及深度学习模型
Gensim
用来做文本主题模型的库,文本挖掘可能用到