Python数据科学中使用的库

Python数据科学中使用的库

为数据科学使用Python生态系统,Python是加载库从而执行数据科学任务的需求,一下讲解几个在数据科学中用到的库,

1.1 使用SciPy来访问用于科学的工具

Scipy栈 (http://www.scipy.org/)包含了许多你也可以独立下载的其他库。这些库为数学、科学及工程提供了支持。当获得 SciPy时,就得到了一组库集,它们被设计用于协同创建各种类型的应用。这些库如下所示。
》 NumPyo Scipy
》 matplotlib
》 IPythono
》 Sympy
》 pandaso
SciPy库本身致力于数值方面的例程,例如为数值集成及优化的例程。SciPy是一个具有通用意义的库,为多种问题领域提供了功能。它也为类似于Scikit lea、 Scikit-image和statsmodels的领域特定的库提供了支持。

1.2 使用NumPy执行基础的科学计算

Numpy库 (http://www.numpy.org/) 提供了执行n-维数组操作的方法,对数据科学工作很关键。如果没有包含对线性代数、傅里叶变换及随机数生成(http://docs.scipy.org/doc/numpy/reference/routines.html上查看函数列表)的支持,就不能轻易地访问它。

1.3 使用 pandas来执行数据分析

Pandas库(http://pandas.pydata.org/)为数据结构及数据分析工具提供了支持。该库被优化过,从而执行数据科学任务时尤其快速和高效。 pandas 背后的基本原则就是为 Python提供类似于其他语言的数据分析和建模支持,例如R。

1.4 使用 Scikit-learn-实现机器学习

Scikit-learn库(http://scikit-learn.org/stable/) 是很多Scikit库的其中之一,Scikit库构建于由 Numpy和 SciPy所提供的能力之上,目的是允许 Python开发者执行领域特定的任务。在这种情况下,该库致力于数据挖掘和 数据分析。它提供了以下类型的功能。
》 分类
》 回归
》 聚类
》 降维
》 模型选择
》 预处理
Scikit learn是最重要的库(即使它依赖于其他库来执行工作)。

1.5 使用matplotlib来标绘数据

Matplotlib库(http://matplotlib.org/)为你提供了类似于MATLAB的接口来创建你所执行分析的数据展示。当前该库仅限于二维输出,但是它还是为你提供了方法来图形化表示你在分析数据中所看到的数据模式。没有该库, 你就无法创建数据科学社区以外的人能够轻易理解的输出。

1.6使用 Beautiful Soup来解析HTML文档

beautiful soup 库(http://www.crummy.com/software/BeautifulSoup/)的下载找到。该库以一种所理解的方式提供了解析HTML或XML数据的方法。它允许你使用基于树结构的数据来工作。
除了提供方法来使用基于数结构的数据外,Beautiful Soup做了大量工作来方便使用HTML文档,

1.7 获取 Continuum Analytics Anaconda

基本的 Anaconda 包是免费下载的,可在(https://store.continuum.io/cshop/anaconda/)上获取到。只要单击下载 Anaconda就获得了对免费产品的访问。的确需要提供一个邮箱地址来获得一个Anaconda的副本。当提供邮箱地址之后,就会跳转到另一个页面,在那里,能够选择平台和用于那个平台的安装包。 Anaconda支持如下平台。
》 32位和64位的Windows(安装包可能只提供给你64位或32位的版本, 取决于它探测到的 Windows版本)。
》 32位和64位的Linux
》 64位的 Mac OS 默认下载安装的是 Python2.7

你可能感兴趣的:(Python)