Pandas学习笔记:安装pandas包(Installation)

概要

官方文档传送门:https://pandas.pydata.org/pandas-docs/stable/install.html

本文通过如下几个方面介绍pandas的安装:

  1. python版本支持
  2. 安装pandas的几种常见方式
  3. 使用测试套件进行测试
  4. 依赖库

安装panda最简单的方法是将其安装为Anaconda发行版的一部分,Anaconda发行版是一个用于数据分析和科学计算的跨平台版本。这种方法推荐大多数用户使用。

此外,还提供了从源代码、PyPI、ActivePython、各种Linux发行版或开发版本安装的说明。

Python版本支持

正式版的python3.5.5及以上、python3.6、python3.7和python3.8。

安装pandas

文档中提供了6中安装方法:通过Anaconda安装,通过Miniconda安装,通过PyPi安装,通过ActivePython安装,通过所使用的Linux系统的包管理工具安装、通过源代码安装。

使用Anaconda安装pandas

对于没有经验的用户来说,安装pandas以及NumPy和SciPy堆栈的依赖库可能有点困难。通过安装anaconda,pandas包会被安装在默认环境(base)中。

anaconda同时也是安装Python和组成SciPy堆栈(IPython、NumPy、Matplotlib,……)的最简单的方法,它一个用于数据分析和科学计算的跨平台(Linux、Mac OS X、Windows) Python发行版。

运行anaconda的安装程序后,用户可以访问pandas和SciPy堆栈的其余部分,而不需要安装任何其他东西,也不需要等待编译任何软件。

安装方法非常简单:搜索anaconda的官网网址,然后找到符合自己开发需求的版本,下载安装即可。

关于anaconda和pycharm的结合使用,还可以参考这一篇博客:pycharm中使用anaconda管理项目环境。

通过Miniconda安装pandas

前一节概述了如何将pandas安装为Anaconda的一部分。但是,这种方法意味着我们将安装100多个包,并且需要下载几百兆字节大小的安装程序。

如果你希望对这些包的数量进行控制,或者所使用的internet带宽有限,那么使用Miniconda安装pandas可能是更好的解决方案。

Conda是构建Anaconda发行版的包管理器。这是一个跨平台且与语言无关的软件包管理器(它可以做到类似于pip与virtualenv组合的功能)。

Miniconda允许我们创建最小的包含Python的安装,然后使用Conda命令安装其他包。

首先,我们需要安装Conda, 下载和并运行Miniconda安装包将自动完成这一任务。安装程序可以在这里找到:传送门。

接下来创建一个新的conda环境。conda环境类似于virtualenv,它允许您指定特定版本的Python和一组库。从终端窗口运行以下命令:

conda create -n name_of_my_env python

这将创建一个最小的环境,其中只安装了Python。然后切入这个环境中:

source activate name_of_my_env

Windows系统中,则需要在终端运行如下命令:

activate name_of_my_env

最后一步是安装pandas。使用以下命令可以做到:

conda install pandas

如果想安装特定的版本,可以在后面跟上版本号:

conda install pandas=0.20.3

同样可以使用conda命令安装ipython包:

conda install ipython

使用如下命令可以安装完整的anaconda发行版:

conda install anaconda

由于anaconda是关于科学计算的发行版,所以支持的包数量上并没有pip命令那么强大,但是可以在环境中先安装上pip,然后使用pip安装所需的包,以web开发框架Django为例,可以使用如下命令进行安装:

conda install pip

pip install django

从PyPi安装pandas:

PyPi的全称是python package index,是最为强大的python安装包索引,我们可以在这里找到各种各样的python包,当然pandas也不在话下。PyPi所支持的命令就是我们最为熟悉的pip:

pip install pandas

以上三种是最为常用且简单的安装python包的方法,剩下的三种,由于我自己也没用过,就不在这瞎哔哔了。

运行测试套件

Pandas配备了详尽的单元测试集,覆盖了大约97%的代码。在机器上运行测试集,以确保一切正常工作。确保你电脑中的版本信息:pytest>=4.02,Hypothesis >= 3.58,之后运行:

import pandas
pandas.test()

 

依赖库

支持的最小版本
setuptools 24.2.0
NumPy 1.13.3
python-dateutil 2.6.1
pytz 2017.2

推荐的依赖库:

numexpr: 用来加速某些数值运算。numexpr使用多核以及智能分块和缓存来实现大的速度提升。安装版本必须在2.6.2以上。

bottleneck: 用于加速某些类型的nan评估。bottleneck使用专门的cython例程来实现大的速度提升。安装版本必须在1.2.1及以上。

注意:强烈建议您安装这些库,尤其是处理大规模数据时,因为它们可以提高计算速度。

可选的依赖库

pandas有许多只用于特定方法的依赖项,称为可选依赖项。例如,pandas.read_hdf()需要pytables包。如果没有安装可选依赖项,在调用需要该依赖项的方法时,panda将引发一个ImportError。

Pandas学习笔记:安装pandas包(Installation)_第1张图片

解析HTML的可选依赖项

要使用顶级的read_html()函数,需要下列库的组合之一:

1.BeautifulSoup4html5lib

2.BeautifulSoup4lxml

3.BeautifulSoup4html5liblxml

4.lxml。但是请参阅HTML Table Parsing,了解不应该采用这种方法的原因。

注意

  1. 如果你安装了BeautifulSoup4,你必须安装lxml或者html5lib或者两者都安装。只安装BeautifulSoup4, 是不能让read_html()工作的。
  2. 强烈建议阅读HTML Table Parsing gotchas。它解释了与上述三个库的安装和使用相关的问题。

 

你可能感兴趣的:(Pandas学习笔记)