最近看了些关于数据分析的书,想系统的整理下相关知识,算是学习笔记吧,也希望能帮到初学者。
1、Anaconda介绍
安装python的方法有很多种,数据分析方面比较常用Anaconda。Anaconda是一个开源的Python发行版本,其包含了conda、Python等多个科学包及其依赖项,也可以使用Miniconda这个较小的发行版,仅包含conda和 Python。Anaconda可以管理包,就是能够安装、更新、移除工具包,比如Numpy、Scipy、pandas、Scikit-learn等数据分析中常用的包;也可以管理环境,能够创建、访问、共享、移除环境,用于隔离不同项目所需要的不同版本的工具包,所以,我们可以建立 Python2 和 Python3 两个环境,来分别运行不同版本的 Python 代码。
2、Anaconda安装
可以从官网下载 Anaconda 的安装程序,也可以在清华大学开源软件镜像站下载,后者因为在国内,所以下载速度相对快些。无论是 Windows、Linux 还是 MAC 的 OSX 系统,都可以找到对应的安装软件。如果电脑是64位的就选64位版本。根据提示进行安装,完成后会发现有几项内容:
- Anaconda Navigator:管理工具包和环境的图形用户界面。
- Anaconda Prompt:终端,可以使用命令行来管理包和环境。
- Jupyter Notebook :基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。
- Spyder:一个使用Python语言、跨平台、科学运算的集成开发环境。
2.1 配置环境变量
有的情况下,可能会遇到找不到 conda 命令的错误提示,这很可能是环境路径设置的问题,下面是 window、mac 下配置环境变量的方法:
1. window 系统
计算机->右键选择属性->高级系统设置->环境变量->系统变量->path。在path中加入anaconda安装的目录就可以了,如下图:
2. MAC 电脑
在终端输入以下命令:
export PATH=~/anaconda3/bin:$PATH
2.2 配置国内镜像
如果运行以下更新包命令:
conda upgrade --all
如果出现 CondaHTTPError: HTTP 000 CONNECTION FAILED for url...的错误信息,需要运行以下命令:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
即可添加 Anaconda Python 免费仓库。
至此,完成安装Anaconda,下面让我们看一下如何用Anaconda管理环境和工具包。
3、Anaconda使用
3.1 环境管理器
1. 创建环境
格式:
conda create --name env_name package_names
其中,env_name 是环境的名称,package_names 是安装在创建环境中的包名称。
例如,要创建环境 python36,其中包含包python,并指定版本,在 Anaconda Prompt(终端)中输入:
conda create --name python36 python=3.6
也可以使用以下命令创建环境
conda create -n python2 python=2.7
2. 进入环境
windows 下格式
activate env_name
Linux & Mac 下格式
source activate env_name
3. 离开环境
windows 下格式
deactivate
Linux & Mac 下格式
source deactivate
4. 列出环境
格式:
conda env list
执行命令之后,结果如下图:
其中,带星号(*)的环境是当前环境。
5. 删除环境
格式:
conda remove --name env_name --all
其中,env_name 是环境的名称。
例如,删除环境 python36,在 Anaconda Prompt(终端)中输入:
conda remove --name python36 --all
也可以使用以下命令删除环境python36
conda env remove -n python36
3.2 包管理
1. 安装包
格式:
conda install package_name
package_name为包的名称
例如,要安装 numpy,在 Anaconda Prompt(终端)中输入:
conda install numpy
如果要同时安装多个包,可以输入:
conda install pandas numpy
如果想要指定包的版本,可以输入
conda install numpy=1.14
也可以指定环境安装包,可以输入以下命令安装 numpy
conda install -n python36 numpy
2. 移除包
格式:
conda remove package_name
例如,要移除 numpy,在 Anaconda Prompt(终端)中输入:
conda remove numpy
也可以指定环境移除包,可以输入以下命令移除 numpy
conda remove -n python36 numpy
3. 更新包
格式:
conda update package_name
要更新环境中的所有包,在 Anaconda Prompt(终端)中输入:
conda update --all
也可以指定环境更新包,可以输入以下命令更新 numpy
conda update -n python36 numpy
4. 列出已安装的包
要查看所有的包,在 Anaconda Prompt(终端)中输入:
conda list
也可以查询某个指定环境的已安装包
conda list -n python36
5. 查询包的信息
格式:
conda search package_name
例如,下面是查询包 numpy 的信息
conda search numpy
注:1、如果在终端用命令创建了多个环境,然而在 Jupyter Notebook 中不显示创建的环境,这时候需要安装包 nb_conda 用于 Jupyter Notebook 自动关联 Anaconda 环境,执行命令如下:
conda install nb_conda
2、创建新的 python 环境,比如3.6,运行
conda create --name python36 python=3.6
之后,conda 仅安装 python 3.6 相关的必须包,如 python,pip 等,如果希望 python36 像默认环境,在 Anaconda Prompt(终端)中输入:
conda create -n python36 python=3.6 anaconda