生物信息学习的正确姿势
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
2.4 Conda安装配置生物信息软件
2.4.1 Conda安装和配置
2.4.2 Conda基本使用
2.4.3 Conda的channel
2.4.4 创建不同的软件运行环境
2.4.5 移除某个conda环境
2.4.6 Conda配置R
2.4.7 Conda环境简化运行
2.4.8 Conda环境备份
2.4.9 Conda环境导出和导入
2.4.10 Conda软件安装 core dump error/Segment fault/段错误 怎么办
2.4.11 Conda为什么越来越慢?
2.4.12 Conda是如何工作的
2.4.13 Conda哪一步慢?
2.4.14 如何提速Conda solving environment
2.4.15 从了通道外还能怎么下载提速
2.4.16 使用conda-pack直接从已经安装好的地方拷贝一份 (同一操作系统)
Conda是一种通用包管理系统,旨在构建和管理任何语言的任何类型的软件。通常与Anaconda (集成了更多软件包,https://www.anaconda.com/products/individual)和Miniconda (只包含基本功能软件包, https://conda.io/miniconda.html)一起分发。
最初接触到Anaconda是用于Python包的安装。Anaconda囊括了100多个常用的Python包,一键式安装,解决Python包安装的痛苦。但后来发现,其还有更多的功能,尤其是其增加了bionconda
(https://bioconda.github.io/index.html)通道后,生物信息分析的7925多个软件都可以一键安装了 (具体列表在:https://anaconda.org/bioconda/repo),免去了编译时间浪费和解决库文件安装的问题。另外其最有吸引力的是它的虚拟软件环境
概念,可以简单的配置不同Python版本的环境、不同Python包的环境、不同R环境和R包的环境,对于生物信息软件繁杂的应用和频繁的更新提供了很大的便利。
在链接https://www.anaconda.com/products/individual下载Anaconda
或Miniconda
对应版本的分发包之后,安装就是运行下面的命令,根据提示一步步操作,主要是修改安装路径 (如果是根用户,可以安装到/anaconda
下,其它任意目录都可以,但路径短还是有好处的;普通用户安装到自己有权限的目录下,如~/miniconda2
)。
# soft目录为conda安装的目录,可自己修改
soft=~/miniconda2
echo 'export PATH="'${soft}'/bin:$PATH"' >>~/.bash_profile
export PATH="${soft}/bin:$PATH"
wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda2-latest-Linux-x86_64.sh -b -f -p ${soft}
安装完成之后,记得把安装路径下的bin
文件夹加入到环境变量中 (上面命令中我们已经帮您加进去了)。
在Conda安装配置好之后,就可以使用了。
conda list # 列出安装的软件包
# conda所有软件名都是小写
conda search # 搜索需要安装的软件包,获取其完成名字
以搜索numpy
为例:
conda search numpy # * 表示对于版本的包已安装
Fetching package metadata ...............
numpy 1.7.2 py27_blas_openblas_201 conda-forge [blas_openblas]
1.7.2 py27_blas_openblas_202 conda-forge [blas_openblas]
1.12.0 py36_0 defaults
1.12.0 py36_nomkl_0 defaults [nomkl]
* 1.12.1 py27_0 defaults
1.12.1 py27_nomkl_0 defaults [nomkl]
1.13.1 py36_0 defaults
1.13.1 py36_nomkl_0 defaults [nomkl]
numpy-indexed 0.3.2 py27_0 conda-forge
1.0.47 py35_0 conda-forge
1.0.47 py36_0 conda-forge
numpy_groupies 0.9.6 py27_0 conda-forge
0.9.6 py35_0 conda-forge
0.9.6 py36_0 conda-forge
numpy_sugar 1.0.6 py27_0 conda-forge
1.0.6 py34_0 conda-forge
numpydoc 0.6.0 py27_0 conda-forge
0.6.0 py34_0 conda-forge
xnumpy 0.0.1 py27_0 conda-forge
安装包
conda install # 安装软件包
# -y是同意安装,不写的话会弹出提示,需要再次确认
conda install numpy=1.7.2 -y # 安装特定版本的软件包
conda remove # 移除软件包
安装R
# 具体见下面
# 安装R,及80多个常用的数据分析包, 包括idplyr, shiny, ggplot2, tidyr, caret 和 nnet
conda install -c r r-base=4.0.2 r-essentials
# 安装单个包
# conda install -c https://conda.binstar.org/bokeh ggplot
更新包
# 更新基础conda,新版本conda使用起来更快
conda update -n base -c defaults conda
conda update r-base
获取帮助信息
conda -h # 查看conda可用的命令
conda install -h #查看install子命令的帮助
只是这些命令就可以省去不少安装的麻烦了,但是如果软件没搜索到呢?
Conda默认的源访问速度有些慢,可以增加国内的源;另外还可以增加几个源,以便于安装更多的软件,尤其是bioconda
安装生信类工具。conda-forge
通道是Conda社区维护的包含很多不在默认通道里面的通用型软件。r
通道是向后兼容性通道,尤其是使用R3.3.1
版本时会用到,现在则不需要单独添加了。后加的通道优先级更高,因此一般用下面列出的顺序添加。清华镜像具体见https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ (有时清华镜像也不稳定,不稳定时直接用官方镜像,早上下载速度还是好的)。
conda config --add channels r # Optional # Lowest priority
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
# Anocanda清华镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/cond-forge
# 清华通道, 最高优先级
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes
注意通道的顺序是会影响solving environment
和软件包下载的速度的。
# 显示已有的通道
conda config --get channels
conda通道的配置文件一般在~/.condarc
里面,内容如下。全局控制conda的安装在conda_path/.condarc
,具体操作见https://conda.io/docs/user-guide/configuration/admin-multi-user-install.html。
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/cond-forge
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ # Anocanda清华镜像
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
- bioconda
- conda-forge
- r
这是Conda
最有特色的地方,可以通过创建不同的环境,同时运行不同软件的多个版本。
新创建的软件环境的目录为anaconda_path/envs/enrironment_name
,具体见下面的3个例子。
创建一个环境transcriptome
安装常用转录组分析软件
# 新建一个环境,命名为transcriptome
# 环境名字为 transcriptome
# 环境中安装 samtools multiqc rseqc
conda create -n transcriptome samtools multiqc rseqc
# 如果还想继续安装
conda install -n transcriptome fastqc salmon star stringtie sra-tools trimmomatic rmats rmats2sashimiplot
# 启动新环境
source activate transcriptome
salmon -h
# 默认安装到了anaconda_path下面的envs/transcriptome目录下(在屏幕输出也会有显示)
# 这个目录下存在bin文件夹,一般使用全路径就可以调用,如下
# anaconda_path/envs/transcriptome/bin/salmon -h # 但有时会因为依赖关系而失败
source deactivate transcriptome
不少软件不激活环境也可以使用全路径调用,比如anaconda_path/envs/transcriptome/bin/salmon
就可以直接使用salmon
程序,这样我们就可以根据前面的PATH
介绍,把目录anaconda_path/envs/transcriptome/bin/
放入环境变量,就可以直接调用这个环境中的大部分程序了。
新版的conda
默认会使用conda activate transcriptome
激活环境。
初次使用时会弹出一个提示,需要运行conda init
:
conda activate qiime2-2020.6
CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
To initialize your shell, run
$ conda init
Currently supported shells are:
- bash
- fish
- tcsh
- xonsh
- zsh
- powershell
See 'conda init --help' for more information and options.
IMPORTANT: You may need to close and restart your shell after running 'conda init'.
不过,个人更喜欢用source anaconda_path/bin/activate transcriptome
激活环境,用起来更灵活一些。而且如果是根用户安装时,不建议把conda
环境默认加到环境变量中,会引起不必要的系统冲突。可以给个用户自己使用是自己配置对应的环境变量。
激活环境后,会看到命令行提示前多了一个环境名字,比如下面激活qiime2-2020.6
环境后的展示。
ct@ehbio:~# source /anaconda3/bin/activate qiime2-2020.6
(qiime2-2020.6) ct@ehbio:~# which python
/anaconda3/envs/qiime2-2020.6/bin/python
(qiime2-2020.6) ct@ehbio:~# source /anaconda3/bin/deactivate
DeprecationWarning: 'source deactivate' is deprecated. Use 'conda deactivate'.
ct@ehbio:~# which python
/usr/bin/python
在环境phylo
中安装ete3
起因是使用官方的推荐命令安装时出了问题,py3.5的包装到了py2.7环境下。解决办法,新建一个py2.7
的环境,然后安装。
# 新建一个环境,命名为phylo,指定其内安装的python版本为2.7
conda create -n phylo python=2.7
# 在phylo环境中安装 ete3
# ete3存在于2个通道中,官方推荐使用自己的通道,但没有成功
# -n 指定安装环境 -c 指定下载通道
# conda install -n phylo -c etetoolkit ete3 ete3_external_apps
# bioconda通道里面也有ete3, 下面的安装未指定具体通道,
# 将在前面设定的几个通道里面按先后顺序查找安装
conda install -n phylo ete3 ete3_external_apps
# 默认安装到了anaconda_path下面的envs/phylo目录下(在屏幕输出也会有显示)
# 这个目录下存在bin文件夹,一般使用全路径就可以调用,如下
# anaconda_path/envs/phylo/bin/ete3 -h # 但有时会因为依赖关系而失败
# 所以激活本次安装环境是比较不容易出问题的使用方式
source activate phylo
# 在新环境里面执行命令操作
ete3 -h
# 其它操作
# 退出新环境
source deactivate phylo
创建R环境 Reference1
# Create a new conda environment called r,并且在里面安装anaconda
conda create -n r anaconda
# Switch to r environment
source activate r
# 在新环境里面安装R Installs R
conda install -c r r
# Install R kernel for IPython notebook
conda install -c r r-irkernel
# Install ggplot
conda install -c https://conda.binstar.org/bokeh ggplot
# 最后退出新环境
source deactivate r
列出所有的环境
conda env list
# conda environments:
#
/anaconda2
/anaconda2/envs/lefse
/anaconda2/envs/metagenome_env
/anaconda2/envs/metawrap
/anaconda2/envs/prokka_env
/anaconda2/envs/py3
/anaconda2/envs/r-environment
/anaconda2/envs/reseq
/anaconda2/envs/sourmash_env
/anaconda3/envs/qiime2-2020.6
如果环境不需要了,或出了错,则可以移除。比如需要移除phylo
环境,执行conda remove -n phylo --all
。
在添加了不同的源之后,有些源更新快,有些更新慢,经常会碰到版本不一的问题。而且软件版本的优先级,低于源的优先级。保险期间,先做下搜索,获得合适的版本号,然后再选择安装。
conda search r-essentials
r-essentials 1.0 r3.2.1_0 r
1.0 r3.2.1_0a r
1.1 r3.2.1_0 r
1.1 r3.2.2_0 r
1.1 r3.2.1_0a r
1.1 r3.2.2_0a r
1.1 r3.2.2_1 r
1.1 r3.2.2_1a r
1.4 0 r
1.4.1 r3.3.1_0 r
1.4.2 0 r
1.4.2 r3.3.1_0 r
1.4.3 r3.3.1_0 r
1.5.0 0 r
1.5.1 0 r
1.5.2 r3.3.2_0 r
1.5.2 r3.4.1_0 r
1.6.0 r3.4.1_0 r
1.0 r3.2.1_0 defaults
1.0 r3.2.1_0a defaults
1.1 r3.2.1_0 defaults
1.1 r3.2.2_0 defaults
1.1 r3.2.1_0a defaults
1.1 r3.2.2_0a defaults
1.1 r3.2.2_1 defaults
1.1 r3.2.2_1a defaults
1.4 0 defaults
1.4.1 r3.3.1_0 defaults
1.4.2 0 defaults
1.4.2 r3.3.1_0 defaults
1.4.3 r3.3.1_0 defaults
1.5.0 0 defaults
1.5.1 0 defaults
1.5.2 r3.3.2_0 defaults
1.5.2 r3.4.1_0 defaults
1.6.0 r3.4.1_0 defaults
1.5.2 r3.3.2_0 conda-forge
1.5.2 r3.3.2_0 https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
从上面可以看到清华的源版本同步于conda-forge
, 都比较老,还是指定r
通道安装。
conda install -c r -n r r-essentials=1.6.0
R
会安装于conda_path/envs/r/bin
中,软链到位于环境变量的目录中即可正常使用。这就是环境变量的活学活用。
为了方便不同环境里面程序的运行,我写了一个shell脚本 (conda_env_run.sh
),具体运行如下:
# -c: 表示实际需要运行的命令
# -e: 表示需要启动的软件环境,也就是上面conda create建立的环境
# -b:一般不需要指定,如果conda没在环境变量中需要给出conda的安装路径
conda_env_run.sh -c 'ete3 -h mod' -e phylo
conda_env_run.sh -c 'bwa mem -h' -e aligner -b "/usr/local/anaconda2/bin"
conda_env_run.sh
内容如下
#!/bin/bash
#set -x
usage()
{
cat < parameter.
${txtbld}OPTIONS${txtrst}:
-c Full command to be run ${bldred}[NECESSARY]${txtrst}
-e Environment name${bldred}[NECESSARY]${txtrst}
-b Conda path${bldred}[NECESSARY]${txtrst}
EOF
}
command_cmd=''
environment=''
conda_path=''
while getopts "hc:e:b:" OPTION
do
case $OPTION in
h)
echo "Help mesage"
usage
exit 1
;;
c)
command_cmd=$OPTARG
;;
e)
environment=$OPTARG
;;
b)
conda_path=$OPTARG
;;
?)
usage
echo "Unknown parameters"
exit 1
;;
esac
done
if [ -z ${environment} ]; then
echo 1>&2 "Please give command and environment."
usage
exit 1
fi
if ! [ -z ${conda_path} ]; then
export PATH=${conda_path}:${PATH}
fi
source activate ${environment}
${command_cmd}
source deactivate ${environment}
有的时候会出现装一个新包,装着装着就把当前环境搞装崩了的情况,所以备份一个环境还是必要的,conda create -n python35copy --clone python35
,把python35
备份为python35copy
。
做培训时需要给参加培训的老师提供配置环境的脚本,之前都是提供一个Bash
文件全部运行下来就可以完成整个环境的配置,更简单的方式是可以导出环境,自己配置时再导入就好了。
# 假设我们有一个环境叫 ehbio,可以导出为一个yml文件
conda env export --file ehbio_env.yml --name ehbio
# 然后换一台电脑,就可以完全重现这个环境了
# 这么做的另一个优势是yml中明确列出了软件的版本,
# 使用 conda solving environment时速度会快很多
conda env create -f ehbio_env.yml
# 清空缓存
# https://github.com/conda/conda/issues/7815
conda clean -a
Conda中包含的软件越来越多,而且软件的不同版本都保留了下来,软件的索引文件越来越大,安装一个新软件时搜索满足环境中所有软件依赖的软件的搜索空间也会越来越大,导致solving environment
越来越慢。
从设定的通道 (channel
)处下载通道中所有软件的索引信息 (repodata.json
) (Collecting package metadata (repodata.json))
"packages" : {
"moto-1.3.7-py_0.tar.bz2" : {
"build" : "py_0",
"build_number" : 0,
"depends" : [ "aws-xray-sdk !=0.96,>=0.93", "backports.tempfile", "boto >=2.36.0", "boto3 >=1.6.15", "botocore >=1.12.13", "cookies", "dicttoxml", "docker-py", "flask", "jinja2 >=2.7.3", "jsondiff 1.1.1.*", "mock", "pyaml", "python", "python-dateutil", "python-jose <3.0.0", "pytz", "requests >=2.5", "responses >=0.9.0", "six", "werkzeug", "xmltodict" ],
"license" : "Apache-2.0",
"md5" : "17b424658cd07e678b5feebdc932eb52",
"name" : "moto",
"sha256" : "5924666f8c1758472dc4c3d22b270b46cd1c4b66c50a9ba50d5c636d2237bdd1",
"size" : 399973,
"subdir" : "noarch",
"timestamp" : 1552438392680,
"version" : "1.3.7"
}
}
~~
解析repodata
中的信息获取所有依赖的包的信息
采用SAT-solver
算法决定需要下载包的哪个版本和它们的安装顺序
下载并安装包
主要是第3
步,确定待安装包的依赖包之间的兼容和已安装软件之间的兼容,获得需要下载的包和对应版本。
采用最新版的conda
(Conda4.7相比Conda4.6提速3.5倍, Conda 4.8应该不会比4.7慢)
安装时指定版本减少搜索空间 conda install python=3.7.4
安装R包时指定R的版本也会极大减小搜索空间 (R包因其数目众多,也是生物类软件依赖解析较慢的原因之一) conda install r-base=4.0.2 r-ggplot2=3.3.2
采用mamba
加速软件依赖解析 [mamba采用c++
重写了部分解析过程,这个提速效果是很明显的] (安装好mamba
后就可以用mamba
替换conda
进行安装了)
conda install mamba -c conda-forge
mamba install python=3.7.4
,默认conda解析软件依赖时优先考虑允许的最高版本,设置通道优先级权限高于软件版本新旧后,conda会能更快的解决依赖关系,避免defaults
和conda-forge
通道的奇怪组合导致软件依赖解析迟迟不能将结束的问题: conda config --set channel_priority strict
(这个命令只需要运行一次)。
创建一个新环境 (conda env create -n env_name
)再安装软件,这样就不用考虑与已有的软件的兼容问题了,也可以大大降低搜索空间和提高解析软件依赖的速度。
如果安装的软件提供了environment.yaml
那么用起来,文件中对应的软件版本都很明确,解析依赖关系时更快。也可以按前面提供的方式导出一个已经配置好的环境的yaml
文件,在其它电脑配置时直接读取。(具体导出方式见Bioconda软件安装神器:多版本并存、环境复制、环境导出。
channels:
- qiime2/label/r2020.6
- conda-forge
- bioconda
- defaults
dependencies:
- _libgcc_mutex=0.1
- _openmp_mutex=4.5
- _r-mutex=1.0.1
- alsa-lib=1.1.5
- arb-bio-tools=6.0.6
- attrs=19.3.0
- backcall=0.2.0
- bibtexparser=1.1.0
- binutils_impl_linux-64=2.34
- binutils_linux-64=2.34
- bioconductor-biobase=2.42.0
- bioconductor-biocgenerics=0.28.0
- bioconductor-biocparallel=1.16.6
- bioconductor-biostrings=2.50.2
- bioconductor-dada2=1.10.0
~
添加Bioconda通道时,注意顺序,给予conda-forge
最高优先级,其次是bioconda
。如果之前已经添加好了通道,自己在~/.condarc
中调整顺序。
conda config --add channels defaults
conda config --add channels bioconda
conda config --add channels conda-forge
综合以上组合,之前尝试多次都没安装好的工具,直接搞定。
国内镜像,见软件安装不上,可能是网速慢!Conda/R/pip/brew等国内镜像大全拿走不谢~~
换个网或从朋友处拷贝已经下载好的压缩包一般在anaconda_root_dir/pkgs
下,拷贝放在自己的anaconda3/pkgs
下面,再次下载时系统会识别已经下载好的包而跳过 (并不总是有效)。
获取所有相关包的名字,从朋友处拷贝下载好的安装包。
如果拷贝过来未能自动识别,可手动安装 conda install --offline local_path
。
mamba install r-base=4.0.2 r-ggplot2=3.3.2 --dry-run >package_solving_result
# _anaconda_depends pkgs/main/linux-64::_anaconda_depends-2020.07-py37_0
# _r-mutex conda-forge/noarch::_r-mutex-1.0.1-anacondar_1
# binutils_impl_lin~ pkgs/main/linux-64::binutils_impl_linux-64-2.33.1-he6710b0_7
# binutils_linux-64 conda-forge/linux-64::binutils_linux-64-2.33.1-h9595d00_17
# brotlipy conda-forge/linux-64::brotlipy-0.7.0-py37h516909a_1000
# bwidget conda-forge/linux-64::bwidget-1.9.14-0
# gcc_impl_linux-64 pkgs/main/linux-64::gcc_impl_linux-64-7.3.0-habb00fd_1
# gcc_linux-64 conda-forge/linux-64::gcc_linux-64-7.3.0-h553295d_17
# 获取所有包的名字
grep '::' a | sed 's/.*:://' | sed 's/$/.tar.bz2/'
# 手动安装
for i in `grep '::' a | sed 's/.*:://' | sed 's/$/.tar.bz2/'`; do conda install --offline /anaconda3/pkgs/$i; done
安装conda-pack
conda install -c conda-forge conda-pack
# pip install git+https://github.com/conda/conda-pack.git
打包已经安装好的环境
conda pack -n my_env_name -o my_env_name.tar.gz
拷贝打包好的环境my_env_name.tar.gz
到目标机器,并解压到任何目录,一般推荐放到envs
目录下 (anaconda_root/envs)
。(注意:anaconda_root改为自己的conda安装路径。)
# 解压打包好的环境
# 默认是全都解压到当前目录,场面很壮观
# -C 一定要指定
mkdir -p anaconda_root/envs/my_env
tar -xzf my_env.tar.gz -C anaconda_root/envs/my_env
# 激活环境
source my_env/bin/activate
# Unpack
conda-unpack
# 至此环境就完全拷贝过来了
source deactivate
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集