转录组入门(1):计算机资源的准备
我用的笔记本原先用win10正版系统和0ffice2016正版套件,舍不得。
装了一个双系统win10 + Ubuntu17.04。
安装Ubuntu可能需要另外开一篇文章介绍,我是把Ubuntu系统装在清空的F盘里,与原来的Win10互补干扰。
安装完Ubuntu之后,需要安装anaconda,教程在这里。
然后我在终端里面设置了一个新环境,来安装运行生信相关软件。参考
- 家目录下创建src文件夹,用于存放软件包
- 家目录下创建biosoft文件夹,用于安装软件
需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count
conda install -c bioconda samtools
conda install -c bioconda htseq
conda install -c bioconda hisat2
conda install -c bioconda fastqc
conda install -c jfear sratoolkit
conda换源
为了提高下载速度,我们需要替换/etc/apt/source.list中默认镜像源。方法参考自中国科学技术大学开源镜像站为了提高下载速度,我们需要替换/etc/apt/source.list
中默认镜像源。方法参考自中国科学技术大学开源镜像站
# 备份
cd /etc/apt/
sudo cp sources.list source.list.bk
# 替换 其中source.list要改成目前的sources.list,与参考不同
sudo sed -i 's/http/https/g' sources.list
sudo sed -i 's/archive.ubuntu.com/mirrors.ustc.edu.cn/g' sources.list
sudo sed -i 's/security.ubuntu.com/mirrors.ustc.edu.cn/g' sources.list
# 更新
sudo apt-get update
sudo apt-get upgrade
sratoolkit
功能: 下载,操作,验证NCBI SRA中二代测序数据
网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
步骤:功能: 下载,操作,验证NCBI SRA中二代测序数据
conda install -c jfear sratoolkit
#其实我已进装过了
prefetch -v
# 尝试下载,默认存放在家目录下的ncbi文件夹中
prefetch -c SRR390728
(env1) shicy@shicy-Inspiron-7460:apt$ conda install -c jfear sratoolkit
Fetching package metadata ...............
Solving package specifications: .All requested packages already installed.
packages in environment at /home/shicy/.conda/envs/env1:sratoolkit 2.8.1 0 jfear
sratoolkit -v
如果安装完成会显示在安装好的列表中
阅读官方文章进一步了解:
如何开启ascp加速下载
vdb-config更改基本设置
fastqc
功能: 可视化展示二代测序数据质量
网站:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
步骤:
conda install -c bioconda fastqc
fastqc -v
拓展:
了解fastqc结果中各个图的含义
掌握如何从fastqc的结果中提取数据
学习sed的用法,http://dongweiming.github.io/sed_and_awk/
samtools
SAM: 存放高通量测序比对结果的标准格式
功能: Reading/writing/editing/indexing/viewing SAM/BAM/CRAM format
网站: http://samtools.sourceforge.net/
安装:
conda install -c bioconda samtools
samtools -help
hisat2
conda install -c bioconda hisat2
在这一步之前要先安装python3.5,系统自带python2.7,安装语句默认安装最新的3.6。语句如下:
conda install python=3.5
功能:将RNA-Seq的结果比对到基因组。
使用:http://bioinformatics.xtbg.ac.cn/hello-world-2/
官方使用手册:http://ccb.jhu.edu/software/hisat2/manual.shtml
HTSeq
conda install -c bioconda htseq
#验证如下:
python3.5
import HTSeq
MultiQC
功能:把多个测序结果的qc结果整合成一个报告。
网站:http://multiqc.info/功能:把多个测序结果的qc结果整合成一个报告。
网站:http://multiqc.info/
conda install -c bioconda multiqc
multiqc --help
R 与 RStudio之前已经安装了,但是不知道会不会出现环境的问题。出现了再去解决吧!今天就到此吧!