外显子数据处理系列笔记之准备工作

学习资源:
首先是技能树的教程肿瘤外显子视频课程小作业

B站视频:https://space.bilibili.com/338686099/channel/detail?cid=94251

前辈笔记参考https://www.yuque.com/biotrainee/wes 知识库查看,或者看下面的目录:

  • 肿瘤外显子数据处理系列教程(一)读文献并且下载测序数据

  • 肿瘤外显子数据处理系列教程(二)质控与去接头

  • 肿瘤外显子数据处理系列教程(三)比对

  • 肿瘤外显子数据处理系列教程(四)比对结果的质控

  • 肿瘤外显子数据处理系列教程(番外篇)bam文件载入igv可视化

  • 肿瘤外显子数据处理系列教程(五)GATK的最佳实践

  • 肿瘤外显子数据处理系列教程(六)vcf文件的注释及ANNOVAR的使用

  • 肿瘤外显子数据处理系列教程(七)maftools可视化

  • 肿瘤外显子数据处理系列教程(八)不同注释软件的比较(上):安装及使用

  • 肿瘤外显子数据处理系列教程(八)不同注释软件的比较(中):注释后转成maf文件

  • 肿瘤外显子数据处理系列教程(八)不同注释软件的比较(下):可视化比较maf文件

  • 肿瘤外显子数据处理系列教程(九)拷贝数变异分析(主要是GATK)

  • 肿瘤外显子数据处理系列教程(九)拷贝数变异分析(不同软件的比较)

1 搭建分析环境

该系列分析需要用到很多生信软件、各种数据库文件、编程环境等,可以在最开始的时候先把这些工作做好,当然有一些软件或者数据我们用到的时候再下载。
为了做好文件的目录整理,我们可以先创建文件夹,以存放各种软件包、数据库文件,以及我们分析过程中的产生的结果。
(先尝试一下能否搭建成功,然后决定是否要进行下一步)

## 首先在用户的主目录下创建 wes_cancer 文件夹作为工作目录
mkdir ~/wes_cancer
cd ~/wes_cancer
## 在 ~/wes_cancer 中创建 biosoft project data 三个文件夹
## biosoft 存放软件安装包
## project 存放分析过程产生的文件
## data 存放数据库文件
mkdir biosoft project data
cd project
## 在 project 文件夹中创建若干个文件夹,分别存放每一步产生的文件
mkdir -p 0.sra 1.raw_fq 2.clean_fq 3.qc/{raw_qc,clean_qc} 4.align/{qualimap,flagstat,stats} 5.gatk/gvcf 6.mutect 7.annotation/{vep,annovar,funcatator,snpeff} 8.cnv/{gatk,cnvkit,gistic,facet} 9.pyclone 10.signature

作者使用的是服务器:

首先是服务器,我用的服务器是 Linux Ubuntu 系统,16 核 32 线程,内存为 64 G。已经安装好了 Java8、Python3 的编程环境,R 语言我一般是用自己电脑分析,版本为 3.6.0,当然我在服务器上也安装了同样版本的 R 语言。

不知道我的个人电脑能不能胜任,先试试看。

使用conda安装软件

## 新建小环境 wes
conda create -n wes python=3
## 激活 wes 小环境
conda activate wes
## 安装必要的生信软件
conda install -y sra-tools fastqc trim-galore multiqc bwa samtools gnuplot qualimap subread vcftools bedtools cnvkit 
conda install -y -c hcc aspera-cli=3.7.7

该步骤由于我用的自己电脑,无法安装conda install -y -c hcc aspera-cli=3.7.7,于是去官方网站下载了ibm-aspera-cli-3.9.2.1426.c59787a-mac-10.7-64-release.sh并按照说明书进行了安装,不知道会不会有什么问题。

(wes) Cheng-MacBook-Pro:~ chelsea$ conda install -y -c hcc aspera-cli=3.7.7
Collecting package metadata (current_repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Collecting package metadata (repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.

PackagesNotFoundError: The following packages are not available from current channels:

  - aspera-cli=3.7.7

Current channels:

  - https://conda.anaconda.org/hcc/osx-64
  - https://conda.anaconda.org/hcc/noarch
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/osx-64
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/noarch
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/osx-64
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/noarch
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/osx-64
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/noarch
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/osx-64
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/noarch
  - https://conda.anaconda.org/genomedk/osx-64
  - https://conda.anaconda.org/genomedk/noarch
  - https://conda.anaconda.org/conda-forge/osx-64
  - https://conda.anaconda.org/conda-forge/noarch
  - https://conda.anaconda.org/bioconda/osx-64
  - https://conda.anaconda.org/bioconda/noarch
  - https://mirrors.ustc.edu.cn/anaconda/pkgs/main/osx-64
  - https://mirrors.ustc.edu.cn/anaconda/pkgs/main/noarch
  - https://mirrors.ustc.edu.cn/anaconda/pkgs/free/osx-64
  - https://mirrors.ustc.edu.cn/anaconda/pkgs/free/noarch
  - https://conda.anaconda.org/r/osx-64
  - https://conda.anaconda.org/r/noarch
  - https://repo.anaconda.com/pkgs/main/osx-64
  - https://repo.anaconda.com/pkgs/main/noarch
  - https://repo.anaconda.com/pkgs/r/osx-64
  - https://repo.anaconda.com/pkgs/r/noarch

To search for alternate channels that may provide the conda package you're
looking for, navigate to

    https://anaconda.org

and use the search bar at the top of the page.


(wes) Cheng-MacBook-Pro:~ chelsea$ aspera help
-bash: aspera: command not found
(wes) Cheng-MacBook-Pro:~ chelsea$ cd /Users/chelsea/wes_cancer/biosoft 
(wes) Cheng-MacBook-Pro:biosoft chelsea$ ls
Aspera_CLI_Admin_3.9.2_OSX.pdf
ibm-aspera-cli-3.9.2.1426.c59787a-mac-10.7-64-release.sh
(wes) Cheng-MacBook-Pro:biosoft chelsea$ sh ibm-aspera-cli-3.9.2.1426.c59787a-mac-10.7-64-release.sh 

Installing IBM Aspera CLI

Installation into /Users/chelsea/Applications/Aspera CLI successful

Optional installation steps:

  To include aspera in your PATH, run this command (or add it to .bash_profile):
    export PATH=/Users/chelsea/Applications/Aspera\ CLI/bin:$PATH

  To install the man page, run the following command:
    export MANPATH=/Users/chelsea/Applications/Aspera\ CLI/share/man:$MANPATH

(wes) Cheng-MacBook-Pro:biosoft chelsea$ export PATH=/Users/chelsea/Applications/Aspera\ CLI/bin:$PATH
(wes) Cheng-MacBook-Pro:biosoft chelsea$ export MANPATH=/Users/chelsea/Applications/Aspera\ CLI/share/man:$MANPATH

安装 GATK

上面常用的软件用 conda 安装 ok 了之后,我们还要安装一些其他的软件,比如 GATK,这里下载的版本为最新版本 4.1.4.1(截止时间 2020年 01月 27日),方法是:

  • 先进入 gatk 的官网 https://software.broadinstitute.org/gatk/
    image.png

然后在 gatk-4.1.4.1.zip 处右键,复制链接地址


image.png

去到终端,用 wget 命令加上复制的地址下载 gatk 软件的压缩包,然后解压。
具体的软件常用介绍也可以在此查看:https://github.com/broadinstitute/gatk/releases

cd ~/wes_cancer/biosoft
wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.4.1/gatk-4.1.4.1.zip
unzip gatk-4.1.4.1.zip

按照教程就是上面的指令下载安装
但是实际上由于这个软件在GitHub,而且有300多兆,因此下载颇为艰难

(wes) Cheng-MacBook-Pro:biosoft chelsea$ wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.4.1/gatk-4.1.4.1.zip
Warning: Failed to set locale category LC_NUMERIC to en_CN.
Warning: Failed to set locale category LC_TIME to en_CN.
Warning: Failed to set locale category LC_COLLATE to en_CN.
Warning: Failed to set locale category LC_MONETARY to en_CN.
Warning: Failed to set locale category LC_MESSAGES to en_CN.
--2020-01-27 20:47:55--  https://github.com/broadinstitute/gatk/releases/download/4.1.4.1/gatk-4.1.4.1.zip
Resolving github.com (github.com)... 13.229.188.59
Connecting to github.com (github.com)|13.229.188.59|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-production-release-asset-2e65be.s3.amazonaws.com/27452807/b23b9c00-1123-11ea-8ec4-28af5face303?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20200127%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20200127T124756Z&X-Amz-Expires=300&X-Amz-Signature=909c02e95cdd169ad3c4de3bba388ac9a21cecce60e6fa10e703ff45c18d1a5d&X-Amz-SignedHeaders=host&actor_id=0&response-content-disposition=attachment%3B%20filename%3Dgatk-4.1.4.1.zip&response-content-type=application%2Foctet-stream [following]
--2020-01-27 20:47:56--  https://github-production-release-asset-2e65be.s3.amazonaws.com/27452807/b23b9c00-1123-11ea-8ec4-28af5face303?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20200127%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20200127T124756Z&X-Amz-Expires=300&X-Amz-Signature=909c02e95cdd169ad3c4de3bba388ac9a21cecce60e6fa10e703ff45c18d1a5d&X-Amz-SignedHeaders=host&actor_id=0&response-content-disposition=attachment%3B%20filename%3Dgatk-4.1.4.1.zip&response-content-type=application%2Foctet-stream
Resolving github-production-release-asset-2e65be.s3.amazonaws.com (github-production-release-asset-2e65be.s3.amazonaws.com)... 52.216.139.11
Connecting to github-production-release-asset-2e65be.s3.amazonaws.com (github-production-release-asset-2e65be.s3.amazonaws.com)|52.216.139.11|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 404902600 (386M) [application/octet-stream]
Saving to: ‘gatk-4.1.4.1.zip’

gatk-4.1.4.1.zip             0%[                                         ]   2.96M  73.3KB/s    eta 2h 19m 

后面还需要用到很多软件,然后和一些索引需要的数据库文件,感觉这是一个非常大的工程,短时间内的无法完成,应该是需要服务器才可以做的。
经过一晚上的下载显示下载失败,后面直接在网站下载反而很快下载成功,网速时好时坏的。

以下来自前辈的笔记摘录

下载数据库文件

我们分析过程中需要用到很多数据库文件,比如人类参考基因组及其注释文件,1000genome 数据库、dbsnp 数据库等。

人类参考基因组 hg38

测序之后拿到的数据是 fastq 文件,是记录了 reads 及测序的质量值,我们需要比对到参考基因组上才能让这些数据有意义,因此我们需要下载参考基因组文件,用到的是 hg38 版本。因为我们后面要用到 gatk ,而 gatk 对参考基因组有一定的要求,需要下载 gatk 指定的参考基因组,同样也是进入gatk 官网,https://gatk.broadinstitute.org/hc/en-us/articles/360036212652

或者搜索Resource Bundle

image.png

找到 ftp 服务器的地址: ftp://[email protected]/bundle/,有时候进入需要填写用户名: gsapubftp-anonymous

选择 hg38 ,找到我们要下载的文件,然后右键,复制链接地址

image.png
image.png

再去终端用 wget 命令下载,下载后的文件大小为 800 多M,解压开就是 3 G左右

cd ~/wes_cancer/data/
wget -c ftp://[email protected]/bundle/hg38/Homo_sapiens_assembly38.fasta.gz

gatk 需要用到的其他文件

其实 gatk 要下载的文件有很多,所以我们可以使用 nohup....& 的形式将下载的命令都提交到后台(如果网络不好,可能会下载失败,所以下载后请自行检查)。

## gatk
nohup wget -c ftp://[email protected]/bundle/hg38/dbsnp_146.hg38.vcf.gz & 
nohup wget -c ftp://[email protected]/bundle/hg38/dbsnp_146.hg38.vcf.gz.tbi & 
nohup wget -c ftp://[email protected]/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz & 
nohup wget -c ftp://[email protected]/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi & 
nohup wget -c ftp://[email protected]/bundle/hg38/Homo_sapiens_assembly38.fasta.gz & 
nohup wget -c ftp://[email protected]/bundle/hg38/Homo_sapiens_assembly38.fasta.fai & 
nohup wget -c ftp://[email protected]/bundle/hg38/Homo_sapiens_assembly38.dict & 
nohup wget -c ftp://[email protected]/bundle/hg38/1000G_phase1.snps.high_confidence.hg38.vcf.gz & 
nohup wget -c ftp://[email protected]/bundle/hg38/1000G_phase1.snps.high_confidence.hg38.vcf.gz.tbi & 
nohup wget -c ftp://[email protected]/bundle/funcotator/funcotator_dataSources.v1.6.20190124s.tar.gz &

其他数据库文件

除了 GATK 流程分析所需的数据,我们还需要下载参考基因组的注释文件,通常是 gtf 格式,可以到 ensemble 或者 genecode 数据库下载

## bed
wget ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/CCDS.current.txt
cat CCDS.current.txt | grep  "Public" | perl -alne '{/\[(.*?)\]/;next unless $1;$gene=$F[2];$exons=$1;$exons=~s/\s//g;$exons=~s/-/\t/g;print "$F[0]\t$_\t$gene" foreach split/,/,$exons;}'|sort -u |bedtools sort -i |awk '{if($3>$2) print "chr"$0"\t0\t+"}'  > hg38.exon.bed

虽然解决了GATK软件的下载问题,但是关于参考基因组的问题就比较难解决了,基本上都是下载失败。应该使用上加速软件的。

你可能感兴趣的:(外显子数据处理系列笔记之准备工作)