RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记

今天学习了如题的一些操作。但是并不算成功。本来打算做到quality control,结果大部分时间卡在了下载测序数据上。

参考网站:
下载参考基因组及基因注释)

1.安装ASPERA
1)wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
2)tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz

3)bash aspera-connect-3.7.4.147727-linux-64.sh
4)cd /home/name # 去根目录
5)ls -a # 如果看到.aspera文件夹,代表安装成功
6) export PATH="~/.aspera/connect/bin:$PATH"
7) source ~/.bashrc

2.sra数据下载(采取aspera下载)

cd  /mnt/f/Data/chip_seq/data
for ((i=204;i<=209;i++));do ascp -QT -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR620${i}/SRR620${i}.sra .;done

不幸的是,找不到对应的位置。网址错了。
我去手动搜索了一下,发现,NIH 已经不存在sra-instant 了,这个该死的美国佬,应该是更新了。
RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记_第1张图片

然后,我又打算采用prefetch,结果仍然很尴尬。
RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记_第2张图片
这个网址 读不到
https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR620206/SRR620206.1
索性便结束了,wget 方式据说,下载的不是很好,断断续续的。

然后又搜索啊,找到了一个好方法。用ENA数据库下载。参考这儿(原始数据的几种下法,写的很清楚)

ascp -QT -l 500m -P 33001 -i /home/leo/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR620/SRR620204/SRR620204.fastq.gz .

fastqc -o . SRR620204.fastq.gz 试了试,发现竟然可以。也算不幸中的万幸了。

质量控制的结果,分析结果好不好,对比以下网址就好。讲的非常清楚和简练。包括如何多个质控结果用multiQC一块分析的操作。
内含SRA到fastq的操作,和fastq格式的一些问题
举了好与不好的例子,但是是英文

又进行了一个代码,自己下载去吧。

 for ((i=6;i<=9;i++));do ascp -QT -l 500m -P 33001 -i /home/leo/.aspera/connect/etc/asperaweb_id_dsa.openssh 
 [email protected]:/vol1/fastq/SRR620/SRR62020${i}/SRR62020${i}.fastq.gz .;done

3.下载基因组和注释文件。按照下面这个就可以了。下载了mm10的基因组和注释文件(GTT3,GTF两个)。

下载参考基因组及基因注释

GTF下载时间也超了,无奈。还是回学校等着下载吧,在家的网络可能不太好,或者明天继续。也不知道哪儿错了:

RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记_第3张图片好在GTF下载成功了,
RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记_第4张图片
也可以自己构建参考基因组的index,但是是在太慢了。有现成的就要用,感兴趣的可以看一下:hisat2

代码如下:

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz

也可以直接去官网,下载,最右侧有一个index板块:
RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记_第5张图片

总之浪费了一些时间,有收获有遗憾。很沮丧!但明天仍然要继续!!! 假装坚强!

你可能感兴趣的:(生信分析)