11.1 RNA-seq数据分析-下载软件和数据

https://www.jianshu.com/p/e8cd62ba14fe

1、首先安装需要使用的软件:

sratoolkit, fastqc, hisats, samtools, htseq-count, R, Rstudio 

2、数据下载:https://www.ncbi.nlm.nih.gov/projects/faspftp/

不使用 Aspera Connect,没有外网,选择sratoolkit

服务器不能联网,选择mac版。

多个一起下载

先找到要下载的页面,比如https://www.ncbi.nlm.nih.gov/sra,然后右上角,send to-file,format选择accession list,保存为一个file(默认是SraAccList.txt),然后

prefetch $(

跟上学习进度咱们还是下载一个liver cancer的数据,感觉相当慢

下载一个aspera connect, 没外网下的很慢而已啦

https://www.ncbi.nlm.nih.gov/projects/faspftp/  在这个下载sra文件的网站可以快速下载aspera connect

下载过程中网断了,怎么办?

nohup prefetch SRR824846 &

nohup 命令可以使命令永久的执行下去,和终端没有关系,退出终端也不会影响程序的运行; & 是后台运行的意思,但当用户退出的时候,命令自动也跟着退出。 那么,把两个结合起来nohup 命令 &这样就能使命令永久的在后台执行。

aspera按照  https://www.jianshu.com/p/8dca09077df3  安装

但是,电脑下载的是dmg,不会,不过使用sratoools,自动用了fasp

下载过程中,感觉网什么都干不了了,扎心

3、下载过程中了解一下hg19参考基因组

https://www.jianshu.com/p/02a92e4ead4b

4、用samtools转sra文件为fastaq

fastq-dump --gzip --split-3 -O *.sra .

5、用fastqc质量控制(但是这个只是看质量,不是筛,所以也许可以不做如果数据是网上下载的话??)

fastqc -t 8 -o. *.fastq.gz  (所有文件)

质控结果批量查看工具:multiQC

6、数据的质量控制——FASTX-Toolkit  去接头,过滤低质量序列

问题,如何知道接头序列是什么?

trimmo中有illumina接头序列库

你可能感兴趣的:(11.1 RNA-seq数据分析-下载软件和数据)