lncRNA项目的实战-第二步

一个lncRNA项目的实战

响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战,你现在看到的是jimmy的笔记,首发于:https://www.jianshu.com/p/56074633b629

step2 : 下载原始数据

首先下载sra的原始测序数据

样本量稍微有点大,https://trace.ncbi.nlm.nih.gov/Traces/sra/?study=SRP081159

Experiments: 64
Runs: 64 (957.4Gbp; 600.3Gb)

多余0.5T的原始数据,我想一般人都不愿意处理它的。

我们测试8个即可,主要是走完整个流程,了解数据分析的方方面面,而不是检查别人的文章的错误之处。

GSM2266015 CB 1F RNA_seq
GSM2266016 CB 1M RNA_seq
GSM2266017 CB 4F RNA_seq
GSM2266018 CB 4M RNA_seq
GSM2266019 CB 10F RNA_seq
GSM2266020 CB 10M RNA_seq
GSM2266021 CB 20F RNA_seq
GSM2266022 CB 20M RNA_seq

分别是 4个年龄段的恒河猴:1年(child),4年(Youth),10年(Adult)和20年(Old);然后各有两种性别。至于脑部区域,就不管了; prefrontal cortex (PFC), posterior cingulate cortex (PCC), temporal cortex (TC), parietal cortex (PC) and occipital cortex (OC), hippocampus CA1 and dentate gyrus (DG), and cerebellar cortex (CB) regions

但是进入了SRA数据库才发现,8个样本也是太多了,还是就分析两个吧~

GSM2266015: CB 1F RNA_seq; Macaca mulatta; RNA-Seq(SRR4015393)
77.7M   15.7Gbp 10.7G   48%
GSM2266016: CB 1M RNA_seq; Macaca mulatta; RNA-Seq(SRR4015394)
94.0M   19.0Gbp 13.1G   47.8%

下载SRA数据库里面的数据方式非常之多,选择最适合自己,并且网速最快的即可:https://www.ncbi.nlm.nih.gov/books/NBK158899/ 我比较喜欢直接wget,代码如下:

mkdir -p  ~/data/public/lncRNA/
cd  ~/data/public/lncRNA/
nohup wget -c ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015393/SRR4015393.sra & 
nohup wget -c ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015394/SRR4015394.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump  --gzip --split-3 SRR4015393.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump  --gzip --split-3 SRR4015394.sra &

当然,如果你们学校或者服务器闲置着,也可以全部下载,整个数据流程没啥区别,就是多了一个批处理而已。

├── [6.4G]  SRR4015393_1.fastq.gz
├── [6.3G]  SRR4015393_2.fastq.gz
├── [10.0G]  SRR4015393.sra
├── [8.0G]  SRR4015394_1.fastq.gz
├── [7.8G]  SRR4015394_2.fastq.gz
└── [ 12G]  SRR4015394.sra

fastq 格式的测序reads如下:

>gnl|SRA|SRR4015393.1.1 HWI-ST1336:101:C3BDPACXX:2:1101:1331:2162 (Biological)
ATGCCCTACACGACTAGATCGGAANNNNNNNNNNCTGAACTCCAGTCACGGNNNNNNNTC
TCGTATGCCGTCTTCTGCTTGNNNNNAAAAAACAATAAGAA
>gnl|SRA|SRR4015393.1.2 HWI-ST1336:101:C3BDPACXX:2:1101:1331:2162 (Biological)
NNNNNNGTAGGGCATAGATCNNNNNNNNNNNNNNNNGGGGATGAGCGTAGANNNCGGTGN
NNNGCGTATCATTAAAAANNNACTTATGNNGTTTATTTTTT

然后下载作者制作的表达矩阵

wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE85nnn/GSE85377/suppl/GSE85377_All_sample_merged_RPKM_ed.xlsx 

这里下载到的表达矩阵是一个Excel表格,所以需要转为csv然后读入R里面进行简单的统计。

当然了,如果你看文章细心的话,会发现,作者在其GitHub上面也公布了这些表达矩阵:https://github.com/DChenABLife/RhesusLncRNA

你可能感兴趣的:(lncRNA项目的实战-第二步)