有参转录组学习一:软件安装及数据下载

Author:ligc
Date:19/5/15

参考文章:

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034.

  • 主要内容的是利用RNA-seq及RIP-seq(RNA-immunoprecipitation)来证明AKAP95对转录后调控的 可变剪接具有重要作用。
    其中对于RNA-seq分析部分主要在Methods方法的Bioinformatic analyses:
  • 测序平台:Illumina HiSeq 2500
  • 取样物种:Homo sapiens和Mus musculus 的293个cells
  • 数据类型: 双末端PE reads 2 x 50bp
  • 参考基因组:人类参考基因组CRCh37/hg19
  • 比对软件:TopHat(v2.0.13)
  • GTF文件类型:GRCh38.70
  • 比对数据质控:过滤低质量比对reads(MQ > 30)
  • 平均插入长度及标准差(mean insert sizes and the s.d.'s):Picard-tools(v 1.126)
  • 计算reads count: HTSeq(v0.6.0)
  • 差异基因分析:DESeq(v3.0)
  • 差异外显子分析:DEXSeq(v3.1)
  • (RPKM/FPKM?)The read per million normalized:BEDTools(v2.17.0), bedGraphToBigWig tool(v4)
  • GO富集分析:DAVID

数据下载

第一步:在PubMeb上查找文献。
第二步:文章中method部分有数据存放在GEO数据库的GSE号,本文章为GSE81916。
第三步:GEO数据存放的FTP网址ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 可以分为以下几个部分
  • 所有SRA数据的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
  • reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果
  • ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.
  • sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。

1.软件安装

1.1 sratookit

功能:prefetch用于下载ncbi中SRA数据库中的.sra测序原始数据;fastq-dump用于将sra数据转换为fastq格式用于后续的质控和过滤。
软件官网:sratookit;documents
安装使用:

直接从官网下载软件压缩包,不用编译即可直接使用,注意将软件的可执行程序(bin/)加入到环境变量中,即可全局使用。

批量转换时容易报错,样本量不大时可以单个样本转换


Error
for i in 'seq 59 62'
do
    fastq-dump --gzip --split-3 -A /Storage/data003/ligc/AKAP95_rna_seq/raw_data/SRR35899${i}.sra
done

下载数据

推荐用aspera+prefetch下载NCBI或EBI上的sra或fastq文件

##EBI
 ascp -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz .
##NCBI
 ascp -i ~/asperaweb_id_dsa.putty [email protected]:/sra/sra-instant/reads/ByRun/litesra/SRR/SRR096/SRR096072/SRR096072.lite.sra .

1.2 fastqc

功能:测序数据的可视化工具
软件官网:fastqc
安装使用:
conda install fastqc -c bioconda
ls *.gz | while read id; do fastqc -t 20 $id; done
##OR
ls *.gz | xargs -i echo nohup fastqc -o ../Quality_control/fastqc/ {} \& > fastqc.sh

1.3 samtools

功能:SAM Tools provide various utilities for manipulating alignments in the SAM format, including sorting, merging, indexing and generating alignments in a per-position format.
软件官网:samtools
安装:conda安装

1.4 hisat2

功能:将reads比对到参考基因组上
软件官网:hisat2
安装:conda安装

1.5 htseq

功能:将比对到基因上的reads进行计数(read count)。
软件官网:htseq
安装:conda安装

1.6 featurecounts

功能:
软件官网:http://bioinf.wehi.edu.au/featureCounts/
安装:
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("Rsubread")
...未完待续
欢迎大家批评指正!
参考文章:

1.https://www.jianshu.com/p/b16ae34f9012
2.https://www.jianshu.com/p/9c2bf27c3921
3.https://www.plob.org/article/3013.html

你可能感兴趣的:(有参转录组学习一:软件安装及数据下载)