RNA-seq 实操

操作才发现问题真的很多,

纸上得来终觉浅, 绝知此事要躬行

1.软件准备

# 下载 miniconda
wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda2-4.5.11-Linux-x86_64.sh
bash Miniconda2-4.5.11-Linux-x86_64.sh    # 安装
# 配置镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes 
 # conda config --set show_channel_urls yes 的意思是从channel中安装包时显示channel的url,这样就可以知道包的安装来源了。
# 创建名为rna的软件安装环境
conda create -n rna python=2
# 查看当前conda环境
conda info --envs
# 激活/进入conda的rna环境,避免每次用-n rna
source activate rna
# 安装 sra-tools软件
conda search sra-tools
conda install -y sra-tools # done正确安装,且能调出软件help

2.数据下载:

# 找到SRA数据
https://www.ncbi.nlm.nih.gov/sra?term=SRP033351 [可修改SRP号]
# 获得fastq
## 1. 激活环境
source activate rna
mkdir project && cd project
mkdir RNAseq
# 创建  SRR_Acc_List.txt
cat > SRR_Acc_List.txt

下载的时候发现下载的非常慢,
出现https 下载,决定配置aspera,参考崔老师的

prefetch  'SRR1039510'

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。Runs 表示测序仪运行所产生的reads。SRA数据库用不同的前缀加以区分:ERP或SRP表示Studies;SRS 表示 Samples;SRX 表示 Experiments;SRR 表示 Runs

3. SRA数据转成fastq

ls ./1.SRA/*sra | while read id; do (fastq-dump --gzip --split-3 -O ./ ${id}); done
因为 只下载了部分,所以计划一个一个转换
fastq-dump --gzip --split-3 -O ./ ${id}
## 参数解释:
##fastq-dump加上--split-3之后, 他会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件. 
## 还有你用--gzip就能输出gz格式, 能够节省空间的同时也不会给后续比对软件造成压力, 比对软件都支持,就是时间要多一点。


3.1 格式转化结果

  • 存在问题,为什么会出现两个序列之外的文件;


    转化结果

4. 质量控制

用双端转化的结果,计划晚上睡觉之前提交上服务器;
安装好之后 进行质控
配置qc.sh
试运行的结果


试运行qc.sh 的 结果
ls SRR*.gz |paste - -  > fq_name.txt
cat $1|while read id
do
   arr=(${id})
   fq1=${arr[0]}
   fq2=${arr[1]}
    echo $fq1   sssssssssssssssssttttttttttttttttttttttaaaaaaaaaaaaaaaaaaaaaatttttttttttttttttttt~~~~~~~~~~~~~~~
   /four/tt/biosoft/TrimGalore-0.4.5/trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o ../fastq_qc/ $fq1 $fq2
    echo $fq1 $fq2 finished ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
done
## 调试了好多次,最后命令还是用绝对路径比较好;
  • 遗留问题
    转化fastq 格式的时候发现一部分数据无法访问,这是怎么回事;


    SRR_13号:

    结果

    quality control 结果,黄色有异常

-conda 没有搜索到trimgalore,需要 cutadapt,然后原代码Trim Galore
trim_galore,安装
参照github上需要安装两个依赖软件,下载原代码,然后进行路径配置,
vim .barshrc

配置好了

image.png
  • 每次样本拿到之后看一下md5sum 这样保证拷贝的数据没有重复性;
  • 数据集下载,图示:

    1,
    image.png

    2,
    step2

    3,
    step3

    4,
    step4

你可能感兴趣的:(RNA-seq 实操)