2019-05-12 利用salmon进行转录组定量(上)

参考:
RNA-Seq基因差异表达分析实战
Dawn_天鹏
RNA_seq(1)植物转录组实战(上)之salmon进行索引建立和转录组定量
nohup 后台运行

  • 数据下载
    详情参考:RNA-Seq基因差异表达分析实战
  • 数据定量
  1. 测试数据 + 参考转录组(即第一步数据下载)
  2. 用Salmon建立索引
salmon index -t athal.fa.gz -i athal_index  
# -t 后接参考转录组的序列(拟南芥cdna序列)
   -i 后接索引文件存放目录及名字

3.Salmon进行转录组批量定量

#! /bin/bash
for fn in ERR1698{194..209};
do
    samp=`basename ${fn}`
    echo "Processin sample ${sampe}"
    salmon quant -i athal_index -l A \
        -1 ${samp}_1.fastq.gz \
        -2 ${samp}_2.fastq.gz \
        -p 2 -o quants/${samp}_quant
done
#将以上内容保存为脚本 salmon.sh
nohup bash salmon.sh & 运行脚本并放入后台,运行时间不到1h 
salmon定量后产生文件 quants
/quants$ tree -hl | ERR1698194_quant 
.
├── [4.0K]  ERR1698194_quant
│   ├── [4.0K]  aux_info
│   │   ├── [182K]  ambig_info.tsv
│   │   ├── [  89]  expected_bias.gz
│   │   ├── [ 525]  fld.gz
│   │   ├── [1.3K]  meta_info.json
│   │   ├── [  54]  observed_bias_3p.gz
│   │   └── [  54]  observed_bias.gz
│   ├── [ 247]  cmd_info.json
│   ├── [ 592]  lib_format_counts.json
│   ├── [4.0K]  libParams
│   │   └── [ 11K]  flenDist.txt
│   ├── [4.0K]  logs
│   │   └── [7.1K]  salmon_quant.log
│   └── [1.6M]  quant.sf
# 每个ERR1698都会产生*_quant 文件
cd ERR1698194_quant/
less -SN quant.sf | head 
Name    Length  EffectiveLength TPM NumReads
ATMG00010.1 462 296.962 0.000000    0.000
ATMG00030.1 324 164.194 0.000000    0.000
ATMG00040.1 948 781.867 0.000000    0.000
ATMG00050.1 396 232.389 19.709410   13.000
ATMG00060.1 542 376.234 0.000000    0.000
ATMG00070.1 573 407.137 0.000000    0.000
ATMG00080.1 540 374.241 129.031603  137.057
ATMG00090.1 1671    1504.800    1.481623    6.328
ATMG00100.1 73  15.388  0.000000    0.000
  • 下载quants文件夹,数据导入R中,进行下一步分析
    安装tximportData包
source("[https://bioconductor.org/biocLite.R](https://bioconductor.org/biocLite.R)") options(BioC_mirror="[http://mirrors.ustc.edu.cn/bioc/](http://mirrors.ustc.edu.cn/bioc/)")#设置中科大镜像 biocLite("tximportData")

你可能感兴趣的:(2019-05-12 利用salmon进行转录组定量(上))