转录组 RNA-seq

课堂笔记

RNA-Seq

  • 标准测序
    6G数据, 6X1024X1024X1024 位(个碱基)
    →虽然会有波动,会受一些随机误差影响,但是reads数很多,coverage很高,表达量的测量很准
  • overview
    1. RNA-Seq
      ① RNA →mRNA → 反转录为DNA
      ② 打断为fragments
      ③ 加上adapter
      ④ pcr扩增
      ⑤ 建库(双链,两条链+ - 都有)
      ⑥ 基因测序(双端vs单端测序)
      illumina 双端测序,一端测正链,一端测负链
    2. mapping 到基因组上
      ① De novo assembly: reads 能overlap的,拼起来就行
      ② annotation based
      ③ genome guided assemly
    3. 计总reads数
    4. 统计:差异表达分析
    5. system biology
  • 基因组测序更关注序列
    RNA-Seq更关注 有多少reads map到了参考基因组,即关注表达量

  • junction reads (2%-3%)
    会体现内含子没表达导致的reads空缺,即还能体现剪切方式

  • poly A end reads( poly A加尾
    RNA上才有,加尾酶加上的,在mapping时会导致错配

PolyA 与 rRNA

rRNA 占90%,rRNA没有poly A尾巴

法1. poly A selection

  • 用oligo-dT磁珠将A提出来,去得很干净, 可以衡量RNA降解
  • 3' Bias:如果RNA发生降解,3’端测到的表达量多,5’端少
  • 但不能去掉无polyA的RNA和 pre-mRNA

法2. 最后通过探针把rRNA去掉

  • 因为有时候要看别的RNA,通过沉降等方法,去掉核糖体,会留下游离核糖体,且有些RNA不在核糖体里,会留下约30%rRNA
  • 在基因组上,rRNA的基因有很多,能mapping到很多地方,要丢掉这些reads

stranded vs non-stranded

  • 基因组上 很多基因是3’尾巴对3'尾巴
  • RNA在基因组上有方向5’→3’,当3'端基因重合,将无法确定reads是源于哪个基因
  • stranded:只测固定方向的reads,将read1反向互补,确定RNA方向,确定其来自DNA正链还是负链
  • 基因表示图: 从细到粗——内含子,非编码区,编码区,| 起始子

PCR duplication

  • 做RNA-seq 表达量分析时 去掉PCR重复
  • 找突变,如果duplication很多,会让软件以为该处真的有突变(表达量很高的时候要注意,不要误杀)

fastqc software

quality control

  • ASCII-33 表示quality score :0-255
    节约磁盘空间,质量得分(可能占用两个字符)按一定规则(Phred+33或Phred+64)被转换为单个字符表示。
  • MAPQ = -10lgP碱基错误率
  • pred scale碱基错误率= 10^^(-score/10)
  • adapter content:
    有时候会测到接头adapter上去,导致mapping不到基因组,mapping率很低
    有的软件能去掉adapter,得到不等长的fragment reads,如果软件只能等长,就选取能接受的长度(选择adapter的量和reads长度可接受的长度,权衡)

Hisat2

能够将junction reads mapping到基因组上

uniquely mapped reads

  • 做表达量分析的时候,只留唯一mapping的reads即可(有的基因有同源基因,有的有拷贝,或有重复序列)
  • unmapped reads 比如环状RNA,或有编辑过的RNA,基因融合了的,突变了的,是否重要取决于研究目的,要挖掘信息!

output of mapping

Sam or Bam(二进制) 格式
一行一个read,每行11列
sam格式讲解:https://www.jianshu.com/p/386f520e5de1
sam flag explain:https://broadinstitute.github.io/picard/explain-flags.html

sam flag explain
如上图,可看出 有意义基因为负链上的基因

sam flag explain:不是很好,quality会很低
  • cigar:会告诉我们是否是junction reads
    如 ‘6M237N44M’: 6个连续mapping,237个跳过,44个连续mapping

  • samtools: linux专门读取bam或sam的软件
    samtools -q xx -f xx
    可以view,filter,sort,index, merge ,rmoce PCR duplication, Tview, SNP calling

数据可视化

  • UCSC genome browser:把自己的track放在云端,给UCSC一个链接就能和UCSC的数据结合起来看
  • IGV tool:本地看

基因表达量测定:看表达出多少转录本

长的RNA打断出来的reads多,因此要有衡量标准

  • RPKM:看有多少测序出的reads,reads per kilobase per million reads mapped,理论上只与表达量有关,表达量与基因长度、测序深度无关
  • FPKM:RPKM算法优化 fragments per million reads mapped ,fragments = cDNA insert
  • TPM: Transcript per million 看有多少转录本,RSEM软件汇报
    详细讲解:https://www.jianshu.com/p/1940c5954c81

差异表达基因

  • cutdiff: 分析GTF文件
  • EdgeR : 较流行较好,
    FC 差异倍数
    CPM平均表达量:表达量多,次数多 即概率里counts多
    红 差异显著
    黑 不显著

splicing analysis

看junction reads的拼接方式,可以定量剪切方式,counts数很重要!
软件 rMATs

  • splicing factors
    谁让剪切方式产生差异的

  • CLIP-seq
    ChIP-Seq:https://zhuanlan.zhihu.com/p/295399497
    CLIP、RIP-seq:https://www.jianshu.com/p/fff90b2e8f2d

RNA编辑

!! 一点点错配都有可能出现大问题! 软件算法不完善等都可能出大问题!用的时候要搞清楚原理,否则很容易出问题

samtools → IGV 可视化

conda install samtools=1.9
conda的samtools版本太低,用的时候会报错,装的时候指定好版本号
samtools view -q 30 -f 64 xx.bam |more
txt结果 用excel 打开 open 可以把IJC_SAMPLE_1, SJC_SAMPLE_1, IJC-SAMPLE_2 ,SJC_SAMPLE_2改为字符串类型

你可能感兴趣的:(转录组 RNA-seq)