TCGA-识别哪些是lncRNA,各种类型的RNA差异分析

GDCRNATools-Part2

在 Part1部分,我们已经对GDCRNATools的基本功能有了一定的了解,这次来做一个完整的分析案例。

本文内容

本文为笔者个人的学习笔记,包括以下内容

  • TCGA count数据下载
  • count数据预处理,标准化
  • 差异mRNA,miRNA, lncRNA
  • 绘制热图,火山图
  • ceRNA网络分析,输出文件到cytoscape
  • 识别出哪些基因是lncRNA, miRNA, mRNA, pseudogene
  • 运行过程中存在的问题及解决办法

基本背景知识

:为方便阅读,增加读者对文章内容的理解,关于miRNA背景知识转载至维基百科 ,仅供交流学习使用,版权归原作者所有。

miRNA

小分子核糖核酸(英语:microRNA,缩写为miRNA)又译微核糖核酸,是真核生物中广泛存在的一种长约21到23个核苷酸的核糖核酸(RNA)分子,可调节其他基因的表达[1][2]。miRNA来自一些从DNA转录而来,但无法进一步翻译成蛋白质的RNA(属于非编码RNA)。miRNA通过与目标信使核糖核酸(mRNA)结合,进而抑制转录后的基因表达[3],在调控基因表达、细胞周期、生物体发育时序等方面起重要作用。在动物中,一个微RNA通常可以调控数十个基因。

这些RNA是从初级转录本(primary transcript)出来的,也就是pri-miRNA,转变成为称为pre-miRNA的茎环结构,最后成为具有功能的成熟miRNA。

miRNA的命名规则

  • miR-前缀后面所跟着的数字,代表命名的顺序,比如,miR-124比miR-456发现得早。
  • “miR-”代表成熟的miRNA、“mir-”代表pre-miRNA和pri-miRNA、“MIR”代表编码miRNA的基因[5]
  • miRNA几乎全是独一的编码顺序,但对于拥有一两个碱基不同的则会被标上字母以示,例如,miR-124a与miR-124b。 若成熟的miRNA相同,但pre-miRNA和pri-miRNA和编码他们的基因来自于不同的基因组,则使用数字来表示,例如,mir-194-1和mir-194-2表示两个pre-, pri-miRNA剪切后的成熟miRNA是完全相同的,但却是两个不同的来源。
  • 前缀的三个字母代表了不同的种族来源,例如,hsa-miR-194代表miRNA来源于人类,oar-miR-124来源于绵羊。
  • 对于形成pre-,pri-miRNA茎环的两端miRNA, 通常一端在数量上远远超过另一端。数量优势的一端往往称为guide strand,而另一端被称为passenger strand,通常被大量降解,用号来表示,例如miR-124和miR-124

lncRNA基本背景

长的非编码RNA长的ncRNAlncRNA)是一种类型的RNA,定义为转录与长度超过200 个核苷酸的是不翻译成蛋白质。[1]这种有点任意的限制将长ncRNA与小的非编码RNA区分开来,例如microRNA(miRNA),小干扰RNA(siRNA),Piwi相互作用RNA(piRNA),小核仁RNA(snoRNA)和其他短RNA。[2] 长介入/基因间非编码RNA(lincRNA)是lncRNA的序列,其不与蛋白质编码基因重叠。[3]

数据下载

你可能感兴趣的:(TCGA-识别哪些是lncRNA,各种类型的RNA差异分析)