我与转录组的爱恨情仇

感谢豆豆和花花给我这个学习转录组的机会比心！
转录组我自己折腾了很多次，但是每次都是半途而废。从最早的转录组学习小组学习笔记开始学习和模仿（copy 代码），到后来参加线下课及线上课，上游流程玩的可溜了，可到后面分析就懵了。
在我之前的认知里，转录组的上游分析只是跑跑软件，fastqc、multiqc、fastp、trimmomatic、catadapter瞎怼一通，再到后面无参的用trinity，有参的用各种mapping软件不管三七二十一往上map，然后就懵逼了，挠挠头不知道下一步该怎么做了。由于我研究生期间做的东西很多很杂，所以总是没有时间和机会把整个流程静下心来好好的走完一遍。
嗯，这次呢，就趁此机会好好学一下，也顺便做个记录。

什么是转录组呢

我们都知道，染色体上的DNA是决定一个物种的关键，就像古代的皇帝，坐镇中央（细胞核），由将士们（各种各样的蛋白质）大杀四方。皇帝怎么调兵遣将，如何调动各处的兵马呢？皇帝决定要发号施令了，就召唤发令官（RNA聚合酶）草拟口谕，由传令官（mRNA）带着圣上口谕（所携带的遗传信息）到兵马行（核糖体）招兵买马，然后集结军队征战四方。而我们测的转录组呢，就相当于去把这个传令官给它抓起来，由刑部（测序仪）严刑拷打（测序），让他把口谕内容翻译成我们能懂的语言，看看皇帝到底发的什么命令，从而理解整个帝国是如何运作的。

大概是这样吧？欢迎小伙伴们一起来讨论看看有没有什么地方理解错了。
提供一个非常短且有趣的文章给大家理解这一块内容（10.1038/nmeth.2735）~

分析转录组需要的资源

当然是要在linux平台啦，毕竟很多软件都是在linux平台下开发的，这是绕不开的一道坎。我有个老师一直在追求如何在Windows下通过不需要任何命令的方式做生物信息学分析。我总觉得，有那个找替代品和盗版软件的倔强和时间，早就把linux学得很溜了。

我常用的平台：Ubuntu16.04
Ubuntu对新手比较友好，安装起来方便，虽然基佬紫配色不太好看（懒得调），但是好用就成。

软件：

质控：看看测序的质量如何及对质量不好的序列进行修正（去接头啦，去除低质量序列啦等等）

FastQC
multiQC
FastP
trimmomatic
cutadapter

无参：没有参考基因组的话那就直接转录组de novo拼接

trinity

有参：有两种，一种是基于比对的，另一种是不需要比对的，各有千秋，要看自己想要什么了。

STAR
Hisat2
Bowtie
Bowtie2
BWA
……（好吧我不知道了）
下游大概的流程应该是富集分析、功能注释之类的。。？嗯，果然学艺不精。。

下面提供两份来自nature protocols的做RNA-seq的protocol:

Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown
Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks
这边多说一句，tophat这个工具开发者已经不建议使用了的，所以第二份仅供了解和参考思路，实战中就不要用了呀。

打完收工~

生信星球转录组培训第一期Day1——卖萌哥