继师兄详细地讲述这个思路之后,我进行一个归纳总结(师兄说,首先要建立一个思想上的流程,再来纠结软件、命令这些细节!!!!!!)
首先你得了解 raw_data / 参考基因组 .fa / 注释文件 .gtf / 索引文件 indexes(通过hisat2-build ,根据基因组文件新建索引文件)
raw_data 原始数据
参考基因组 .fa 1——— ————— —————— ——————— ———————— ————— —————
2————— —————— ——————— —————— ————————
3———— ————— ———— —————— ——————— ————— ——— —
注释文件 .gtf 1chr
基因 转录本1/2/3…… 内含子……
索引文件
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
从公司拿到的raw_data开始:
一、质控数据(fastqc)——根据质控数据的好坏,进行筛选,数据不行的用trim去掉(具体什么软件也没听清楚)
二、再次质控,最后的数据叫clean_data,此时的数据里都是短 reads
三、hisat2 把这些reads 比对到基因组上(这个过程要包括输出文件的格式转换和排序)
四、进行序列的初组装(把上面比对上的零散的reads 组装起来)
五、把所有的转录本合并
————————————— ———————— —————————————— ————— 这就是合并的转录本
—— —— ———— —— —— —— —— —— —————— —— 这就是组装的,散的但是有序
—— —— —— ——— ——— ———— ———— —— —— —— ——
相当于把散的转录本 取并集
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
现在就可以对这些转录本进行定量,FPKM差异 / htseq-count,(一个是计算reads落在merge上的概率;一个是计数——但这都是把表达量通过reads来量化)
如果做转录组分析,就拿着这个定量的结果进行分析,lncRNA就继续,怎么得到lincRNA??
lincRNA 基因间——长链——非编码
一、基因间
把merge的结果和参考基因组(上面的基因,我们已知)比较
参考基因组 ———— ———— —————— ——————————————
merge —————— —————— ————————
如上,黄色部分为基因间的,截取下来
二、长链
long >= 200 exon >= 2(外显子为什么要大于等于2,这个算法不清楚)
三、非编码(也就是能转录,但是不能翻译成蛋白质——那就是把序列 预测 蛋白 ,如果蛋白库里有,那就不是我们的目标)
位置 >>>> 序列 >>>> 蛋白
这里有很多办法,或者cpc……
一段序列有6中氨基酸序列的可能性
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
得到lincRNA后,做什么?进行差异分析,富集通路,也就是找lincRNA和功能的关系
一、 功能预测
cis—— 往往都是从上下游去找基因,然后找这些基因的共性
trans——找lincRNA和已知gene之间的相关性,横向纵向都很多,全部都要两两对比,| 相关 | >0.7/0.8 , p < 0.05/0.01
然后从相关性系数,去找规律
二、 差异分析 (上调,下调)
三、 QTL (把lincRNA拿到QTL上去对应性状)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
但是整个过程都只是一个概率,去预测lincRNA,那为什么有的实验室lincRNA能发高分,能做一套完整的流程,我们只能停留在找到lincRNA,做一个定量,这个问题比较重要!!!!