转录组1 分析简介学习

转录组测序的研究对象

为特定细胞在某一功能状态下所能转录出来的所有RNA的总和，主要包括mRNA和非编码RNA。

Fastq：是二代测序技术中常见格式，@开头，四行为一个reads，通过index来区分是哪个样品信息，第二行为序列，第三行为“+”，第四行为质量。

RPKM：要做差异比较，若一个样品和另一个样品测序的层次不一样的话，就需要校正，此为校正过程。rpkm：指每一百万个map（校正基因的总数）上的reads中map到外显子的每1K个碱基（校正基因长度）上的reads个数，

FPKM:对于单端测序来说，reads就等于片段，双端测序来说，reads1和reads2是一个片段。

数据库准备

下载fasta格式文件并（全基因组序列）建库，还需要下载一个bed文件/gtf文件（基因落在染色体的位置）

若自己做实验此步跳过，若自己不做实验，那么需要从网上下载文件，ebi或ncbi上下载

质控（看测序的结果是否符合我们的预期）

fastqc ,,,,,,,,,,,,.reads1.fq ,,,,,,,,.reads2.fq -t(线程数） 2 -o qc_report

会得到我们想要的三个文件质量值图、GC含量图、ATGC比例图

质量值越大，测的越好，所以处于绿色部分都很好，上图比下图好，

左图比较好，若峰到了60-70说明我们测得有杂物种，或者建库是不均匀的，两个峰的是测序时引入杂质。

A=T,C=G

人的25左右，前面波动是碱基偏好性

过滤

1.过滤接头。去除接头序列

2.过滤掉一条reads上的N（未能确定出碱基类型）的比例大于5%的reads。

3.去除低质量reads，过滤掉Q20<80% reads。

过滤统计：

clean data

比对（将clean data map到基因组上去）

在根据gtf或bed文件我们可以知道落在某个染色体上的基因有多少条，若有的reads不在gtf里面，那么它有可能是新的转录本。。

1.建索引（建库）

bowtie2-build hg19.fa

2.比对

-r:distance between reads1 and 2可以通过软件得知建库类型索引 reads1 reads2

tophat2 -o ，，，，， -p 8 --read-mismatches 2 --read-edit-dist 2 -r 50

后面分析都是基于unique的比对，比对上染色体只能比对上唯一的位置，

覆盖度

看建库是否均匀，看空的地方再去看bed文件是否真的没有基因覆盖

表达量矩阵（每个基因上有多少reads覆盖）

希望得到RPKM和FPKM 和counts数，也就是基因表达矩阵

差异表达

log2FC的绝对值大于1（差异倍数大于两倍），或者pvalue小于0.05

差异基因热图

横坐标为样品的名称，纵坐标为基因名称，颜色由绿岛红表达量越来越高

火山图

值越大，差异越明显，字写错了，以图为准

差异基因共表达网络分析

找到对其进行调控的基因，然后去进行GO或KEGG富集，找出调控的通路，即可找到基因调控的功能

蛋白互作网络

证据：黄色的代表数据挖掘的证据，黑色的代表共表达的证据，不同颜色线条代表不同的证据

从上图中找到一个中心，与其他节点联系最多，则其是处于核心地位的基因，对其重点分析

互作网络柱状图

对m每个基因与其他节点的连线做一个柱状图，找出与其他节点连线最多的基因，认为其可能在我们的研究中处于重要地位

差异基因go分析

菱形：差异基因富集的GO

绿色：下调基因，红色：上调基因

连线：哪些基因属于这个GO

GO有向无环图（由上而下）

中间最大的基因位于那个GO最上游，

KEGG分析

先做kegg分析找出基因富集的kegg通路，从kegg里下载kegg通路图

将差异基因进行一个颜色的标记，绿色代表下调，不标颜色的是不在我们差异基因列表中。

pvalue，或者counts的柱状图，横坐标为counts，pvalue越小，越红富集程度越高