mRNA数据分析专题

欢迎关注”生信修炼手册”!

mRNA是基因实时表达的产物,研究mRNA可以探究基因表达以及调控的规律;同时也可以用于发现基因结构的变化,比如可变剪切,融合基因等事件,本文整理了mRNA数据分析相关的资料。

首先是通用的NGS文库质控

  • cutadapt去除adapter序列

  • 使用Trimmomatic对NGS数据进行质量过滤

  • 使用trim_galore对NGS数据进行质量过滤

  • 使用fastp对NGS数据进行质量过滤

  • FastQC评估测序数据的质量

  • fastx_toolkit:处理fasta/fastq文件的小工具

质控之后的序列,有两条路可以走,第一种是基于比对的策略,先比对参考基因组,然后进行定量,这种策略也是最经典的,首选需要准备好合适的参考基因组

  • 详解参考基因组的下载方式

  • GFF文件格式简介

  • 详解人类基因在不同数据库中的ID

  • GTF文件格式简介

  • 从UCSC下载基因组的GTF文件

  • gencode-高质量的基因注释信息数据库

  • 详解GFF转换为GTF文件

准备好参考基因组,还需要对应的软件来执行比对,定量工作

  • hisat2:比对基因组工具简介

  • SAM/BAM文件格式简介(一)

  • SAM/BAM文件格式简介(二)

  • STAR:转录组数据比对工具简介

  • stringTie:转录本组装和定量工具

  • 使用featureCounts进行定量分析

  • 使用htseq-count进行定量分析

第二种策略称之为alignment-free, 就是不需要比对基因组直接定量的意思

  • sailfish:不需要比对的转录本定量软件

  • salmon:sailfish的升级版本

  • kallisto:alignment-free转录本定量工具

定量之后,就是计算差异了。不同的定量方式,对应的差异分析软件也不同

  • DESeq2归一化算法详解

  • 采用DESeq2对表达量进行PCA和聚类分析

  • 使用DESeq2进行两组间的差异分析

  • edgeR提供的TMM归一化算法详解

  • 负二项分布在差异分析中的应用

  • 详解CPM定量方式

  • 使用edgeR进行两组间的差异分析

  • 使用ballgown进行转录本水平的差异分析

  • sleuth:基于TPM值的差异分析

  • 使用limma进行两组间的差异分析

除了差异分析外,针对多个分组或者时间节点的表达量数据,还可以进行聚类分析,研究其特定的表达模式

  • 转录组中的基因表达模式聚类分析

  • 使用Mfuzz进行时间序列表达模式聚类分析

  • 使用maSigPro进行时间序列数据的差异分析

无论是差异分析也好,聚类也好,目的都是得到候选的基因,用于下游分析。得到候选基因之后,就是对其功能进行探索,有多个研究方向,最经典的是基于费舍尔精确检验的富集分析

  • 揭秘差异基因功能富集分析

  • GO.db:存储Gene Ontology信息的R包

  • 详解如何获取物种所有基因对应的GO注释

  • 使用topGO进行GO富集分析

  • 详解GO的层级关系在富集分析中的应用

  • 使用clusterProfiler进行GO富集分析

  • 使用clusterProfiler进行KEGG富集分析

除了费舍尔精确精确检验外,还有比较流行的GSEA, 也可以进行功能富集分析

  • MSigDB:GSEA提供的基因集数据库

  • GSEA软件使用方法简介

  • GSEA分析结果详细解读

  • 关于GSEA的几点补充说明

此外,还可以通过基因间的相互关系网络来探索功能,有两种网络,蛋白质相互作用网络PPI和基因共表达网络,比如WGCNA。

PPI利用数据库中的蛋白质相互作用信息构建网络

  • STRING:蛋白质相互作用(PPI网络)数据库简介

  • MINT:蛋白质相互作用数据库简介

  • IMex和IntAct数据库简介

  • HPRD:human专属的PPI数据库

  • BioGRID:蛋白质相互作用数据库

  • 如何从PPI网络进一步挖掘信息

  • PPI网络实战:String加Cytoscape联手挖掘PPI网络

  • 使用Cytoscape的NetworkAnalyzer工具计算网络相关属性

  • 采用igraph包分析网络数据

  • 通过NetworkAnalyst在线服务构建PPI网络

WGCNA表示加权基因共表达网络

  • 加权基因共表达网络,其实并没有那么神秘

  • WGCNA如何挖掘潜在的共表达基因

  • WGCNA将共表达基因与表型数据相关联

  • WGCNA如何从module中挖掘关键基因

  • WGCNA实战练习

除了研究基因表达和功能,通过mRNA数据还可以分析可变剪切,融合基因,转录因子,RNA SNP和RNA编辑等事件。

融合基因,指的是两个或者多个基因在转录时发生了融合,融合的部分当做一个新的基因来产生转录本

  • 揭秘转录组分析中的融合基因鉴定

  • 使用FusionMap检测融合基因

  • 使用tophat-fusion鉴定融合基因

  • 使用STAR-fusion进行融合基因的分析

  • 使用SOAPfuse进行融合基因的分析

  • 使用EricScript进行融合基因的分析

  • 使用fusioncatcher进行融合基因的分析

  • 融合基因数据库大全

可变剪切是真核生物独有的一种机制,保证了基因功能的多样性

  • 可变剪切的意义和重要性

  • 揭秘可变剪切研究的本质

  • 使用ASProfile分析可变剪切事件

  • 使用rmats进行可变剪切的分析

  • 使用MISO进行可变剪切的分析

  • rmats2sashimiplot:可视化rmats的可变剪切结果

 转录因子是一类具有调控功能的蛋白质

  • TRANSFAC:转录因子及其靶基因数据库

  • JASPAR:转录因子motif数据库

  • TFTG:human转录因子靶基因数据库

  • ENCODE转录因子靶基因数据库

  • TRRUST:人和小鼠的转录因子调控网络数据库

  • footprintDB:综合性的转录因子数据库

  • 转录因子的靶基因,看这一个数据库就够了

RNA编辑,指的是转录后的RNA发生的碱基插入,缺失,替换等现象,属于转录后修饰的一种 

  • RNA编辑简介

  • RADAR:RNA编辑位点的数据库

  • DARNED:RNA编辑位点数据库

  • REDIportal:最大的人类RNA编辑位点数据库

以上就是所有的资料了,相信通过资料,可以帮助大家对于mRNA数据分析有更多清晰的认识。整理不易,欢迎转发,收藏,点赞。

·end·

—如果喜欢,快分享给你的朋友们吧—

往期精彩

  • 自己动手进行逻辑回归,你也可以!

  • GWAS大家都知道,Gene-Based GWAS你了解吗?

  • 3步搞定GWAS中的Gene Set Analysis

  • 你听说过Epistasis吗?

  • GWAS中的Gene-Gene Interactions如何分析?看这里

  • 终于搞清楚了Lasso回归和Ridge回归的区别

  • odd ratio置信区间的计算,你学会了吗?

  • 多元回归分析存在多重共线性了怎么办?

  • 基因型与表型的交互作用如何分析,多元回归来搞定

  • 曼哈顿图就够了吗?你还需要LocusZoom

  • GWAS做完了,下一步做什么?

  GWAS meta分析

  • GWAS样本量不够怎么办,meta分析了解一下

  • 你没看错,搞定GWAS meta分析只需一行代码!

  • meta分析的森林图不会画?看这里

  • GWAMA:GWAS meta-analysis的又一利器

  • 点击鼠标即可完成GWAS meta分析,任何人都可以!

  • 用R进行gwas meta分析,原来如此简单

  基因型填充

  • GWAS中的genotype imputation简介

  • 基因型填充中的phasing究竟是什么

  • 基因型填充前的质控条件简介

  • 使用shapeit进行单倍型分析

  • gtool:操作genotype data的利器

  • 使用IMPUTE2进行基因型填充

  • 使用Beagle进行基因型填充

  • 使用Minimac进行基因型填充

  • 使用Eagle2进行单倍型分析

  • X染色体的基因型填充

  • 文献解读|不同基因型填充软件性能的比较

  • Haplotype Reference Consortium:最大规模的单倍型数据库

  • Michigan Imputation Server:基因型填充的在线工具

  CNV分析

  • aCGH芯片简介

  • aCGH芯片分析简介

  • 基于SNP芯片进行CNV分析中的基本知识点

  • PennCNV:利用SNP芯片检测CNV

  • DGV:人类基因组结构变异数据库

  • dbvar:染色体结构变异数据库

  • DGVa:染色体结构变异数据库

  • CNVD:疾病相关的CNV数据库

  • DECIPHER:疾病相关的CNV数据库

  • 全基因组数据CNV分析简介

  • 使用CNVnator进行CNV检测

  • 使用lumpy进行CNV检测

  • CNVnator原理简介

  • WES的CNV分析简介

  • XHMM分析原理简介

  • 使用conifer进行WES的CNV分析

  • 使用EXCAVATOR2检测WES的CNV

  • 靶向测序的CNV分析简介

  • 使用CNVkit进行CNV分析

  • DECoN:最高分辨率的CNV检测工具

  TCGA

  • TCGA数据库简介

  • 使用GDC在线查看TCGA数据

  • 使用gdc-client批量下载TCGA数据

  • 一文搞懂TCGA中的分析结果如何来

  • 通过GDC Legacy Archive下载TCGA原始数据

  • 使用GDC API查看和下载TCGA的数据

  • 使用GDC下载TCGA肿瘤患者的临床信息

  • 使用TCGAbiolinks下载TCGA的数据

  • 使用TCGAbiolinks进行生存分析

  • 使用TCGAbiolinks分析TCGA中的表达谱数据

  • 使用TCGAbiolinks进行甲基化和转录组数据的联合分析

  • Broad GDAC:TCGA数据分析中心

  • 使用cBioPortal查看TCGA肿瘤数据

  • UCSC  Xena:癌症基因组学数据分析平台

  • GEPIA:TCGA和GTEx表达谱数据分析平台

  • TANRIC:肿瘤相关lncRNA数据库

  • SurvNet:基于网络的肿瘤biomarker基因查找算法

  • TCPA:肿瘤RPPA蛋白芯片数据中心

  • TCGA Copy Number Portal:肿瘤拷贝数变异数据中心

  生存分析

  • 生存分析详细解读

  • 用R语言进行KM生存分析

  • 使用OncoLnc进行TCGA生存分析

  • 用R语言进行Cox回归生存分析

  • 使用kmplot在线进行生存分析

  肿瘤数据库

  • ICGC:国际肿瘤基因组协会简介

  • HPA:人类蛋白图谱数据库

  • Oncomine:肿瘤芯片数据库

  • ONGene:基于文献检索的肿瘤基因数据库

  • oncomirdb:肿瘤相关的miRNA数据库

  • TSGene:肿瘤抑癌基因数据库

  • NCG:肿瘤驱动基因数据库

  • mutagene:肿瘤突变频谱数据库

  • CCLE:肿瘤细胞系百科全书

  • mSignatureDB:肿瘤突变特征数据库

  • GTEx:基因型和基因表达量关联数据库

  肿瘤免疫和新抗原

  • Cancer-Immunity Cycle:肿瘤免疫循环简介

  • TMB:肿瘤突变负荷简介

  • 肿瘤微环境:Tumor microenvironment (TME)简介

  • 肿瘤浸润免疫细胞量化分析简介

  • 使用EPIC预测肿瘤微环境中免疫细胞构成

  • TIMER:肿瘤浸润免疫细胞分析的综合网站

  • quanTIseq:肿瘤浸润免疫细胞定量分析

  • The Cancer Immunome Atlas:肿瘤免疫图谱数据库

  • 肿瘤新抗原简介

  • TSNAdb:肿瘤新抗原数据库

  • 使用NetMHCpan进行肿瘤新抗原预测分析

  Hi-C数据分析

  • chromosome-territories:染色质疆域简介

  • chromosome conformation capture:染色质构象捕获技术

  • 3C的衍生技术简介

  • 解密Hi-C数据分析中的分辨率

  • A/B compartment:染色质区室简介

  • TAD:拓扑关联结构域简介

  • chromatin loops:染色质环简介

  • Promoter Capture Hi-C:研究启动子区染色质互作的利器

  • 使用HiCUP进行Hi-C数据预处理

  • Juicer:Hi-C数据处理分析的利器

  • Juicer软件的安装详解

  • Juicebox:Hi-C数据可视化利器

  • Juicer实战详解

  • HiC-Pro:灵活的Hi-C数据处理软件

  • HiC-Pro实战详解

  • 3D Genome Browser:Hi-C数据可视化工具

  • HiCPlotter:Hi-C数据可视化工具

  • 3CDB:基于3C技术的染色质互作信息数据库

  • 3DIV:染色质空间互作数据库

  • 4DGenome:染色质相互作用数据库

  • 4D nucleome project:染色质三维结构研究必不可少的参考项目

  • 3dsnp:SNP在染色质环介导的调控网络中的分布数据库

  • iRegNet3D:疾病相关SNP位点在三维调控网络中的作用

  • 使用WashU Epigenome Browser可视化hi-c数据

  • HiGlass:高度定制的Hi-C数据可视化应用

  • Hi-C Data Browser:Hi-C数据浏览器

  • 使用FitHiC评估染色质交互作用的显著性

  • 使用TADbit识别拓扑关联结构域

  • 使用pyGenomeTracks可视化hi-c数据

  • hi-c辅助基因组组装简介

  • 文献解读|使用hi-C数据辅助埃及伊蚊基因组的组装

  chip_seq数据分析

  • Chip-seq简介

  • chip_seq质量评估之计算样本间的相关性

  • chip_seq质量评估之查看抗体富集效果

  • chip_seq质量评估之PCA分析

  • chip_seq质量评估之coverage分析

  • chip_seq质量评估之FRiP Score

  • chip_seq质量评估之cross correlation

  • chip_seq质量评估之文库复杂度

  • depth, bedgraph, bigwig之间的联系与区别

  • bigwig归一化方式详解

  • 使用igvtools可视化测序深度分布

  • 使用UCSC基因组浏览器可视化测序深度分布数据

  • 使用deeptools查看reads分布特征

  • 使用phantompeakqualtools进行cross correlation分析

  • blacklist regions:NGS测序数据中的黑名单

  • MACS:使用最广泛的peak calling软件之一

  • MACS2 peak calling实战

  • 使用SICER进行peak calling

  • 使用HOMER进行peak calling

  • peak注释信息揭秘

  • PAVIS:对peak区域进行基因注释的在线工具

  • 使用UPORA对peak进行注释

  • 使用GREAT对peak进行功能注释

  • annoPeakR:一个peak注释的在线工具

  • 使用ChIPpeakAnno进行peak注释

  • 使用ChIPseeker进行peak注释

  • 使用PeakAnalyzer进行peak注释

  • 使用homer进行peak注释

  • 利用bedtools预测chip_seq数据的靶基因

  motif

  • 关于motif你需要知道的事

  • 详解motif的PFM矩阵

  • 详解motif的PWM矩阵

  • 使用WebLogo可视化motif

  • 使用seqLogo可视化motif

  • 使用ggseqlogo可视化motif

  • MEME:motif分析的综合性工具

  • 使用MEME挖掘序列中的de novo motif

  • 使用DREME挖掘序列中的de novo motif

  • 使用MEME-ChIP挖掘序列中的de novo motif

  chip_seq数据库

  • ENCODE project项目简介

  • FactorBook:人和小鼠转录因子chip_seq数据库

  • ReMap:人类Chip-seq数据大全

  • IHEC:国际人类表观基因组学联盟

  • Epifactors:表观因子数据库

  • GTRD:最全面的人和小鼠转录因子chip_seq数据库

  • ChIP-Atlas:基于公共chip_seq数据进行分析挖掘

  • Cistrome DB:人和小鼠的chip_seq数据库

  • chipBase:转录因子调控网络数据

  • unibind:human转录因子结合位点数据库

  • chip_seq在增强子研究中的应用

  • DENdb:human增强子数据库

  • VISTA:人和小鼠的增强子数据库

  • EnhancerAtlas:人和小鼠的增强子数据库

  • FANTOM5:人类增强子数据库

  • TiED:人类组织特异性增强子数据库

  • HEDD:增强子疾病相关数据库

  • HACER:human增强子数据库

  • SEdb:超级增强子数据库简介

  • dbSUPER:人和小鼠中的超级增强子数据库

  • dbCoRC:核心转录因子数据库

  • 使用ROSE鉴定超级增强子

  18年文章目录

  • 2018年推文合集

扫描下方二维码,关注我们,解锁更多精彩内容!

生物信息入门

只差这一个

公众号

    

你可能感兴趣的:(mRNA数据分析专题)