零基础入门生信数据分析——导读

零基础入门生信数据分析——导读


生信数据分析,即生物信息学数据分析,是一个涵盖了生物学、计算机科学、数学和统计学等多个领域的交叉学科。它主要利用计算机算法和统计方法对生物学数据进行处理、分析和解释,以揭示生物分子、细胞、组织和生物体等各个层次的生物学规律和机制。

本帖主要是为生信数据分析的各个分析点提供跳转链接(简单说就是提供了一个目录供大家选择自己想要的知识点可以直接跳转

关联的生信数据分析的分析点包括但不限于:转录组上游分析,数据处理,差异分析,WGCNA,机器学习算法,预后模型构建,PPI,孟德尔随机化,单细胞分析等,以及后续的数据可视化部分。(当然目前更新的内容还没那么多,具体的分析点可见下方信息,点击可直接跳转到相关分析点

简单介绍下生信的思路:

生信分析可以分为三大类:上游分析,下游分析和数据可视化。

(1)上游分析就是对公司测序得到的fastqc文件进行质控,比对,表达定量等过程,最终得到了基因原始的表达矩阵(列为样本,行为基因,此时并不知道该数据能反应什么信息)。

(2)下游分析又被称为是数据挖掘过程,上游分析得到的基因表达矩阵之后,研究者自然想从基因的表达与疾病/性状相关联,获取到发生变化的那部分基因,并研究其可能具有的功能。根据这个需求,自然而然地衍生出来了很多的算法和方法,比如说:差异分析,富集分析…等。

(3)数据可视化就是将下游分析得到的结果用图形的形式展现出来,方便读者更好的从中提炼出重要信息。

个人对于生信下游分析的总结就是:通过各种算法一步步筛选并缩小基因范围,最后针对几个比较重要的基因(3-5个)研究其功能及潜在的机制,最后通过各种数据可视化方式呈现在文章中

那么就有小伙伴会问了:如何挑选重要的基因??或者说是我怎么知道哪些基因比较重要??

举个栗子: 一开始拿到表达矩阵有上万个基因,这些基因在不同样本中表达都不一样,尤其是疾病组和对照组间,绝对会存在一部分基因差异变化非常大,而研究者重点要关注的就是这部分差异变化较大的基因,因此就要用到差异分析(DESeq2,limma等)做筛选,这样最终的结果就是从上万个基因中挑选出来了部分基因(几十到几百不等),这部分基因相对于全部基因来说就是比较重要的那部分

举这个栗子就很好体现了筛选并缩小基因范围这句话,其他的算法大多也都是干这种事,比如:交集韦恩图,机器学习,单多因素cox等。

那么假如现在经过重重筛选得到了几个重要的基因,接下来就需要结合其他的算法来分析这些基因所具有的功能,比如:富集分析,相关性分析,靶向药物预测…等,而这就是在研究基因所具有的功能及其潜在机制

注:如果基础薄弱的同学可以从转录组上游分析开始看起,上游分析和下游分析其实都是串起来的,只有先有了上游,才能进一步去分析,学会了分析之后就可以进阶学一下数据可视化了



    1. 转录组上游分析
    • 1.1 软件的安装
    • 1.2 数据的准备
    • 1.3 质控及数据过滤
    • 1.4 序列比对
    • 1.5 表达定量
    1. 转录组下游分析
    • 2.1 数据处理

      • 2.1.1 自测序数据
      • 2.1.2 TCGA数据库 (配套资源:资源)
      • 2.1.3 GEO数据库——芯片数据 (配套资源:资源)
      • 2.1.4 GEO数据库——高通量测序数据 (配套资源:资源)
    • 2.2 差异分析

      • 2.2.1 limma差异分析(配套资源:资源)
      • 2.2.2 DESeq2差异分析(配套资源:资源)
    • 2.3 GO+KEGG富集分析(配套资源:资源)

    • 2.4 WGCNA分析—加权基因共表达网络 (配套资源:资源)

    • 2.5 机器学习算法筛选基因

      • 2.5.1 lasso机器学习算法 (配套资源:资源)
      • 2.5.2 SVM机器学习算法筛选基因 (配套资源:资源)
      • 2.5.3 boruta机器学习算法筛选基因 (配套资源:资源)
      • 2.5.4 boruta机器学习算法训练模型
      • 2.5.5 xgboost机器学习算法筛选基因
    • 2.6 单因素cox筛选预后相关特征

    • 2.7 预后模型

      • 2.7.1 lasso模型
      • 2.7.2 多因素cox模型
      • 2.7.3 多因素cox模型(加逐步回归)
      • 2.7.4 随机生存森林模型
      • 2.7.5 预后模型的验证
    • 2.8 单基因ROC分析

    • 2.9 单基因Wilcoxon秩和检验

    • 2.10 人工神经网络模型

    • 2.11 列线图模型(诊断)

    • 2.12 免疫浸润分析

      • 2.12.1 CIBERSORT算法
      • 2.12.2 ssGSEA算法
      • 2.12.3 xcell算法
      • 2.12.4 quantiseq算法
      • 2.12.5 timer算法
      • 2.12.6 mcp_counter算法
      • 2.12.7 epic算法
    • 2.13 GSEA富集分析

    • 2.14 GSVA富集分析

    • 2.15 基因突变分析

    • 2.16 染色体定位分析

    • 2.17 两样本孟德尔随机化分析

    • 2.18 单细胞转录组分析

      • 2.18.1 质控
      • 2.18.2 整合
      • 2.18.3 PCA和UMAP/TSNE聚类降维
      • 2.18.4 细胞注释
      • 2.18.5 不同细胞间差异分析
      • 2.18.6 细胞通讯
      • 2.18.7 拟时序分析
      • 2.18.8 细胞周期分析
      • 2.18.9 细胞GSVA富集分析
    1. 转录组数据可视化(初级)
    • 3.1 差异火山图绘制(常规)
    • 3.2 差异热图绘制(常规)
    • 3.3 GO+KEGG富集分析柱状图(常规)
    • 3.4 GO+KEGG富集分析点状图(常规)
    • 3.5 GO+KEGG富集分析方块图(常规)
    • 3.6 GO+KEGG富集分析网络图(常规)
    • 3.7 交集韦恩图(常规)
    • 3.8 基因表达箱线图(常规)
    • 3.9 基因表达小提琴图(常规)
    • 3.10 相关性热图(常规)
    1. 转录组数据可视化(nature级)
    • 4.1 GO+KEGG富集分析八卦图( nature级
    • 4.2 GO+KEGG富集分析圈图( nature级
    • 4.3 GO+KEGG富集分析进阶网络图( nature级
    • 4.4 交集花瓣图(nature级
    • 4.5 交集韦恩图(nature级
    • 4.6 基因表达云雨图(nature级
    • 4.7 相关性棒棒糖图(nature级
    • 4.8 相关性弦图(nature级
    • 4.9 相关性蝴蝶图(nature级
    • 4.10 相关性热图(nature级

注:黑色的目录表示还没更新的帖子(后面会持续更新)

你可能感兴趣的:(生信之转录组——上游分析,生信之转录组——下游分析,学习方法,r语言,数据分析,数据库,数据挖掘,需求分析,大数据)