不知不觉
新一年的国自然申请即将到来,
如何让我们的国自然申请在万花丛中脱颖而出?
生信挖掘来帮你~
爱美之心,人皆有之,
一个好的思路,
再加上精(yao)美(yan)的生信图片,
定能让人挪不开眼~
纵观近几年的数据挖掘类文章,大多数还是在挖掘具有诊断或者预后价值的标志物。挖掘标志物就像一个万金油,无论您手上有什么工作基础,甚至是还没有工作基础,它都能很好地融入,不信您看:
1.“我们组一直在研究X基因,实验发现它在肿瘤里上调,而且与炎症相关。”说明X基因很重要啊,把它调控的炎症基因抓出来,诊断和预后标志物挖掘一下。
2. “我们已经有实验验证了,X相关通路在肿瘤中被激活促进肿瘤的发展。”通路中的基因抓出来,诊断和预后标志物挖掘一下。
3. “我们花好大功夫造了个疾病模型,做了转录组分析,但也只是简单看了一下上调下调基因和它们富集的通路,感觉内容好少。”上调基因下调基因抓出来,诊断和预后标志物挖掘一下。
4. “我们发现xx人预后要比xx差,但不知道为什么。”两组病人相比较,上调基因下调基因抓出来,预后标志物挖掘一下。
5. “我们发现有的人对X药敏感,有的人不敏感。” 两组病人相比较,上调基因下调基因抓出来,诊断标志物挖掘一下。
6.“我们是研究X疾病的,想找几个基因研究一下,但是不知道选哪些基因。” 诊断和预后标志物挖掘一下。
看到这里,您是不是感觉,自己的申请书上是不是又可以加点什么了?那么具体我们怎么将生信挖掘加进去,又能出什么美图呢?
往下看…
▽
▽
在这里,我们为您总结了一份生信挖掘超全套路,总有一款适合您~生信挖掘思路其实都离不开下面这幅图:
接下来,我们用6步来细细阐述其中的分(ge)析(zhong)方(hua)法(yang)。
数据挖掘篇
数据挖掘类文章,数据类型大多以转录组数据挖掘为主(mRNA,lncRNA,miRNA,circRNA),也有转录组与其他组学(基因组,甲基化,蛋白组)进行多组学联合分析的。数据来源,肿瘤基本上来源于TCGA和GEO两大公共数据库,其他疾病大多来源于GEO数据库。
案例1
LincRNA表达+拷贝数变异
Systematic identification of lincRNA‐based prognostic biomarkers by integrating lincRNAexpression and copy number variation in lung adenocarcinoma. International Journal of Cancer (2019).
案例2
mRNA表达+DNA甲基化
Integrated DNA methylation and gene expression analysis in the pathogenesis of coronary artery disease. Aging (2019)
基因筛选篇
建模所用的特征基因的筛选一般分两步:1)初筛,找到有研究价值的一列基因;2)再筛,从上述基因列表中再次筛选具有代表性的基因,直至基因数目缩减至20个以内。
1.初筛
(1)有明确想要研究的分组,从中筛选出异常表达的基因:疾病vs正常;转移vs原位;晚期vs早期;药物敏感vs不敏感。
案例3
转移vs原位
Identification of the 3-lncRNA Signature as a Prognostic Biomarker for Colorectal Cancer. IJMS(2020)
(2)没有明确分组:用某类基因表达数据进行聚类(自己创造一个有研究价值的分组),从中筛选出异常表达的基因。
案例4
m6A RNA甲基化调控因子聚类,创造出一个预后差异很大的分组。
m6A RNA methylation regulators contribute to malignant progression and have clinical prognostic impact in gliomas. Aging (2019)
案例5
免疫相关基因聚类,创造出四类免疫亚型。
Identification of Four Immune Subtypes in Bladder Cancer Based on Immune Gene Sets. Fonc(2020)
(3)有明确想要研究的基因列表:EMT相关,代谢相关、免疫相关……
案例6
代谢相关基因集
Metabolic reprogramming-associated genes predict overall survival for rectal cancer. JCMM(2020)
案例7
免疫相关基因集
Identification of an immune gene signature for predicting the prognosis of patients
with uterine corpus endometrial carcinoma. Cancer Cell Int(2020)
2.再筛
1)网络筛hub基因
案例8
CeRNA网络
Identification and validation of a prognostic four‑genes signature for hepatocellular carcinoma: integrated ceRNA network analysis. Hepatology International(2019)
案例9
加权基因共表达网络(WGCNA)
Differential Expression Analysis Revealing CLCA1 to Be a Prognostic and Diagnostic Biomarker for Colorectal Cancer. Fonc(2020)
案例10
蛋白互作网络(PPI)
Identifying MMP14 and COL12A1 as a potential combination of prognostic biomarkers in pancreatic ductal adenocarcinoma using integrated bioinformatics analysis. PerrJ(2020)
2)通路筛
案例11
几乎所有文章都会有的GO和KEGG
The Lung Adenocarcinoma Microenvironment Mining and Its Prognostic Merit. Technology in Cancer Research & Treatment (2020)
案例12
IPA通路
Signaling pathway network alterations in human ovarian cancers identified with quantitative mitochondrial proteomics. EPMA Journal(2019)
3)算法筛
生存分析、单因素Cox回归,多因素Cox回归,Lasso回归,随机森林,遗传算法……
案例13
随机森林
A 23 gene–based molecular prognostic score precisely predicts overall survival of breast cancer patients. EbioMedicine(2019)
案例14
遗传算法
RankProd Combined with Genetic Algorithm Optimized Artificial Neural NetworkEstablishes a Diagnostic and Prognostic Prediction Model that Revealed C1QTNF3 as a Biomarker for Prostate Cancer. EbioMedicine(2018)
模型建立篇
模型分两类:1)用于预测样本分类(疾病vs正常;转移vs原位;晚期vs早期;药物敏感vs不敏感等)的诊断模型,一般是机器学习模型,其算法有:逻辑回归、支持向量机、神经网络、深度学习等;2)预测样本预后情况(Overall survival、Disease free survival、Disease-specific Survival、Progress Free Survival等)的预后模型,模型为线性模型,计算公式如下图(特征基因表达量*基因的权重的加和),基因的权重可来源于:单因素Cox回归、多因素Cox回归、Lasso回归和自创(自己建立一个权重系统,如案例13)。
模型建立这块,上述的案例文章基本上都已包括,这里我们就不放具体案例了,来欣赏一些美图吧~
补充分析篇
补充分析,主要是对预后模型的预测结果做进一步探(feng)究(fu)。这里,我们总结了7种方法。
1)预后特征的独立性检验
案例15
Identification and validation of an immune prognostic signature in colorectal cancer. International Immunopharmacology(2020)
2)不同临床分组Riskscore差异比较
案例15
3)预后特征分层分析
案例15
4)预后特征与免疫细胞浸润的相关性分析
案例15
5)预后特征与肿瘤突变负荷关系(TMB)
案例15
6)预后模型与临床金标准的预测效果比较
案例8
7)预后特征与临床信息联合建模
案例8
8)基于预后特征的列线图的构造与验证
案例16
Angiogenesis-Related Gene Expression Signatures Predicting Prognosis in Gastric Cancer Patients. cancers(2020)
9)基因富集分析(GSEA)探究不同预后患者富集通路差异
实验验证篇
生信+实验,文章才算完美,那我们怎么去验证我们实验结果呢?前期验证主要是对特征基因的表达量的验证(qPCR、WB和免疫组化)。根据文章建立的模型类型,有不同的样本选择。对于诊断模型,以癌vs癌旁为例,我们要验证,特征基因在这两组样本中的表达上调或者下调趋势是否与模型一致。
案例14
对于预后模型,我们要验证,特征基因在预后好和预后差样本中的表达上调或者下调趋势是否与模型一致。预后好和预后差的样本,我们可以选取不同临床分期患者来代替。
案例17
Identification of RNA: 5-Methylcytosine Methyltransferases-Related Signature for Predicting Prognosis in Glioma. Fonc(2020)
单基因验证篇
做完初步的特征基因表达量验证之后,如果还想进一步探索,建议从特征基因里筛选一个基因,再做后续的验证。
案例3
细胞迁移实验
CCK8
上游miRNA验证
当然,对于单基因还有很多实验可做,这里就不做详述啦!好了,到这里我们的分享就结束了,希望我们的总结能帮助您抱回国自然,在2021年歘(chua)歘(chua)歘(chua)发大文章。
HYY为“一站式整体科研服务平台”,从课题思路制定到生信数据挖掘直至实验验证,为您的科研之路保驾护航~
关注微信公众号——博士苑
给客服小姐姐留言,
获取案例文章~