【警告⚠ 这两天笔记乱糟糟的,还没来的及好好整理,不要看不要看没啥好看的】
写在前面:本文为微信公众号:生信星球的数据挖掘线上班的随堂笔记,感谢小洁老师的付出!
- 样本ID长,病人ID短
前12位为病人ID
- 根据表达矩阵,差异基因能做的:PCA/热图/韦恩图
1. 数据下载:TCGAbiolinks。
- 非官方,较便捷。
-
all()#全为T则为T,否则为F
any()#有一个为T则为T,全为F才为F
模型评估
-
C-index和ROC取值【0.5-1】,越大越好
-KM对数据更宽容
KM生存分析公式
COX回归分析风险比率 - 注意meta矩阵的数值内容可能是character,需要去除NA并转换。
lasson回归
-找到关键基因用于建模
-需要表达矩阵【仅含有tumor样本】和meta信息【包含生死信息】,并确保顺序一致identical(str_sub(colnames(exprSet),1,12),meta$ID) == TRUE
- 输入数据是x=表达矩阵取log,y=mata$event(生死)
- 结果:Df为自由度,%Dev解释残差的百分比(越大越好,但多意味着基因数目多),Lambda是建模参数
- 算出lambda.min(取值最小)和lambda.1se(取用基因最少),分别预测
- 越接近0的预测值为认为倾向于存活,接近于1的预测值认为倾向于死亡。
ROC曲线
- 需计算AUC值,0.5-1,越接近于1越好
取小数函数:round(小数,几)#取几位小数
切割数据模型
- 适用于只有一组数据的情况,把数据分成两份。需要用到专门的函数caret
随机森林
- 找到对生存影响最大的基因?
-取名时不能用-,会被识别为减号,可以用_替代。 - 变异数据mutect软件 /瀑布图(检测)
- 通过gdc下载下来是一个.maf.gz文件,解压后是一个文件夹,读入时需要完整路径。/还需要下载临床数据
- 载入tsv文件可以用read.delim/read.table(路径)
signature
- B = B[,match(A列))#把B的列按照A的列排序
- A = A[Ab]#提取A的a列中在B的b列中存在的所有行
魅力ggbetweenstats
- 任意基因(mRNA)在任意分组中的表达量对比
- 输入表达矩阵
- 任意两个基因的相关性(两个基因的表达量)