TCGA_12

【警告⚠ 这两天笔记乱糟糟的,还没来的及好好整理,不要看不要看没啥好看的】

写在前面:本文为微信公众号:生信星球数据挖掘线上班的随堂笔记,感谢小洁老师的付出!

  • 样本ID长,病人ID短
    前12位为病人ID
  • 根据表达矩阵,差异基因能做的:PCA/热图/韦恩图

1. 数据下载:TCGAbiolinks。

  • 非官方,较便捷。
  • all()#全为T则为T,否则为F any()#有一个为T则为T,全为F才为F

模型评估

  • C-index和ROC取值【0.5-1】,越大越好
    -KM对数据更宽容


    KM生存分析公式

    COX回归分析风险比率
  • 注意meta矩阵的数值内容可能是character,需要去除NA并转换。

lasson回归

-找到关键基因用于建模
-需要表达矩阵【仅含有tumor样本】和meta信息【包含生死信息】,并确保顺序一致identical(str_sub(colnames(exprSet),1,12),meta$ID) == TRUE

  • 输入数据是x=表达矩阵取log,y=mata$event(生死)
  • 结果:Df为自由度,%Dev解释残差的百分比(越大越好,但多意味着基因数目多),Lambda是建模参数
  • 算出lambda.min(取值最小)和lambda.1se(取用基因最少),分别预测
  • 越接近0的预测值为认为倾向于存活,接近于1的预测值认为倾向于死亡。

ROC曲线

  • 需计算AUC值,0.5-1,越接近于1越好

取小数函数:round(小数,几)#取几位小数

切割数据模型

  • 适用于只有一组数据的情况,把数据分成两份。需要用到专门的函数caret

随机森林

  • 找到对生存影响最大的基因?
    -取名时不能用-,会被识别为减号,可以用_替代。
  • 变异数据mutect软件 /瀑布图(检测)
  • 通过gdc下载下来是一个.maf.gz文件,解压后是一个文件夹,读入时需要完整路径。/还需要下载临床数据
  • 载入tsv文件可以用read.delim/read.table(路径)

signature

  • B = B[,match(A列))#把B的列按照A的列排序
  • A = A[Ab]#提取A的a列中在B的b列中存在的所有行

魅力ggbetweenstats

  • 任意基因(mRNA)在任意分组中的表达量对比
  • 输入表达矩阵
  • 任意两个基因的相关性(两个基因的表达量)

你可能感兴趣的:(TCGA_12)