2021-10-06

下载完数据后,一用do.call(dplyr::bind_rows,diagnose)

然后去clinical$demographic

两者用patient_id合并,可以得到数据

现在做单因素分析,然后lasso回归分析

已经得到数据表,单因素分析需要什么?

似乎需要的数据不多,看看怎么弄做

单因素分析:基因表达值,生存状态:死亡或者存活,生存时间

那剩下的那些是个什么鬼

生存分析,生存时间,生存状态

生存分析模型处理“时间-事件”数据(time-to-event data),是对个体一段时间内的风险进行预测,是临床研究中的常用方法。

生存分析,也被称为时间-事件分析(time-to-event

analysis)。很明显,我们关心的是研究对象在因素暴露后,发生终点事件经过的时间。举个例子,暴露因素可能是某种诊断,比如说肝炎的诊断,我们感兴趣的事件可能是死亡,也可能是肝硬化,肝硬化是被诊断为肝炎后的常见结局。这个例子中,肝炎的诊断就是该研究对象开始被研究的时间,发展成肝硬化或者死亡这个时间就是该研究对象研究结束的时间。这两个时间点之间的时间,被称为生存时间。

生存分析:就是诊断为疾病后多久死亡或者说在一年内的死亡率是多少?本来这个很容易计算,死亡人数除以总人数就可以。但是因为随访问题,一些病人失访不知道死活,那这个时候再去计算生存率就需要新的方法引入

一个非常典型的例子可能是把癌症诊断的时间作为研究起点,然后评估一个人在确诊后可以存活多长时间。我们也可以看看离婚率,结婚是研究起点,然后终点事件是离婚,我们可以评估婚姻的存续时间。所以无论我们谈论的是健康还是某种社会机构或者某公司在股市震荡后的生存,诸如此类的都无关紧要。无论如何,生存时间是特别重要的

让我们来看看如何测量生存时间。在这个例子中,我们将使用肺癌确诊作为我们的研究起点,评估肺癌诊断后的生存时间。假设我们进行这项研究的时间是10年。所以我们需要做的是收集一些被诊断出肺癌的人的数据看看他们在这十年里是什么时候去世的。


假设我们的样本中有很多人,你可以看到每个人都有不同的开始时间(被诊断为肺癌的时间)。所以,需要重新设置一个特定的生存时间让它们从同一点开始


问题就是病人不可能一下子都来,需要在一定时间去收集病人,所以诊断时间上有区别(这个以前是没有概念)

KM曲线是一条非参数曲线,是从数据集推导出来的。所以它看起来是为我们接收到的数据集定制的。当我们开始做一些更高级的分析和建模时可以使用参数,我们可能会使用一种叫做风险系数的东西。


删失指由于关注的事件没有被观测到或者无法观测到,从而使真实生存时间无法获得的情况。删失通常由两种原因导致:(1)失访;(2)研究结束时,关注的事件尚未发生。因此,生存分析的因变量需要用生存时间和结局状态两个变量来刻画,将终点事件是否发生以及发生终点事件所经历的时间相结合。

你可能感兴趣的:(2021-10-06)