系统学习机器学习之cox模型

转自:https://www.jianshu.com/p/eff8b41b5edb

  • 什么是回归?
    英国著名统计学家弗朗西斯·高尔顿(Francis Galton,1822—1911)是最先应用统计方法研究两个变量之间关系问题的人。“回归”一词就是由他引入的。他对父母身高与儿女身高之间的关系很感兴趣,并致力于此方面的研究。高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但从平均意义上说,给定父母的身高,儿女的身高却趋同于或者说回归于总人口的平均身高。换句话说,尽管父母双亲都异常高或异常矮,儿女身高并非也普遍地异常高或异常矮,而是具有回归于人口总平均高的趋势。更直观地解释,父辈高的群体,儿辈的平均身高低于父辈的身高;父辈矮的群体,儿辈的平均身高高于其父辈的身高。用高尔顿的话说,儿辈身高的“回归”到中等身高。这就是回归一词的最初由来。
    现在回归的含义:回归是研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。
  • 为什么使用回归分析
    1.对某一现象建模,以更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种相应措施。
    2.对某种现象建模以预测其他地点或其他时间的数值。基本目标是构建一个持续、准确的预测模型。
  • 回归分析的作用主要有以下几点:
1)挑选与因变量相关的自变量;
2)描述因变量与自变量之间的关系强度;
3)生成模型,通过自变量来预测因变量;
4)根据模型,通过因变量,来控制自变量。

一、模型介绍:
Cox比例风险回归模型(Cox's proportional hazards regression model),简称Cox回归模型。该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。COX回归模型,又称“比例风险回归模型(proportional hazards model,简称Cox模型)”,是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。由于上述优良性质,该模型自问世以来,在医学随访研究中得到广泛的应用,是迄今生存分析中应用最多的多因素分析方法。
二、Cox回归分析基本原理
在介绍Cox回归模型之前,需要了解几个有关的概念。

  • 生存函数(survival function): S(t)=Pr(T > t) t 表示某个时间,T表示生存的时间(寿命),Pr表示表示概率。生存函数就是寿命T大于t的概率。举例来说,人群中寿命超过50(t)岁的人在所有人中的概率是多少,就是生存函数要描述的。假定t=0时,也就是寿命超过0的概率为1;t趋近于无穷大,生存概率为0,生存函数是一个单调非增函数。t越大,S(t) 值 越小。

     

     

     

     

  • 那么如果我们做如下实验,分析x1~x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线性回归方差?或建立生存函数S(t)与影响因素间的线性回归方程?

     

     

     

    t为生存时间

     

     

    这里就存在几个问题:
    1.生存时间t不服从正态分布

    2.生存时间t含有截尾值(不知道截尾值自己查一下)
    cox模型解决了这一问题,cox模型用风险函数h(t)作为因变量,并假定:

     

     

    利用生存函数与危险函数进一步推导

     

     

 

你可能感兴趣的:(机器学习)