【无标题】

序数回归模型(Ordinal regression)

一、定义与相关介绍

在统计学中,序数回归,也称为序数分类,是一种用于预测序数变量的回归分析类型,即其值存在于任意尺度上的变量,其中只有不同值之间的相对排序是显著的。它可以被认为是介于回归和分类之间的一个中间问题。有序回归的例子有有序logit和有序probit。顺序回归经常出现在社会科学中,例如在人类偏好水平的建模中(例如,1-5表示“非常差”到“优秀”),以及在信息检索中。在机器学习中,有序回归也可以称为排名学习。

Ordered logit model:我们也可以将此模型称为有序 l o g i s t i c logistic logistic模型,适用于顺序因变量和纯回归模型。例如,我们在调查中对任何关于任何产品的问卷进行了差、好、好和优秀的评价,我们想分析这些回答对下一个产品的预测效果。如果问题是定量的,那么我们可以使用这个模型。我们可以将其视为逻辑回归的扩展,它允许以有序的方式出现两个以上的响应类别。
Ordered probit model我们可以将该模型视为probit模型的一个变体,它具有一个序数因变量,我们可以有两个以上的结果。序数因变量可以定义为其中的值具有自然顺序的变量,例如坏、好、好、优。

二、序数回归的线性模型

有序回归可以使用**广义线性模型(GLM)**来执行,该模型将系数向量和一组阈值都拟合到数据集。
X = ( x 1 ( 1 ) x 1 ( 2 ) . . . x 1 ( p ) x 2 ( 1 ) x 2 ( 2 ) . . . x 2 ( p ) . . . . . . . . . . . . x n ( 1 ) x n ( 2 ) . . . x n ( p ) ) n × p → ( y 1 y 2 . . . . . . y n ) X= \left ( \begin{matrix} x_1^{(1)} & x_1^{(2)} & ... &x_1^{(p)} \\ x_2^{(1)} & x_2^{(2)} & ... &x_2^{(p)} \\ ... & ... & ... &... \\ x_n^{(1)} & x_n^{(2)} & ... &x_n^{(p)} \\ \end{matrix} \right )_{n\times p} \rightarrow \left ( \begin{matrix} y_1 \\ y_2\\ ...\\ ...\\ y_n\\ \end{matrix} \right ) X= x1(1)x2(1)...xn(1)x1(2)x2(2)...xn(2)............x1(p)x2(p)...xn(p) n×p y1y2......yn
y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn是一个尺度为{1,2,…,K}之间的顺序变量。我们假设认为 y y y是一个非递减的向量, y i ≤ y i + 1 y_i \leq y_{i+1} yiyi+1.

To this data, one fits a length-p coefficient vector w and a set of thresholds θ 1 , . . . , θ K − 1 θ_1, ..., θ_{K−1} θ1,...,θK1with the property that θ 1 < θ 2 < . . . < θ K − 1 θ_1 < θ_2 < ... < θ_{K−1} θ1<θ2<...<θK1. 这组阈值将实数线划分为 K K K个不相交的段,对应于 K K K个响应级别。
现在可以将模型公式化为:
Pr ⁡ ( y ≤ i ∣ x ) = σ ( θ i − w ⋅ x ) {\displaystyle \Pr(y\leq i\mid \mathbf {x} )=\sigma (\theta _{i}-\mathbf {w} \cdot \mathbf {x} )} Pr(yix)=σ(θiwx)
或者,响应 y y y最多为 i i i的累积概率由应用于x的线性函数的函数 σ \sigma σ(Inverse link function)给出。 σ \sigma σ有几种选择。
σ ( θ i − w ⋅ x ) = 1 1 + e − ( θ i − w ⋅ x ) {\displaystyle \sigma (\theta _{i}-\mathbf {w} \cdot \mathbf {x} )={\frac {1}{1+e^{-(\theta _{i}-\mathbf {w} \cdot \mathbf {x} )}}}} σ(θiwx)=1+e(θiwx)1
给出了有序 l o g i t logit logit模型。

潜在变量模型

上述模型的probit版本可以通过假设存在实值潜在变量(未观测量) y ∗ y* y来证明:
y ∗ = w ⋅ x + ε y^{*}={\mathbf {w}}\cdot {\mathbf {x}}+\varepsilon y=wx+ε
其中 ε ε ε服从条件为x的正态分布,平均值和单位方差为1。响应变量 y y y y ∗ y* y的“不完全测量”产生,其中只确定 y ∗ y* y落下的区间:
y = { 1 if   y ∗ ≤ θ 1 , 2 if   θ 1 < y ∗ ≤ θ 2 , 3 if   θ 2 < y ∗ ≤ θ 3 ⋮ K if   θ K − 1 < y ∗ . {\displaystyle y={\begin{cases}1&{\text{if}}~~y^{*}\leq \theta _{1},\\2&{\text{if}}~~\theta _{1}y= 123Kif  yθ1,if  θ1<yθ2,if  θ2<yθ3if  θK1<y.
定义 θ 0 = − ∞ , θ k − 1 = + ∞ \theta_0=-\infty,\theta_{k-1}=+\infty θ0=θk1=+,因此当且仅当 θ k − 1 < y ∗ ≤ θ k θ_{k−1}< y* ≤ θ_k θk1<yθk y = k y=k y=k
根据这些假设,可以得出 y y y的条件分布为:
P ( y = k ∣ x ) = P ( θ k − 1 < y ∗ ≤ θ k ∣ x ) = P ( θ k − 1 < w ⋅ x + ε ≤ θ k ) = Φ ( θ k − w ⋅ x ) − Φ ( θ k − 1 − w ⋅ x ) {\displaystyle {\begin{aligned}P(y=k\mid \mathbf {x} )&=P(\theta _{k-1}P(y=kx)=P(θk1<yθkx)=P(θk1<wx+εθk)=Φ(θkwx)Φ(θk1wx)
其中 Φ \Phi Φ是标准正态分布的累积分布函数,并承担Inverse link function σ \sigma σ的作用。单个训练示例的模型对数似然性 x i , y i x_i,y_i xi,yi可以被写成:
log ⁡ L ( w , θ ∣ x i , y i ) = ∑ k = 1 K [ y i = k ] log ⁡ [ Φ ( θ k − w ⋅ x i ) − Φ ( θ k − 1 − w ⋅ x i ) ] {\displaystyle \log {\mathcal {L}}(\mathbf {w} ,\mathbf {\theta } \mid \mathbf {x} _{i},y_{i})=\sum _{k=1}^{K}[y_{i}=k]\log[\Phi (\theta _{k}-\mathbf {w} \cdot \mathbf {x} _{i})-\Phi (\theta _{k-1}-\mathbf {w} \cdot \mathbf {x} _{i})]} logL(w,θxi,yi)=k=1K[yi=k]log[Φ(θkwxi)Φ(θk1wxi)]
有序 l o g i t logit logit模型的对数似然是类似的,使用logistc函数而不是 ϕ \phi ϕ

你可能感兴趣的:(机器学习,逻辑回归,算法)