【sparse learning-N1】GLM+sparse

广义线性模型在实际中涵盖了大部分常用模型 ,sparse是针对变量维数 p p p远大于样本数 N N N时的常用求解技巧,本文记录了广义线性模型加上稀疏假设后的模型和求解方法。

内容

  • 1. 基本概念
  • 2. logistic regression
  • 3. 多分类LR
  • 4. log-linear模型和poisson GLM
  • 5. cox proportional hazards models
  • 6. SVM

1. 基本概念

线性模型:给定N个样本 { x i , y i } i = 1 N \{x_i,y_i\}_{i=1}^N {xi,yi}i=1N,其中 x i ∈ R p , y i ∈ R x_i\in R^p,y_i\in R xiRp,yiR,线性模型是用 η ( x i ) = β 0 + β T x i \eta(x_i)=\beta_0+\beta^Tx_i η(xi)=β0+βTxi
来估计 y i y_i yi的模型

(1)最小二乘估计

求解以上线性模型的常用方法是利用最小二乘估计,有以下目标函数:
【sparse learning-N1】GLM+sparse_第1张图片
(2)lasso估计器
对于特征维度p大于样本数数量N的情况(数据高维),一般增加一些限制,使得 β \beta β解更稀疏,目的是弱化某些维度的特征,让模型更加可解,常用的限制是1-范数:
【sparse learning-N1】GLM+sparse_第2张图片
(3)拉格朗日乘子法
对于上述带限制条件的凸优化问题,一般需要利用拉格朗日乘子法,将问题转化为无约束优化问题:
【sparse learning-N1】GLM+sparse_第3张图片
(4)其他估计器
除了1-范数外,还有常用的2-范数,p-范数作为限制项

(5)从概率角度理解最小二乘法

(6)从概率角度理解lasso
先验,贝叶斯公式(坑)

二项分布:在线性模型中, y ∈ R y\in R yR为连续值,对于实际中出现的离散情况,例如 y ∈ { 0 , 1 } y\in \{0,1\} y{0,1},可以将线性模型和lasso的思想推广到一般情况

(1)linear logistic model
对于离散的 y ∈ { 0 , 1 } y\in \{0,1\} y{0,1},可以用线性logistic模型:
【sparse learning-N1】GLM+sparse_第4张图片
(2)GLM
【sparse learning-N1】GLM+sparse_第5张图片
其中, g : R → R g:R\rightarrow R g:RR,被称为link function,作用是把 y y y x x x的关系由非线性转化为线性
各种link function和指数分布族

(3)GLM+lasso
【sparse learning-N1】GLM+sparse_第6张图片

2. logistic regression

用于 y ∈ { 0 , 1 } y\in \{0,1\} y{0,1}的建模:

  • 目标函数
    【sparse learning-N1】GLM+sparse_第7张图片
  • 求解方法
    (1)凸优化问题
    (2)第二项不可微,常规的梯度下降不可用
    (3)coordinate descent

3. 多分类LR

用于 y ∈ { 0 , 1 , . . . , k } y\in \{0,1,...,k\} y{0,1,...,k}的建模:

  • 目标函数
    在这里插入图片描述
    其中,
    【sparse learning-N1】GLM+sparse_第8张图片
  • 求解方法
    (1)凸优化问题
    (2)第二项不可微,常规的梯度下降不可用
    (3)coordinate descent

4. log-linear模型和poisson GLM

用于 y y y为计数的建模(泊松分布):
【sparse learning-N1】GLM+sparse_第9张图片

  • 目标函数
    在这里插入图片描述

5. cox proportional hazards models

6. SVM

  • 目标函数
    【sparse learning-N1】GLM+sparse_第10张图片

  • 求解方法
    (坑)

你可能感兴趣的:(math,ML,算法,人工智能)