西瓜书-第三章线性模型

线性回归

适合处理数值问题。
f ( x i ) = w x i + b f(x_i)=wx_i+b f(xi)=wxi+b使得 f ( x i ) f(x_i) f(xi)约等于 y i y_i yi
离散属性的处理:若有序order,则连续化;否则需要通过编码,转化为k维向量
求解最优解:对 E ( a , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(a,b)}=\sum_{i=1}^{m}(y_i-wx_i-b)^2 E(a,b)=i=1m(yiwxib)2进行最小二乘参数估计,分别对w和b求偏导,令等式为0,即可求出w和b。
解释为何一定是最优解?
因为在导数为0处,要么是局部极大要么局部极小,由于是求偏离的程度 E ( a , b ) E_{(a,b)} E(a,b),它的极大值只会是无穷大,因此在导数为0处,再也不会再小了,就是取得极小的点。
西瓜书-第三章线性模型_第1张图片

多元线性回归

西瓜书-第三章线性模型_第2张图片西瓜书-第三章线性模型_第3张图片

广义线性模型

西瓜书-第三章线性模型_第4张图片

对率回归logistic regression

西瓜书-第三章线性模型_第5张图片
几率:正例的概率/负例的概率
西瓜书-第三章线性模型_第6张图片
对率回归:针对分类问题,

  • 无需实现假设数据分布——没有独立同分布假设
  • 可得到“类别”的近似概率预测
  • 可直接应用现有的数值优化算法库 求解最优问题
求解步骤

梯度为0是极值点的前提条件是原函数是凸函数,而 ( 1 e − ( w x + b ) − y ) 2 (\frac{1}{e^{-(wx+b)}}-y)^2 (e(wx+b)1y)2不是一个凸函数,所以不能直接求导,令等式为0.

正确方法是使用极大似然法。求
m a x P ( 真 正 例 ) P ( 预 测 正 ) + P ( 真 负 例 ) P ( 预 测 负 ) max P(真正例)P(预测正)+P(真负例)P(预测负) maxP()P()+P()P(),推导出来的式子是一个高阶可导连续函数,之后通过梯度下降/牛顿法求解梯度等于0的解。
西瓜书-第三章线性模型_第7张图片

类别不平衡——正负类占总类的比例不一样,不是无偏采样

y 1 − y > 1 \frac{y}{1-y}>1 1yy>1隐含信息就是 y > 1 / 2 y>1/2 y>1/2,也就是当类别平衡的时候在[0,1]区间大于1/2就判定为正例,小于1/2就判定为负例。
若采样不平衡,就要采用——再缩放,比如用 m + m − \frac{m^+}{m^-} mm+替换1/2,就是采用阈值移动的方法
类别不平衡问题中,当小类比大类重要时,需要做特殊处理。
西瓜书-第三章线性模型_第8张图片

你可能感兴趣的:(逻辑回归,python)