西瓜+南瓜 task2:线性回归

线性模型

基本形式

西瓜+南瓜 task2:线性回归_第1张图片
常见线性函数 y = wx+b,比如历史数据的每日销售来预测某一天,某一个季度,某一年的销售情况,好做应对措施。

w(i)在预测中扮演重要角色,可以看出每个属性对y值的影响程度,w值越大,权重越高,当然正负亦可。

线性回归

在这里插入图片描述
线性模型,其实是连续型的,想要做分类,可以用“阈值”离散化,这样就可以继续使用了。

有这样一个数据集D,且是离散,存在“序”关系,比如说高、中、低,三种属性,将其变成为 {1.0,0.5,0.0};

如果不是序关系,有K个属性,可转为K维向量,比如"西瓜" “南瓜” "黄瓜"可转化为 (0,0,1,) (0, 1,0),(1,0,0)
线性
w和b 如何确定,就得看f(x)和y之间的差别(均方误差最小)

西瓜+南瓜 task2:线性回归_第2张图片
均方误差最小化方法一般用“最小二乘法”,找到一条直线,让样本到直线上的欧氏距离之和min,这个实用性很高,文本计算也会用到这种方法,一定要记住。

西瓜+南瓜 task2:线性回归_第3张图片
除了简单的一元回归,还有多元回归,这种在实际业务场景中使用更为频繁。

在这里插入图片描述
对数线性回归:(一种非线性函数音声)
在这里插入图片描述
西瓜+南瓜 task2:线性回归_第4张图片

对数几率回归

西瓜+南瓜 task2:线性回归_第5张图片

看Z=w^Tx+b作为一个分割线,
大于Z=w^Tx+b的判定为类别0,
小于Z=w^Tx+b的判定为类别1。

分段函数数学性质不太好,既不连续也不可微。一般做优化任务,目标函数最好是连续可微的。所以就用到了对数几率函数。

其实,LR 模型就是在拟合Z=w^Tx+b这条直线,使得这条直线尽可能地将原始数据中的两个类别正确的划分开。

对数几率回归虽然是回归,但是却是一种分类学习方法,不需要假设数据分布就可以把类别和近似概率预测,且它的任意阶求导后都是凸函数,可求最优解。

线性判别分析(LDA)

西瓜+南瓜 task2:线性回归_第6张图片
经典的监督维数技术(比如人脸识别,舰艇识别等图形图像识别领域中广泛被应用),若W是一个投影矩阵,LDA 是将样本投影到N-1维空间,属性数降低,这样就达到了降维目的。

原始数据一般都会超过二维,投影后大多不会是直线,而是一个低维的超平面。

主成分分析(PCA)也是降维,同样是降维,两者区别在哪儿呢?

1 LDA有监督,PCA无监督;
2 LDA降维最多降到k-1的维数,而PCA无限制。
3 LDA可降维,可分类。

部分内容来源于:https://blog.csdn.net/ruthywei/article/details/83045288

多分类学习

多分类思路:拆解成若干个二分类
一般: 一对一、一对其余、多对多

eg:N个类别两两配对,就有N(N-1)/2个二分类
西瓜+南瓜 task2:线性回归_第7张图片
OVO:将预测最多的类别作为最终分类结果,比如左边的C3 预测出来有3个。
OVR:将唯一一个正类标记为最终分类结果。

如果数据类别很多,OVR 比OVO更耗时耗力,类别较少,OVR更好,它的每个分类器都被使用训练样例,而OVO每个分类都仅用了2类。

类别不平衡问题

分类任务中不同类别的训练阳历数目差别很大,比如有998个反例,仅有2个正例。

西瓜+南瓜 task2:线性回归_第8张图片

如果m+和m- 数目相等则y/(y-1) >1,预测为正例。

西瓜+南瓜 task2:线性回归_第9张图片

你可能感兴趣的:(西瓜+南瓜,机器学习,人工智能,深度学习,算法,python)