西瓜书--第三章.线性模型

线性:y = a * x ———>一次方的变化
回归:回归到平均值

线性回归问题:给出具有偏差的多个点,确定直线方程的参数。

模型:y=ax+b,其中a,b为模型参数,决定了模型最终形式

简单线性回归:算法=公式,一元一次方程组

一元指的是一个x,影响y的因素,即维度;一次指的是x的变化,没有非线性的变化。

线性回归是一种用来 分析一个或多个自变量与一个因变量之间的线性关系的技术,它意味着数据中的点集中在一条直线周围。我们的目标是找到一个最佳拟合线,能够尽可能地模拟数据点地路径。

那么,在使用时并不是都会需要线性回归地。当自变量与因变量之间具有线性相关并且预测连续值时,选择线性回归;当自变量与因变量之间是非线性关系或者因变量是离散值时,就不适合适应线性回归了。但有些时候却可以把非线性转换为线性相关,其中使用了sklearn进行数据转换的一种方法,是将对数应用于指数数据,由此可将非线性关系变成线性相关。

现在来介绍一下误差:

一个样本的误差---yi^ - yi,找到误差最小的时刻,为了去找到误差最小的时刻需要反复尝试a和b

根据最小二乘法去求得误差,反过来误差最小时刻的a,b就是最终最优解模型。

然后到代价函数,它会将所有预测值与实际值进行比较,并且输出针对预测函数的评分;用均方误差作为代价函数,它可以度量实际值与预测值 的差异程度,代价函数可以衡量预测结果的准确程度,对确定模型准确性有着十分关键。

代价函数表示的是预测值f(x)与实际值y之间的误差的平方和,通过调整参数来使得代价函数最小值。

线性回归求解:最小二乘法。

其实,最小二乘法是使得代价函数最小的常用方法,将数据视为一个矩阵且用线性代数来计算矩阵方程中系数的最优解。

其次,梯度下降是求解无约束优化问题时最常用的方法之一

特点:在迭代过程中参数的调整方法为梯度下降方向

适用:数据量较大时的优化问题

在做线性回归预测时候,为了提高模型的泛化能力,经常采用多次线性函数建立模型。

多元线性回归:本质上就是算法(公式)变换成了多元一次方程组。

分类和对数回归:

对数回归本质上也是线性回归,只是在特征到结果的映射中加入了一层函数映射(即先把特征线性求和,然后使用替代函数y=1 / (1+e ** -z)将最为假设函数来预测)。y可以将连续值映射到0和1上。对数回归用来分类0/1问题,也就是预测结果属于0或者1 的二值分类问题。

过拟合:提取的特征比较多,模型过于适合训练数据集,繁华到新样本,偏差较大

欠拟合:提取的特征比较少,模型表现得很差,对象都无法识别

Logistic回归的目的是为非线性函数Siqmoid寻找最佳拟合参数,求解过程可以由最优化算法完成。

以上仅作是为初学者的见解!部分内容来源于网课以及视频参考。

第四章-决策树

http://t.csdn.cn/xmldgicon-default.png?t=M276http://t.csdn.cn/xmldg第五章-神经网络

http://t.csdn.cn/DdirSicon-default.png?t=M276http://t.csdn.cn/DdirS第六章-支持向量机

http://t.csdn.cn/yItchicon-default.png?t=M276http://t.csdn.cn/yItch

你可能感兴趣的:(机器学习)