一、机器学习的一些概念

一、机器学习的一些概念:
1、统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。
2、统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。
3、有监督:监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
4、无监督:无监督学习不知道预测主体,它是在一堆堆数据中不断挖掘并寻找数据之间的关系,而不是通过选取自变量预测因变量。
5、过拟合:一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合。
过拟合常见解决办法:
1)、在神经网络模型中,可使用权值衰减的方法,即每次迭代过程中以某个小因子降低每个权值。
2)、选取合适的停止训练标准,使对机器的训练在合适的程度;
3)、保留验证数据集,对训练成果进行验证;
4)、获取额外数据进行交叉验证;
5)、正则化,即在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。

6、欠拟合:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
欠拟合常见解决办法:
1)、增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;
2)、添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强;
3)、减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数;
4) 、使用非线性模型,比如核SVM 、决策树、深度学习等模型;
5)、调整模型的容量(capacity),通俗地,模型的容量是指其拟合各种函数的能力。
6)、容量低的模型可能很难拟合训练集;使用集成学习方法,如Bagging ,将多个弱学习器Bagging。
7、交叉验证:交叉检验的基本思想是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
在许多实际应用中数据是不充足的,为了选择好的模型,可以采用交叉检验方法。
交叉检验分类:简单交叉检验、S折交叉检验、留一交叉检验
交叉验证是一种常用的模型选择方法
8、泛化能力:学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
9、常用的模型选择方法:正则化(经典方法)、交叉验证

二、线性回归的原理模型
“回归”是相关分析的归宿
回归分析可分为线性回归分析和非线性回归分析。
线性回归分析分为简单线性回归分析和多元线性回归分析。
1、 简单线性回归分析
简单线性回归分析又叫一元线性回归分析,它是线性回归分析中最基本的类型。一元线性回归分析包括两个变量,两个变量之间是线性关系,其中一个变量为因变量,另一个变量为自变量。一元回归分析最终能得到这两个斌量的函数关系式。
1.1、简单线性回归分析模型:

为截距; 为斜率; 为随机误差; 为样本容量
简单线性回归模型是从整体的角度对自变量X和因变量Y的关系进行描述,因此与我们熟知的线性方程有些差别。
2、多元线性回归分析
建立具有多个自变量的回归分析就是多元回归分析。在多元回归分析中,如果因变量与多个自变量之间的关系为线性关系,该回归分析为多元线性回归分析。
2.1、多元线性回归模型:

代表自变量;
代表自变量回归系数,可以反映自变量对因变量的影响程度;
表示参数回归系数;
表示随机误差,是偶然因素引起的因变量变化。
随机误差是由偶然因素引起的因变量变化,因此服从正态分布,随机误差的均值 。当随机误差取均值时,多元线性回归模型就简化为多元线性回归函数,多元线性回归函数可以表示为:

三、线性回归损失函数、代价函数、目标函数
损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。
关于目标函数和代价函数的区别还有一种通俗的区别:
目标函数是最大化或者最小化,而代价函数是最小化

四、优化方法(梯度下降法、牛顿法、拟牛顿法等)
1、梯度下降法(gradient descent)
梯度下降法或最速下降法(steepest descent)是求解无约束最优化问题的一种最常用的方法,有实现简单的优点。梯度下降法是迭代算法,每一步需要求解目标函数的梯度向量。
算法:(梯度下降法)
输入:目标函数 ,梯度 ,计算精度 ;
输出: 的极小点 。
步骤:
(1) 取初始点 ,置 ;
(2) 计算 ;
(3) 计算梯度 ,当 时,停止迭代,令 ;否则,令 ,求 ,使 。
(4) 置 ,计算 ,当 或 时,停止迭代,令 ;
(5) 否则,置 ,转(3);
当目标函数时凸函数时,梯度下降是全局的最优解,一般情况下,其解不保证是全局最优解,梯度下降法的收敛速度也未必是很快的。
2、牛顿法(Newton method)和拟牛顿法(quasi Newton method)也是求解无约束最优化问题的常用方法,有收敛速度快的优点。牛顿是迭代算法,每一步需要求解目标函数的海塞矩阵的逆矩阵,计算比较复杂。拟牛顿法通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵,简化了这一计算过程。
算法:(牛顿法)
输入:目标函数 ,梯度 ,海塞矩阵 ,精度要求 ;
输出: 的极小点 。
步骤:
(6) 取初始点 ,置 ;
(7) 计算 ;
(8) 若 ,则停止计算,得近似解 ;
(9) 计算 ,并求 ;

(10) 置 ;
(11) 置 ,转(2).
步骤(4)求 , ,需要求 ,计算比较复杂,所以有其他改进的方法。
拟牛顿法的思路:
在牛顿法的迭代中,需要计算海塞矩阵的逆矩阵 ,这一计算比较复杂,考虑用一个 阶矩阵 来近似代替 ,这就是拟牛顿法的基本思想。
五、线性回归的评估指标
衡量线性回归的指标:MSE,RMSE和MAE
衡量线性回归法最好的指标R Squared

六、sklearn参数详解
sklearn可实现的函数或者功能可分为如下几个方面

1.分类算法:knn算法、朴素贝叶斯算法、线性判别分析、二次判别分析、支持向量机、神经网络、决策算法、集成算法-Bagging、集成算法-随即森林、集成算法-AdaBoost、集成算法-GBDT
2.回归算法:最小二乘、岭回归、核岭回归、支持向量机回归、套索回归、弹性网络回归、贝叶斯回归、逻辑回归、稳健回归、多项式回归、偏最小二乘回归、典型相关分析
3.聚类算法:knn算法、Kmeas算法、层次聚类、DBSCAN
4.降维算法:主成分分析、核函主成分、因子分析
5.模型优化:
6.文本预处理
其中分类算法和回归算法又叫监督学习,聚类算法和降维算法又叫非监督学习

你可能感兴趣的:(机器学习)