机器学习模型优缺点及基本概念

一、残差分析探索--博客学习

1. 机器学习中线性模型和非线性的区别

  1. 区别
    1. 线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的,例如logistics模型
    2. 区分是否为线性模型,主要是看一个乘法式子中自变量x前的系数w,如果w只影响一个x,那么此模型为线性模型。或者判断决策边界是否是线性的 
    3. 机器学习模型优缺点及基本概念_第1张图片
  2. 神经网络是非线性的 
    虽然神经网络的每个节点是一个logistics模型,但是组合起来就是一个非线性模型。 
    此处我们仅仅考虑三层神经网络 
  3. 机器学习模型优缺点及基本概念_第2张图片机器学习模型优缺点及基本概念_第3张图片

 

2. 计算特征相关性的方法,特征提取的方法,如何判断特征是否重要

  1. 计算特征相关性可以用皮尔逊系数 
    • 含义解释:表示两组数据的线性关系程度,取值为[-1,1]),衡量的是变量之间的线性相关性,简单快速,但是只对线性关系敏感,非线性不适合;计算特征相关性的指标还有互信息MIC和距离相关系数(Python gist包),取值为[0,1]。(重点线性!!!)
  2. 特征选择与特征融合 
    特征工程中包含特征选择和特征提取(区别),特征选择用的是Lasso,OMP,WOMP(特征排序)算法(流程讲清楚),特征提取用的是PCA降维;构造每维特征与label之间的相关性,衡量特征和相应变量即label之间的关系,计算预测输出和实际输出的误差值,误差小的说明该特征对于拟合建模贡献较大,即说明特征比较重要,常用的有卡方检验。
  3. 特征选择的其他方法:特征选择的wrapper型更符合现在的主流,例如回归模型,SVM,决策树,随机森林等机器学习模型python方法本身就有对特征打分的机制,模型可输出系数,系数越大代表特征越重要。解决的是特征冗余和多重共线性问题。随机森林RF模型的特征选择方法是平均不纯度减少(mean decrease impurity)和平均准确率减少(mean decrease accuracy):平均不纯度减少在分类时采用的是基尼不纯度或信息增益,在回归时采用的是方差或最小二乘拟合,存在关联特征的打分不稳定的缺点;平均准确率减少采用的是打乱特征的顺序,看对模型准确率的影响。

3. 机器学习一些概念

  • 损失函数(Loss/Error function):单个样本的误差。
  • 代价函数(Cost function):训练集所有样本损失函数之和的平均值。
  • 目标函数(Objective function):代价函数加上正则项
  • 鲁棒性(Robustness):表示系统对特性或参数扰动的不敏感性,即系统的健壮性、稳定性,当存在部分异常数据时算法也会很好的拟合数据集。
  • 拟合:构建的算法符合给定的数据集的特征程度。 
    欠拟合(Underfitting):high bias 算法不太符合给定数据集的特征。 
    过拟合(Overfitting):high variance 算法太符合给定数据集的特征,但对新数据集特征的拟合程度差。

4. 线性特征与非线性特征、线性模型与非线性模型

  1. 一.线性特征与非线性特征 
    “线性”与“非线性”是数学上的叫法。线性,指的就是两个变量之间成正比例的关系,在平面直角坐标系中表现出来,就是一条直线;而非线性指的就是两个变量之间不成正比,在直角坐标系中是曲线而非直线,例如一元二次方程的抛物线、对数函数等等关系。一切不是一次函数的关系,都是非线性的。
    • 线性特征:次数为1的特征。这些特征对结果的影响是满足加法原则的,即整体等于部分之和
    • 非线性特征:次数不是1的特征,如一些高维特征。这些特征不满足加法原则,例如在寒夜中一支火把给你体表温度的提升是1℃,但两支火把对你体表温度的提升或许不是2℃,而是1.5℃,此时,“火把数量”这个特征就不满足加法原则

5. 数学建模-预测模型优缺(搬运)

预测模型名称

适用范围

优点

缺点

灰色预测模型

该模型使用的不是原始数据的序列,而是生成的数据序列。核心体系是Grey Model.即对原始数据作累加生成(或其他处理生成)得到近似的指数规律再进行建模的方法。

在处理较少的特征值数据,不需要数据的样本空间足够大,就能解决历史数据少、序列的完整性以及可靠性低的问题,能将无规律的原始数据进行生成得到规律较强的生成序列。

只适用于中短期的预测,只适合近似于指数增长的预测

插值与拟合

适用于有物体运动轨迹图像的模型。如导弹的运动轨迹测量的建模分析。

分为曲面拟合和曲线拟合,拟合就是要找出一种方法(函数)使得得到的仿真曲线(曲面)最大程度的接近原来的曲线(曲线),甚至重合。这个拟合的好坏程度可以用一个指标来判断。

时间序列预测法

根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。时间序列在时间序列分析预测法处于核心位置。

一般用ARMA模型拟合时间序列,预测该时间序列未来值。

Daniel检验平稳性。

自动回归AR(Auto regressive)和移动平均MA(Moving Average)预测模型。

当遇到外界发生较大变化,往往会有较大偏差,时间序列预测法对于中短期预测的效果要比长期预测的效果好。

马尔科夫预测

适用于随机现象的数学模型(即在已知现情况的条件下,系统未来时刻的情况只与现在有关,而与过去的历史无直接关系

研究一个商店的未来某一时刻的销售额,当现在时刻的累计销售额已知。

不适宜用于系统中长期预测

差分方程

利用差分方程建模研究实际问题,常常需要根据统计数据用最小二乘法来拟合出差分方程的系数。

适用于商品销售量的预测投资保险收益率的预测。

数据系统的稳定性还要进一步讨论代数方程的求根。

微分方程模型

适用于基于相关原理的因果预测模型,大多是物理或几何方面的典型问题,假设条件,用数学符号表示规律,列出方程,求解的结果就是问题的答案。

优点是短、中、长期的预测都适合。如传染病的预测模型经济增长(或人口)的预测模型Lanchester战争预测模型

反应事物内部规律及其内在关系,但由于方程的建立是以局部规律的独立性假定为基础,当作为长期预测时,误差较大,且微分方程的解比较难以得到

神经元网络

 

数学建模中常用的是BP神经网络和径向基函数神经网络的原理,及其在预测中的应用。

BP神经网络拓扑结构及其训练模式。

RBF神经网络结构及其学习算法。

模型案例:预测某水库的年径流量和因子特征值

6. 模型可解释性:

  1. 可解释性是指人类能够理解决策原因的程度。
  2. 重要性:
    • 建模阶段,辅助开发人员理解模型,进行模型的对比选择,必要时优化调整模型;
    • 在投入运行阶段,向业务方解释模型的内部机制,对模型结果进行解释。比如基金推荐模型,需要解释:为何为这个用户推荐某支基金。
  3. 解释性与准确率:面临准确率和模型复杂度之间的权衡,但一个模型越复杂就越难以解释。一个简单的线性回归非常好解释,因为它只考虑了自变量与因变量之间的线性相关关系,但是也正因为如此,它无法处理更复杂的关系,模型在测试集上的预测精度也更有可能比较低。
  4. 可解释性特质: 
    重要性:了解“为什么”可以帮助更深入地了解问题,数据以及模型可能失败的原因。 
    分类:建模前数据的可解释性、建模阶段模型可解释性、运行阶段结果可解释性。 
    范围:全局解释性、局部解释性、模型透明度、模型公平性、模型可靠性。 
    评估:内在还是事后?模型特定或模型不可知?本地还是全局? 
    特性:准确性、保真性、可用性、可靠性,鲁棒性、通用性等。 
    人性化解释:人类能够理解决策原因的程度,人们可以持续预测模型结果的程度标示。

你可能感兴趣的:(神经网络,机器学习,人工智能,算法,数据挖掘)