1. 机器学习中的机器是什么?
是运行在计算设备上的算法。机器学习就是算法学习,机器不是运行算法的机器而是机器上的算法
2. 机器学习要做什么?
机器学习就是要让运行在机器上的算法具有一定的自主能力和进化能力。
3. 机器怎样学习?
* 1归纳统计学习
经验数据---(输入到)---统计方法---(得到)---经验结论
* 2演绎推理
符号系统和知识系统---(输入到)---演绎方法--(得到)---逻辑结论
符号系统:是对人类大脑中的概念进行建模,比如:什么是人/狗/猫,
知识系统:存储这些概念之间的关系,比如:猫是人的宠物。知识系统常见包含因果律/因果系统,比如猫吃老鼠。
4. 对比归纳统计和演绎推理:
5. 机器学习有什么用?
6. 机器学习本质上是一套算法,这一套算法是干什么用的?
是分析数据处理数据的,
7. 机器学习流程
8. 课程需要内容
9. 授课思路
10. 统计机器学习的几种方式
1监督学习,2无监督学习,3强化学习
有时候不加区分,特征空间就叫做输入空间或输入特征空间,但是要注意学习器模型是在特征空间上构建的,不是在原始素材上构建的。
现在有些深度学习是端到端的,特征提取器也可以训练,但是他仍然只是一个特征提取器,现在这里讲的特征提取器是无法直接去训练的,这是跟深度学习的一个区别。
但是特征空间这个概念是仍然存在的。
D维输出空间,大多数情况下D维就是1维,比如单标签分类问题或因变量是一维情况。在多标签分类问题中,D是大于1的。
预测响应或实际响应是我们预测出来的。
独立同分布:独立是样本相互之间没有影响,同分布是指所有样本都服从这个分布P(X,Y)
环境就是训练样本。训练样本一部分给教师,y1...yn都给教师了,x1...xn就给学习系统了。学习系统对样本特征向量产生实际响应,老师根据x的标号给出对应的期望响应,然后做差,根据误差不断调节学习系统的参数,让实际响应和期望响应不断更接近,让误差不断减小,直到消失。监督学习就是由误差驱动的。
学习过程就是在假设空间挑选最优假设,也就是估计模型参数的过程。
概率模型是条件概率分布。非概率模型是决策函数
条件概率:比如第一类概率是0.8,第二类概率是0.6,那么就属于第一类。条件概率就是取最大的概率标签给ynew作为预测。即最大概率预测
决策函数有时候直接就是一个解析的表达式,解析表达式直接将特征向量加进来给出一个预测值。
如何选择模型就是如何选择假设空间的问题。
模型选择的重要性就在于,一定要保证假设空间中至少有一个候选假设能够与你的真正的数据集的真正假设能够相互吻合。
确定好假设空间以后再去确定策略。
算法--搜索并发现最优假设--有一个矛盾:要在无穷多个假设中发现最优假设,同时避免发现次优假设,避免陷入局部最优解,找到全局最优解,即全局最优的假设。
每个统计学习方法都要解决三个问题:首先是假设空间的确定,然后是假设空间的评估,最后是假设空间的搜索优化。学习器的设计要遵循这个流程。
模型的候选假设空间就是由参数空间的数量决定的,如果参数空间的组合是有限的,那么候选假设就是有限的。参数空间是无限的,那么待搜索的整个假设空间就是无穷的。
结合图示例子说明:
1广义线性学习器:
模型是线性模型,y=ax3+bx+cx+d,共有4个参数,假设空间就由这4个参数的取值范围来定性。知识表示就是用这样的一个解析的判决函数来表示。
2贝叶斯学习器
高斯分布的参数是μ和α,均匀分布的参数是上限和下限。假设空间就是由这些参数来决定的。知识表示就是图示的条件概率分布。
3决策树学习器
假设空间是由测试条件和测试节点来决定的,知识表示就是if,then,else这种规则,
4支持向量机学习器
假设空间是权值,w和b参数。知识表示,高维空间的分类曲面。
5神经网络学习器
假设空间是权值,链接里面的每一层的权值和偏置。知识表示是权值和网络之间的连接构造形式中。
6混合集成学习器
整个学习器构成了一个大的假设空间,每个子学习器里面又有一个小的假设空间,最终通过若干个小的假设空间去做多数投票原则。多数投票原则就是把原始数据的假设空间划分成若干个小的假设空间来逼近,知识表示表现在每一个小的假设空间里面。
损失函数和代价函数度量的是一次预测错误的程度,就是在一个样本上的错误程度。
风险函数度量的是很多样本上的预测错误程度,就是对单个样本进行平均。
损失函数
0-1损失在分类中用的多,在回归中用的少。
对数损失在分类中也较常用
回归中用的损失函数是平方损失和绝对损失,平方损失是一个抛物面,绝对损失是一个倒三角。平方损失在数学上更好处理,比如求导,绝对损失求导还要进行分段求导。
风险损失函数/期望损失:
Rexp是Risk(expect)期望损失。Ep是期望风险损失,E是数学中的期望符号,p是p(x,y),输入特征空间和输出特征空间的联合概率分布。每一个样本损失对p进行加权,即L(y,f(x))p(x,y),然后累计起来就是平均意义上的损失。
期望风险/期望损失无法计算,原因在于p(x,y)不知道。
于是我们给定训练数据集T,包含N个数据。每个样本包含特征Xn和目标值Yn。模型f(x)关于训练集的平均损失称为经验风险/经验损失。
Remp是Riskemperical。将每个样本上的损失加权平均。
经验损失是如何实现的,实际上就是将风险函数/期望损失公式中的p(x,y)换成1/n。期望损失就变成了经验损失了。
根据大数定律,样本数量N趋于无穷时,经验风险将收敛到期望风险。
但是,样本数量小,用经验风险来估计期望风险会出现很大偏差,怎么办?
两大策略:经验风险最小化和结构风险最小化。
经验风险最小化的数学表示:F是假设空间,f是每一个假设,L()是每一个样本的损失,对每一个样本损失进行加权平均,然后最小化经验风险。
从机器学习的角度理解,就是学习器的假设空间,从优化问题角度理解,是优化问题的可行解空间。
样本容量比较大时,经验风险最小化的策略比较好。样本容量比较小时,容易过拟合。
怎么办?选择结构风险最小化策略。
结构风险最小化。
泛函是什么?泛函是函数的函数,f是决策函数,那么将f映射成实数,f模型越复杂,那么实数映射的就越大,f越简单,那么实数就越小。
λ表示,样本量足够多的话,λ就要取小一点。
函数逼近算法就是优化算法。
如何将目标函数的要素和机器学习关联起来?
目标函数对应结构风险还是经验风险,优化变量就是参数f,每一个候选,每一个候选假设都是一个优化变量。约束条件就是对假设空间的约束,对假设空间约束就产生了候选的假设空间,就是可行解空间。优化方法就是根据我们选择的目标函数来不断,优化方法可以是经典优化方法,解析的,比如基于梯度的,也可以是正优化方法,比如蚁群算法,遗传算法这种优化方法。在可行解空间(即候选假设空间)总搜索来最小化目标函数。
参考李航的《统计学习方法》,在其他书上没有看到标注问题这样的提法。
李航认为标注问题是分类问题的一个特例,标注问题的输入和输出与分类问题的不一样
理解:标注可能就只有abcd四个,但是作为一个序列出现时,可能是aaa,bbb,ccc,abc,acb..等等状态序列,这样不断的组合就会产生各种各样的状态,序列长度越长,可能的组合方式就越多,因而他们的组合数随着序列长度指数级增长。
回归分析主要用来发现两个随机变量之间的相关关系的具体形式。这是回归分析和函数拟合之间最主要的区别。
e是对模型残差的一种表示,就是没有被模型考虑进去的影响因素对模型估计带来的误差。相关关系分析的是部分(不全面的)因果关系,函数关系是确定性的因果关系。
相关关系可以是线性相关也可以是非线性相关。
许多算法不仅可以分类也可以回归。
上面例子中,第一个图中,所有样本数据,用任何一种基于距离的聚类方法都没有办法将这些数据给分开,这些数据完全重叠在了一起。但是一旦掌握了这些数据的生成式模型,那么我们可以通过自顶向下的方式。对于这些数据点,我们一旦估计出这些数据点的均值和协方差矩阵,就可以判定出来不同的单高斯分布。
两种高斯混合模型的区别是:估计GMM参数的方法不同。
高斯混合模型就是用单个的高斯分布来逼近一个复杂的密度函数,
原始阶梯状频率直方图,形式化一个表达式出来。用高斯核密度估计,可以看到,明显有两个单高斯模型分布,可以估计单高斯模型的均值和方差,就可以将整个的解析表达式估计出来。
实际应用时可以用来分类和预测。可以剔除异常点。
下图中,不同的高斯分布是不同的核kernel,三种核。
E()表示后面的值的累加再除以个数。
维数约简之随机投影。
下面的例子中,将64维的数字数据集随机投影为2维的,但是降维效果不好。
LDA效果比之前的随机投影和主成分分析效果好很多。
设计学习器时候,先考虑学习任务是什么。是分类,还是回归,是聚类还是维数约简。
准备数据:数据预处理---缺失值处理,特征向量提取,归一化。
学习器类型确定:如果是分类任务,我们选择SVM,随机数,还是随机森林。
对数据的知识表示方式
训练集输入到学习器模型中进行训练,产生训练误差,反馈给学习器模型,再去训练,降低误差,误差降低到一定水平后,就认为学习器模型训练好了。最后把测试集数据输入到训练好的学习器模型中,会给出一个测试误差,测试误差就是对学习器模型的泛化能力的一个度量。
选择目标函数,就是策略中到底是使用经验风险最小化还是使用结构风险最小化。
从机器学习的角度理解优化问题的优化变量,优化变量就是假设空间里面的一个假设。
如果对学习器模型里面的参数做一个限定的话,比如多层神经网络,将连接权值限定在(-1,1)之间,那么这就是一个约束条件,在这个约束条件之下,我们的可行解空间即假设空间就会极大的缩小。在优化变量和约束条件确定之后,我们就确定了可行解空间。可行解空间从机器学习的角度来理解就是假设空间。
接下来选择一个优化方法,经典的解析优化方法就是以梯度为代表的,比如随机梯度下降法,牛顿法,还有非经典的智能优化方法,比如蚁群算法,遗传算法,都可以求解优化问题。
优化方法就是不断从可行解空间中挑选可行解,使得目标函数达到最小。
以上面的西洋跳棋学习问题为例,讲解学习问题。
直接训练样例:可以直接拿来当做误差信号来调节学习器的参数
间接训练样例:
从直接训练样例中学习要比从间接训练样例中学习更好
完全无控制权:训练样例是由第三方随机产生的。
目标函数不能太复杂,太复杂容易陷入局部最优解,且优化过程会很慢。
机器学习的核心是优化问题