根据以往积累的经验,再通过对经验(数据)的利用,可以对新情况作出有效推断。其中通过数据构建模型,称为“学习算法”。
数据的集合为“数据集”,其中每条记录是一个描述,称为“样本”。对于一个事物的单个属性,称为“特征”,其属性具体内容为“属性值”。对于一个记录,在坐标轴上用一个方向表示,则每个事物都有自己的点,称为“特征向量”。一个样本的特征数为“维数”。
通过“学习”或“训练”,找到数据之间的某种潜在关系,称为“假设”。“假设”可以不断逼近“真相”。
建立模型,需获得训练样本的“结果”信息(”标记“)。拥有标记信息的事例,称为“样例”。
对于”输出空间“的范围,分为二分类任务,多分类任务和回归任务。其中二分类和多分类任务的预测值为离散值,而回归任务的预测值为连续值。
在模型初步建立之后,利用“测试样本”使用模型进行预测。
将被学习的事物分为许多“簇”(自动形成),簇之间可能存在潜在的一些关系,称为“聚类”。
根据训练数据是否拥有标记信息分为:监督学习(分类和回归),半监督学习和无监督学习(聚类)。
明确机器学习的目标是为了优化后的模型在对新样本进行预测的时候误差更小(“泛化”),而不仅是在训练样本上表现的更加优异。这两点有较大的差异。为了实现强泛化能力,因此希望每个样本是独立地从分布上采取的,也就是“独立同分布”。
从样例中学习是一种“归纳学习”(从特殊到一般)(从具体的事实归结出一般性规律)。
学习的过程是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。搜索过程可以不断删除与正确不一致的假设和与错误一致的假设(在搜索时的选择不同删除的假设不同,搜索可以通过自顶向下,从一般到特殊,自底向上,从特殊到一般)。
推理期(逻辑推理能力)——知识期(人总结知识交给计算机)——知识期(机器自己学习知识)——学习期
机器学习:机械学习(死记硬背),示教学习(从指令中学习),类比学习(通过观察和发现学习),归纳学习(从样例中学习)。
错误率:分类错误的样本数占样本数的比例。相对应的有"精度“的概念。
误差:学习器和实际预测输出与样本真实输出之间的差异。
“经验误差”特别小的学习器的”泛化误差“在大多数情况下都不好。其原因是,机器把训练样本自身的个别特点当作了所有潜在样本都会具有的一般特质,称为”过拟合“(与其相对应的是”欠拟合“)。
通过实验测试对学习器的泛化误差进行评估进而做出选择。因此,需要使用”测试集“来测试其对新样本的判别能力,以测试集的测试误差作为泛化误差(独立同分布采样)(注意:测试集与训练集互斥)。
接着介绍如何从一个数据集中产生训练集和测试集。
直接将数据集划分为两个互斥的集合(划分过程需要保持数据分布的一致性:样本的类别比例相似,分层采样)。假设一次训练:目前对训练集进行训练,以二分类为例,如果正例全在前面反例全在后面,和反前正后,或者打乱顺序等等不同顺序输入,其训练结果也会有所不同。因而不能单次使用留出法,而要诺干此随机划分,重复进行实验评估后取平均值作为最终结果。同时,对数据集进行划分时,训练集和测试集的比例也会影响最终的结果,经过实验验证,2/3~4/5的比例最合适。
先将数据集划分为k个大小相似的互斥子集,保持数据分布的一致性(分层采样)。每次用(k-1)个子集的并集作为训练集,剩下的作为测试集,其中k常用取值为10(还有5,20)。与留出法相似,这个方法同样需要随即是哟个不同的划分重复n次(常用为10次10折交叉验证法)。其中有个特例是留一法,即k为数据集中的所有样本。由于留一法使用的样本数量巨大在其产生极准确的评估结果的同时,其运算量也是异常的大。
以上两种方法会因训练样本规模不同而导致的估计误差。以”自助采样法“为基础,现开一个新的空数据集,使一部分原数据集的样本被复制选入新的数据集,在下一次选择时仍然有可能被选到。通过计算(1-1/m)的m次方(m趋近于正无穷)等于1/e,约等于0.368,时样本始终不被选到的概率。这样我们就可以得到新的数据集为训练集,未被选到的作为测试集。其测试结果被称为”外包估计“。
弊端:其改变了初始数据集的分布,引入估计偏差。(?)
对参数选定范围和步长。
学得模型在实际使用中遇到的数据集称为”测试数据“,模型评估与选择中惯用语评估测试的数据集称为”验证集“。
回归任务常用性能度量是”均方误差“。
对以下问题:就挑选西瓜而言,我们关心”挑出来的西瓜中有多少比例是好瓜,或者所有好瓜中有多少比例被挑了出来“,错误率精度就难以计算。
对于二分类而言,可将最终结果分为真正例,假正例,真反例,假反例。其中,查准率=真正例/(真正例+假正例);查全率=真正例/(真正例+真反例)。两者一般变化趋势相反。
根据学习器的预测结果对样例排序,前面的是最正,反之。以此顺序逐个把样本作为正例进行预测,则可计算出查准率查全率。可根据计算结果画出P-R曲线,当一条曲线包住另一条曲线的时候,则说明包住其他曲线的曲线性能更优秀。当查全率和查准率相等时,那个点被称为平衡带你(BEP),平衡点综合考量了两个率。
但是利用平衡点考量有点过于简单,因而提出F1度量。
F1=2XPXR/(P+R)=2XTP/(样例总数+TP-TN) (即F1是基于两者的调和平均)(相比于算术平均和几何平均,调和平均更重视较小值)
在不同应用中,我们需要优先考虑其中一个率,则提出F1的一般形式Fβ=(1+β*2)XPXR/((β*2XP)+R),Fβ是加权调和平均,当β>1时,查全率影响大;=1,;<1,。
宏查全率,宏查准率和宏F1是对多个二分类混淆矩阵操作的,先计算出各个查全率查准率等再求平均数。
微查全率,微查准率和微F1:先计算TP,FP,TN,FN的平均值,再通过公式计算。