分类(classification): 预测的是离散值, 比如“好瓜” “坏瓜”。
回归(regression): 预测的是连续值, 例如西瓜成熟度“0.79", "0.95"。
泛化(generalization): 学得模型适用于新样本的能力,称为"泛化" (generalization)能力.
数据挖掘(data mining): 从海量数据中发掘知识. ,数据库领域的研究为数据挖掘提供数据管理技术, 而机器学习和统计学的研究为数据挖掘提供数据分析技术.
通过对 数据集D 进行适当的处理,从中产生出训练集 S 和测试集 T 的方法:
1. 留出法(hold-out): 直接将数据集 D 划分为两个互斥的集合, 其中一个集合作为训练集 S,另一个作为测试集 T。训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响, 例如可以采用分层采样的方法。常见做法是将大约 2/3 rv 4/5 的样本用于训练,剩余样本用于测试.
2. 交叉验证法(cross validation): 先将数据集 D 划分为 k 个大小相似的互斥子集, 即 D = D1 U D2υ... U D k, Di n Dj = ø (í 手 j ) . 每个子集 Di 都尽可能保持数据分布的一致性,即从 D 中 通过分层采样得到. 然后,每次用k-1 个子集的并集作为训练集, 余下的那个子集作为测试集;这样就可获得 k 组训练/测试集,从而可进行 k 次训练和测试. 最终返回的是这 k 个测试结果的均值.
3. 自助法(bootstrapping): 给定包含 m 个样本的数据集 D , 我们对它进行采样产生数据集 D': 每次随机从 D 中挑选一个样本, 将其拷贝放入 D' 然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到; 这个过程重复执行 m 次后我们就得到了包含 m个样本的数据集 D',这就是自助采样的结果.
自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处. 然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差. 因此,在初始数据量足够时,留出法和交叉验证法更常用一些.
模型评估与选择中用于评估测试的数据集常称为"验证集" (validation set).
错误率和精度是分类任务中最常用的两种性能度量,既适用于二分类任务,也适用于多分类任务.错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例.
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误
差的下界,即刻画了学习问题本身的难度.偏差一方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的.
均方误差(mean square error)对应了常用的欧几里得距离或简称"欧氏距离" (Euclidean distance). 基于均方误差最小化来进行模型求解的方法称为"最小二乘法" (least squ町e method). 在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小.
线性判别分析 (Linear Discriminant Analysis,简称 LDA)是一种经典的线性学习方法,给定训练样例集, 设法将样例投影到一条直 线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到 同样的这条直线上,再根据投影点的位置来确定新样本的类别.
编码: 对 N 个类别做 M 次划分, 每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生 M 个训练集,可训练出 M 个分类器.
解码: M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果.
类别不平衡问题: 再缩放(rescaling)
第一类是直接对训练集里的反类样例进行"欠采样" (undersampling) ,即去除一些反倒使得正、反例数日接近, 然后再进行学习;
第二类是对训练集里的正类样例进行"过来样" (oversampling) ,即增加一些正例使得正、反例数目接近,然后再进行学习;
第三类则是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将式 y'/1-y' = y/1-y x m-/m+嵌入到其决策过程中,称为"阈值移动" (threshold-moving)
"再缩放"也是"代价敏感学习" (cost-sensitive learning) 的基础.在代价敏感学习中将式中的 m-/m+ 用 cost+ /cost-代替即可,其中 cost+ 是将正例误分为反倒的代价, cost- 是将反例误分为正例的代价.
BP 算法的工作流程: 先将输入示例提供给输入层神经元, 然后逐层将信号前传, 直到产生输出层的结果; 然后计算输出层的误差,再将误差逆向传播至隐层神经元,最后根据隐层神经元的误差来对连接权和阈值进行调整. 该迭代过程循环进行,直到达到某些停止条件为止,例如训练误差己达到一个很小的值.
两策略常用来缓解BP网络的过拟合:
1. early stopping(早停): 将数据分成训练集和验证集,训练集用
来计算梯度、更新连接权和阈值, 验证集用来估计误差,若训练集误差降低但验证集误差升高, 则停止训练,同时返回具有最小验证集误差的连接权和阈值.
2. regularization(正则化): 其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分, 例如连接权与阈值的平方和.
第七章 贝叶斯分类器(还需再看)
http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html
https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html
贝叶斯决策论在机器学习、模式识别等诸多关注数据分析的领域都有极为重要的地位.
第八章 集成学习
集成学习的一般结构:先产生一组"个体学习器" (individual learner) ,再用某种策略将它们结合起来。
目前的集成学习方法大致可分为两大类:
1. 个体学习器间存在强依赖关系、必须串行生成的序列化方法: Boosting
先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值 T , 最终将这 T 个基学习器进行加权结合.
Boosting 族算法最著名的代表是 AdaBoost .
2. 个体学习器间不存在强依赖关系、可同时生成的并行化方法: Bagging 和"随机森林" (Random Forest).
Bagging是并行式集成学习方法最著名的代表. 它直接基于自助采样法 (bootstrap sampling).给定包含 m 个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过 m
次随机采样操作,我们得到含 m 个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则从未出现.
随机森林(Random Forest,简称 RF)是 Bagging的一个扩展变体.盯在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择.具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有 d 个属性)中选择一个最优属性;而在RF 中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含 k个属性的子集,然后再从这个子集中选择一个最优属性用于划分.
第九章 聚类
原型聚类:
几种著名的原型聚类算法:
1. K均值算法
2. 学习向量量化: 与 k 均值算法类似,"学习向量量化" (Learning Vector Quantization,简称 LVQ)也是试图找到一组原型向量来刻画聚类结构, 但与一般聚类算法不同的是, LVQ 假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类.
3. 高斯混合聚类: 与 k 均值、 LVQ 用原型向量来刻画聚类结构不同,高斯混合 (Mixture-oιGaussian)聚类采用概率模型来表达聚类原型.
密度聚类:DBSCAN
密度聚类亦称"基于密度的聚类" (density-based clustering) ,此类算法假设聚类结构能通过样本分布的紧密程度确定.通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果.
层次聚类:AGNES
层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构 . 数据集的划分可采用"自 底向上 "的聚合策略,也可采用 "自顶向下" 的分拆策略.
第十章 降维与度量学习