统计(机器)学习方法概述
机器学习 =
神经科学与认知科学+
数学+
计算
学习系统的一般模型
输入变量、输出变量、隐藏变量
机器学习
根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。
机器学习问题的表示:
(1)根据n个独立同分布观测样本数据确定预测函数 f (x,w).
(2)在一组函数{ f (x,w)}中求一个最优的函数 f(x,w0)对依赖关系进行估计,使预测的期望风险最小。
学习问题的一般表示:
ERM准则与统计学习理论的发展
经验风险最小并不意味着期望风险最小
需要建立在小样本情况下有效的学习方法
(1)小样本条件下的统计学习理论
(2)支持向量机(SVM)
Why Learning is difficult?
给出有限数量的训练数据,要得到在无限范围上的关系。
Given a finite amount of training data , you have to derive a relation for an infinite domain.
In fact , there is an infinite number of such relation.
Learing as a Search Problem.
三类基本的机器学习问题
模式分类问题
输出y是类别标号,两类情况下 y = {1 , -1},预测函数称作指示函数(Indicator Function),损失函数定义如下,使期望风险最小就是
Bayes决策中使错误率最小。
回归问题
输出 y是连续变量,它是x的函数,损失函数定义如下:
概率密度估计问题
根据训练样本确定 x 的概率分布 p(x,w),则损失函数可定义为:
统计学习的基本方法
有监督学习(Supervised):分类、回归
(1)标定的训练数据
(2)训练数据:根据目标输出与实际输出的误差信号来调节参数
(3)典型方法
全局:BN,NN,SVM,Decision Tree
局部:KNN,CBR(Case-base reasoning)
无监督学习(Unsupervised):概率密度估计、聚类、降维
(1)不存在标定的训练数据
(2)学习机根据外部数据的统计规律来调节系统参数,以使输出能反映数据的某种特性
(3)典型方法:
K-means、SOM.....
聚类
监督学习的有无的区别:
训练数据是否经过人工标注。
半监督学习(Semi-supervised):EM、Co-training
(1)结合(少量的)标定训练数据和(大量的)未标定数据来进行学习
(2)典型方法:
Co-training、EM、Latent variables
其他学习方法
增强学习(Reinforcement Learning)
(1)外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。
(2)训练数据包含部分学习目标信息
(3)例子:训练小动物
多任务学习(Multi-task learning)
Learns a problem together with other related problems at the same time,using a shared representation.
学习模型
单学习模型
Linear models
Kernel methods
Neural networks
Probabilistic models
Decision trees
......
模型组合
(1)组合多个“弱”学习模型来达到更优的性能 1+1>1?
(2)Boosting
结合低性能学习模型来产生一个强大的分类器组
Boosting是个非常强大的学习方法,它组合许多“弱”分类器来产生一个强大的分类器组。
1.弱分类器:性能只比随机选择好一点,设计简单且计算花费低
2.最常用的弱分类器是决策树
常见的Boosting:
1.离散AdaBoost,实数AdaBoost,LogitBoost和Gentle Adaboost
2.它们有非常类似的总体结构
(3)Bagging:
结合多个不稳定学习模型来产生稳定预测
(1)训练数据的微小变化可能使得预测模型产生大的变化
不稳定模型:Neural Nets,trees
稳定模型:SVM,KNN
(4)主动学习(Active Learning)
主动选择训练样本
产生式模型VS判别式模型