机器学习(一)绪论

什么是机器学习

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据中产生“模型”,用于对新的情况给出判断(描述数据本省的性质或对将来的数据进行预测)。

机器学习的形式化定义

Machine Learning is studying of algorithms that

  • imporve their perfomance P
  • at some task T
  • with experience E

–Tom Mitchell

举例:

人脸识别 自动驾驶 下棋
T 正确识别照片对应的人 在四车道高速公路上通过视觉信息实现自动行驶 在某棋类对战中获胜
P 识别准确率 平均无差错行驶里程 胜率
E 不同人不同方向不同表情的面部照片 人类驾驶时面对的不同视觉信息和相应的操作 人类对战数据

值得注意的是,T和P应该足够明确,如自动驾驶的P“不应该是“是否出错”。
机器学习(一)绪论_第1张图片

基本术语

机器学习(一)绪论_第2张图片
机器学习(一)绪论_第3张图片
若预测的输出是离散值,此类任务称为分类(classification);若预测的输出是连续值,此类任务称为回归(regression)。对于二分类(binary classification) 任务,通常称其中一个类为正类(positive class),另一个类为反类(negative class)。预测任务通常希望通过对训练集进行学习,建立一个从输出空间 X X X到输出空间 Y Y Y的映射 f : X → Y f:X \rightarrow Y f:XY.对于二分类任务,通常令 Y = { − 1 , + 1 } Y=\{-1,+1\} Y={1,+1} { 0 , 1 } \{0,1\} {0,1};对于多分类任务, ∣ Y ∣ > 2 |Y|>2 Y>2;对于回归任务, Y = R Y=\mathbb{R} Y=R.

聚类(clustering) 任务是在标签未知的情况下,将训练集的数据分为若干组,每组对应一个潜在的概念,称为一个簇(cluster)

根据训练数据是否具有标记信息,学习任务可以大致分为:

  • 监督学习(supervised learning):分类、回归等
  • 无监督学习(unsupervised learning):聚类等
  • 半监督学习(semi-supervised learning),是前两种方式的结合。

几个重要概念

泛化

泛化(generalization)能力用于描述学得模型适用于新样本(即测试集而不是训练集)的能力。一般地,我们用均方误差 E ( w ) = 1 2 ∑ i = 1 N [ f ( x i , w ) − y i ] 2 E(\boldsymbol{w})=\frac{1}{2}\sum\limits^{N}_{i=1}[f(x_i,\boldsymbol{w})-y_i]^2 E(w)=21i=1N[f(xi,w)yi]2作为模型泛化能力的评价指标,其中 w \boldsymbol{w} w为参数。

影响泛化能力的因素

1、模型复杂度
通常假设样本空间中全体样本服从某一未知分布 D D D,每个样本独立同分布。
假设模型为 f ( x i , w ) = ∑ i = 1 M w i x i f(x_i,\boldsymbol{w})=\sum\limits^{M}_{i=1}w_ix^i f(xi,w)=i=1Mwixi,当 M M M取不同值,拟合结果如下(绿色曲线为真相)
机器学习(一)绪论_第4张图片
M = 3 M=3 M=3时,模型对训练集的拟合情况良好,同时对未见数据拟合情况较好,较逼近真相;当 M = 0 , M = 1 M=0,M=1 M=0,M=1时,模型对训练集拟合情况较差,这种现象称为欠拟合(under-fitting);当 M = 9 M=9 M=9时,模型精确地拟合了训练集的数据,但对未见数据的拟合情况不好,这种现象称为过拟合(over-fitting)。可以看出,模型复杂度并不是越高越好。
机器学习(一)绪论_第5张图片
因此,在评价指标中引入新的一项用于表示模型复杂度对泛化能力的影响
E ( w ) = 1 2 ∑ i = 1 N [ f ( x i , w ) − y i ] 2 + λ ∥ w ∥ 2 E(\boldsymbol{w})=\frac{1}{2}\sum\limits^{N}_{i=1}[f(x_i,\boldsymbol{w})-y_i]^2+\lambda\|\boldsymbol{w}\|^2 E(w)=21i=1N[f(xi,w)yi]2+λw2
2、样本大小
一般而言,训练样本越多,我们获得的关于分布 D D D的信息也越多,学得模型越好。
机器学习(一)绪论_第6张图片

未完

你可能感兴趣的:(人工智能,机器学习,人工智能)