人工智能笔记06 机器学习基础

什么是机器学习

机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键

经典定义:利用经验改善系统自身的性能

随着该领域的发展,其目前主要研究智能数据分析中的理论和方法,并已成为智能数据分析技术的源泉之一

基本概念

学习过程

  1. 数据类编标记
  2. 使用学习算法训练
  3. 得到模型标记新数据样本

基本术语

监督学习、无监督学习
数据集;训练;测试
示例(instance)、样例(example)
样本(sample)
属性(attribute)、特征(feature)、属性值
属性空间、样本空间、输入空间
特征向量(feature vector)
标记空间、输出空间

假设 hypothesis
真相 ground-truth
学习器 learner

分类、回归
二分类、多分类
正类、反类

未见样本 unseen instance
未知“分布”
独立同分布
泛化 generalization

机器学习任务分类

根据样本数据的标记(label)特性,可将机器学习任务分为:

  1. 监督学习:样本特征x均对应的样本标记y
  2. 无监督学习:样本特征x均没有对应的样本标记y
  3. 半监督学习:样本特征x大部分没有对应的样本标记y
  4. 强化学习:可近似理解为具有延迟标记信息

假设空间
学习过程–>所有假设组成空间中进行搜索
目标:找到和训练集“匹配"的假设

归纳偏好
机器学习算法在学习过程中对某类型假设偏好(必然有
归纳偏好是否与问题匹配多数情况决定了算法是否优良

一般原则:奥卡姆剃刀

No free lunch启示
所有问题出现的机会相同,所有问题同等重要
脱离具体问题讨论算法没有意义

模型评估选择

  1. 泛化能力
    需要注意过拟合和欠拟合

  2. 评估方法
    关键如何获得”测试集“
    留出 hold-out
    交叉检验法cross validation

  3. k-折交叉检验法

人工智能笔记06 机器学习基础_第1张图片

  1. 性能度量
    性能度量是衡量模型泛化能力的评价标准
    反应任务需求

回归:均方误差
E ( f , D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x E(f,\mathcal{D})=\int_{x\sim\mathcal{D}}(f(x)-y)^2p(x)dx E(f,D)=xD(f(x)y)2p(x)dx
分类:错误率
E ( f , D ) = ∫ x ∼ D I ( f ( x ) ≠ y ) 2 p ( x ) d x E(f,\mathcal{D})=\int_{x\sim\mathcal{D}}\mathbb{I}(f(x)\neq y)^2p(x)dx E(f,D)=xDI(f(x)=y)2p(x)dx
分布D的概率密度函数为 p(x) 而 I \mathbb{I} I为示性函数

查准率
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
查全率
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

F1:查准率查全率权衡
$$F1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}¥¥

  1. 偏差方差分解
    人工智能笔记06 机器学习基础_第2张图片

总结:

  1. 机器学习任务分类
  2. 性能评估方法(例如,k-折交叉验证)与性能度量指标
    (例如,均方误差、错误率)
  3. 泛化误差 vs. 经验误差

你可能感兴趣的:(人工智能入门,人工智能)