机器学习 第1章 绪论

机器学习

  • 第一章 绪论
    • 1.1引言
    • 1.2基本术语
    • 1.3 假设空间
    • 1.4 归纳偏好
    • 1.5 发展历程

第一章 绪论

1.1引言

机器学习研究的内容,是关于在计算机上从数据产生“模型”的算法,即”学习算法“,有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型;面对新的情况时,模型会给我们提供相应的判断。
机器学习是研究关于“学习算法”的学问。

1.2基本术语

数据集:记录的集合
示例或样本:关于一个事件或对象的描述
属性或特征:反映事物或对象在某方面的表现或性质的事项
属性值:属性上的取值
属性空间、样本空间或输入空间:属性张成的空间
特征向量:由于空间的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”
维数:样本的属性的个数
训练数据:训练过程中使用的数据
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
学习器(learner):模型的别称
标记:关于示例结果的别称
样例:拥有了标记的示例

分类:预测的是离散值的学习任务
回归:预测的是连续值的学习任务
监督学习:训练数据有标记信息,如分类和回归
无监督学习:训练数据没有标记信息,如聚类

泛化:学得模型适用于新样本的能力

1.3 假设空间

把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够与训练集中的“瓜”判断正确的假设。
版本空间:与训练集一致的“假设集合”

1.4 归纳偏好

机器学习在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称为”偏好“。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑。
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

“没有免费的午餐定理”:NFL定理,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好,要谈论算法的相对优劣,必须要针对具体的学习问题。

1.5 发展历程

20世纪50年代-20世纪70年代初,人工智能处于“推理期”,人们认为只要能赋予机器逻辑推理能力,机器就能具有智能。成果:用“逻辑理论家“程序证明数学定理。人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工职能的,得要有知识。
20世纪70年代中期开始:人工智能领域进入“知识期”,大量专家系统问世。后来专家系统面临”知识工程瓶颈“。由人来把知识总结出来再教给计算机是困难的。
—————————————————————————————————
20世纪50年代初有了机器学习的相关研究。如跳棋程序。
20世纪50年代中后期,基于神经网络的”连接主义“,代表工作有感知机
20世纪六七十年代,基于逻辑表示的“符号主义”蓬勃发展
20世纪八十年代,是机器学习成为一个独立的学科领域、各种机器学习技术百花初绽的时期
20世纪90年代中期之前,“从样例中学习”的另一主流技术是基于神经网络的连接主义学习。
20世纪90年代中期,“统计学习”占据主流舞台,代表技术是支持向量机和更一般的核方法。
21世纪初,连接主义学习卷土重来,掀起了以“深度学习”为名的热潮。

你可能感兴趣的:(机器学习,机器学习,算法,人工智能)