机器学习 --- 绪论

绪论

  • 一.什么是机器学习
  • 二.机器学习研究内容及研究价值
  • 三.机器学习的一般步骤

一.什么是机器学习

(1)使得计算机具备和人类一样的学习能力:决策、推理、认知、识别等。
(2)给定数据(样本、实例)和一定的学习规则,从数据中获取知识的能力。
机器学习 --- 绪论_第1张图片
(3)基于数据的机器学习问题:
* 根据已知样本估计数据之间的依赖关系,从而对未知或无法测量的数据进行预测和判断。
* 关键:推广能力。
(4)中科院王珏给出的定义:
* 令W是给定世界的有限或无限所有观测对象的集合,由于我们的观测能力有限,我们只能获得这个世界的一个子集Q,称为样本集。
* 机器学习就是根据这个样本集,推算这个世界W的模型,使它对这个世界(尽可能地)为真。
机器学习 --- 绪论_第2张图片
(5)机器学习的三要素
一致性假设:机器学习的条件,通常假设W与Q有相同的性质。(该要素通常难以实现)
a.假设世界W与样本集Q具有某种相同的性质。
b.原则上说,存在各种各样的一致性假设。
c.在统计意义下,一般假设: W与Q具有同分布或给定世界W的所有对象独立同分布。

a.独立同分布:
可以表述为“抽样内样本服从总体的分布”。
b.独立性:
一般会做这样一个假设:每一个样本的出现或者生成,都是独立事件,即任意两个样本之间不相关。
c.为什么要假设“独立同分布”?:
没有独立同分布,我们所做的“基于训练集训练模型”,就失去了理论基础。
如果抽样不服从总体的分布,则我们基于抽样数据估计得到的参数就会大幅偏离真相,构建的模型就无法提供有效的功能。
如果样本间是互相影响的,不独立,那么我们的模型会比较复杂,不利于实践。
d.如何实现独立同分布:
可以基于随机抽样来获取满足独立同分布假设的数据集。一般可以使用简单随机抽样、分层抽样、方便抽样、系统抽样等。·

样本空间的划分:决定模型对样本集合的有效性。
设样本定义于d维空间,要寻找在这个空间上的决策分界面。(该决策面很重要)
a.样本集合模型:
将样本集放到一个n维空间,寻找一个超平面(等价关系),使得问题决定的不同对象被划分在不相交的区域。
机器学习 --- 绪论_第3张图片

泛化能力(推广能力):决定模型对世界的有效性,即对未知样本的判断能力。
a.学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,该神经网络仍有正确的响应能力,称为泛化能力。
b.通过机器学习方法,从给定有限样本集合计算一个模型,泛化能力是这个模型对世界为真程度的指标。

传统的机器学习:“种瓜得瓜种豆得豆”模式。
未来趋势:
迁移学习(Transfer Learning):指系统能够将在先前任务中学到的知识或技能应用于一个新的任务或新的领域。也就是我们说的“举一反三”。
机器学习 --- 绪论_第4张图片

(6)机器学习(ML)与模式识别(PR)
某种意义上,它们是同一领域的不同方面。

二.机器学习研究内容及研究价值

(1)深度学习与机器学习
①深度学习(deep learning)是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,本质上是机器学习中特征学习方法的一类。
②至今已有多种深度学习框架:深度神经网络、卷积神经网络、深度信念网络。
③已被应用于多个领域:计算机视觉、语音识别、自然语言处理。
(2)大数据与机器学习
①机器学习对大数据应用的贡献:
a.促进数据科学家们的多产性;
b.发现一些被忽视的方案。
②上述价值来自于机器学习的核心功能:
让分析算法无需人类干预和显式程序即可对最新数据进行学习。
(3)研究意义
如果我们能发现有效的机器学习方法,利用它可以将观察数据(现象)转换为模型,这将一劳永逸地解决信息有效利用的难题,从而实现真正意义上的机器智能。
(4)机器学习的目的
①构建高性能信息处理系统的原则方法
a.搜索引擎、自适应用户界面、个性化助手、网络机器人和科学应用程序。
b.最有效的治疗方法。
②如何构建能随经验自动改进的计算机程序
a.优化房屋能源成本。
b.电脑游戏。
③人类执行良好但难以通过算法指定的编程任务
a.语言相关技术。
b.IR、NLP、DAR、ASR。
(5)机器学习要解决的典型问题
a.存在什么样的算法能从特定的训练数据学习出一般的目标函数(决策规则)?
b.哪种训练数据是充足?如何保证学习的泛化(推广)能力?
c.如何引入先验知识?
d.怎样把学习任务简化为一个或多个函数逼近问题?学习过程能自动化吗?
e.学习机能自动改变来提高表示和学习目标函数的能力?
(6)研究领域
a.符号机器学习:如决策树、ID3等;
b.计算学习理论(统计学习理论):如PAC、SVM;
c.监督学习、非监督学习、半监督学习;
d.集群机器学习:如Ensemble Learning、Boosting;
e.流行(Manifold)学习;
f.强化学习;
g.Ranking学习;
h.聚类学习;
·······

三.机器学习的一般步骤

机器学习 --- 绪论_第5张图片
(1)输入
①输入的基本单元:样本
a.机器学习的输入是一系列样本(代标号/无标号),机器学习是要将这些样本分类、回归、关联或聚类。
b.每个样本都有一系列固定的、实现确定的特征或属性。
c.多个样本及其属性构成一个矩阵,或者一张,构成ML的基本输入。
②数据特征化
a.观察数据分布:集中趋势、差别和分布。
b.计算数据统计特性:如中值、最大值、最小值等。

你可能感兴趣的:(机器学习,机器学习,概率论,人工智能)