机器学习第一章----绪论

文章目录

  • 1、机器学习
  • 2、基本术语
  • 3、监督学习
  • 4、无监督学习
  • 5、假设空间
  • 6、归纳偏好
  • 7、应用现状

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。

1、机器学习

目前机器学习还没有一个统一的定义,Arthur Samue定义机器学习为在没有明确设置的情况下使计算机具有学习能力的研究领域,Tom Mitchell定义机器学习为计算机从经验中学习。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。主要可分为监督学习和无监督学习两大类。

2、基本术语

要进行机器学习,首先要有数据。假如我们采集了一批关于西瓜的数据,如:(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷),(色泽=浅白,根蒂=硬挺,敲声=清脆)…这组记录的集合称为一个数据集,每条记录称为一个样本,反应事件或对象在某方面表现或性质的事项,如色泽、根蒂等称为属性或特征,属性上的取值称为属性值,属性张成的空间称为样本空间。
从数据中学得模型得过程称为学习或训练,这个过程通过算法来完成,训练过程中使用的数据称为训练数据,其中每个样本称为一个训练样本,训练样本组成的集合称为训练集。

3、监督学习

监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习任务。
监督学习主要解决两类问题:回归、分类,分别对应着定量输出和定性输出。
什么是回归?
回归是指由已知数据通过计算得到一个明确的值(value),像y=f(x)就是典型的回归关系。
机器学习第一章----绪论_第1张图片什么叫分类?
由已知数据(已标注的)通过计算得到一个类别。
机器学习第一章----绪论_第2张图片下面介绍一些常用的监督学习方法:

  1. K-近邻算法
    该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。
    机器学习第一章----绪论_第3张图片
  2. 决策树法
    决策树分析法是一种运用概率与图论中的树对决策中的不同方案进行比较,从而获得最优方案的风险型决策方法。图论中的树是连通且无回路的有向图,入度为0的点称为树根,出度为0的点称为树叶,树叶以外的点称为内点。决策树由树根(决策节点)、其他内点(方案节点、状态节点)、树叶(终点)、树枝(方案枝、概率枝)、概率值、损益值组成。
    机器学习第一章----绪论_第4张图片
    其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。
  3. 朴素贝叶斯
    朴素贝叶斯法是基于贝叶斯定理与特征条件独立(即假设每个输入变量是独立的)假设的分类方法 。
  4. 逻辑回归
    逻辑回归是一种广义的线性回归分析模型,虽然被称为回归,但其实际上是分类模型,并常用于二分类。

4、无监督学习

在无监督学习中,输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类。监督学习解决的是“分类”和“回归”问题,而无监督学习解决的主要是“聚类。
下面来看一下常见的无监督学习的算法:

  1. K均值算法
    因为在之前学习python计算机视觉时学习过,在次不再作介绍。
  2. 自编码器
    自编码器是一种能够通过无监督学习,学到输入数据高效表示的人工神经网络。具有非常好的提取数据特征表示的能力,它是深层置信网络的重要组成部分,在图像重构、聚类、机器翻译等方面有着广泛的应用。
    自编码器通过简单地学习将输入复制到输出来工作。自编码器接收输入,将其转换成高效的内部表示,然后再输出输入数据的类似物。自编码器通常包括两部分:encoder(也称为识别网络)将输入转换成内部表示,decoder(也称为生成网络)将内部表示转换成输出。
    机器学习第一章----绪论_第5张图片
  3. 主成分分析
    主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。 又称主分量分析。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
    机器学习第一章----绪论_第6张图片

5、假设空间

归纳和演绎是科学推理的两大手段。归纳是从特殊到一般,从具体的事物总结出一般的规律;演绎是从一般到特殊,从基础原理推出具体情况。从样例中学习显然是一个归纳的过程,因此也称为归纳学习。
归纳学习有狭义与广义之分,广义的归纳学习大体上相当于从样例中学习,而狭义的学习则要求从训练数据中学得概念,因此亦称为“概念学习”或“概念形成”。
我们可以把学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。现实生活中我们经常遇到很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一个与训练集一致的训练集合,我们称之为版本空间。

6、归纳偏好

机器学习算法在学习过程中对某类假设的偏好,称为归纳偏好。任何一个有效的机器学习算法都必须有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生确定的学习结果。归纳偏好可看作学习算法自身在一个很庞大的假设空间中对假设进行选择的启发式或“价值观”。“奥卡姆剃刀”式一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”。归纳偏好对应了学习算法本身所作出的关于“什么样的模型更好”的假设。在具体的问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得更好的性能。
要注意,脱离实际问题,空谈论什么学习算法是毫无意义的,学习算法自身的学习偏好是否与问题相配是很关键的。

7、应用现状

今天,在计算机科学的诸多分支学科领域中,无论是多媒体、图形学还是网络通信、软件工程,乃至体系结构、芯片设计,都能找到机器学习技术的身影。机器学习为许多交叉学科提供了重要的技术支撑。随着科学研究的基本手段的进步,机器学习的重要性日趋显著。互联网发展至今,机器学习技术的支撑至关重要。

你可能感兴趣的:(机器学习第一章----绪论)