机器学习入门(1)——概念及经典算法

1. 机器学习概念

机器学习(Machine Learning,简称ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径。

2. 机器学习经典算法

(1)监督学习(Supervised Learning)

机器学习入门(1)——概念及经典算法_第1张图片

通俗说法:我们教会计算机做某件事情。
监督学习中的数据集是有标签的,即对于给出的样本我们是知道答案的。
正式定义:1. 我们给算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案。2. 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。
根据标签类型不同,分为:

  • 回归问题:回归是我们的目标,预测某一样本所对应的实数输出(连续的)。
  • 分类问题:目的是预测某一样东西所属的类别(离散的)。

(2)无监督学习(Unsupervised Learning)

机器学习入门(1)——概念及经典算法_第2张图片

通俗说法:我们让计算机自己学习。
无监督学习中数据集中无任何标签,依据相似样本在数据空间中一般距离较近这一假设,将样本分类。
聚类算法:一个数据集包含两个不同的簇,无监督算法可将这些数据分成两个不同的簇。
机器学习入门(1)——概念及经典算法_第3张图片

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

利用无监督学习可以解决的问题:

  • 关联分析:发现不同事物之间同时出现的概率。(购物篮分析)
  • 聚类问题:将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先不知道类别,自然训练数据也没有类别的标签。
  • 维度约减:减少数据维度的同时保证不丢失有意义的信息。两种方法:1. 特征提取方法:将数据从高维度转换到低纬度;2. 特征选择方法:选择原始变量的子集。

(3)半监督学习(Semi-Supervised Learning)

半监督学习一般针对的问题是数据量大,但有标签数据少或标签数据的获取很难很贵的情况,训练时一部分有标签,一部分没有。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时更为准确,且训练成本更低。常见的两种半监督学习方式:

  • 直推学习(Transductive learning):没有标记的数据是测试数据,此时可用测试数据进行训练。注:这里只是用了测试数据中的特征(feature)而没有用标签(label),所以并不是一种欺骗的方法。
  • 归纳学习(Inductive learning):没有标签的数据不是测试集。

(4)强化学习(Reinforcement Learning,RL)

强化学习从动物学习、参数扰动自适应控制等理论发展而来。基本原理:若Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

你可能感兴趣的:(机器学习入门(1)——概念及经典算法)