机器学习入门系列1

什么是机器学习?

教会计算机利用过往的经验完成指定任务。对计算机来说,过往的经验就是被记录的数据(data)。
下面先介绍一下几个概念:

决策树(decision tree)

决策树是一种基本的分类与回归方法,此处主要讨论分类的决策树。
在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

首先看一个问题,我们要给用户推荐APP,用户的性别、年龄和使用过的APP如下:

性别 年龄 应用
15 在这里插入图片描述
25 在这里插入图片描述
32 在这里插入图片描述
40 在这里插入图片描述
12 在这里插入图片描述
14 在这里插入图片描述

在年龄和性别之间,用哪个特征来分割数据比较合适?

  • 如果用性别来分割数据,我们会发现男生下载过宠物精灵和QQ,女性用户下载过宠物精灵和打电话,不能很好分割数据。
  • 如果用年龄分割数据,我们发现12、14、15下载过宠物精灵,32/男下载过QQ,25、40/女下载过电话,可以很好的分割数据

我知道了应该用年龄分割数据,设计如下算法:
机器学习入门系列1_第1张图片
最终我们得到了一个决策树。

朴素贝叶斯

朴素:特征条件独立;贝叶斯:基于贝叶斯定理。属于监督学习的生成模型,实现简单,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。在大量样本下会有较好的表现,不适用于输入向量的特征条件有关联的场景。

某个医院早上收了六个门诊病人,如下表:

症状 职业 疾病
打喷嚏 护士 感冒
打喷嚏 农夫 过敏
头痛 建筑工人 脑震荡
头痛 建筑工人 感冒
打喷嚏 教师 感冒
头痛 教师 脑震荡

现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?
根据贝叶斯定理: P(A|B) = P(B|A) P(A) / P(B)

P(感冒|打喷嚏x建筑工人) = P(打喷嚏x建筑工人|感冒) x P(感冒) / P(打喷嚏x建筑工人)
P(感冒|打喷嚏x建筑工人) = P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒) / P(打喷嚏) x P(建筑工人)
P(感冒|打喷嚏x建筑工人) 
= 0.66 x 0.33 x 0.5 / 0.5 x 0.33 
= 0.66

因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。

这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。

  • 梯度下降
  • 线性回归
  • 逻辑回归
  • 对数几率回归
  • SVM
  • 核函数
  • 神经网络
  • K均值聚类
  • 层次聚类

你可能感兴趣的:(人工智能)