(8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost

文章目录

  • 一、SVM(支持向量机)
  • 二、决策树(Decision Tree)
  • 三、朴素贝叶斯(Decision Tree)
  • 四、K- 最近邻算法(KNN)
  • 五、K- 均值(K-means)
  • 六、随机森林(RandomForest)
  • 七、自适应增强算法(Adaboost)

一、SVM(支持向量机)

  • SVM是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线,它们之间的边距最大。
  • 最优超平面具有最大的边界,可以对点进行分类,从而使最近的数据点与这两个类之间的距离最大化。

    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第1张图片
  • 例如,H1 没有将这两个类分开。但 H2 有,不过只有很小的边距。而 H3 以最大的边距将它们分开了。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第2张图片
  • 当面对线性不可分的数据进行分类,就要加入容错率保证大局上的正确性。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第3张图片
  • 当出现上述线性不可分的情况,只能使用三维来进行分类。

二、决策树(Decision Tree)

(8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第4张图片

  • 由图表可以看出,我们可以根据是动物吗?会飞吗?有羽毛吗?最终可以判断是否属于鸟类,而对于我们要进行分类的数据,例如待测样本羊,就可以根据是动物吗?会飞吗?有羽毛吗?三类数据及上述数据分类情况,而判断出不属于鸟类。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第5张图片
  • 决策树优点:模型更直观,如果模型样本得出的结果不符合常理,我们可以直观的看出哪里出了错误,就可以手动更新决策树的结构,避免误判。当出现预测错误时,可以回溯查看各个条件是否误判,这时可以进行改正或者删掉。

如何选择决策条件呢???
(8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第6张图片

  • 可以使用信息熵,信息熵越大,代表系统的不确定性越大,样本分类越平均,信息熵越小,样本越倾向于某一类样本。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第7张图片
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第8张图片
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第9张图片

三、朴素贝叶斯(Decision Tree)

  • 朴素贝叶斯(Naive Bayes)是基于贝叶斯定理。它测量每个类的概率,每个类的条件概率给出 x 的值。这个算法用于分类问题,得到一个二进制“是 / 非”的结果。看看下面的方程式。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第10张图片
  • 朴素贝叶斯分类器是一种流行的统计技术,可用于过滤垃圾邮件!

四、K- 最近邻算法(KNN)

环境会影响你的决策。
(8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第11张图片

  • 当身边大部分人都选择安卓,那么你大概率肯定也会选择安卓,
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第12张图片
    为了准确的找出最近距离,使用欧氏距离公式。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第13张图片
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第14张图片
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第15张图片
  • 常用于推荐系统。比如有了用户的喜欢电影信息,可以根据类似用户喜欢的信息,推测待测用户是否喜欢最终电影。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第16张图片

五、K- 均值(K-means)

  • 通常两个样本越相似,距离也就越小。K- 均值(K-means)是通过对数据集进行分类来聚类的。例如,这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习,因此,我们只需使用训练数据 X,以及我们想要识别的聚类数量 K。

  • 例如K=2,也就是将所有样本分成了两类,所有样本计算之间距离后,中心点不再变,此时就已经分类好了。当有新的样本D6,就可以计算D6与两类样本中心的点的距离,加入类别并更新中心样本点。
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第17张图片
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第18张图片
    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第19张图片

六、随机森林(RandomForest)

(8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第20张图片

  • 随机森林就是利用了集成学习方法。

  • 对每一棵树都进行训练,如何将待测样本放到每一棵树中进行预测,每一棵树都会给出决策结果,最终结果就是要将每一棵树的结果综合考虑。

    (8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost_第21张图片

  • 缺点提到了,当三个会语文、数学、英语的学霸,面对物理知识,就无法进行解答了。

七、自适应增强算法(Adaboost)


  • 当样本正确分类,可以减少模型复杂度;当样本错误分类,增加模型复杂度。

你可能感兴趣的:(机器学习,机器学习,决策树,支持向量机)