机器视觉学习准备笔记之KNN算法,基于熵增益最多的决策树,朴素贝叶斯

尽量少一些数学推理的去理解这些所谓的学习算法,主要是梳理思想和逻辑。

KNN:

在记录这个笔记之前,我先假想一个场景:

学校各班级学生集体广播体操,每个班的服装还不一样,但总有那么些个桀骜不驯的学生,偏偏不穿规定的服装,那么我们是如何判断这个学生属于哪个班级呢?很显然,当然是看他和哪个服装的班级在一起或者最近,我们就大致可判断其所在班级了,这大概就是所说的K值近邻算法了吧。

首先,他是监督学习,也就是需要依据一些已知类型的特征值情况做参考。其次,它一种分类算法,是用来分类用的。

选择k个离测试数据最近的已知数据,根据他们的分类,占比最多的类则认为属于该类。

 

香农熵:

在回忆决策树之前,需要先回忆信息熵,个人理解为某件事情发生需要的信息量大小。如果一件事情必然发生,则发生该事情就不需要信息量,为0,如果一件事情发生的概率越小,则发生该事情需要的信息量就越大。

假设A发生概率为Pa,B发生概率为Pb,则A和B同时发生需要的信息量为A所需信息量与B所需信息量之和。

而AB同时发生的概率则为Pab=Pa*Pb。

于是我们想到用S=f(p)来表达信息量,p为发生的概率,S为信息量,他们应该满足:

f(x*y)=f(x)+f(y),如果有高中基础则会发现,对数函数满足这个情况!

于是就有了 香农熵 S=-log2  Px  因为Px 为概率,其值0到1,所以在前面加个负号,为啥是以2为底呢?其实我们会发现任何一个正数都可以满足(暂时不知道为啥是以2为底)

决策树:

首先,它也是监督学习里面的分类算法,就是基于某特征值给一堆数据分类,一直分下去类似个二叉树形状,那我们每次以哪个特征值分类最合适呢?

这个时候香农熵就起作用了,我们知道,熵越大,则确定性越小!这和我们热力学里面的熵类似,表示混乱度,熵增原理,可以了解一下。所以,我们可以利用熵值来判断,哪种分类使得分类后熵值变得最小,也就是我们的熵增益最大!这样我们可以基于最小的分类次数得到我们想要的答案。

朴素贝叶斯:

太困了,有空再回忆,语音那边平哥他们dota又要被虐了!

你可能感兴趣的:(知识补充)