特征选择时 的 特征子集选择和特征评价

这篇文章想讲述的是如何做 特征选择。

 

首先,什么是特征选择呢? 为什么要做它呢?

特征选择就是我们从一开始的特征集合中找一个特征子集,在这个特征子集中,学习算法能比在原特征集合中学得更好。

 

那么,我们该如何进行特征选择呢?

(贪心的方式在找,如果不用贪心的方式,而去遍历所有属性组合的话,当属性多的适合,会遭遇到组合爆炸的问题,现阶段的算力是严重不足啊)

 

分为两个步骤: 子集搜索 和  子集评价

 

具体解释一下 是如何进行的,

(子集搜索)

最开始,我们的目标子集是从单属性开始的,

我们的打算是,先从所有1个属性的特征中找到最棒的特征,然后定下该特征,并在余下的所有特征中选一个特征,让这个选中的特征和  刚才定下来的特征组合在一起。

然后进行比较,

若单个特征的方式比两个特征的方式能更好的让学习算法进行学习,则我们直接在1个特征的时候就停止,因此,特征选择选中了一个特征。

如果,单个特征 的效果 不如两个特征的效果,则放弃该单个特征的方式,并在2个特征集合的基础上往三个特征集合进行寻找。。。。。然后迭代下去,直到某一刻,d个特征集合中 最棒的特征集合。比 d+1 个特征集合中最棒的 d+1个特征集合还要棒,那么我们的算法停止在d个集合的时候。此时,特征选择 选中 了该 d个特征。

 

(子集评价)

在上面的过程中,我们需要判断一个特征子集是否优于另一个特征子集

因此需要进行特征评价,但是,我们以什么方式进行特征评价呢?

在决策树那个章节中 曾经介绍了 信息增益 这一评价指标。  我们可以用这个评价指标来判断 一个 特征子集是否优于另一个。

 

什么是信息增益呢?

我不会告诉你们公式是什么,这个你们完全能搜索到,我想说的是 这个名词的 含义,或者说是 对其的直觉。

 

如果有一个盒子, 我们的目标是尽可能的了解该盒子的内容,但是盒子的内部被完全包裹住了,我们不知道里面有什么。此时我们定义 未知的量为A(仅用来暂时表示我们不知道的量), 

但是这个时候,突然有人告诉我们,这个盒子里一定是没有 铅笔的 (铅笔是随便举的例子,其实是什么都可以),由此,我们对该盒子的认知进了一步,我们知道该盒子中不可能有 铅笔的,

故事到此为止,现在,我们来看看 信息增益是什么?

信息增益 是 我们消除了的 对于 未知 的量。

还是不好理解, 像故事中说的, 一开始我们对 盒子的内部完全不了解,但是后来别人告诉了我们一些信息,通过该信息,我们对盒子的了解加深了,这个加深的 多少、程度 便称之为 信息增益。

 

现在再看刚才的话 :    消除 未知 量的多少   ,这个和 加深对一个物体的了解程度。 这是就是一个意思啦。

 

 

 

ok,

 

 

888~

你可能感兴趣的:(机器学习算法的直觉)