机器学习的基本概念

1 Reason

    看了大牛的论文,知道如何去提升相关内容了。

2 Concept

相关内容来源

2.1 信息熵

     这个概念很基础。

      信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小。假定当前样本集合D中第k类样本所占的比例为pk (k=1,2,...,|y|),则D的信息熵定义为:

    机器学习的基本概念_第1张图片

pk的计算,回归到概率概念。看案例

机器学习的基本概念_第2张图片

 机器学习的基本概念_第3张图片

 上式解释了概率计算问题;如果是回归问题,如何考虑呢?? 论文是考虑 合格与不合格两类。如果是预测问题怎么办?

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。同上,计算特征a对样本集D进行划分所获得的信息增益为:

机器学习的基本概念_第4张图片

其中:V表示依据特征a对样本集D划分后,获得的总共类别数量;表示每一个新类别中样本数量。

 

 划分的样本数,对照信息增益公式, i为 子集个数,如10;j为特征列数。

机器学习的基本概念_第5张图片

这种方法可以计算样本中的增益。   回归问题怎么考虑?

 ------------------待续---------------------------

 

 

 

 

你可能感兴趣的:(deeplearning,matlab,机器学习,p2p,人工智能)