DL:DBN on Imbalance Data 问题所在





DBN on Imbalance Data 问题所在


简介


DBN被证明是一种相当有用的机器学习分类方法。通常DBN被要求训练像MNISTtrain set 60,000)一样大量的数据集。对DBN来说,不平衡数据尤其是个问题,会导致预训练有很强的偏差,就算用大量的标签来做监督性学习的微调,也很难将偏差消除掉。对于我们现在所用的数据,正样本仅占5%左右,大量的负样本造成了分类结果向负样本方向偏移,很难识别出正样本。

现从实现(Hinton2006年有关DBN的手写体识别代码)的角度分析,DBN on Imbalance Data是如何影响分类结果的。

HintonDBN网络属于经典的DBN,也就是几层RBM堆叠,用softmax进行分类,最后用BP进行fine-tune(微调)。


分析


DL:DBN on Imbalance Data 问题所在_第1张图片


均衡数据


DL:DBN on Imbalance Data 问题所在_第2张图片


不均衡数据


DL:DBN on Imbalance Data 问题所在_第3张图片

Hinton mnist手写体识别的实现


backpropclassify,获得分类结果,直接是将概率中的最大值,作为分类结果。。。

DL:DBN on Imbalance Data 问题所在_第4张图片


在用BP算法进行微调的时候,直接计算误差


DL:DBN on Imbalance Data 问题所在_第5张图片


 

 

小结


对比上述均衡与不均衡,可以看出,求得最后结果所用的公式并不相同,即softmax分类方法不同,BP求误差的方法也是不同。故基于不均衡数据的DBN,需要修改BP算法,或者是将输入数据利用欠采样、过采样的方法转换成均衡数据再利用DBN进行分类。



 


你可能感兴趣的:(机器学习,神经网络,back,deep,learning,BP,DBN,Progation)