样本不均衡

1. 设置不同的惩罚参数  【著名例子:生病 健康问题】

2. smote方法 增加少数类样本的数量【程序:smote算法的程序;与SVM相结合的程序】;

    现数据集分层抽样;

    AdaCost非均衡数据集分类

————————

A:样本中的1的准确预测比0更重要(或相反) => 数据不对称定义的一个关键点

      代价敏感学习(可行).    评价结果用ROC曲线

B:0,1 同等重要:同时考虑召回率 / 结合准确率与召回率的耦合的指标

C:emsemble learning(随机森林,adaboost等)防过拟合  (在train之前做 数据clean,train时用Random Forest Boosting)

       oversample(过大: overfiting)  /  undersample(过小: underfitting)

————————

1. ROC曲线:

http://baike.baidu.com/link?url=QTcWmR9tY_srWKNHdBBQXE0iPA885mwA2IjlX7TxruMNG06sVuyog9wqmN-1xFcIKz650QfarjMamwk8AAxSWq

样本不均衡_第1张图片

https://www.douban.com/note/284051363/

样本不均衡_第2张图片

2. Matlab利用Libsvm-mat画ROC曲线

http://www.ilovematlab.cn/thread-63881-1-1.html

3. ROC和AUC

https://www.douban.com/note/284051363/

4.svm_learn训练样本不均衡

http://www.newsmth.net/nForum/#!article/AI/1463

你可能感兴趣的:(HIT_bs)