1. 设置不同的惩罚参数 【著名例子:生病 健康问题】
2. smote方法 增加少数类样本的数量【程序:smote算法的程序;与SVM相结合的程序】;
现数据集分层抽样;
AdaCost非均衡数据集分类
————————
A:样本中的1的准确预测比0更重要(或相反) => 数据不对称定义的一个关键点
代价敏感学习(可行). 评价结果用ROC曲线
B:0,1 同等重要:同时考虑召回率 / 结合准确率与召回率的耦合的指标
C:emsemble learning(随机森林,adaboost等)防过拟合 (在train之前做 数据clean,train时用Random Forest Boosting)
oversample(过大: overfiting) / undersample(过小: underfitting)
————————
1. ROC曲线:
http://baike.baidu.com/link?url=QTcWmR9tY_srWKNHdBBQXE0iPA885mwA2IjlX7TxruMNG06sVuyog9wqmN-1xFcIKz650QfarjMamwk8AAxSWq
https://www.douban.com/note/284051363/
2. Matlab利用Libsvm-mat画ROC曲线
http://www.ilovematlab.cn/thread-63881-1-1.html
3. ROC和AUC
https://www.douban.com/note/284051363/
4.svm_learn训练样本不均衡
http://www.newsmth.net/nForum/#!article/AI/1463