主动学习 代价敏感 K-means

主动学习:利用更加普遍存在的训练集,对模型进行训练,初始训练集的标记可以为空。归属于弱监督学习

            1.不确定性采样

            2.基于聚类

代价敏感:考虑误分类对整个模型构建的影响。

其中 按照对问题的解决方法的不同,代价敏感学习的算法研究又可以分成三类。 
第一类代价敏感的学习方法关注于如何直接构造一个代价敏感的学习模型,对不同的分类器模型研究者们提出了不同的解决办法,它们包括 
(1)决策树:Knoll 等和Bradford 等为决策树提出了代价敏感的剪枝方法,Bradford 等研究了在代价敏感的条件下如何对决策树进行剪枝使得损失达到最小,研究表明基于拉普拉斯方法的剪枝方法能够取得最好的 
效果,Drummond 和Holte 研究了代价敏感学习的决策树的节点分裂 
方法。 
(2) Boosting:Fan 等研究着提出了代价敏感的Boosting 算法Ada-Cost 
(3)神经网络:Geibel 和Wysotzki 提出了基于Perceptron 分类算法的代价敏感的学习方法,在文章中作者对不可分的类提出了代价敏感的参数更新规则。例如Kukar和Kononenko为神经网络提出了新的后向传播算法,使之能够满足代价敏感学习的要求。 
(4) Fumera和Roli[37]以及Bradford 等从结构风险最小的角度来看代价敏感问题,提出了代价敏感的支持向量机分类算法。 

第二类代价敏感的学习方法基于对分类结果的后处理,即按照传统的学习方法学习一个分类模型,然后对其分类结果按照贝叶斯风险理论对结果进行调整,以达到最小的损失。和第一类代价敏感学习方法相比,这种方法的优点在于其不依赖于所使用的具体的分类器。Domingos 提出了一种叫做MetaCost 的过程,它把底层的分类器看成一个黑箱子,不对分类器做任何的假设和改变,MetaCost可以应用到任何个数的基分类器和任何形式的代价矩阵上。给定一个样例x,基分类器得出它属于第j个类的概率为Pr(j|x),这样,认为x 属于第i个类的贝叶斯最优预测的风险为:R(i|x) = ΣP(j|x)C(i,j)(C(i,j)是把属于类别j的分为类别i的代价)。 

第三种代价敏感的学习方法基于传统的学习模型,通过改变原始训练数据的分布来训练得到代价敏感的模型。Chan 和Stolfo 提出了层次化模型(Stratification),把分布不均匀的训练数据调整为正负例均匀分布的数据。Zadrozny等研究者基于cost-proportionate 的思想,对训练数据调节权值,在实际应用中,其类似于Boosting 算法,可以通过为分类模型调节权值来进行实现,又可以通过采样(subsampleing)来实现。Abe 等提出了对多类分类问题中如何实现代价敏感的学习进行了探讨,提出了一种新的迭代学习方法。

K-means :K-menas K均值
对于给定的样本集,按照样本之间的距离大小,将样本划分为k个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大

目标: 最小化平方误差E:
μi Ci
平方误差
曼哈顿距离的话 簇 的中心更新公式为中值
先利用先验经验选择合适的K值,没有的话用交叉验证选择合适的K值

选择质心(质点) 所有点的均值


你可能感兴趣的:(主动学习 代价敏感 K-means)