多类分类和多标签分类

给定一组训练实例(X1 ,Y1 ),(X2 ,Y2 ),......(Xn ,Yn ),典型地,每个实例Xi i=1,2,...,n是一个m维向量,Yi 是一个有l(l>=1)个类别的向量,分类的任务是从训练实例中学习一个模型f:X->Y,从而对新的实例给出一个值得信赖的类别预测。

多类分类(multiclass classification)学习的分类器旨在对一个新的实例指定唯一的分类类别,常用的策略有两类:基于后验概率或距离一次给出所有类别的度量,选择度量值最大的类别作为预测类别;将多类分类分解为许多二元分类问题,然后组合所有二元分类的结果。

多标签分类(multilabel classification)分类器给一个新的实例指定多个类别。这个分类模型有很广泛的实际应用,如:一个文档可能同时属于多个分类;一个蛋白质可能具有多个功能。并且,多个标签之间可能存在一定的依赖或约束关系,如蛋白质的所有功能组成的GO(gene ontology)。这个依赖或约束关系具有层次特性,经常可以描述为树或有向无环图结构,机器学习社团称之为层次多标签分类。由于模型的输出具有层次结构,因此层次多标签分类又属于另外一个近来非常活跃的研究领域:结构预测。层次多标签分类和结构预测都是崭新的、富有挑战性的研究领域。

你可能感兴趣的:(机器学习)