主动学习(六)浅谈Multi-criteria 的鼻祖

  本博客系原创作品,转载请注明出处:http://blog.csdn.net/JYZhang_CVML/article/details/61933537
  主动学习小白博主又来和大家分享心得啦~ 拜读了号称是 multi-criteria 开山鼻祖的文章 multi-criteria-based active learning for named entity recognition。文章相隔年代久远,之前研究的一些文献经常用来做引用,对后来者用于 multi-criteria 具有相当的借鉴作用。下面所述只代表小白博主的个人理解,还是那句话欢迎大神拍砖指正。

背景

  还是老生常谈的问题,为什么 uncertainty sampling 算法如此简单高效,但是很少有人仅仅只用这一种方法呢?其原因在于:uncertainty sampling 算法仅仅考虑单个样本的信息,没有考虑样本空间整体的分布情况,因此会导致找到 outlier 点,或者导致算法的挑选样本的冗余现象。
  自然而然的想法,将样本空间整体分布考虑进去,就可以避免这样的现象出现。

创新点

  下面是文章所述的创新点,小白博主不做任何评价~ 只是文献的搬运工:
  (1) 联合利用 informativeness + representativeness + diversity 信息,同时提出了两种 active learning 框架有效地组合上述信息,来实现 batch-mode 更加有效的 active learning。(本文是第一次联合这三者信息)
  (2) 首次将 active learning 用于 named entity recognition。(^_^不同的领域并不了解)
  (3) 在 diversity 信息的判断方面,采用两种算法 global 和 local 。

算法

  前面还有一些 named entity recognition 背景的问题,博主不是做自然语言的,这部分暂且略过,有兴趣的读者可以 google 本篇论文。

informativeness

  本算法采用的SVM分类器,定义样本到分界面的距离:
  这里写图片描述
  直观来说,距离分界面越近的样本,具有比较大的 informativeness 。分类器对其具有比较大的不确定性,因此将其加入 labeled 样本对于修正分类器具有很好的作用。
  Notice:本质上 informativeness 度量算法很多很多,有基于熵值的算法,有基于 margin 的算法,在此不再赘述,有兴趣的读者可以自行尝试。

Representativeness  

  直观来说,representativeness 信息可以通过有多少样本和该样本相似来衡量。因此,具有较大representativeness 的样本不可能是 outlier。
  representativeness 的计算离不开 similarity 。传统的 similarity 的计算方法有: cosine-similarity 、Gaussian similarity、KL Divergence Similarity。本文采用的是 cosine-similarity:
  这里写图片描述
  因此,样本 i 的 representativeness 信息通过 similarity 的均值计算得到:
  这里写图片描述

Diversity

  要记住的是,通常来说 diversity 准则用来进行 batch-mode 的 active learning 算法的样本选择。采用 diversity 能够保证 batch-mode 的选择样本具有比较大的多样性,对分类器的有效训练具有很大帮助。
  通常来说,diversity 的方法分成两类:Global的方法和Local的方法。
  

  • global 方法
      简单来说,就是通过聚类的方法,对未标记样本进行聚类,然后每次从不同的聚类中提取样本。这样可以保证所选择的样本之间具有比较大的 diversity 的程度。
      
  • local方法
      简单来说,计算待确定的样本与 batch 内已经选择的样本之间的 similarity 程度,若 similarity 程度 > 所设置的阈值,则认为 该样本与之前所选择的样本相似度太高,不加入 batch 内。反之,若 similarity 程度 < 所设置的阈值,则认为具有较大的 diversity 程度,将其加入 batch 中。

      总的来说,所谓 global 算法和 local 算法 为什么有这样的名称的区别?我的理解是这样的,所谓 global 算法其本质就是利用对所有未标记样本的聚类方法,从而确保所选择样本之间的 diversity 程度(可以参考台湾科技大学某学生的硕士毕业论文中的 density 的方法);所谓 local 算法其本质是利用样本和样本之间的 pair-wise 的 similarity 方法,显式地确保样本之间的 diversity 程度;

Multi-criteria 的结合

  目前现有的 multi-criteria 的方法都是类似于串行的方法,首先进行 criteria_1 的样本选择,在选择到的样本的基础上进行 criteria_2 的样本选择,最后在上一步样本的基础上进行 criteria_3 的样本选择。
  在本文算法的考虑,是如何结合 informativeness + representativeness + diversity。

方法一

  首先通过 uncertainty sampling 的方法进行选择最具有 informativeness 的样本,对其初步选择得到的样本进行聚类,在聚类结构的基础上取聚类质心保证这一步得到的样本具有 density 和 diversity 的性质)。
  因此,选择的结果具有比较好的 informativeness 和 density 和 diversity 的性质。
  该算法存在的问题,主要集中在 聚类算法。(真的是成也萧何,败也萧何~~)首先,对于 informativeness 的样本并不能真正的反应数据分布(这就是串行的弊端)。 其次,当聚类内样本数量很少的时候,该聚类质心也有可能是 outlier 点。(超经典的分析耶)

方法二

  方法一是完全的串行方法,第一步的聚类方法导致了上述缺陷。因此方法二改用 半串行半并行 的方式。
  首先用方程这里写图片描述 来同时衡量 informativeness 和 representativeness 。然后再用 diversity 度量的第二种方法 local 方法,pair-similarity 地选择 diversity 比较大的样本。

Conclusion

  通常来说,目前使用比较多的为类似于方法二的那种 半并行半串行 的方式,都是用一个式子联合考虑criterion。而那种纯串行的方法由于串行步骤,前面对后面的影响而实际效果并不好~
  本文给出了 multi-criteria 的方法启迪,为后面无数做类似 multi-criteria 方法的提供了启发。
    

你可能感兴趣的:(主动学习)