弱监督学习笔记

弱监督学习 nlp小白笔记

  • 关于机器学习
  • 弱监督学习
    • 弱监督学习的分类
      • 不完全监督——部分标注
      • 不精确监督——数据标注太笼统,不够精细
      • 不准确监督——数据标注存在错误

关于机器学习

监督学习是机器学习的一个分支,机器学习包括监督学习(supervised learning)和非监督学习(unsupervised learning),其主要实现方法是从有大量数据样本的训练数据集中学习预测模型。
其中,监督学习的训练数据是有标注的,以“(x,t)”的形式呈现,“x”为输入的数据,“t”则是标注,当数据为真值(数据为真实、正确的),标注为 good truth,错误的则不是。
非监督学习只有输入的数据“x”,但没有标注。
所以监督学习区别于无监督学习的地方就在于是否有标注“t”。

弱监督学习

弱监督学习(Weakly Supervised Learning),“weakly”在英文中有“虚弱的,无力的”意思,“Weakly Supervised Learning”“虚弱无力”的地方就在于数据的标注“t”。当我们能够获得标注数据其正确程度比较低或者不完整时,我们则称这样的监督学习为弱监督学习,相应的,能够获得大量真值标注的监督学习被称为强监督学习。在机器学习领域中,由于标注工作的成本过高,大部分任务很难实现强监督学习,所以弱监督学习成为了机器学习发展的一个方向。

弱监督学习的分类

在周志华老师发表的《A Brief Introduction to Weakly Supervised Learning》中将弱监督学习分为三种形式:不完全监督(Incomplete supervision)不确切监督(Inexact supervision)不精确监督(Inaccurate supervision),他们分别出于不同的数据集而产生。

不完全监督——部分标注

不完全监督(Incomplete supervision),“incompelete”意思是“不完整的,不完善的”,当我们数据集中的数据存在一部分没有标注的数据时(即数据集中只有一部分的数据有标注),能有效利用这种数据集的方法就叫做不完全监督。

不精确监督——数据标注太笼统,不够精细

不精确监督(Inexact supervis),"inexact"意为“不精确的、不准确的”,这个不精确是指数据集内的数据标注不精确。例如,数据集(G)中的数据是很多人,而数据只标注了这些人是“男人”还是“女人”,并没有对这些数据进行更细致更深层地分类,导致标注的很“不精确”。

不准确监督——数据标注存在错误

不准确监督(Inaccurate supervision),“inexact”和“inaccurate"都有“不精确、不准确”的意思,但是不准确监督使用的数据集问题在于标注存在错误,即在上文的数据集(G)中存在把性别标错的标注。这种情况一般是由于,工作人员的错误操作导致。

你可能感兴趣的:(学习,机器学习)