深度学习半自动标注_半自动标注系统-1-前期文章整理

继续来写文本分类自动标注的内容。专栏中有关文本分类自动标注以及半监督分类的文章隔三差五就会有人点赞。我想点赞的原因应该有下边几点:标注数据很难得到,很多人又懒得标注,所以文本自动标注类别显得很重要。

没有人做,或者是大厂的不屑于做,或者不想写,或者根本就不会。

深度学习没有用武之地,没有公开可用的代码,我想这是最关键的,不好骗呀。

整理之前写过的内容,总结出以下几个问题并解答。

1. 如何判断输入的文本是否属于当前的分类体系?

答:对开放域分类系统而言,输入文本涉及的主题是多种多样的,对输入文本不做任何预处理就放到分类系统或是自动标注系统中,系统效果一定是非常差的,这一点,在以往的实验baiziyu:文本分类语料构建-自动标注以及平时的讨论中都得以证实。因此,我们需要有一张类目关键词表,以该词表为基础,只有输入文本含有该词表中的词,才输入到下游的分类系统或自动标注系统中。

2. 提升分类系统或自动标注系统准确性的最重要方法是什么?

答:无论使用传统机器学习方法,还是神经网络机器学习方法,对于提升文本分类系统或自动标注系统的核心方法一定是特征词的提取。有关特征词提取的方法有:卡方选择,互信息,频率法等。对于文本自动标注系统来说,上边提到的特征选择方法,除了频率法,其他都失效。因此,人工长期整理出一张核心词表是非常关键的(所以再有二货问有哪些特征选择,你先反问他,你有多少高质量标注好类目的语料)。

3. 使用词嵌入表示文本,当文本中所有词都不在嵌入层词汇表中时,怎么处理?

答:这也就是大火的神经网络以及各种预训练模型的致命缺陷之一。只能通过积累这些文本达到一定量后,利用向量空间模型(VSM)对文本进行向量化。

4. 文本分类自动标注系统现状如何?

答:从收集到的论文来看,大家的方法都差不多,说白了就两个主要点,一个是有监督或无监督的分类,第2个分类可信度的计算。可以看之前的文章

总的来说,除了词嵌入技术,深度学习没看到有什么特别大的用武之地。albert官网提供了句子对相似性任务的效果,注意,且不论效果是否真的那么好,它是句子对比较,如果你的类目数量特别多,万级别的,比对次数的时间你能不能接受。最近在接触albert,正在ubuntu上跟安装tensorflow2.1较劲呢,国内的网速呀,所以我说研究个屁呀,一点儿自己东西都没有。

最近要把这个自动标注实现了,定义系统为自动标注还是半自动标注很模糊。如果通过类目关键词以及核心词剔除掉的那些文本,也要进行标注的话,根据频繁主题标注类比的话,那就是半自动,因为这一部分文本根本不可能完全交给机器标,别说10年,100年也实现不了。如果不考虑剔除掉的文本,那就可以称为自动标注。我定义它为半自动标注系统。

你可能感兴趣的:(深度学习半自动标注)