(图片付费下载自视觉中国)
作者 | Emily M. Bender
译者 | 陆离
责编 | 夕颜
出品 | AI科技大本营(ID: rgznai100)
【导读】在NLP领域,多资源语言 以英语、汉语(普通话)、阿拉伯语和法语为代表,拥有大量标记数据与训练集,但是世界上其余的大约7000种语言几乎就没什么资源了,它们被称为少资源语言。这导致了NLP领域中多资源语言和少资源语言之间的数字鸿沟,阻碍了NLP领域的进展。本文作者在2011年提出了Bender Rule,指出少资源语言研究的重要性。但直到2019年,这个概念才被人重视起来。Bender Rule是什么呢?它会为NLP领域研究带来哪些新方向?本文将为读者揭晓答案。
会议名称
|
% 英语
|
位列第二位的语言
|
%位列第二位的语言
|
资源
|
ACL 2004
|
87
|
汉语
|
9
|
Mielke 2016
|
ACL 2008
|
63
|
德语, 汉语
|
4
|
Bender 2009
|
ACL 2008
|
87
|
汉语
|
16
|
Mielke 2016
|
EACL 2009
|
55
|
德语
|
7
|
Bender 2011
|
ACL 2012
|
86
|
汉语
|
23
|
Mielke 2016
|
ACL 2015
|
75
|
汉语
|
5
|
Munro 2015
|
ACL 2016
|
90
|
汉语
|
13
|
Mielke 2016
|
亲爱的计算机科学家们,“自然语言”不是“英语”的同义词。仅此而已-Emily— Emily M. Bender (@emilymbender)2018年11月26日
——"Always name the language(s) you're working on."这确实是最低的要求。我也真的很想鼓励人们做的更多、更深入:https://t.co/f4LHXI71Ba— Emily M. Bender (@emilymbender)2019年6月3日
英语是一种口语,而不是手语。如果我们只使用英语,那么就会把注意力只放在英语上;
英语有一个完善的、长期使用的、大致基于电话的正字法系统。“基于电话”的意思是字母对应于一个单个的声音。英语正字法仅仅近似于这一原则。其它语言,如西班牙语,有更透明的基于电话的正字法,还有一些语言只代表辅音(如传统的希伯来语和阿拉伯语),或者有代表音节而不是单个声音的符号(如马拉雅拉姆语、韩语或日语假名),或使用语标式系统(例如中文,或者借用到日语中的汉字;见Handel 2019).当然,世界上的许多语言不是书面的,或者是书面的,但并没有长期的书写传统或没有标准的正字法。我们经常低估了标准化在多大程度上简化英语的NLP任务。
英语的标准正字法提供了一个用空白表示的“word”的标准化概念。不是所有的语言都是这样的,即使是那些有标准正字法的语言。许多用于汉语、日语、泰语和其它语言的NLP系统必须从词语标记化问题开始;
英语书写(大多数)只使用计算机上的小写ascii字符。在大多数情况下,我们在使用英语时不用担心不常见的字符编码和不被支持的Unicode范围等;
英语的屈折词法相对较少,因此每个单词的屈折词法也较少。许多类型的NLP技术都存在数据不足的问题,只有当同一个单词以多种不同的形式出现在一种屈折度很高的语言中时,这种问题才会加剧。(基于字符n-gram的深度学习模型在一定程度上解决了这个问题,但它仍然是英语和世界上许多其它语言之间的一个重要区别);
英语有相对固定的词序。与世界上的许多其它的语言相比,英语在词序上是较严格的,在大多数情况下坚持主语、谓语和宾语,名词之前的是形容词,而后面还有关系从句,等等。没有更灵活的词序语言的测试,我们如何知道那些系统依赖于英语这些特点的程度呢?
英语的表单可能“意外”匹配数据库中的字段名和实体记录等。许多语言技术通过在输入语言中对字符串进行映射或将这些字符串转换为语法或语义表示到外部知识库的方式来实现特定于任务的目标。当输入字符串和知识库中的字段名或实体在使用同一种语言的时候,那么就可以处理快捷方式了。但这有多少种语言可以这样呢?
英语有大量可用的训练数据(如用于训练BERT的33亿的标记(Devlin等人,2019))。如果我们把所有的注意力都集中在依赖于大量训练数据的方法上,而这些数据对世界上大多数语言来说都是不可用的,那么我们将如何构建适用于其它语言的系统呢?同样的,如果我们只重视使用这些技术的工作(例如会议审查),我们怎么能期望在跨语言方面有很大帮助的NLP上取得进展呢?
◆
精彩推荐
◆