真全!GitHub上出现了一个353种语言资源的汇总

据联合国科教文组织统计
世上现存的7000+种语言,超过四百种濒临灭绝
全世界平均每两个星期就有一门语言彻底消失……
于是,有人看不下去了
他们在GitHub上开发了一个项目
专门对353种语言信息做了汇总及科普
并整理了20个可免费下载的平行语料资源库
他们说,要为保护全球濒危语言贡献一份力量

为什么要做这个项目?

研究显示,全球有近2500种语言处于濒危状态,在联合国绘制的《全球濒危语言分布图》中,代表着危机的红色标记几乎布满世界各地,濒危语言资源的保护工作迫在眉睫。

真全!GitHub上出现了一个353种语言资源的汇总_第1张图片图中我们可以看到,排名前三位的国家分别是印度、美国和印度尼西亚,这些国家各有一百多种语言面临消亡的危险。

令人欣喜的是,随着AI技术的迅猛发展,机器翻译技术的出现让拯救濒危语言成为可能。
目前,有很多研究机构和非盈利组织都在做濒危语言的挽救工作,他们通过收集整理和汇总濒危语言的信息,让濒危语言以数字化的形式保存下来。很多机器翻译研究团队也展开了面向低资源语言的机器翻译技术研究,比如,有很多机构通过单语、双语等各种形式的平行数据,构建低资源语言机器翻译引擎,这也是对语言保护的一种特殊方式。

你可能感兴趣的:(人工智能,自然语言处理,机器翻译)