全球语种谱系图,看看机器翻译需要跨越的大山

全球语种谱系图,看看机器翻译需要跨越的大山_第1张图片

来源:语言春秋

编辑  | 北外新闻中心 杨丹蕊


摘要:当前机器翻译技术可以分成两类,一种是 Rich Resource NMT,也就是双语语料丰富的语言对(比如中文 - 英文);另一种叫 Low Resource NMT,即缺少足够的双语语料(比如中文 - 希伯来语)目前的机器翻译在Rich Resource 上已经做得非常好了,甚至在某些训练集下已经可以达到或超过人工翻译水平。但是Low Resource现在才刚刚开始,有很多有趣的研究,整体水平还处于比较低级的阶段。——周明,微软亚洲研究院副院长


根据历史比较语言学的研究成果,一般认为世界上的语言按其亲属关系可以分为十几或二十几个 语系,其中比较知名的有印欧语系、汉藏语系、乌拉尔语系、阿尔泰语系、闪-含语系、高加索语系、达罗毗荼语系、南岛语系(又称马来-玻利尼西亚语系)、南亚语系等十大语系。


历史语言学把来自一个共同原始母语的所有语言都划归到同一个语系当中,而语系下面还分有语族、语支、语言、方言、土语等,语族细分还可以分为亚语族,语支细分也还可以分语组。


Language Family:语系 
Language Group:语族
Language Sub-Group:亚语族(次语族)
Language Branch:语支
Language:语言(语种) 
Dialect:方言 
Sub-Dialect:土语(亚方言、次方言)


全球语种谱系图,看看机器翻译需要跨越的大山_第2张图片


印欧语系

Indo-European Family


印欧语系是世界上最大的语系,亦是最为广泛研究的语系。印欧语系包含了世界上许多最重要的语言,如英语、西班牙语、法语、德语、俄语等等。这些语言是很多国家和组织的官方语言,在世界商业、科技、学术、通讯、国际会议中占有极其重要的地位。上述语言的使用者占全球总人口的一半以上。印欧语系还包含使用人数 众多的语言如葡萄牙语、印地语、孟加拉语等等。关于宗教、文化、哲学方面的一些经典语言也在印欧语系中,如拉丁语、希腊语、波斯语、梵语、巴利语等。


印欧语系的语言有屈折的特性(动词、名词根据在句中的成分、作用不同而产生不同的词尾变化)。有些语言(如英语)在演变过程中丧失了很多屈折变化而变得相对简单。 

印欧语系的分布,从美洲、经过欧洲,一直延伸到印度次大陆北部。一般认为原始印欧语是在新石器时代(约公元前7000年)发源于黑海北部森林地区(现乌 克兰、立陶宛一带)。这些欧洲大陆的原始居民在公元前3500—前2500年间开始迁移,向西到欧洲最西端,往南到地中海,向北直至斯堪的纳维亚,往东到达印度。 


凯尔特语族(Celtic Group)


凯尔特语族是印欧语系中比较小的语族。凯尔特语早期散布在欧洲的广大地区,由于罗马人和日耳曼人的征服、民族大迁移等原因,凯尔特语的使用者被驱赶到了威尔士、爱尔兰、苏格兰等地。凯尔特语族包括的主要语言有威尔士语,爱尔兰盖尔语和苏格兰盖尔语。还包括一些已经灭绝的语言,如康沃尔语(Cornish),高卢语(Gaulish),曼岛语 (Manx)等。凯尔特人的一支迁回法国,他们的语言叫做不列颠语(Breton)。威尔士语采用“谓—主—宾”的句子结构。 


日耳曼语族(Germanic Group)


日耳曼语族发源于古诺斯语(Old Norse)和萨克逊语(Saxon)。世界上应用最广的英语就是日耳曼语族的成员。英语和北海沿岸和沿海岛屿的弗里西亚语(Frisian)最为接近。 它们都属于西日耳曼语支。同属该语支的还有德语和荷兰语。荷兰语的变体有弗拉芒语和南非荷兰语;德语有使用希伯来字母的变体意地绪语(或称依地语、犹太德 语,Yiddish)。


北日耳曼语支(或斯堪的纳维亚语支)包括丹麦语、挪威语、瑞典语,冰岛语由于长期与大陆隔绝,较多地保留了古诺斯语的特点。与之接近的是法罗语(Faroese)。同属斯堪的纳维亚国家的还有芬兰,但芬兰语不属于印欧语系。 
  

东日耳曼语族已经消亡,包括中欧的哥特语(Gothic)、北非的梵代尔语(Vandal)等等。德语名词有三种性、四个格。英语已经丧失了格和性的变化。


全球语种谱系图,看看机器翻译需要跨越的大山_第3张图片

如尼文字,日耳曼文化土生文字


罗曼语族(Roman Group)


罗曼语族又称拉丁语族,全部语言都由拉丁语演化而来。罗曼语族包含的大语种有:法语、意大利语、西班牙语、葡萄牙语、罗马尼亚语。意大利语和葡萄牙语是 现存的和拉丁语最接近的语言。法语和拉丁语只是在拼写上相似,发音已经大不相同。西班牙语受阿拉伯语和巴斯克语影响较大,罗马尼亚语被斯拉夫语包围,受其影响颇深。
  

罗曼语族的小语种有西班牙东北部的加泰隆尼亚语(Catalan),法国南部的普罗旺斯语(Provencal),摩尔多瓦语 (Moldovian)。除拉丁语外,已经灭亡的罗曼语还有奥斯干语(Oscan)、达尔马西亚语(Dalmatian)、乌布利亚语(Umbrian) 等等。拉丁语名词有三个性、六个格,是一种高度屈折的语言,采用“主—谓—宾”的句法结构。


全球语种谱系图,看看机器翻译需要跨越的大山_第4张图片

拉丁文


斯拉夫语族(Slavic Group)


斯拉夫语族处于东欧,普遍采用西里尔字母。斯拉夫语族的显著特征是复辅音发达,比如塞语叫作srpski,克语叫作hrvatski;名词的格繁多。 
  

东斯拉夫语支包含俄语、乌克兰语和白俄罗斯语。
  

西斯拉夫语支包含波兰语、捷克语和斯洛伐克语。捷克语和斯洛伐克语曾合称为波希米亚语(Bohemian)。 
  

南斯拉夫语支包含保加利亚语、塞尔维亚语、克罗地亚语、斯洛文尼亚语、马其顿语、波斯尼亚语。中间有不属于印欧语系的匈牙利语隔开。这是我们目前为止遇到的第二个不属于印欧语系的欧洲语言。


波罗的语族(Baltic Group)


三个波罗的海国家有两种波罗的语言。一是立陶宛语,二是拉脱维亚语。爱沙尼亚语和芬兰语同宗,不属于印欧语系。这是第三个不属于印欧语系的欧洲语言。 
  

立陶宛语是印欧语系中最古老的语言之一,为研究印欧语系的起源和演化起着重要作用。波罗的语族已经灭亡的语言是古普鲁士语(Prussian)。 


希腊语


希腊语自成一支。现代希腊语是标准语克伊内语(Koine)的后裔。荷马史诗所用的希腊语称作古希腊语,和现代希腊语有诸多不同。希腊语名词有三性四格,使用独特的希腊字母。该字母表由腓尼基字母演变而来,是世界上最古老的字母之一。拉丁字母和西里尔字母都是由希腊字母演变而来。


阿尔巴尼亚语


阿尔巴尼亚语区位于亚得里亚海之东,塞尔维亚—克罗地亚语区之南。其本身的核心词汇显示出它是印欧语系的一个独立分支。


亚美尼亚语


在小亚细亚有印欧语系的另一单独分支—亚美尼亚语。该语言辅音发达,有很多波斯语借词。


印度—伊朗语族(Indo-Iranian Group)


印欧语系在亚洲的大分支叫做印度—伊朗语族。它由伊朗语支和印度语支组成。伊朗语支由古波斯语演化而来。最早的文献是波斯王国的大流士一世时的碑铭,及已经灭绝的阿维斯坦语(Avestan)写的圣经。
  

伊朗语支现存的主要语种有波斯语、库尔德语。向东有阿富汗的普什图语,向西有高加索地区的奥塞梯语(Ossete/Ossetian)、塔吉克斯坦的塔吉克语。
 

全球语种谱系图,看看机器翻译需要跨越的大山_第5张图片

古波斯语

 

印度语支包含语言数目众多,多由梵语演化而来。梵语是古代印度的标准语言,是文学、艺术、学术著作的语言。巴利语(Pali)是古代印度些佛经的语言。 
   

现代的印度语支语言中,比较重要的有印地语、乌尔都语、尼泊尔语、孟加拉语和僧伽罗语。其中印地语、尼泊尔语、孟加拉语使用天城体文字或其变体。乌尔都 语是巴基斯坦的国语,由于其国民为穆斯林,所以使用阿拉伯文字。僧伽罗语是斯里兰卡的国语,使用源自巴利文的特殊文字。
  

印度语支方言众多,其 中使用人数较多的有以下这些语言:马拉蒂语、古吉拉特语/鸠遮拉特语(Gujerati)、旁遮普语、拉贾斯坦语(Rajasthani)、奥里亚语 (Oriya)、克什米尔语、信德语、比哈里语(Bihari)、阿萨姆语(Assamese)等等。 
  

除此之外,印度语支还有马尔代夫语(Maldivian)、吉普赛语(罗姆语)等等。印度南部语言如泰米尔语并不属于印欧语系。举例来说,印度北方的印地语和英、法、希腊语更为接近,而和印度南方语毫无关联。


吐火罗语、赫梯语


根据在中国新疆发现的公元六世纪的手稿,人们知道了中亚有吐火罗语(Tocharian/Tokharian)。吐火罗人是文化程度很高的民族,公元一千年左右为维吾尔人所败,其后消失。
  

赫梯语(Hittite)是小亚细亚的古代语言,存有楔形文字铭文。


全球语种谱系图,看看机器翻译需要跨越的大山_第6张图片

吐火罗语字母 


汉藏语系

Sino-Tibetan Family


按使用人数来算,汉藏语系是仅次于印欧语系的第二大语系。它包括世界上使用人数最多的语言—汉语普通话。
  

汉藏语系一般归为四个语族,即汉语族、藏缅语族、侗台语族和苗瑶语族。关于汉藏语系的分类和归属,学术界一直有争论。西方一些学者一般认为侗台和苗瑶不属于汉藏语系,而属于南亚语系。  本文从大多数中国大陆学者及部分西方学者的观点,将它们纳入汉藏语系。 
  

汉藏语系的语言一般是由单音节字组成的声调语言。词由单个音节的字组成,每个音节都有声调。汉语北方话有四个声调,泰语有五调,粤语有九调。很多语言是孤立语,使用虚词和语序作为表达语法意义的主要手段。


 汉语族(Sinitic Group)


汉语族包含中国境内汉民族使用的多种语言,即官话、吴语、粤语、闽语、赣语、湘语、客家语(Hakka)、晋话、徽话、平话等。这些语言使用约五万多汉字,常用汉字约六千个。


藏缅语族(Tibeto-Burman Group)


藏缅语族的大语种有藏语、缅甸语;小语种有中国南部的彝语、傈僳语、拉祜语(Lahu),缅甸的克伦语(Karen),不丹的宗卡语(Jonkha),尼泊尔的内瓦里语(Newari)等等。这些语言使用的文字大多来源于印度文字。


全球语种谱系图,看看机器翻译需要跨越的大山_第7张图片

藏文书法


 侗台语族(Tai Group)


又称侗泰语族、侗傣语族或壮侗语族。包括泰语、老挝语,中国的壮语、布依语、侗语、怒语等等。


苗瑶语族(Miao-Yao Group)


主要包括中国少数民族的苗语、瑶语、畲语。



闪含语系

Semitic-Hamitic Family


闪含语系也称“亚非语系”或“阿非罗—亚细亚语系”(Afro-Asiatic Family),主要分布在亚洲的阿拉伯半岛和非洲的北部。闪含语系的名称是从圣经的传说中挪亚的两个儿子的名字来源的。圣经说挪亚的儿子闪是希伯来人的祖先,含是亚述人和非洲人的祖先。

  

闪含语系的主要共同特征是:辅音除了清辅音、浊辅音外,还有一种重辅音,在口腔后部和喉腔形成,又叫喉音。名词有格和性,但比印欧语系简单。阿拉伯和希伯来字母只有辅音,元音用附加上辅音上的符号表示。书写时一般也只写辅音,读者需要从语境中判断出正确的元音。


闪语族(Semitic Group)


阿拉伯语是闪语族中重要的成员。它是很多伊斯兰国家的宗教、文学、以及官方的语言,也是联合国六种工作语言之一。 
  

马耳他是天主教国家,马耳他语(Maltese)使用拉丁字母,但属于闪语族。
  

闪语族另一重要语言是希伯来语。它是犹太教的语言,也是旧约圣经最早的手抄本使用的语言。希伯来语使用自己的一套特殊字符,作为口语曾经消亡过一段时间,后来被人为恢复为口语,现在是以色列的国语。 
  

同属闪语族的还有埃塞俄比亚的阿姆哈拉语、亚述王朝的阿卡德语(Akkadian)、亚述语(Assyrian)。
  

最后要提到的是阿拉米语(Aramaic),它曾经是波斯王朝的主要官方语言,扩展于中东、近东的广大地区,与希腊语竞争,取代了希伯来语、亚述语等许多其它语言。后来由于阿拉伯语的扩张而被排挤,现存于叙利亚、伊拉克、土耳其和伊朗的孤立小块地区。


全球语种谱系图,看看机器翻译需要跨越的大山_第8张图片

阿拉伯字母


埃及语族(Egyptian Group)


这是一个已经灭绝了的语族,包括公元前四千年古埃及的象形文字,及后期的使用近似希腊字母文字的科普特语(Coptic)。十七世纪,埃及语灭亡,被阿拉伯语所取代。


全球语种谱系图,看看机器翻译需要跨越的大山_第9张图片

古埃及一本写在莎草纸上,用埃及语书写的药典《厄伯斯手卷》所记载有关治疗哮喘的处方。


 贝贝尔语族(Berber Group)


贝贝尔语族位于北非山地,代表语言有特哇力语(Tuareg)、卡比勒语(Kabyle)、塔马舍克语(Tamazight)等。它们在非洲北部抵挡住了阿拉伯语的进攻。


 库施特语族(Cushite Group)


主要分布于埃塞俄比亚、厄立特里亚、苏丹和索马里。包括索马里语(Somali)、加拉语(Galla)、贝扎语(Beja)等等。


 乍得语族(Chadic Group)


乍得语族包括尼日利亚、乍得和喀麦隆地区使用的约600种语言。其中最主要的是豪萨语,它是尼日利亚的主要语言,从前使用阿拉伯字母,现在采用拉丁字母。 
  

埃及语族、贝贝尔语族、库施特语族和乍得语族可合称“含语族”(Hamitic Branch)。



乌拉尔语系

Uralic Family


前面提到,有三种欧洲语言不属于印欧语系:芬兰语、匈牙利语和爱沙尼亚语。它们属于乌拉尔语系。乌拉尔语的原始居民在大约1500年前从乌拉尔山脉的西 伯利亚一侧迁入欧洲,生活习俗已经完全欧洲化,但语言仍然保存了原来的面貌。乌拉尔语系分为两个大语族:芬兰—乌戈尔语族和萨莫耶德语族。


 芬兰—乌戈尔语族(Finno-Ugric Group)


该语族分为两个语支。芬兰语支包括十分相似的芬兰语和爱沙尼亚语,以及西伯利亚的莫尔多维亚语(Mordvin)、乌德穆尔特语(Udmurt)、科米 语(Komi)等小语种。乌戈尔语支包括匈牙利语及与之相近的处于中西伯利亚的奥斯恰克语(Ostyak)、沃古尔语(Vogul)。


全球语种谱系图,看看机器翻译需要跨越的大山_第10张图片

《卡勒瓦拉》第14章,芬兰民歌古诗搜集家E.兰罗特手迹


萨莫耶德语族(Samoyed Group)


在叶尼塞河沿岸约有一万八千人说萨莫耶德语族的语言,如塞尔库普语(Selkup)、涅涅茨语(Nenets)、牙纳桑语(Nganasan)、埃内茨语(Enets)等等。


乌拉尔语系诸语言比前面几个语系的语言更为屈折,词尾后缀变化丰富。芬兰语名词有15个格,匈牙利语有17个!一些常见的国名在这些语言里变得不再熟 悉,例如芬兰语中的“芬兰”、“德国”、“法国”分别叫做Suomi,Saksa,Ranska,与Finland,Germany,France相去甚 远。


阿尔泰语系

Altaic Family


阿尔泰语系由中亚的阿尔泰山得名,现在主要分布在中国、蒙 古、土耳其以及一些中亚国家。使用阿尔泰语系各种语言的人民早期是中国北方的游牧民族。匈奴、乌桓、鲜卑、突厥、契丹、女真、蒙古、满各个民族在这一地区 直至西亚和东欧都曾建立国家。由于统治权不稳定、战争、迁移等原因,居民流动性很大,和其它语言接触很多,阿尔泰语言发展历史就比较复杂。

 

阿尔泰语系分为突厥、蒙古、满—通古斯三个大语族。


 突厥语族(Turkic Group)


突厥语族中的土耳其语是阿尔泰语系最西边、使用人口最多的一种语言。很多前苏联的加盟共和国的语言也都是突厥语族的成员,如阿塞拜疆语、土库曼语、哈萨 克语、吉尔吉斯语、乌兹别克语;另外还有鞑靼语(Tatar)、维吾尔语、巴什基尔语(Bashkir)等语种。中国境内的有些少数民族的译法略有不同: “乌兹别克族”译为“乌孜别克族”;“吉尔吉斯族”译为“柯尔克孜族”;“鞑靼族”译为“塔塔尔族”。


蒙古语族(Mongolian Group)


蒙古语使用于蒙古人民共和国和中国北方的蒙古族。蒙古国使用西里尔字母,中国的蒙古族仍然使用一种竖写的拼音文字。 
 

蒙古语族的小语种有布利亚特语(Buryat),卡尔梅克语(Kalmyk)


全球语种谱系图,看看机器翻译需要跨越的大山_第11张图片

蒙古文


 满—通古斯语族(Manchu-Tungusic Group)


这个语族包括西伯利亚地区的埃文基语(Evenki),或通古斯语(Tunguse),以及满语、锡伯语(Sibo)等。但中国境内的满族人大都只能说汉语。

  

全球语种谱系图,看看机器翻译需要跨越的大山_第12张图片

满文


早期曾经把乌拉尔语系和阿尔泰语系并称为“乌拉尔—阿尔泰语系”。后来经深入研究发现更多相异特性,不应合并为同一语系。 
   

另外有的语言学家主张把日语和朝鲜语也划入阿尔泰语系,因为它们和阿尔泰语言确有共同特质。但大量相异成分又难于解释,因此也有很多人认为它们属于阿尔 泰语系只是假说。还有很多人认为日语、朝鲜语语系归属未定,或自成一支。关于日语、朝鲜语的划分问题,至今未有定论。 
  

日语使用汉字及两套假名。朝鲜语过去使用汉字,现用一套600多年前其独创的一种拼音文字系统。日语和朝鲜语的敬语发达,根据说话者和说话对象的地位不同,采取不同的词汇或敬语形式。另外日语中不同性别的人用词也有差异。 
  

阿尔泰语系,包括日语、朝鲜语都是典型的黏着语(粘着语):以在词根后加构词附加成分为派生新词的主要手段,以在词干之后加语法粘附成分为形态变化的主要手段。 
  

在语音结构上,阿尔泰语系的语言,包括朝鲜语,都有“元音和谐”的特性。所谓元音和谐是指,元音根据发音位置前后不同分为阳性、阴性两类,在同一个词里 要么都是阳性元音,要么都是阴性元音。例如,土耳其语构成复数的词尾有两种:-lar和-ler。at(马)构成复数为atlar;而ev(房子)的复数 为evler。


高加索语系

Caucasian Family


高加索语系由黑海和里海之间的高加索山脉得名。其南支的卡尔特维里语族(Kartvelian Branch)中最主要的语言是格鲁吉亚语,其它语言还有明格雷利亚(Mingrelian)、拉兹语(Laz)、斯凡语(Svan)。西北支的阿布哈兹 —阿第盖语族(Abkhaz-Adyghean Branch)主要包括阿布哈兹语(Abkhaz)、阿第盖语(Adyghe)、卡巴尔达语(Kabardian)、阿巴兹语(Abaza)等等。东北地 区主要有车臣语(Chechen)、印古什语(Ingush)、达吉斯坦语(Daghestanian)、阿瓦尔语(Avar)、莱兹金语 (Lezgin)、拉克语(Lak)、列兹吉语(Lezgi)、塔巴萨兰语(Tabasaran)等。
  

高加索语言的普遍特点是存在大量复杂的 辅音簇。有种已消亡的高加索语言包含多达81个单个辅音。俄罗斯南方的卡巴尔达语只有3个元音,而且在实际话语中常常消失。很难想象人们说话都是辅音是什 么样子,也许由于地处高寒地区,人们有意避免张口发元音,以提高语速并减少热量损失。



全球语种谱系图,看看机器翻译需要跨越的大山_第13张图片

格鲁吉亚语字母


南岛语系

Austronesian Family


或称“马来—玻利尼西亚语系”(Malayo-Polynesian Family)。该语系从印度洋、马来半岛、东南亚,越过太平洋直到复活节岛,由一千多种语言组成。该语系的使用者据说最早起源于黄河谷地,公元前 2500年左右经台湾迁移到菲律宾,公元前约1000年进一步迁至印度尼西亚、太平洋诸岛屿。南岛语系包括五个分支:


台湾语族(Formosan Group)


包括台湾本土的阿美语(Amis)、泰雅语(Atayal)、排湾语(Paiwan)、邹语(Tsou)。这些语言的使用者都是台湾原住民。


印度尼西亚语族(Indonesian Group)


又称马来语族,是南岛语系最大的一支。其中的马来语作为一种贸易和文化的语言在许多地方使用。马来语曾使用阿拉伯字母,20世纪改用拉丁字母。该语族还 包括印度尼西亚的诸多语言如印尼语、爪哇语、巽他语(Sundanese)、马都拉语(Madurese)、巴厘语(Balinese)等等;及许多菲律 宾语言,如比萨亚语(Visayan)、他加禄语等。
  

此外还有一个遥远的分支叫做马尔加什语(Malagasy),它是非洲南部岛国马达加斯加的国语。1500年前,一部分人从印度尼西亚渡过印度洋来到马达加斯加岛。他们尽管已成为非洲人,风俗习惯也变得非洲化,但语言仍然表现南岛语的特点。


密克罗尼西亚语族(Micronesian Group)


包括较小地区的语言,如马绍尔群岛语(Marshallese)、吉尔伯特群岛语(Gilbertese)、雅浦岛语(Yapese)、瑙鲁语(Nauruan)等等。


美拉尼西亚语族(Melanesian Group)


包括斐济语(Fijian)、所罗门群岛语(Solomonese)等。


玻利尼西亚语族(Polynesian Group)


包括新西兰的毛利语(Maori)以及太平洋中靠东面的一些岛屿的语言,如萨摩亚群岛语(Samoan)、塔希提岛语(Tahitian)、夏威夷语(Hawaiian)、复活节岛语(Rapa Nui)等。 


全球语种谱系图,看看机器翻译需要跨越的大山_第14张图片


不难发现这些语族名称普遍带有-nesian词根。从字面意思看,Austronesian意为“南岛”;印度尼西亚(Indonesian)意为“印 度岛”;密克罗尼西亚(Micronesian)意为“小岛”;美拉尼西亚(Melanesian)意为“黑岛”;玻利尼西亚(Polynesian)意 为“群岛”。

 

南岛语系语言的名词、动词形式变化很简单。马来语没有时态或格的变化。复数通过重复词根完成,如anak:小孩;anak anak:孩子们。
   

太平洋诸语中代词变化复杂。物主代词“我们/我们的”在有的太平洋语言中要细分为“暂时性属于”(如汽车、书本),和“永久性属于”(如身体器官)。有 的语言的指示代词“这”分为三种变化,一种指示看得见的物体;一种用来指示说话时看不到但存在的物体;一种指示不存在的事物。还有的语言中的人称代词“我 们”分为“包括说话对象”和“不包括说话对象”两种。美拉尼西亚语的复数人称代词还有三种数的变化:双数aijumrau(我们俩);三数 aijumtai(我们仨);复数aijam(我们)。 
  

太平洋语言另一特点是辅音、元音数量较少。夏威夷语仅有8个辅音(H、K、L、M、N、P、W、喉塞音)和五个元音(A、E、I、O、U)。他加禄语和毛利语采用“谓—主—宾”的语法形式。马尔加什语为“谓—宾—主”。



南亚语系

Austroasiatic Family


南亚语系分布在印度东部至中南半岛的亚洲东南部地区。一般分为三个语族。


越芒语族(Viet-Muong Group)


该语族包括越南语、芒语(Muong)(两者都是越南境内的语言)。


孟—高棉语族(Mon-Khmer Group)


该语族主要包括孟语(Mon),曾经的泰王国的主要语言,现在使用于缅甸、泰国、中国和越南的零星地区;高棉语,柬埔寨的国语;尼科巴语 (Nicobarese),位于苏门答腊西北的尼科巴群岛;卡西语(Khasi);中国境内(主要云南省)的佤语、布朗语(Blang)、德昂语 (De’ang)等。


全球语种谱系图,看看机器翻译需要跨越的大山_第15张图片

泰语文字


扪达语族(Munda Group)


扪达语族语言零星分布于印度北部地区,包括扪达语(Munda)、科尔库语(Korku)等近20种语言。
  

南亚语系中越南语具有声调,其余语言没有声调。前面汉藏语系中提到,有学者认为“侗台”和“苗瑶”两个语族属于南亚语系。



达罗毗荼语系

Dravidian Family


在前文“印欧语系”中提到,印度北部语言大多属于印欧语系,但南部语言与北部差距甚远。印度南方大部的语言属于达罗毗荼语系。该语系的一显著特点是发音难度大。 

   

达罗毗荼语系包括的大语种有泰米尔语,使用者约一千八百万人,分布于印度的泰米尔省、斯里兰卡北部、马来西亚,同时也是新加坡的四种国语之一;马来雅兰 语(Malayalam),约有六百万人使用;泰卢固语,约二千四百万人使用,分布于印度东南沿海马德拉斯以北的地区;卡拿拉语(Canarese),约 一千万人使用于孟买地区的卡拿拉。这些语言使用各自的书写系统,具有弯曲、圆弧形的典型南印文字特征。


另有一种达罗毗荼语叫做婆罗灰语(Brahui),有17万人使用,在俾路支山区。

  

达罗毗荼语普遍具有卷舌辅音(一称顶音),该特征是受印欧语系的印度语族语言影响而来。发这种音时,舌面卷起,舌尖抵住硬腭。这也是印度境内诸语的显著特征。另外,达罗毗荼语多表现黏着特征,名词格的变化复杂。

  

一般认为达罗毗荼语系发源于现在巴基斯坦境内的印度河谷,曾经覆盖过整个印度次大陆。 



尼日尔—刚果语系

Niger-Congo Family


尼日尔—刚果语系包含撒哈拉沙漠以南的非洲大陆的共900多种语言。该语系起源于西非,逐渐迁徙至非洲东南部。
  

非洲国家的疆界并不完全反映语言的划分,而更多展现的是其被殖民的历史,所以非洲诸语言常常不按国界划分,通常一种语言可能被几个国家同时使用;同样,一个国家也可能有多种互不相同的语言。 
   

尼日尔—刚果语系包括九个语族,主要语言有:非洲西部的弗拉尼语(Fulani),使用于尼日利亚、喀麦隆、马里、几内亚、冈比亚、塞内加尔、毛里塔尼 亚、尼日尔、布基纳法索;马林克语(Malinke),用于塞内加尔、冈比亚、几内亚、马里、科特迪瓦;门德语(Mende),主要使用于塞拉利昂;特维 语(Twi),用于加纳;埃维语(Ewe),用于加纳、多哥;莫西语(Mossi),用于布基纳法索;约鲁巴语(Yoruba),用于尼日利亚;伊波语 (Ibo),用于尼日利亚;科佩勒语(Kpelle),用于利比里亚;沃洛夫语(Wolof),用于塞内加尔;方语(Fang),用于喀麦隆、加蓬、几内 亚。
  

非洲东南部从几内亚到苏丹这条地带南面,有一大群班图语族(Bantu Branch)的语言。班图语族数量众多,使用者约五千万人。使用者最多的一种是斯瓦希里语,用于坦桑尼亚、肯尼亚、乌干达、卢旺达、布隆迪等地;其余包 括乌干达的干达语(Ganda),卢旺达的卢旺达语(Ruanda),布隆迪的隆迪语(Rundi),刚果(金)的鲁巴语(Luba),刚果(金、布)的 林加拉语(Lingala),刚果语(Kongo),刚果(金)、赞比亚的贝姆巴语(Bemba),津巴布韦的肖纳语(Shona),津巴布韦和南非的恩 德贝勒语(Ndebele),博茨瓦纳的茨瓦纳语(Tswana),南非的祖鲁语等等。
  

非洲南部语言普遍用声调表达语法意义(偶尔用于区别词义)。刚果的班达语(Banda)有三种调,当地人也使用三调的鼓来传递信息。埃菲克语(Efik)有四调,m、n当作元音使用。 


尼日尔—刚果语系的大部分语言使用丰富的前后缀来修饰名词和动词,名词、动词从不单独出现。弗拉尼语有18个名词限定后缀;恩德贝勒语有16种名词限定前缀和丰富的表达亲属关系的词语,如u-baba(我的父亲)、u-yihlo(你的父亲)、u-yise(他的父亲)。
   

肖纳语有200多个描述“走”的词语,如mbwembwer(摇晃屁股走),chakwair(在泥中咯吱咯吱地走),donzv(拄着拐杖 走),panh(长距离地走),rauk(大步走)等等。弗拉尼语名词通过变换词首辅音来表达语法意义,如jese(脸),gese(脸的复 数),ngesa(大脸)。 


班图语族采用五进制,数字六用“五加一”表达。许多非洲部落语言中有吸气音、咂嘴音等古怪的辅音。


其它语系 


除了前面这十大语系,世界上还有一百多种小语系散布各地,有许多土著语、原始部落的语言还没能完全为语言研究者了解和认识。在本文的最后章节,简要介绍一下尚未涉及的部分非洲语言、美洲大陆的土著语言、未界定语系或独立不属任何语系的语言。
   

非洲东北部尚有尼罗—撒哈拉语系(Nilo-Saharan Family),包含诸如埃及南部和苏丹的努比亚语(Nubian)、肯尼亚北部的丁卡语(Dinka)和玛赛语(Masai)等语言。该语系发源自埃塞 俄比亚山区,一万年来并未有大迁徙,基本仍存留在发源地。
  

非洲南部有一小撮语言属于科依桑语系(Khoisan Family)。该语系的两种典型语言是霍登托语(Hottentot)和布施曼语(Bushman),使用于纳米比亚和南非。该语系曾覆盖整个非洲中部和南部的广大地区,后为迁入的尼日尔—刚果语系所取代。
   

爱斯基摩—阿留申语系(Eskimo-Aleut Family)覆盖西伯利亚、阿拉斯加及阿留申群岛地区。主要语言为爱斯基摩人的因纽特语(Inuit)。该语言合成词发达,通常一个动词与众多名词及修 饰成分合成一个复合词表达意义,这种复合词即相当于其它语言中的句子。
  

阿尔贡金语系(Algonquian Family)分布在美洲大陆东北部,包括奥积瓦语(Ojibwa)、克利语(Cree)、黑脚语(Blackfoot)、密克马克语(Micmac)、 水彦语(Cheyenne)、卓克托语(Choctaw)、坡塔瓦托米语(Potawatomi)、莫希干语(Mohican)、特拉华语 (Delaware)等。该语系的许多语言名词分为两种类似性的变化:有生命的和无生命的。
  

位于加拿大的阿沙巴斯甘语系(Athapascan Family)包括拿瓦荷语(Navajo)和阿帕奇语(Apache)。拿瓦荷语有很多词语来描述不同形状、颜色和位置的物体。在拿瓦荷人眼中的世界都由几何图形构成,事物都通过几何形状来观察和描述。
  

伊洛魁语系(Iroquoian)同样位于北美洲,包括切诺基语(Cherokee)、休语(Sioux)、摩荷克语(Mohawk)等。摩荷克语的主语在动词上按照性别标记,词序随意,该特征与班图语族相似。
  

北美大陆的太平洋沿岸有一支莫桑语系(Mosan Family),包括贝拉—库拉语(Bella-Coola)、平头语(Flathead)和奥卡纳干语(Okanagan)。这些语言的有些词汇既可以作动词又可以作名词。只有通过上下文才能判断出正确意义。 
   

北美及中美洲地区的乌托—阿斯特克语系(Uto-Aztecan Family)包括美国和墨西哥境内的河比语(Hopi)、帕帕哥语(Papago)和科曼奇语(Comanche)等。该语族的最重要的语言是拿哇特尔 语(Nahuatl)。辅音tl为该语言的显著特征之一。该语言采用五进制。
墨西哥中部有奥托—曼吉语系(Oto-Manguean Family),包括7个语族150多种语言。其中很多语言有声调。
  

墨西哥南部尤卡坦半岛及危地马拉的玛雅语系(Mayan Family)包括8个语族约30种语言。这些古文明的承担者约发源于公元前800年。
  

中美洲的大奇布查语系(Macro-Chibchan Family)包括洪都拉斯和尼加拉瓜的加勒比海沿岸的密斯基多语(Miskito)和巴拿马的库纳语(Cuna)。 


佩纽蒂语系(Penutian Family)散布于中、南美洲,最大的一支是智利的阿劳坎尼语(Araucanian)。 
  

加勒比语系(Carib Family)散布在南美洲北部的雨林地区,包括加勒比语(Carib)、帕诺亚语(Panoan)、奇基多语(Chiquito)等。其中巴西雨林中约350人使用的Hixykaryana的语序为“宾—谓—主”,这种语序为南美洲所独有。

安第斯—厄瓜多尔语系(Andean-Equatorial)覆盖南美广大地区,包括秘鲁和厄瓜多尔印加族人的克权语(Quechua)、玻利维亚的埃玛拉 语(Aymara)、巴拉圭的瓜拉尼语(Guarani)、巴西的图皮语(Tupi)及加勒比海沿岸的阿拉瓦克语(Arawak)。
  

巴布亚新几内亚的700多种语言还不怎么为人们知道,还在研究之中。该岛上的语言可能分为六、七个大语系,一些小语系和一些独立语言。大多数巴布亚语言的使用者只有几千人,不为外界熟知。 
  

新几内亚岛上许多语言的共同特点是有双数代词,即使用不同词语表示“我们”,“我们俩”;“你们”,“你们俩”。 
   

奇瓦伊语(Kiwai)有已知的最复杂的动词变化结构,依靠在动词上加前后缀来表达句子意义。例如:odi意为“给弓装弦”,通过添加下列前后 缀:ri-mi-bi-du-mo-i-odi-ai-ama-ri-go,来表达“在遥远的将来的某个时候,他们三个人一定会为两只弓装弦”的意义。
  

伊马斯语(Yimas)有四种过去式变化,以严格区分动作发生的过去时间与说话时间的远近程度。 
  

拉托卡斯语(Ratokas)只有11种发音,是已知语言中最少的。这11个音位由5个元音和6个辅音构成:A、E、I、O、U、B、G、K、P、R、T。
  

有的语言学家认为安达曼群岛和塔斯马尼亚岛语言与巴布亚语言有亲属关系。 
   

澳大利亚的约250种土著语言可大致分为23个语系。北方地区分布有其中的22个,如Bunaban,Ngaran,Yiwaidjan等。澳大利亚中 南部的Pama-Nyungan语系拥有复杂的代词系统,例如代词“我们”有四种形式:yunmi(我们俩,你和我);mintupals(我们俩,他和 我);mipala(我们所有人,包括你);melabat(我们所有人,不包括你)。Jiwarli语有三个不同动词表示“搬运”的意义,以区分物体在 手上、在头上或在背上。澳大利亚不少土著语言使用不同词汇与不同亲属交谈。Adnyamathanha语有十套代词系统,用于与不同的亲人交谈。Dyirbal语的每个词都有两套几乎完全不同的词汇。该语言名词有四种性别。 


大多数土著语言的数量词只有三个:“一”、“二”和“许多”。 
   

世界上还有很多语言不属于任何一个语系,这些语言称作独立语言或语言孤岛。比如日本北海道地区有一种阿伊努语(Ainu),几近灭绝。Porome语为 巴布亚新几内亚约一千人使用,没有文字系统。巴基斯坦控制下的克什米尔地区也有一种没有文字的语言叫做布鲁沙斯基(Burushaski)语。 


在法国和西班牙交界处的比利牛斯山区西部约有五十万人说巴斯克语(Basque),它是古代伊比利亚语的残留形式。巴斯克语采用20进制,代词“它”有三种形式,分别指代离说话人较近距离、中距离和远距离的事物。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

你可能感兴趣的:(全球语种谱系图,看看机器翻译需要跨越的大山)