NLP第四篇-语料库与语言知识库

这个部分内容相对轻松很多,主要介绍一些语料库方面的概念性内容,任何一个信息处理系统都离不开数据和知识库的支持,自然语言处理系统肯定也不例外,实际上我们搭建的系统效果好坏很大一部分影响在于语料库的好坏,当然模型也有很大的作用,不过我们去做的时候用的模型就那几个,要调的参数也没那么多,大家做的时候如果语料库差不多,出来的效果也查不到哪去,不像深度学习要调一堆参数,别人做出来的东西到其他人那里可能就完全实现不了,所以NLP还是首先要有一个好的语料库,没有好的语料库说啥也白搭

这部分内容我就不说太多了,很多都是概念性内容,都很简单,基本上介绍一些分类和现存的语言知识库就差不多了,当然还有感谢那些建立语料库的人们,建立这么个语料库是很大一个工程,通常是国家和研究机构要做的事情,但是国家好像不太关心这方面,所以我们看到国内有很多个人建立的语料库,比如非常著名的知网,下面介绍几个比较著名的库

语言知识库

1.WordNet

WordNet是由美国普林斯顿大学认知科学实验室George A.Miller领导的研究组开发的英语机读词汇知识库,从1985年开始,WordNet作为一个知识工程全面展开,经过近20年的发展,WordNet已经成为国际上非常有影响力的英语词汇知识资源库

2.FrameNet

FrameNet是基于框架语义学(frame semantics)并以语料库为基础建立的在线英语词汇资源库,其目的是通过样本句子的计算机辅助标注和标注结果的自动表格化显示,来验证每个词在每种语义下语义和句法结合的可能性(配价,valence)范围

3.EDR

EDR电子词典(EDR Electronic Dictionary)是由日本电子词典研究院(Japan Electronic Dictionary Research Institute, Ltd.)开发的面向自然语言处理的词典。该词典由11个子词典(sub-dictionary)组成,包括概念词典、词典和双语词典等

4.北京大学综合型语言知识库

北京大学计算语言学研究所(ICL/PKU)俞士汶教授领导建立的综合型语言知识库(简称CLKB)涵盖了词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域

5.知网

知网(HowNet)是机器翻译专家董振东和董强经过十多年的艰苦努力创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库

知网系统的哲学思想:

世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态,并通常由其属性值的改变来体现。比如,人的生、老、病、死是一生的主要状态,这个人的年龄(属性)一年比一年大{属性值},随着年龄的增长头发的颜色(属性)变为灰白{属性值}。另一方面,一个人随着年龄的增长,他的性格(精神)变得日益成熟{属性值},他的知识(精神产品)愈益丰富{属性值}。基于上述思想,知网的运算和描述的基本单位是万物,包括物质的和精神的两类:部件、属性、时间、空间、属性值以及事件

NLP第四篇-语料库与语言知识库_第1张图片
示意图

END

你可能感兴趣的:(NLP第四篇-语料库与语言知识库)