第4章 语料库与语言知识库
语料库统计
两层含义:利用语料库对于语言的某个方面进行研究;一句语料库所反应出来的语言事实对现行语言学理论进行批判,提出新观点和理论。
平衡语料库 平行语料库
同一种语言的语料上平行(国际英语语料库)
两种或多种语言之间的平行采样和加工通用语料库和专用语料库
抽样时仔细从各个方面考虑了平衡问题的平衡语料库共时语料库和历时语料库
为了对语言进行共时研究而建立的语料库
历时:为了对语言进行历时研究而建立的语料库。判断四条准则:必须开放的、动态的;所有语料库都应该来源于大众传媒,都具有不同统计计算方法与传媒特色相应的流通度属性;随着语料的动态采集,预料也应该进行动态加工;语料的加工结果也应该是动态和历时的。生语料和标注语料库
标注:
根据加工程度,汉语为主的分词语料库、分词与磁性标注语料库、tree bank、proposition bank、discourse tress bank。
分词问题始终是困扰中文信息处理的问题,因此建立了汉语自动分词系统提供训练数据以建立汉语分词库和分析与词性标注库。
汉语语料库建设等问题(略)
典型语料库:
LDC中文树库(Chinese Tree Bank)
UPenn负责开发,收集语料取材新华社和香港新闻等媒体,165w汉子,文件由GBK和UTF-8两种编码格式存储。命题库(PropBank)、名词化树库(NomBank)、语篇树库(Penn Discourse Tree Bank)是PTB扩展
布拉格依存树库
三个语料库:捷克语依存树库、捷克语-英语、阿拉伯语一寸树库BTEC口语语料
主要用于语音翻译
5.现代汉语口语语料
- 台湾中研院语料库
汉语平衡语料库和汉语树库