中国语料库研究的历史与现状-冯志伟教授

灵玖软件:www.lingjoin.com

大数据论坛:www.bigdatabbs.com

 

冯志伟、Journal of Chinese Language and Computing, 2002, Vol.12, No.1, pp.43-62摘要


    本文首先简要回顾了国外语料库的概况,然后,比较详细地介绍中国语料库的发展情况,包括早期的语料库、国家级语料库、大规模真实文本语料库、口语语料库、双语语料库、少数民族语言语料库等,接着介绍语料库的各种加工技术,如自动切分、自动词类标注、自动短语结构标注、自动双语对齐等,使我们对于语料库研究得到一个鸟瞰式的认识。最后讨论了当前语料库研究中的一些问题,如语料库的规范和标准问题,语言资源共享问题、知识产权问题等。


关键词: 语料库;大规模真实文本;口语语料库;双语语料库;少数民族语言语料库;自动切分;自动词类标注;自动短语结构标注;双语对齐



转自:http://www.nlpir.org/?action-viewnews-itemid-17

转载于:https://my.oschina.net/u/944980/blog/131260

你可能感兴趣的:(大数据)