语料库

思路:
-语料库有什么用,在统计机器学习中的地位,用图说明
-语料库的一些基本概念。如熟语料、生语料等。
-有哪些著名的语料库。人民日报语料库、WordNet等。
-如何构建语料库。主要是成本、规范。
一些历史:
- 1957年,Chomsky的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。质疑了语料的作用,语料库研究陷入沉寂期。
- 80年以后,随着统计方法的流行,语料库语言学复兴。1983年,英国Lancaster大学的LOB语料库,研究英国英语,500篇,每篇2000词。法国国家科学研究中心与美国芝加哥大学联合,建成法语语料库TLF语料库,2000书面文本,1.5亿词。芬兰赫尔辛基大学建成历史英语语料库(850-1720年),1600万词。1988年伦敦大学建成国际英语语料库ICE。1981年-1991年,480个语料库项目得到资助。对比之下,1959年-1980年,只有140个语料库项目。
- 国内语料库研究历史。1979年,武汉大学,汉语现代文学作品语料库,527万字。1998年,清华大学,1亿汉字的语料库,着重研究歧义切分问题。北京大学计算语言研究所,从1992年开始现代汉语语料库的多级加工,先后建成2600万字的1998年《人民日报》标注语料库、2000万字汉字1000多万英语单词的英汉双语语料库,以及8000万字篇章级别信息科学与技术领域的语料库。之前的录入手段全靠手工,现在收集数据很简单。
- 文本产权(国家知识产权保护空白)、标记产权
- 单语。双语(机器翻译)。是否标注?是,熟语料;否,生语料。平衡语料,各个领域或类别或时间或地域的平衡。平行语料库
- 白菜、白桌子,猪肉、天鹅肉
- 美国LDC 语料库,定义了汉语某些标准。
- http://www.huaxia.com/zhwh/wszs/2009/01/1294679.html
- 几个典型的语料库:
–Brown Corpus 20世纪60年代,Francis和Kucera在Brown大学建立,世界上第一个根据系统性原则采集样本的标准语料库,100万词规模。
待续

你可能感兴趣的:(语料库)