中文概念词典


一、项目概述

北大计算语言所自20009月开始构建《中文概念词典(CCD)》的研究,该工作得到了国家自然科学基金项目、973项目、863项目和北大985项目的支持。

作为基于概念的语义知识库,CCD在信息提取、文本分类等方面是不可或缺的基础资源。

二、技术内容

CCDWordNet框架下的现代汉英双语概念词典,同时提供汉英双语概念的语义知识表达。在词典的设计上,它继承了 WordNet的主要思想和观点,从关系语义学的观点出发,用同义词集合(synset)来描述概念,用概念间的关系(relation)来描述语义;同 时,针对中文的特点,CCD也对概念的内容和概念间的关系进行了一定的调整和发展。CCD具有方便的语义关系表示和检索手段。同义词集合(同义关系)、上 下位关系、整体部分关系等的描述,有利于实现概念的分级扩展和语义距离的计算,可以直接应用于机器翻译、自动文摘、文本分类、概念检索和信息提取等方面, 为其中的语义理解任务提供宝贵的语义知识库资源。

三、项目所处阶段

目前,佳能、北佳公司已从北大得到CCDI期、II期和III期中间成果的许可使用权。这些中间成果通过了北佳公司的验收。CCD最终目标将包含约100000个双语概念,并与专业术语库TermBank相结合,同《现代汉语语法信息词典》、《现代汉语语义词典》以及大规模语料库一起纳入北大计算语言所的综合型语言知识库之中,成为中文信息处理的重要基础资源。

 

你可能感兴趣的:(框架,工作,扩展,语言,任务)