读书笔记之语法语料库和语义知识库

语法语料库和语义知识库

 

文末有文档下载地址:

本文档是自己在读硕士期间学习 自言语言处理  的读书笔记

 

语言资源库的分类:

       通用性和专用性、异质性和同质性、动态性和静态性、共时性与历时性、平行与双语,5个相互对立的特征揭示了一个重要的原则,任何语料选择都是一种平衡性的结果。

 

  1. 语法语料库:

训练分词、命名实体、磁性标注、句法解析、语义组块、论元角色。分词语料需要包含足够多的高频、常用词汇;句法树库必须涵盖绝大多数的汉语句型

 

作为基础预料使用的中文分词库(含词性标注)在网上能找到的很多。最常用且最著名的中文分词语料库共有2个:

  1. PFR语料库<北大计算语言学研究所和富士通研究开发中心>

PFR语料库是纯文本文件,文件中每一行代表一个自然段或者一个标题,一篇文章有若干自然段,一篇文章由多行组成。以空行来分割两篇文章。则词频统计采用CRF算法(conditional random field 条件随机场)作为分词算法。正确率达到94.7%

 

  1. MSR语料库<微软亚太研究院>

仅对词汇做了切分,而没有给出词性标注。一套用于标准的词汇切分;另一套用于命名实体识别。同样采用CRF算法(conditional random field 条件随机场)作为分词算法。正确率达到97%以上。

 

提供词汇的论元角色、上下位关系、语义消歧、相似度计算。Word2vec算法不依赖手工标注,语义相似度正确率很高

中文分词的测评:

分词的正确率、切分的速度、词典或语言模型的大小、功能完备性、易扩充性和可维护性。前三个为关键指标。

总体测试分词正确率α=切词结果中正确词数  / 评测语料库中总词次数

召回率:系统在实施某单项测试时,识别出该测试项的能力。

设 K为某单项测试项,其公式如下:

召回率R=已识别出K的总数   /  语料中K的总个数 

 

精确率R=已识别出K的总数 / 已识别项中K的总个数

 

 

例如:  从新闻语料库直播过随机抽取了1000个包含英译名的句子作为测试样本。1000个句子含有6107个中文字符、1537个英语译名。系统运行后,变输出译名2376个,其中1507个真正译名。

召回率R= 1507/1537=98.05%

精确率R= 1507/2376=64.43%

  1. 语义知识库:

语义知识库是现代语义网和百科知识库的前身。

在国际上最为知名的以词汇为基础的知识库WordNet,普林休斯顿大学认知科学实验室,试图建立一个模仿人脑词汇组织原则的词汇网络,在构建中利用心理学的发现和心理词典的研究成果。在汉语领域,最为著名的事知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以解释概念与概念之间,以及概念所具有的属性之间的关系为基本内容的常识知识库。

  1. 所涉及到的算法

CRF(条件随机场)

N-short(N最短路径)

CRC相似度计算

文档下载:

 

 

你可能感兴趣的:(NLP)