自然语言处理学习日记3

1. 编译和安装CRF++ 0.58 [1]

解析:

[1]C++:./configure;make;make install

[2]Python:yum install python-devel;python setup.py build;python setup.py install

 

2. 远程监督式实体关系抽取

解析:远程监督式实体关系抽取不需要人工标注的数据,它使用知识库提供的知识从海量文本中启发式地标注数据,之后再从这些数据中抽取特征、训练分类器。

说明:远程监督式实体关系抽取使用Freebase提供的知识来启发式地标注数据。Freebase是一个开放、协作式的结构化数据仓库,包括大约四千万实体和二十亿对关系。

 

3. 信息抽取

解析:从无结构的自然语言文本中抽取特定的事件、事实等信息,再转化为结构化或半结构化的信息,然后存储在数据库中,供查询以及进一步分析利用,为数据挖掘、问答系统、文本挖掘等应用系统提供重要基础。根据实际应用,信息抽取分为命名实体识别、指代消解以及关系抽取、事件抽取等。

 

4. 实体及其关系抽取

解析:

[1]实体抽取即命名实体识别。

[2]实体关系抽取是指从文本中抽取出两个或者多个实体之间预先定义好的语义关系。

说明:实体及其关系抽取的实现方法简单分为两类:一类是串联抽取方法,另一类是联合抽取方法。串联抽取方法将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系。联合抽取方法使用一个模型同时抽取实体及其关系,能够更好的整合实体及其关系之间的信息。

 

5. NYT数据 

解析:训练集采用远程监督方法标注,而测试集为人工标注。训练数据包括353000个三元组,而测试数据包括3880个三元组,关系集的大小为24。

 

6. DBpedia Spotlight

解析:DBpedia Spotlight开源命名实体识别系统。它的命名实体识别过程包括命名性指称识别、候选集生成和候选集消歧三个步骤。如下所示:

[1]命名性指称识别,即尽可能地识别出文本中可能出现的命名性指称;

[2]候选集生成,即对于每个命名性指称,构成一个由知识库中可能与之对应实体组成的候选集;

[3]候选集消歧,即在每个命名性指称对应的候选集中确定唯一的实体匹配。

 

7. IOB tagging

解析:In IOB tagging we introduce a tag for the beginning (B) and inside (I) of each entity type, and one for tokens outside (O) any entity.

 

8. DrQA基于维基百科的问答系统

解析:

[1]论文地址:https://arxiv.org/abs/1704.00051

[2]开源地址:https://github.com/facebookresearch/DrQA

 

9. CCL语料库和BCC语料库

解析:

[1]北京大学中国语言学研究中心[CCL]语料库,简称CCL语料库。地址:http://ccl.pku.edu.cn/corpus.asp[打不开]。

[2]由北京语言大学大数据与语言教育研究所开发的BCC汉语语料库,总字数约150亿字,包括:报刊[20亿]、文学[30亿]、微博[30亿]、科技[30亿]、综合[10亿]和古汉语[20亿]等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。地址:http://bcc.blcu.edu.cn/。

 

10. 哈工大讯飞联合实验室发布理解数据集

解析:

2016年7月18日,哈工大讯飞联合实验室[HFL]发布填空型中文阅读理解数据集,其中包括《人民日报》新闻数据集和“儿童读物”数据集[HFL-RC: People Daily and CFT dataset]。在英文阅读理解方面,已有Google DeepMind CNN/Daily Mail数据集,Facebook CBTest数据集,但一直缺少中文阅读理解数据集。此次,HFL发布的数据集不但填补了中文阅读理解的空白,而且与上述两个英文数据集不同,在HFL发布的“儿童读物”数据集中还包含了人工问题,人工问题比自动构造的问题更难回答,这为阅读理解的研究提出了新的挑战。

说明:论文:https://arxiv.org/abs/1607.02250;数据集:http://hfl.iflytek.com/chinese-rc/ 

 

11. GloVe模型

解析:GloVe是斯坦福大学提出的一种新的词矩阵生成的方法,综合运用词的全局统计信息和局部统计信息来生成语言模型和词的向量化表示。官方链接:http://nlp.stanford.edu/projects/glove/。 

 

12. 字,词,词素

解析:

[1]字和词素实际上不是一一对应的,一个汉字可以代表几个不同的词素,一个词素也可以代表几个不同的汉字。

[2]词素与词的关系是“词素的功能是构成词”,一个词素单独构成一个词,两个或两个以上的词素构成一个词。

 

13. CRF++模板

解析:

[1]第一种是Unigram template,第一个字符是U,用于描述unigram feature的模板。每一行%x[#,#]生成一个CRFs中的点[state]函数f(s, o),其中s为t时刻的的标签[output],o为t时刻的上下文。

[2]第二种是Bigram template,第一个字符是B,每一行%x[#,#]生成一个CRFs中的边[Edge]函数f(s', s, o),其中s'为t-1时刻的标签,即Bigram类型与Unigram大致相同,只是还要考虑到t-1时刻的标签。如果只写一个B的话,默认生成f(s', s),这意味着前一个output token和current token将组合成bigram features。

 

14. 命名实体歧义和命名实体链接

解析:

[1]命名实体歧义是指同一个实体指称项在不同上下文环境中对应不同真实世界实体的语言现象。

[2]命名实体链接是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等。

 

15. Apache Jena

解析:Jena是一个Java的API,用来支持语义网的有关应用,学习Jena需要了解XML、RDF、Ontology、OWL等方面的知识。需要知道什么是本体以及如何利用工具[比如protege等]建立本体,要能读懂和手动编写RDF、XML,对OWL也要熟悉。

 

16. 描述逻辑

解析:一种基于对象的知识表示的形式化,也叫概念表示语言或术语逻辑。

 

17. 语义网体系结构

解析:

自然语言处理学习日记3_第1张图片

说明:NS表示Name Space,主要为了避免标签同名冲突。OWL有三个子语言:OWL Lite,OWL DL,OWL Full。

 

18. Axure RP

解析:Axure RP[Axure Rapid Prototyping]是一个专业的快速原型设计工具,让负责定义需求和规格、设计功能和界面的专家能够快速创建应用软件或Web网站的线框图、流程图、原型和规格说明文档。作为专业的原型设计工具,它能快速、高效的创建原型,同时支持多人协作设计和版本控制管理。

 

19. 语用学,语法学,语义学,形态学

解析:

[1]语用学:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。[为什么要说这句话]

[2]语法学:研究语句的组成结构,包括词和短语在语句中的作用等。[为什么一句话可以这么说也可以那么说]

[3]语义学:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。[这句话说了什么]

[4]形态学:研究词是如何由意义的基本单位-词素构成的。

 

20. 知网[HowNet]        

解析:知网[HowNet]是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

 

21. SentiWordNet

解析:其通过对WordNet中的词条进行情感分类,并标注出每个词条属于positive和negative类别的权重大小。

 

22. SnowNLP

解析:中文情感分析类库。

 

23. 上下文无关文法和概率上下文无关文法

解析:

[1]上下文无关文法

[2]概率上下文无关文法

 

24. NTUSD

解析:台湾大学中文情感极性词典。

 

参考文献:

[1] CRF++: Yet Another CRF toolkit:https://taku910.github.io/crfpp/#install  

[2] 条件随机场CRF简介:http://blog.csdn.net/xmdxcsj/article/details/48790317

[3] LSTM+CRF介绍:http://x-algo.cn/index.php/2017/01/16/1639/

[4] CRF++模型格式说明:http://www.hankcs.com/nlp/the-crf-model-format-description.html

[5] crf++里的特征模板得怎么理解:https://www.zhihu.com/question/20279019

[6] CRF++工具使用指南:http://jingyan.baidu.com/article/39810a23e81f84b636fda62d.html

[7] CRF++使用小结:http://www.cnblogs.com/pangxiaodong/archive/2011/11/21/2256264.html

[8] 条件随机场和CRF++使用:http://midday.me/article/94d6bd4973264e1a801f8445904a810d

[9] 基于远程监督的实体关系抽取技术的研究与实现

你可能感兴趣的:(自然语言处理,crf,jena)