依存句法分析:原理、应用

本文内容为网友博客总结和项目应用心得体会

 语言学中的一些概念

词法:词汇构成、变化和使用规则。

句法:句子的各个组成部分的排列以及相互关系,研究句子类型和句子成分。

语法:词法和句法合称为语法。

词性(词类):词的类型。具有相同句法功能、能在同样的组合位置中出现的词,聚合成一个词类(词性)。

词义:词的内容,反映人们对客观事物特点的认识,包括词的“词汇意义”、词的 “语法意义”、词的“色彩意义” (包括感情色彩和语体色彩)。

语义:语言(词汇、句子等)与其所指对象(概念、事物、人)之间的关系,理解整个句子或其中某些成分的含义。

依存句法分析

概念

依存句法通过词汇之间的依存关系表达整个句子结构,这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树,树的根节点为句子核心谓词,用来表达整个句子的核心内容。

通过依存句法树中的依赖关系,可以获得具有特定语法关系的两个词汇。具有依存关系的两个词汇不一定相邻,两词之间往往存在其他词汇。

依存句法分析:原理、应用_第1张图片

 图中每个箭头代表一个依赖关系,箭头的起点为被依赖项(被依赖的对象),又称支配项,箭头指向的是依赖项,又称受支配项(被支配的对象)。

公理

  1. 一个句子中只有一个成分是独立的
  2. 其它成分直接依存于某一成分
  3. 任何一个成分都不能依存与两个或两个以上的成分
  4. 如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分
  5. 中心成分左右两面的其它成分相互不发生关系

也就是说依存句法中,每个句子只有一个核心谓词,句中每一个词都有一个与之相关的词。

算法

依存句法分析:原理、应用_第2张图片

具体介绍参考 https://blog.csdn.net/sinat_26917383/article/details/55682996

自然语言处理任务是解决 “词性、句法、词义、语义”等分析问题。许多语义分析是建立在句法分析基础之上的,在遇到复杂的长句子时,存在歧义问题(句法歧义),导致句法分析结果的不准确。

工具

采用哈工大ltp http://www.ltp-cloud.com/intro#dp_how 进行句法分析,采用基于图的依存分析方法。依存句法分析标注关系 (共15种) 及含义如下:

依存句法分析:原理、应用_第3张图片

应用

情感分析

  1. 情感词典构建:获得不同情感类别的特征词汇。情感词分为两类,一类为表强度的词汇(Ⅰ类),包括否定词和程度副词,另一类为表情感的词汇(Ⅱ类),包括正面和负面倾向的词汇。

  2. 主观句提取:提取包含情感词的句子,作为文章的主观句。

  3. 语义依赖分析:以依存句法分析为基础,判断情感词在句子中的语法成分。

  4. 句子极性计算:根据情感词汇及其语法成分、情感词与否定词之间的句法关系,构建规则,计算句子极性。

  5. 情感聚合:考虑篇章结构,对主观句的情感值进行加权求和,判断篇章情感倾向。主观句距离篇章首尾越近,权值越大。

常用的情感词典有知网情感词典和 大连理工大学情感词汇本体库http://ir.dlut.edu.cn/EmotionOntologyDownload

其中句子极性计算依赖的规则构建基于论文 Sentiment Analysis of Chinese Documents: From Sentence to Document Level ,包括以下几类:

依存句法分析:原理、应用_第4张图片

在以上论文规则基础之上,进行如下改进:

假设“子节点对根节点的影响随着距离的增大而减弱”,引入距离衰减因子λ。

λ = 1 / abs ( index(root) - index(child) )

index表示词在句子中的索引值。

  • 对于ATT关系,如果子节点为Ⅱ类情感词汇,则计算根节点情感时乘λ。
  • 对于ADV关系,如果子节点为Ⅰ类情感词汇,则计算根节点情感时乘λ。

 事件抽取

判断句子描述的事件,通过核心谓词和语法结构,进行判断。

常用的语法关系包括:

  • 核心谓词的并列关系(COO)词
  • 核心谓词的动宾关系(VOB)词
  • 在处理长句子时,还需用到核心谓词的多级并列关系词(并列的并列……)。

一个用于事件抽取的开源代码:使用句法依存分析抽取事实三元组 https://github.com/twjiang/fact_triple_extraction

参考

  1. 句法 https://baike.baidu.com/item/%E5%8F%A5%E6%B3%95
  2. 语言学 https://baike.baidu.com/item/%E8%AF%AD%E8%A8%80%E5%AD%A6/3632?fr=aladdin
  3. NLP+句法结构(三)︱中文句法结构(CIPS2016、依存句法、文法) https://blog.csdn.net/sinat_26917383/article/details/55682996
  4. 哈工大ltp https://www.ltp-cloud.com
  5. 大连理工大学情感词汇本体库http://ir.dlut.edu.cn/EmotionOntologyDownload
  6. Zhang C , Zeng D , Li J , et al. Sentiment analysis of Chinese documents: From sentence to document level[J]. Journal of the American Society for Information Science and Technology, 2009, 60(12):2474-2487. DOI: 10.1002/asi.21206 https://onlinelibrary.wiley.com/doi/full/10.1002/asi.21206
  7. 使用句法依存分析抽取事实三元组 https://github.com/twjiang/fact_triple_extraction
  8. CHRISTOPHERD, MANNING, HINRICHSCHUTZE. 统计自然语言处理基础[M]. 电子工业出版社, 2005.

你可能感兴趣的:(NLP)