自然语言语义分析研究进展_笔记

自然语言语义分析研究进展_笔记

词语语义分析:确定词语意义,衡量两个词之间的语义相似度或相关度;

句子语义分析:研究包含句义分析和句义相似度分析两方面;

文本语义分析:识别文本的意义、主题、类别等语义信息的过程,从而实现对大规模文本集合的 有效管理与挖掘。

当前的研究策略:基于知识或语义学规则的语义分析(语义词典、知识库、概念本体库)和基于统计学的词语语义分析。

一、词语语义分析

词语相似性:也可称为可替代性 例如:橘子和橙子

词语相关性:语义相关,但语义不可以替代 例如:爱情和浪漫

(一)基于知识规则的词语语义相似(相关) 分析

利用词语语义知识库中定义好的概念及其之间上下位关系等逻辑关系,通过计算两个概念在概念体系中的距离来衡量词语间的语义相似或相关度。常见的用于词语语义分析的知识表 示方法有: 语义场、语义网络、概念图和本体论。

语义场:由德国学者特雷尔最先提出,目的是研究词汇的语义结构和词语语义相似(或相关)度分析。

语义网络:一种知识表示方法。由美国学者提出,语义网络是由一些有向图表示的三元组连接而成。(结点i、弧、结点j)结点表示概念,弧表示概念之间的关系。

典型的语义知识库:WordNet、FrameNet、MindNet、知网HowNet、同义词词林、中文概念词典。

语义词典:将所有的词组织成树状的层次结构,而词语在树结构图中的路径长度通常作为词语语义距离的度量方法。

利用知网和同义词词林对汉语词语相似和相关度研究具有一定的帮助。

(二)基于统计的词语语义分析

语料库:对现实生活中真实的语言资源进行一定的加工处理并存储在计算机中的语料资源。

常见语料库:

国外:Brown、LOB、LLC、CO-BUILD、ACL/DCI

中文:北京大学的《人民日报》语料库、中国科学院自动化研究所的LDC语料库、清华大学的现代汉语语料库、哈尔滨工业大学信息检索室的语料库、台湾“中央”研究院语料库等。

Word2vec 将词语转换成向量

词语之间相关度计算:相关熵、平均互信息、词语在语料库中的共现概率

二、句子语义分析

(一)句义分析

1.以句法为中心的句义分析

浅层语义分析的流程通常包含 5 个步骤:①预 处理。采用分词、词性标记、名实体识别、句 法分析等自然语言处理技术对输入文本进行处理,得到句子的句法分析树。②句法树剪枝。过滤掉句法分析树中的非语义角色的句法成 分,提高语义分析准确率。③语义角色识别。逐个判断候选句法成分是否为目标谓词的语义角色。④语义角色分类。标记识别出的语义角 色及其对应的语义角色类型。⑤后处理。修正语义角色标注结果,更正一些明显的错误。

2.以语义为中心的句义分析

语法和语义其实是问文本分析过程中的两种研究思路

(二)句子语义相似(相关)度分析

1.基于词层面的句义相似( 相关) 度计算

通过考虑词频和词性的信息来度量句子间的相似(相关)度。

2.基于句子结构层面的句义相似( 相关) 度计算

在句法分析基础上,按照分析出的句子结构来衡量句子之间的相似( 相关) 度。

三、文本语义分析

(一)基于统计的文本语义分析

利用词语的统计信息将大量文本表示为词语向量集合或者词语与文本的某种概率关系,并据此分析文本集合中隐含的主题、词间潜在的语义结构等语义信息。

1.潜在语义分析LSA:文本中的词与词之间存在某种潜在的语义结构,采用统计的方法可以找到该语义结构。对传统的向量空间模型VSM做出改进,有效地解决自然语言的模糊性带来的问题

2.概率潜在语义分析PLSA:将文本由单词空间映射至主题空间,但是,PLSA 模型参数数量随着文本集增长而线性增长,并且会产生过拟合的问题。和 LSA 相比,PLSA 有明确的物理意义,多义词和同义词的现象均可在潜在的 语义空间中得到合理的表示。是对LSA模型的改进

3.隐含狄利克雷分配LDA:LDA 主题模型是一个三层贝叶斯产生式概率模型。该模型假设文 档是由一系列潜在主题随机混合而成,主题是由词汇表中所有的词混合而成,不同文档的主要区别在于其主题混合比例不同。该模型针对每个文档从狄利克雷(Dirichlet)分布中抽样产生该文档包含的主题比例,结合主题和词的概率分布生成该文档中的每一个词汇。

相较于LSA和PLSA,LDA的优点在于具有清晰的内在结构,算法效率高,通过无监督方法进行训练,从而于训练样本数量无关。

LDA 模型能分析出隐藏在海量文本背后的主题语义信息,也可以完成文本分类、主题检测、文本自动摘要和关联判断等多方面的文本语义挖掘。

(二)基于语义学的文本语义分析

格语法、概念层次理论、框架语义学、本体语义学
自然语言语义分析研究进展_笔记_第1张图片

无论词语、句子还是篇章,按照研究策略的不 同, 现有每层次语义分析研究都大概可分为基于知识或语义学规则的语义分析和基于统计学的语义分析。前者是一种理性主义方法,它 以语言学、心理学、哲学等理论为基础,由人工编写语法语义知识表示体系(如语义词典、语义网络等) ,构造相应的语义推理程序,系统根据规则和程 序,将自然语言所含意义推 导出来。后者是一种经验主义方法,它通过建立特定的数学模型来学习语料库中的语言结构,然后利用统计学、概率论等数学方法来观测词语、句子和文本中客观存在的各种关联,从而识别其相关的语义信息。

你可能感兴趣的:(论文笔记,数据挖掘)