AI-自然语言处理-词性标注、命名实体识别、句法分析和语义分析

学习目标
   • 了解自然语言处理基本知识
   • 掌握循环神经网络算法
   • 掌握自然语言处理关键技术
   • 了解自然语言处理的应用

词性标注
   定义
      • 词性标注:为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。例如:迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n。
         • 词性:是词汇基本的语法属性
         • 目的:是很多NLP任务的预处理步骤,如句法分析、信息抽取,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
         • 方法:基于规则的方法、基于统计的方法、基于深度学习的方法。
      • 在中文中,一个词的词性很多时候都不是固定的,一般表现为同音同形的词在不同场景下,其表示的语法截然不同,这就为词性标注带来了很大的困难。但是,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。

命名实体识别
   定义
      • 命名体识别(Named Entities Recognition, NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。例如:冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n。
         • 分类:NER研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
         • 作用:与自动分词、词性标注一样,命名实体识别也是自然语言中的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。
         • 步骤:
            o 实体边界识别
            o 确定实体类别(人名、地名、机构名等)
   难点
      • 各类命名实体的数量众多
      • 命名实体的构成规律复杂
      • 嵌套情况复杂
      • 长度不确定
      • 命名实体识别的难点:(1)汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;(2)汉语分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;(4)现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。
   深度学习NER
AI-自然语言处理-词性标注、命名实体识别、句法分析和语义分析_第1张图片

句法分析
   定义
      • 句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的依存关系,分为句法结构分析依存关系分析。一般以句法树来表示句法分析的结果。
AI-自然语言处理-词性标注、命名实体识别、句法分析和语义分析_第2张图片
   重要性
      • 机器翻译是NLP的一个主要领域,而句法分析是机器翻译的核心数据结构。句法分析是NLP的核心技术,是对语言进行深层次理解的基石。
      • 对于复杂语句,仅仅通过词性分析,不能得到正确的语句成分关系。
      • 随着深度学习在NLP中的使用,特别是本身携带句法关系的LSTM模型的应用,句法分析已经变得不是那么必要了。但是,在句法结构十分复杂的长语句,以及标注样本较少的情况下,句法分析依然可以发挥出很大的作用。因此研究句法分析依然是很有必要的。
   难点
      • 歧义:自然语言区别于人工语言的一个重要特点就是存在歧义。人类自身可以依靠大量的先验知识消除各种歧义,而机器在知识表示和获取方面存在严重不足,很难像人类那样进行句法消歧。
      • 搜索空间:句法分析是一个非常复杂的任务,候选树个数随句子增多将呈指数级增长,搜索空间巨大。因此,必须设计出合适的解码器,以确保能够在可以容忍的时间内搜索到模型定义最优解。

语义分析
   定义
      • 语义分析是编译过程的一个逻辑阶段。语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的意义
AI-自然语言处理-词性标注、命名实体识别、句法分析和语义分析_第3张图片
   重要性
      • 仅仅知道句子的结构,是否就可以了?
                例如:三段论:所有人都得死,苏格拉底是人,所以苏格拉底也要死。
                推论:不可能一天读完鲁迅的作品,《药》是鲁迅的作品,所以一天不能读完《药》。
      • 通过上述案例可知,结构上合乎语法的,但语义上不合实际。因此,仅仅分析出句子的结构,并不能妥善的解决机器理解与翻译等问题。所以,需要语义分析。

你可能感兴趣的:(自然语言处理)