青岛理工大学-赵京胜等人-2019年7月
摘要:自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着通信和计算机相关技术的发展,自然语言处理的应用需求也越来越大。分析自然语言处理的相关背景、常用方法和应用领域,并对 NLP 的发展进行了展望。
关键词:自然语言处理;信息抽取;自动文摘
自然语言处理主要分两个流程:自然语言理解NLU和自然语言生成NLG
自然语言理解NLU主要是理解文本的含义,具体到每个单词和结构都需要被理解
自然语言生成NLG通过评估情况和可用的交际资源来计划如何实现目标,并将计划形成文本
1956年以前:萌芽期
1957-1970年:快速发展期
1971-1993年:低谷发展期
1994年至今:复苏融合期
隐马尔可夫模型?(好像经常听到,只能学了!冲!)
中文信息处理主要是对字、词、段落或篇章进行处理。主要方法分别是基于规则和基于统计的方法,前者是人工根据语言相关的规则对文本进行处理;后者则是通过大规模的数据库分析数据,从而实现对自然语言的处理。
自然语言处理受数据影响较大,而数据的增长是大多数 NLP 应用(如机器翻译)性能提高的原因,所以拥有强大的数据支持才可以更好的对文本进行进一步的理解和分析,这使得如今很多NLP 应用程序采用数据流分析方法。
自然语言处理的大致流程:
1)获取语料
2)对语料进行预处理,其中包括语料清理、分词、词性标注和去停用词等步骤
3)特征化,即向量化,主要把分词后的字和词表示成计算机可计算的类型(向量),这样有助于较好的表达不同词之间的相似关系
4)模型训练,包括传统的有监督、半监督和无监督学习模型等,可根据应用需求不同进行选择。但在模型训练时可能会出现过拟合和欠拟合的状况。解决过拟合的方法主要有增加正则化项从而增大数据的训练量,解决欠拟合则要减少正则化项,增加其他特征项处理数据才行。
5)对建模后的效果进行评价,常用的评测指标有准确率、召回率、F值等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而F值是综合准确率和召回率用于反映整体的指标,当F值较高时则说明试验方法有效。
词法分析主要包括分词、词性标注、命名实体识别和词义消歧。
词性和词义标注是词法分析的主要任务。词性是词汇最基本的语法属性,使用词性标注便于判定每个词的语法范畴。词义标注、词义消歧主要解决多语境下的词义问题,因为在多语境下一个词可能会拥有很多含义,但在固定情境下意思往往是确定的。在中文自然语言处理的分词模块中,词法分析是最核心的一部分,只有做好分词工作,剩下的工作才能顺利进行。
命名实体识别的主要任务是识别文本中具有特定意义的词语如人名、地名等,并为其添加标注,是自然语言处理的一个重要工具。
词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。
句法分析的主要任务是为了确定句子中各组成成分之间的关系,也就是其句法结构,技术实现上主要分为修辞结构分析和依存关系分析,功能上可分为完全句法分析和局部句法分析。
完全句法分析是要通过一套完整的分析过程获得一个句子的句法树,局部分析也叫浅层分析,仅获得局部成分的语法。目前应用较多的依存分析是指对句子中词汇之间的依存关系进行分析。
对完全句法分析来说,Chomsky 形式文法是极为重要的理论,根据重写规则分为 4 级 ,分别是 0 型文法(无约束文法)、1 型文法(上下文有关文法)、2 型文法(上下文无关文法)和 3 型文法(正则文法)。这 4 种文法统称为短语结构语法。
浅层句法分析可分为两个子任务:其一是识别和分析语块,其二是分析语块之间的依附关系。依存句法也称从属关系语法。一个依存关系可分为核心词和依存词。核心词是一个句子的根节点,一个句子只有一个,它负责支配句子中的其他词,核心词一般与依存词之间存在着一定的关系,如主谓关系、动宾关系和并列关系等。
对于不同的语言单位,语义分析有着不同的意义。在词的层面上,语义分析指词义消歧;在句的层面上指语义角色标注;在篇章的层面上指共指消解。语义分析是目前 NLP研究的重点方向。
语义分析目前很难
语用分析主要是把文本中的描述和现实相对应,形成动态的表意结构。
语用分析有四大要素:发话者、受话者、话语内容和语境。前两者指语言的发出者和接受者;话语内容指发话者用语言符号表达的具体内容;语境指言语行为发生时所处的环境,主要有上下文语境、现场语境、交际语境和背景知识语境。
自然语言处理作为一个多学科交叉的研究领域,涉及到许多的研究和应用技术,包括信息检索、文本分类和自动文摘等。
**信息检索(IR)**有两方面的任务,第一是存储海量信息,第二是根据用户需求快速查找相关信息
文本分类是根据一套分类规则对文本进行自动分类的过程
情感分析是一种通过判断文本情感极性去表征文档的技术
机器翻译是通过计算机将一种语言翻译到其他语言
社会计算是采用互联网、大数据和机器学习等技术来研究社会问题,并寻找出一种合适的方法去解决问题。
信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究。
信息抽取的主要过程有三步:
1)对非结构化的数据进行自动化处理
2)针对性的抽取文本信息
3)对抽取的信息进行结构化表示
信息抽取最基本的工作是命名实体识别,而核心在于对实体关系的抽取
非结构化:如文本
传统的信息抽取的方法主要有两种:基于规则和基于统计的方法。
近年来,信息抽取工作越来越依赖机器学习的算法,所以机器学习在一些方面的突破为信息抽取提供了技术上的支持。
信息抽取主要工作包括实体识别与抽取、实体消歧、关系抽取和事件抽取等。其中基础性工作是命名实体识别(NER),其主要任务是识别文本中具有特定意义的词语,并为其添加相应的标注,为后续工作奠定基础。
自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标:首先使语言的简短,其次要保留重要信息。
主要分为抽取式摘要和生成式摘要
抽取式摘要是选取原文中部分关键词组合成一篇摘要;生成式摘要是指当计算机通读原文并理解了文章的基础上,间接凝练出原文的主旨要点。
除此之外还可以根据输入文本的数量分为单文本摘要和多文本摘要等。
自动文摘的主要过程有三步,首先对语料进行预处理,识别冗余信息;其次是对文本内容进行选取和泛化;最后对文摘进行转换和生成,就是对文本内部进行重组生成文摘,生成的摘要具有压缩性、内容完整性和可读性的特点。
自动文摘的主要方法包括:基于规则的方法、基于图模型的方法、基于理解的方法和基于结构的方法等。
哈尔滨工业大学刘挺教授在第三届中国人工智能大会上提到:可以使阅读理解作为一个深入探索自然语言理解的平台,Google 也已经推出了这样的测试机,也就是说让计算机理解一篇文章,接下来人类对计算机进行提问,观察计算机的回答能力完成测试。
NLP综述搞定!下一篇知识图谱的综述!冲冲冲!