《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。
本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。
注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。
ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:
https://github.com/changliang5811/CIPS-2016.git
传送门:
CIPS 2016(1-3章)——词法、句法、语义、语篇分析
CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
CIPS 2016(6-7章)——知识图谱、文本分类与聚类
信息抽取(Information Extraction)是指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。例如,从相关新闻报道中抽取出恐怖事件信息:时间、地点、袭击者、受害人、袭击目标、后果等;从体育新闻中抽取体育赛事信息:主队、客队、赛场、比分等;从论文和医疗文献中抽取疾病信息:病因、病原、症状、药物等。被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理,从而实现对海量非结构化数据的分析、组织、管理、计算、查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答系统、舆情分析系统)提供支撑。
狭义的情感分析(sentiment analysis)是指利用计算机实现对文本数据的观点、情感、态度、情绪等的分析挖掘。广义的情感分析则包括对图像视频、语音、文本等多模态信息的情感计算。简单地讲,情感分析研究的目标是建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情绪表达。情感分析是一个典型的交叉学科问题,因此这项工作的开展具有重要的理论与实际意义。从社会学的角度,情感已经成为影响我们行为、人类互相交流的一个重要因素,深入分析情感信息的关键因素、社会影响力、传播模式对于理解情感信息非常重要;从计算科学的角度,如何理解和分析情感信息的表达方式对于提高人机交互、自然语言理解等人工智能任务的能力具有重要意义。两者结合,对情感分析研究的推动与发展,不仅有利于推动相关学科的发展进步,从更深层次上理解和处理情感信息,也能很大程度促进人工智能水平的提高。
随着互联网与社交媒体的迅猛发展和广泛普及,我们进入了一个信息爆炸的时代。网络上包括新闻、书籍、学术文献、微博、微信、博客、评论等在内的各类型文本数据剧增,给用户带来了海量信息,也带来了信息过载的问题。用户通过谷歌、必应、百度等搜索引擎或推荐系统能获得大量的相关文档,但用户通常需要花费较长时间进行阅读才能对一个事件或对象进行比较全面的了解。如何将用户从长篇累牍的文字阅读中解放出来是大数据时代面临的一个挑战,自动文摘技术则是应对该项挑战的一件利器。
(研究进展、现状&趋势)
信息抽取(Information Extraction)是指从非结构化/半结构化文本(如网页、新闻、 论文文献、微博等),使用多种技术(如规则方法、统计方法、知识挖掘方法),提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息,并将这些信息在不同的层面进行集成(知识去重、知识链接、知识系统构建等)的一项综合技术。
被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理
每一段文本内所包含的寓意可以描述为其中的一组实体以及这些实体相互之间的关联和交互,抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础
目的是识别文本中指定类别的实体,主要包括人名、地名、机构名、专有名词等的任务
包含部分
实体边界识别
实体分类
主要难点
检测和识别文本中实体之间的语义关系,将表示同一关系的提及(mention)链接起来的任务
输出:通常是一个三元组(实体 1,关系类别,实体 2),表示实体 1 和实体 2 之间存在特定类别的语义关系
核心模块
关系检测
关系分类
关系发现(某些场景下)
从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务
子任务
事件类型识别
判断一句话是否表达了特定类型的事件
事件类型决定了事件表示的模板,不同类型的事件具有不同的模板
事件元素填充
原因
技术
共指消解技术
实体链接技术
基于规则的抽取方法
一个基于规则的抽取系统通常包括一个规则集合和规则执行引擎(负责规则的应用、冲突消解、优先级排 序和结果归并)
规则系统在抽取可控且表达规范的信息时非常有效
表现形式:正则表达式、词汇-语法规则、面向 HTML 页面抽取的 Dom Tree 规则等等
抽取规则可以通过人工编写得到或者使用学习方法自动学习得到
抽取规则的管理、冲突消解和优先级排序也是基于规则的信息抽取研究内容
研究重点、难点
基于统计模型的抽取方法
通常将信息抽取任务形式化为从文本输入到特定目标结构的预测,使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数。
统计方法
与深度学习结合
基于文本挖掘的抽取方法
根据对监督知识的依赖,信息抽取方法可以划分为无监督方法、弱监督方法、知识监督方法和有监督方法
根据抽取对象的不同,可以划分为实体识别方法、关系抽取方法、事件抽取方法
在构建成本上,现有高 质量抽取系统往往依赖于标注语料,构建成本较高
在构建方式上,现有信息抽取系统依赖于许多预处理模块(如分词、词性标注、句法分析等),缺乏端到端的自动构建方式(随着深度神经网络的使用,已经有所改善),同时也容易受预处理模块性能的影响
在自适应性上,现有抽取系统的自适应性不强,往往在更换语料、更换领域、更换知识类别时会有一个大幅度的性能下降
在系统的性能上,现有信息抽取技术在抽取复杂结构(如事件、Taxonomy) 时性能仍然离实用有一定距离
(研究进展、现状&趋势)
狭义:指利用计算机实现对文本数据的观点、情感、态度、情绪等的分析挖掘
广义:包括对图像视频、语音、文本等多模态信息的 情感计算
目标:建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情 绪表达。
情感资源通常体现为一些带有情感倾向标注的词或短语,这些资源成为各种情感分析任务的重要资源支撑
类别体系的研究
不同粒度的情感资源研究
构建方法的研究
(基础任务)
对给定的信息内容,依据情感类别体系进行分类(文本分类任务)或评级(序回归任务)
序回归:样本的标签是等级,学习的目标是给定样本,预测等级,使得预测的等级跟真实等级尽可能接近
从输入文本的粒度来看,可以分为篇章级、句子级、短语级、对象和属性级
从所采用的方法来看,可以分成无监督学习、半监督学习、有监督学习方法
从任务的定义上,可以分成主客观分类,情感倾向极性分类,以及情感倾向强度评级(例如 1~5 分,或 1~10 分)。
(目前几乎霸榜NLP tasks)
词向量的表示
采用自动编码器进行文本的表示学习
面对句子级情感分析任务
(研究进展、现状&趋势)
目前挑战:如何将用户从长篇累牍的文字阅读中解放出来是大数据时代面临的一个挑战
自动文摘(又称自动文档摘要)是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。
目的:通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。用户可以通过阅读简短的摘要而知晓原文中所表达的主要内容,从而大幅节省阅读时间。
研究的最终目标:建立有效的自动文摘方法与模型,实现高性能的自动文摘系统。
自动文摘可看作是一个信息压缩过程,将输入的一篇或多篇文档压缩为一篇简短的摘要,涉及到对输入文档的理解、要点的筛选,以及文摘合成这三个主要步骤。
根据要点筛选的结果进行摘要的合成,产生最终的摘要。文摘合成步骤需要保证摘要具有良好的要点覆盖性与可读性,且满足摘要长度的限制。
采用抽取式还是生成式方法?
如何评估摘要的可读性?
如何同时满足摘要的多种性质要求?
自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive summarization)和生成式摘要(abstractive summarization)。(见研究内容之文摘合成部分)
内容表示 → 权重计算 → 内容选择 → 内容组织
首先将原始文本表示为便于后续处理的表达方式,然后由模型对不同的句法或语义单元进行重要性计算,再根据重要性权重选取一部分单元,经过内容上的组织形成最后的摘要。
内容表示与权重计算
内容选择
因为长度限制,考虑如何在尽可能短的长度里容纳尽可能多的重要信息,在此基础上对原文内容进行选取。
方法一:贪心选择
根据句子或其他单元的重要性得分进行贪心选择。选择过程中需要考虑各单元之间的相似性,尽量避免在最终的摘要中包含重复的信息。
去除冗余机制
包括最大边缘相关法在内的很多贪心选择目标函数都具有次模性
贪心法易于实现、运行效率高,基于次模函数优化的内容选择在近年得到了很多扩展。
方法二:全局优化
同样以最大化摘要覆盖信息、最小化冗余等要素作为目标,同时可以在优化问题中考虑多种由任务和方法本身的性质所导出的约束条件
最为常用的形式化框架是基于 0-1 二值变量的整数线性规划。最后求解优化问题得到的结果中如果某变量取值为 1,则表示应当将该变量对应的单元选入最后的摘要中。
其余方法:DP、最小割问题、对偶分解技术
展望:更为通用的全局优化加速方案目前仍是一个开放问题。
内容组织
内容简化与整合
内容排序
端到端摘要
最后,纵观 30 余年来信息抽取的现状和发展趋势,我们有理由相信,随着海量数据资源(如 Web)、大规模深度机器学习技术(如深度学习)和大规模知识资源(如知识图谱)的蓬勃发展,信息抽取这一极具挑战性同时也极具实用性的问题将会得到相当程度的解决。同时,随着低成本、高适应性、高可扩展性、可处理开放域的信息抽取研究的推进,信息抽取技术的实用化和产业化将在现有的良好基础之上取得进一步的长足发展
情感分析经过十多年的发展,在某些领域上(例如产品评论、影评、宾馆、餐馆等)已经取得了相对成熟的发展和应用,在某些领域上达到了可完全实用的水准,但从一般意义上来说,情感分析还需要进行长期研究和探索,其最本质的难题还是语言文字的理解问题,依然存在非常多的挑战和待解的问题。
除了上述研究方向与问题之外,未来自动文摘将会越来越多地与其他技术(例如情感分析、人机对话等)相结合,面向全新的应用需求,形成更具特色的自动文摘任务,该领域的研究也将更加多样化。最后,我们有理由相信,随着语义分析、篇章理解、深度学习等技术的快速发展,自动文摘这一重要且有挑战性的自然语言处理问题在可预见的未来能够取得显著的研究进展,并且更多地应用于互联网产品与服务,从而体现自身的价值。
Next blog:信息检索(Chapter 11)& 信息推荐与过滤(Chapter 12)