CIPS 2016(18-20章)——多模态信息处理、医疗健康信息处理、少数民族语言文字信息处理 (研究进展、现状&趋势)

CIPS 2016 笔记整理

《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。

注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。

ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:

https://github.com/changliang5811/CIPS-2016.git

传送门:

CIPS 2016(1-3章)——词法、句法、语义、语篇分析
CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
CIPS 2016(6-7章)——知识图谱、文本分类与聚类
CIPS 2016(8-10章)——信息抽取、情感分析&自动文摘
CIPS 2016(11-12章)——信息检索、信息推荐与过滤
CIPS 2016(13-14章)——自动问答、机器翻译
CIPS 2016(15章)——社会媒体处理
CIPS 2016(16章)——语音技术
CIPS 2016(17章)——语音技术


文章目录

  • CIPS 2016 笔记整理
  • Chapter 18 多模态信息处理
    • 什么是多模态信息处理?
      • 多模态(multimodality)信息
      • 多模态信息处理
    • 主要研究内容
    • 技术方法和研究现状
    • 技术展望及发展趋势
  • Chapter 19 医疗健康信息处理
    • 任务定义以及目标
    • 研究内容和关键科学问题
    • 技术方法和研究现状
    • 技术展望及发展趋势
  • Chapter 20 少数民族语言文字信息处理
    • 基础研究
    • 应用软件系统开发
    • 技术展望与发展趋势
  • 总结


Chapter 18 多模态信息处理

(研究进展、现状&趋势)

什么是多模态信息处理?

多模态(multimodality)信息

  • 起源于计算机人机交互领域信息表示方式的研究,其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式
  • 出现原因:用语言、视频、音频等媒体指称来描述信息表示方式过于宽泛、粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)更细粒度的“模态”概念
  • 多媒体媒介可以分解为多个单模态,如视频作为一种多媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。
  • 为了模态概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联性和直观性的要求。
  • 在同一事物上多类单模态信息共生或共现的现象是十分普遍的。人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的解说文字是共现的,等等。
  • 共生或共现的多种单模态信息的统称即所谓的多模态信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多模态信息的获取、组织、分析、检索、理解、创建等。

多模态信息处理

  • 主要应用于对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域。
  • 基于多模态理念的信息处理算法和方法,往往会得到比传统方法更好的性能和效果。
  • 在文本、图像、音频等现有单媒体信息处理的基础上发展起来的,现有单媒体数据的处理方法是多模态数据处理的基础

主要研究内容

1. 多模态信息建模

  • 目的:构建一个单模态的分类体系,在该分类体系中,各单模态类别之间满足完整性、正交性、关联性和直观性的要求。

2.多模态信息获取

  • 多模态数据的采集

    • 多数情况下,多模态信息处理任务要求所有处理样本数据的各单模态数据是完整的。
    • 并且各单模态数据源经常是共生或共现的,满足完整性要求是可以做得到的。
    • 特殊情况,比如:歌曲多模态信息中,尽管音频与歌词是共生的,但歌词很难从音频中分离,因此,歌词文本数据还要通过其它单独途径采集。
  • 多模态数据的解析

    • 将原始混合状态的多模态数据,分解为单模态的数据。例如视频数据,需要分解为动态图像、音频语言、文本语言等三种单模态数据,其中文本语言部分,可能来自于视频字幕、图像内容中的文字和语音识别的结果等。

    • 多模态数据的解析往往需要与数据采集相结合

      • 歌曲MTV 视频的解析
      • 艺术、影视评论类文本数据的解析,图像、视频、音频数据的获取
  • 多模态训练数据集的构建

    • 为了进行对多模态信息的机器学习处理,如分类、回归、聚类等,需要构建训练用样本数据集,特别是针对有监督学习,还需要进行数据标注

3. 多模态语义分析

  • 构建一个文档集概念结构的任务,该概念结构逼近文档集所表达的概念。也即,运用机器学习的方法提取或挖掘文档的深层次概念

  • 不等同于文档的语义理解,但往往是语义理解的基础步骤

  • 所分析的文档集已从文本类数据,扩展到图像、视频、音频等其它媒体形式的数据集

  • 关键问题

    • 克服语义本身在表达上的多义性和不确定性问题
    • 对于图像、音频这样的非文本类数据,更要解决在数据表达和语义解释之间建立合理的联系的问题,即语义鸿沟问题
    • 大量研究表明,多模态语义分析方法对解决上述两类问题具有明显的优势。例如,在对足球比赛视频语义分析的基础上,辅以音频欢呼声事件的鉴别,能够更好地分析出进球事件的语义。
  • 所谓多模态语义分析是指在同一个媒体对象的多个模态数据上,同时并行或协同进行语义分析,并最终通过融合得到分析结果的语义分析方法。

4. 多模态情感识别

  • 人机交互的主要方式仍是书面语言,书面语言交流与人类面对面交流的最大差别是所谓副语言(Para-language)的缺失
  • 副语言包括语气声、哭笑声、面部表情、肢体语言等,实现副语言的人机交流是实现和谐自然人机对话的基础
  • 鉴于副语言更多地侧重情感语义表达的属性,引入情感识别技术来实现对副语言的理解
  • 为了处理语音和副语言这样的多模态数据,将情感识别技术扩展到处理多模态数据,既是所谓的多模态情感识别技术。
  • 研究目标是,在多媒体内容的推荐和检索中使用情感因素

5. 多模态信息检索

  • 各单模态之间相互检索,诸如用图像检索文本、文本检索音频这样的跨媒体检索系统,也成为信息检索领域的研究热点

  • 跨媒体信息检索首先要解决的是所谓语义鸿沟问题

  • 由于各单模态内容的异构性导致语义的不可度量,使得传统多媒体检索方法不能直接适用于跨媒体检索

    • 一种解决方法是对多媒体数据不同模态的语义关系进行统一建模,以实现跨媒体检索。这种方法的缺点是受限于语义概念的建模规模,被称为跨模态信息检索。
    • 另一种方法是利用共生或共现的多模态信息作为语义桥梁,来实现跨媒体检索(典型的多模态信息检索)

6. 多模态人机对话

  • 核心研究内容是两个方面,即多模态会话内容的理解和多模态会话内容的生成
  • 研究的目标是实现机器对会话场景及会话视觉内容的理解。

技术方法和研究现状

1. 多模态融合方法

  • 如何让异构数据完成同一个识别或检索任务,是多模态信息处理首先要解决的问题。解决这个问题的方法被称为多模态融合(Multimodal fusion)
  • 所谓多模态融合是指:整合各种输入模态的信息,并将它们合并在一个完成同一目标的系统中的处理方法
  • 关于实现多模态融合的方法,一般是在两个层次上进行融和,即特征层融合(或称早期融合)和决策层融合(或称后期融合)。第三种融合策略是所谓混合融合方法,该方法是将特征层融合与决策层融合结合起来一起使用

2. 多模态深度学习

3. 多模态语义表示

  • 多模态语义表示是指,人机交互过程中不同模态之间交互语义信息的形式化描述
  • 在基于机器学习,特别是基于深度学习的多模态系统中,语义表示常常以模型的形式存在,这种语义表示可理解为隐式的多模态语义表示。

技术展望及发展趋势

  • 众多研究领域,越来越多地采用多模态信息处理的方法和思路,取得了许多具有实际应用价值的成果,从而大大提升了多模态信息处理的能力;

  • 深度学习、大数据的兴起,即为多模态信息处理提供了新的技术手段,也为多模态信息处理提供了更丰富的数据来源。

Chapter 19 医疗健康信息处理

(研究进展、现状&趋势)

任务定义以及目标

  • 定义:利用信息技术对与人类医疗健康相关的数据进行处理,挖掘蕴含在这些数据中的有用信息和规律,以服务于医学研究、临床诊疗、公共卫生决策、个人健康咨询等各个领域。

  • 目标:针对不同类型的医疗健康相关数据,建立有效的信息抽取和利用的方法、模型和系统,充分挖掘数据潜力,弥补优质医疗资源严重短缺、大大降低误诊率,为实现智能化医疗、提高人类医疗健康服务水平提供必要支撑

研究内容和关键科学问题

数据通常以以下五种形式存在:1)结构化数据(如检验检查记录);2)文本(如入院记录、出院记录、病程记录、医学文献等);3)图形(如心电图、脑电图等);4)图像(如超声图像、核磁共振图像等);5)新媒体数据,如微博、微信等

在医疗大数据时代,研究工作的研究工作的重心逐渐转移到对于大规模非结构化医疗文本信息的处理,以及将文本信息与结构化信息、图形图像信息的联合处理上来

1. 医疗知识图谱构建

  • 建立起各种知识之间的关联,涉及到的关键技术包括医疗实体识别以及基于多模态特征的实体链接。
  • 在医疗文本中的用语习惯也和我们的日常用语习惯差异巨大,这使得我们针对通用的文本信息处理任务所构建的大量标注数据库难有用武之地,而直接从医疗领域获得的各种类型的加工数据的规模远比通用领域要少

2. 辅助诊疗技术研究

  • 为了能够进行自动的推理和判断,首先要解决的关键问题是从大量的诊疗实例中进行学习总结的技术与能力,这也是当前医疗文本信息处理所做的最重要的工作之一
  • 建立包含文本、图形、图像、检验数据等多模态特征的知识推理能力

3. 基于大数据的流行病学研究

  • 关键问题1:发现并充分利用能够尽可能提前预测到特定流行病爆发前兆的新的因素,尤其对能够反映与健康相关的群体关注点变化、能够分析社会效应的社交媒体等渠道的分析利用
  • 关键问题2:丰富和完善多模态大数据融合分析的模型和技术,从而能够充分结合社交媒体大数据、医疗监测大数据、环境气候大数据等多种因素来联合进行流行性疾病的分布和发展的分析预测

技术方法和研究现状

1. 医疗实体识别

  • 挑战:大量蕴含于临床记录中的有用信息无法被依赖于结构化数据的电子化的临床系统直接使用

  • 能够从原始文本中抽取结构化信息的自然语言处理技术在临床医学领域受到了广泛关注

  • 重点:临床医疗实体识别

    • 早期:利用临床医疗专家人工构建的字典或规则来识别临床医疗实体
    • 随着可用的标注临床医疗语料的增多,研究者们开始使用机器学习算法来识别临床医疗实体
    • 非连续临床医疗实体的识别的研究仍需深入研究

2. 医疗实体链接

  • 实体链接主要解决以下三类问题:1)歧义性:相同实体提及对应多个标准实体概念;2)多样性:一个标准实体概念有多种不同的提及形式;3)缺失性:实体提及对应的实体概念没有在给定的标准知识库中出现
  • 在医疗领域,多样性现象最为常见,实体链接的研究重点则集中在解决实体多样性的问题
  • 研究工作主要面向英文电子病历,面向中文电子病历的实体标链接研究还不多见

3. 医疗文本挖掘技术

  • 主要目标是从中抽取并建立起多实体之间的关联

  • 医疗实体识别和实体链接,都是医疗文本挖掘的基础支撑技术

  • 1)有监督学习关系抽取

    • 通常抽取句子级别之间类标的关联关系,如"Apple CEO Steve Jobs said…" 中抽取出 (SteveJobs, CEO, Apple) 三元组
    • 缺点:生成标注集合的代价很高,并且难以加入新的关系,也无法将其方式简单泛化到其他领域
  • 2)半监督关系抽取

    • 采用泛型算法,一开始使用一些初始种子模板,然后从文本中抽取符合这些种子模版的新模板,选取其中的前k 个加入种子模板中重复这一过程
  • 3)远监督关系抽取

    • 通过现有的知识库和未标注的文本来生成新的样例,找到未标注文本中的相关实体对的位置并假定这个关系可能被该段文本所表示
    • 典型架构:收集大量在统一语句中共现的实体对,如果这两个实体对之间有关系,那么最简单的假设就是所有这样的句子都能够表示这两个实体之间的关系
    • 典型架构过于粗糙,绝大多数出现在同一句话中的实体对实际上是没有关联的
    • 进一步的改进包括假设包含共现的实体对的句子中至少有一个能够表示该实体对的关系,两个实体之间可以表示多种关系,从而将该问题定义成多实例的多类标分类问题
    • 主要缺点是需要高质量的实体匹配技术来对应正确的实体,关系表达假设也具有局限性,并且难以生成有效的负样本

4. 医疗健康知识推理技术

  • 主要目标之一是对临床医疗医疗预诊、诊断等提供决策建议和帮助,提升医疗诊断的准确率和效率,降低误诊
  • 临床决策支持系统(Clinical Decision Support, CDS)

5. 流行病分析技术

  • 随着大数据和社交媒体的兴起,人们在新的媒体空间中的活动或者讨论等,也成为了流行病预测的重要分析因素,并在流行病预测中扮演着越来越重要的角色

  • 基于大数据的流行病预测方法

    • 网络和社交媒体大数据分析方法:某种流行性疾病的搜索结果在短期内激增,这可能准确预示着此种疾病将会暴发
    • 医疗系统大数据分析方法:收集与所监测的疾病相关的一组临床特征(症状)和相关社会现象的发生频率来获取传统公共卫生监测不能提供的疾病防控信息
    • 环境气候及其他大数据分析方法:环境气候变化可能与不同种类的大范围流性病爆发发之间具有一定的对应关系

技术展望及发展趋势

  • 大规模标准化医疗健康知识库(或知识图谱)的构建

  • 中文临床医疗自然语言处理

  • 多模态医疗健康信息融合

  • 交互式医疗健康信息处理

Chapter 20 少数民族语言文字信息处理

(研究进展、现状&趋势)

基础研究

1. 编码标准的制定

  • 字符编码(Character encoding)是一套法则,使用该法则能够将自然语言字符的一个集合(如字母表或音节表)与其它东西的一个集合(如号码或电脉冲)进行配对。一般指用数字、字母、文字按规定的方法来代表特定的信息。
  • 少数民族语言编码已被收录到ISO/IEC 10646国际标准

2. 基础资源建设

  • 语言资源是指语言信息处理用到的各种语料库和语言数据库,以及各种语言词典等
  • 目前民族语言资源匮乏是制约民族语言信息处理的主要瓶颈,但已有大幅度发展

3. 词法与句法分析

  • 词法分析(lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。
  • 进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer,简称Lexer)
  • 由于语言类型的不同,少数民族语言的构词构形各有特点,有的为粘着性语言,其词法意义主要是通过各种附加成分来表示,有些为孤立型语言,其词法意义主要是通过语序和助词等来表示。因此,各个语言的词法分析在理论和技术层面都有所不同。

4. 语义分析

应用软件系统开发

  • 机器翻译:民文机器翻译是少数民族语言信息处理的一个活跃的领域。

  • 电子词典

  • 文字处理与办公套件

  • 模式识别

技术展望与发展趋势

  • 多语种自然语言理解与智能处理研究

  • 一带一路多语种语音信息处理理论与技术研究

  • 媒体信息智能处理论及技术研究

  • 一带一路多语种网络信息安全理论与技术研究

  • 一带一路多语种信息处理应用研究


总结

这是CIPS的最终章,本来这一本书因为我的大工博士面试失利就此搁置了,但在忙完毕业论文相关的工作后,决定还是将最后一点内容整理完吧,希望我的毕业论文顺利通过盲审,顺利毕业

我的申博之路也告一段落了,在此特别感谢大连理工大学杨老师对我的帮助和支持,虽然没能跟随杨老师从事NLP相关的研究,但我也会继续自我学习,不断丰富自己的能力,提升自己的技术水平,啥也别说了,干就完了~

在这较空闲的一个月里,我会一边研读博士课题相关论文,一遍撰写博客文章,我记得之前也有一些说好的技术分析也因为各种原因搁置了,趁现在,赶紧搞起来~

最后,希望大家通过我对CIPS的整理可以对NLP有一个初步的了解,谢谢大家的支持~

你可能感兴趣的:(CIPS,2016,NLP,nlp,自然语言处理,人工智能)