《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。
本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。
注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。
ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:
https://github.com/changliang5811/CIPS-2016.git
传送门:
CIPS 2016(1-3章)——词法、句法、语义、语篇分析
CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
CIPS 2016(6-7章)——知识图谱、文本分类与聚类
CIPS 2016(8-10章)——信息抽取、情感分析&自动文摘
CIPS 2016(11-12章)——信息检索、信息推荐与过滤
CIPS 2016(13-14章)——自动问答、机器翻译
CIPS 2016(15章)——社会媒体处理
CIPS 2016(16章)——语音技术
CIPS 2016(17章)——语音技术
(研究进展、现状&趋势)
1. 多模态信息建模
2.多模态信息获取
多模态数据的采集
多模态数据的解析
将原始混合状态的多模态数据,分解为单模态的数据。例如视频数据,需要分解为动态图像、音频语言、文本语言等三种单模态数据,其中文本语言部分,可能来自于视频字幕、图像内容中的文字和语音识别的结果等。
多模态数据的解析往往需要与数据采集相结合
多模态训练数据集的构建
3. 多模态语义分析
构建一个文档集概念结构的任务,该概念结构逼近文档集所表达的概念。也即,运用机器学习的方法提取或挖掘文档的深层次概念
不等同于文档的语义理解,但往往是语义理解的基础步骤
所分析的文档集已从文本类数据,扩展到图像、视频、音频等其它媒体形式的数据集
关键问题
所谓多模态语义分析是指在同一个媒体对象的多个模态数据上,同时并行或协同进行语义分析,并最终通过融合得到分析结果的语义分析方法。
4. 多模态情感识别
5. 多模态信息检索
各单模态之间相互检索,诸如用图像检索文本、文本检索音频这样的跨媒体检索系统,也成为信息检索领域的研究热点
跨媒体信息检索首先要解决的是所谓语义鸿沟问题
由于各单模态内容的异构性导致语义的不可度量,使得传统多媒体检索方法不能直接适用于跨媒体检索
6. 多模态人机对话
1. 多模态融合方法
2. 多模态深度学习
3. 多模态语义表示
众多研究领域,越来越多地采用多模态信息处理的方法和思路,取得了许多具有实际应用价值的成果,从而大大提升了多模态信息处理的能力;
深度学习、大数据的兴起,即为多模态信息处理提供了新的技术手段,也为多模态信息处理提供了更丰富的数据来源。
(研究进展、现状&趋势)
定义:利用信息技术对与人类医疗健康相关的数据进行处理,挖掘蕴含在这些数据中的有用信息和规律,以服务于医学研究、临床诊疗、公共卫生决策、个人健康咨询等各个领域。
目标:针对不同类型的医疗健康相关数据,建立有效的信息抽取和利用的方法、模型和系统,充分挖掘数据潜力,弥补优质医疗资源严重短缺、大大降低误诊率,为实现智能化医疗、提高人类医疗健康服务水平提供必要支撑
数据通常以以下五种形式存在:1)结构化数据(如检验检查记录);2)文本(如入院记录、出院记录、病程记录、医学文献等);3)图形(如心电图、脑电图等);4)图像(如超声图像、核磁共振图像等);5)新媒体数据,如微博、微信等
在医疗大数据时代,研究工作的研究工作的重心逐渐转移到对于大规模非结构化医疗文本信息的处理,以及将文本信息与结构化信息、图形图像信息的联合处理上来
1. 医疗知识图谱构建
2. 辅助诊疗技术研究
3. 基于大数据的流行病学研究
1. 医疗实体识别
挑战:大量蕴含于临床记录中的有用信息无法被依赖于结构化数据的电子化的临床系统直接使用
能够从原始文本中抽取结构化信息的自然语言处理技术在临床医学领域受到了广泛关注
重点:临床医疗实体识别
2. 医疗实体链接
3. 医疗文本挖掘技术
主要目标是从中抽取并建立起多实体之间的关联
医疗实体识别和实体链接,都是医疗文本挖掘的基础支撑技术
1)有监督学习关系抽取
2)半监督关系抽取
3)远监督关系抽取
4. 医疗健康知识推理技术
5. 流行病分析技术
随着大数据和社交媒体的兴起,人们在新的媒体空间中的活动或者讨论等,也成为了流行病预测的重要分析因素,并在流行病预测中扮演着越来越重要的角色
基于大数据的流行病预测方法
大规模标准化医疗健康知识库(或知识图谱)的构建
中文临床医疗自然语言处理
多模态医疗健康信息融合
交互式医疗健康信息处理
(研究进展、现状&趋势)
1. 编码标准的制定
2. 基础资源建设
3. 词法与句法分析
4. 语义分析
机器翻译:民文机器翻译是少数民族语言信息处理的一个活跃的领域。
电子词典
文字处理与办公套件
模式识别
多语种自然语言理解与智能处理研究
一带一路多语种语音信息处理理论与技术研究
媒体信息智能处理论及技术研究
一带一路多语种网络信息安全理论与技术研究
一带一路多语种信息处理应用研究
这是CIPS的最终章,本来这一本书因为我的大工博士面试失利就此搁置了,但在忙完毕业论文相关的工作后,决定还是将最后一点内容整理完吧,希望我的毕业论文顺利通过盲审,顺利毕业
我的申博之路也告一段落了,在此特别感谢大连理工大学杨老师对我的帮助和支持,虽然没能跟随杨老师从事NLP相关的研究,但我也会继续自我学习,不断丰富自己的能力,提升自己的技术水平,啥也别说了,干就完了~
在这较空闲的一个月里,我会一边研读博士课题相关论文,一遍撰写博客文章,我记得之前也有一些说好的技术分析也因为各种原因搁置了,趁现在,赶紧搞起来~
最后,希望大家通过我对CIPS的整理可以对NLP有一个初步的了解,谢谢大家的支持~