《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。
本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。
注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。
ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:
https://github.com/changliang5811/CIPS-2016.git
传送门:
CIPS 2016(1-3章)——词法、句法、语义、语篇分析
CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
CIPS 2016(6-7章)——知识图谱、文本分类与聚类
CIPS 2016(8-10章)——信息抽取、情感分析&自动文摘
信息检索(Information Retrieval, IR)是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。1951 年,Calvin Mooers 首次提出了“信息检索”的概念,并给出了信息检索的主要任务:协助信息的潜在用户将信息需求转换为一张文献来源列表,而这些文献包含有对其有用的信息。文献数字化使得信息的大规模共享及保存成为现实,而检索就成为了信息管理与应用中必不可少的环节。互联网搜索引擎为人们提供了访问海量网络信息的高效便捷渠道,从而深刻的改变了人们的认知过程和信息获取方式。
信息推荐与过滤(Information Recommendation and Filtering)简称信息推荐,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。信息推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。简而言之,信息推荐研究的目标就是建立用户兴趣和物品之间的有效匹配算法、模型和系统,最终实现用户感兴趣物品的推荐,从而缓解用户在面对大量物品时的信息过载问题,提高物品信息的利用率。
众所周知,人类社会进入了大数据时代,数据量极度膨胀,人们面临严重的信息过载(Information Overload)问题,从大量信息中获得满足用户需求的信息成为从现在到未来的永恒需求。信息推荐技术是实现这一需求的重要手段,具有重要的商业价值。电子商务网站是运用信息推荐技术的最典型应用。不论是亚马逊、京东还是淘宝网站,都大量运用信息推荐技术。
(研究进展、现状&趋势)
信息检索(Information Retrieval, IR)是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。
主要任务:协助信息的潜在用户将信息需求转换为一张文献来源列表,而这些文献包含有对其有用的信息(Calvin Mooers, 1951)
伴随着互联网及网络信息环境的迅速发展,以网络信息资源为主要组织对象的信息检索系统:搜索引擎应运而生,成为了信息化社会重要的基础设施。
检索用户、信息资源和检索系统三个主要环节组成了信息检索应用环境下知识获取与信息传递的完整结构
当前影响信息获取效率的因素也主要体现在这几个环节,即:检索用户的意图表达、信息资源(尤其是网络信息资源)的质量度量、需求与资源的合理匹配。
本质上反映了用户个体有限的认知能力与包含近乎无限信息的数据资源空间之间的不匹配问题。
用户与搜索引擎交互过程的核心
面临问题:1.用户可能无法准确表达搜索意图;2. 搜索引擎可能无法正确理解并与恰当的网络资源进行匹配
基于用户行为的分析方法
基于伪相关反馈信息的分析方法
基于自然语言理解的分析方法
垂直需求理解分析方法
现代搜索引擎不再只返回匹配网页,而是根据用户提交的查询,返回包括新闻、图片、视频、本地搜索、购物信息等垂直结果在内的异质化结果页面
关联:垂直搜索资源选择问题。大多数工作将垂直搜索资源选择问题当作一个有监督分类问题处理。
利用查询字符串、垂直搜索引擎的查询日志、 垂直搜索引擎、 用户的反馈等信息构建分类模型
资源质量度量:随着互联网信息资源逐渐成为检索系统的主要查找对象,网络资源特有的缺乏编审过程、内容重复度高、质量参差不齐等问题成为了影响检索质量的重要因素。
核心问题:清除索引中的冗余、低质量、不可信和过时数据,而保证真正满足用户需求的数据能够得到检索系统排序算法的关注
基于链接结构的质量评估
垃圾网页识别
垃圾网页
传统的垃圾网页识别方法,大都是针对特定的作弊手段设计有针对性的识别算法予以应对,如采用内容压缩比、可见内容比例等特征识别关键词堆砌类垃圾网页,采用脚本解析应对自动跳转类垃圾网页等。
缺点:缺乏对新出现垃圾网页的应对能力,缺乏识别通用性
改进1:试图采用链接结构分析方法避免对垃圾网页作弊手段本身的关注,代表性算法包括 TrustRank 及其延伸算法 Anti-TrustRank、 GoodBadRank 等
改进2:为了避免链接结构分析算法本身面临的链接结构数据质量问题,可利用用户与垃圾和正常网页的交互模式差异,从作弊目的而非手段的角度来识别垃圾网页
结果匹配排序:数据对象的多样化、异构化导致高度动态繁杂的泛在网络内容使得文本相似度计算方法无法适用;基于同质性假设构建的用户行为模型难以应对;基于单一维度的结果分布规律的用户行为假设大量失效。迫切需要构建适应现代信息资源环境的检索结果匹配排序方法
检索系统交互方式:依据用户提交的查询,按照内容相似程度、质量水平、用户偏好情况、竞价情况、时效性情况等因素将结果文档进行排序,并以有序列表的形式反馈给用户
1)信息检索模型
2)排序学习
3)多样化搜索
出现原因:1. 网络数据存在大量的冗余信息;2. 很多用户查询具有歧义;3. 对同一个查询不同的用户有不同方面的信息需求。
目的:进一步考虑结果之间的差异性(或者说结果的新颖性)去除冗余、覆盖不同信息需求。
早期解决办法:启发式的排序模型
近年来,越来越多的工作通过机器学习的方法进行结果的多样性排序。为了建模多样性,排序学习模型需要考虑文档间的关系(序列级(listwise)排序方法)
优化目标从极大似然的目标发展为直接优化多样性评价指标
深度学习的方法也被引入到多样性排序工作中来,以便解决传统机器学习方法中多样性特征难以定义的难题
4)个性化搜索
基于内容分析的算法
基于链接分析的方法
基于协作过滤的算法
5)排序点击模型
搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息(主要是点击行为信息)是搜索引擎用来改进结果排序的重要影响因素
现状:由于结果位置、展现形式等各种因素的影响,将反馈信息直接应用于搜索排序任务往往难以取得较好的效果
构建描述用户点击行为的点击模型(Click Model),并基于不同的点击模型估计用户对展现结果的浏览概率,进而尝试去除结果展现位置等因素对用户行为的偏置性影响,以达到更好利用隐性反馈信息的目的
传统的点击模型主要针对于传统同质化的搜索页面进行设计
Web2.0时代:针对于垂直搜索结果的点击模型以及针对非顺序检验行为的点击模型
契机:富媒体展现形式被越来越多的应用于搜索交互界面,搜索结果也变得越来越异质化
垂直搜索模型:联合点击模型(Federated Click Model,FCM)模型与垂直点击模型(Vertical Click Model,VCM)
多媒体垂直结果对用户的前2 秒视觉注视行为的影响(左侧为不含垂直结果的页面,右侧为包含多媒体垂直结果的页面)
非顺序检验行为的建模方面:时间点击模型(Temporal Click Model,TCM),局部可观测马尔科夫模型(Partially Observable Markov Model,POM)以及基于真实用户眼动行为实验提出的局部有序点击模型(Partially Sequential Click Model,PSCM)
信息检索评价:信息检索和信息获取系统核心的目标是帮助用户获取到满足他们需求的信息,而评价系统的作用是帮助和监督研究开发人员向这一核心目标前进,以逐步开发出更好的系统,进而缩小系统反馈和用户需求之间的差距,提高用户满意度
对搜索系统的评价包括什么?
方法1:离线性能评价
方法2:在线性能评价
不需要专业人员进行针对文档相关性的标注,而是依照用户在使用检索系统时的显式(Explicit)或隐式(Implicit)反馈信息对检索系统的性能进行评价。
用户显式反馈信息:满意度评价(Satisifaciton)、用户偏好(Preference)、信息需求完成情况(Search Outcome)等
用户隐式反馈信息:用户点击(Click-through)、查询重组(Query reformulation)、停留时间(Dwell time)等交互行为信息。
利用机器学习方法对各类隐式反馈信息进行综合,并对满意度评价、用户偏好等显式反馈信息进行预测
通常使用的隐式反馈信息包括用户与搜索引擎交互过程中的各种粗粒度(Coarse grain,如查询修改、结果点击等)或细粒度(Fine grain,如鼠标滚轮行为,结果页面停留时间、鼠标移动行为模式等)信息。
发展重点将有可能集中在以各种情境的垂直搜索资源为基础,知识化推理为检索运行方式,自然语言多媒体交互为手段的智能化搜索与推荐技术
(研究进展、现状&趋势)
信息推荐与过滤(Information Recommendation and Filtering)简称信息推荐,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。
信息推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。
目标:建立用户兴趣和物品之间的有效匹配算法、模型和系统,最终实现用户感兴趣物品的推荐,从而缓解用户在面对大量物品时的信息过载问题,提高物品信息的利用率。
即兴搜索(Ad hoc Search)(传统的检索任务)
用户需求相对动态,而信息库相对静态。搜索引擎就是一个典型的即兴搜索任务,用户不断输入代表不同需求的查询,系统从后台相对静态的信息库中返回匹配的信息
过滤(Filtering)(信息推荐)
与即兴搜索任务不同,信息推荐任务的用户需求是用户的兴趣,该需求在一段时间内相对静态,而其面对的信息却在不断动态变化。
注:过滤通常还有应用层面的另一种含义,比如垃圾邮件过滤、不良网页过滤等应用中提到的“过滤”。这个过滤并不强调用户兴趣的静态性和信息的动态性,而往往强调的是任务的结果,即去掉不需要的信息。本文介绍的不是这个层面的“过滤”
用户兴趣和物品在计算机中通常都要进行形式化建模,即转化成计算机的某种内部表示。在此基础上,计算两者的匹配程度,匹配程度高的物品推荐给用户。并且不会只执行一遍,系统会根据用户的反馈对用户的兴趣模型进行调整更新
信息推荐的目的就是向用户推荐其感兴趣的物品。如何获取并刻画用户的兴趣是信息推荐所面临的首要科学问题
用户是否直接提供兴趣数据?
提供兴趣数据(物品评分/兴趣列表)—>显式建模
不直接提供—>隐式建模
从用户兴趣建模的结果区分
基于浅层语义的方法
基于语义概念或知识的方法
用户的兴趣往往十分广泛,因此建模时要考虑用户的兴趣多样性问题。并且用户的兴趣还会随着时间的推移发生变化,建模时也要及时对用户的兴趣进行更新
目的:构建物品的某种形式化表示
最常见的方法:将物品表示为其重要特征或属性表示的向量,涉及到重要特征的选择问题和特征的表示问题
特征选择:借用传统文本分类中的特征选择方法
特征表示:借用传统文本检索的TF-IDF表示方法
从属性在物品内的出现次数(比如文本中的某个词语或图像中的某种颜色)和出现属性的物品数目(比如文本中出现某个词语或图像库中出现某种颜色的对象数目)两个方面来综合考虑属性的权重
前者刻画了属性的代表性,即该属性在物品内部出现越多,则意味着该属性的权重越大;后者刻画了属性的区别性,即该属性在所有物品中出现越多,则意味着其区别性不大,此时反而要降低权重
需要指出的是,物品和用户可以采用不同的表示方法,只要满足用户-物品相似度计算的输入要求即可
物品的建模主要需要考虑物品关键特征的提取,要面向用户可能的兴趣,来抽取相应的本质特征并进行表示
最关键的一步是计算用户兴趣和物品之间的匹配度,匹配度越大,推荐的可能性也越大。匹配度计算主要考虑用户的满意度。
匹配方法1:基于统计的方法
匹配方法2:基于规则的方法
用户的兴趣往往表示成类似于“IF…THEN…ELSE…”之类的规则表达式,用户兴趣-物品的匹配就是规则匹配的过程。
用户兴趣和匹配度的计算,要同时考虑效果和效率问题
数据稀疏性(Data Sparsity)问题
信息推荐可以认为是根据已有用户对物品的喜好情况(如通过评级或评分来表示)来预测未知的用户-物品喜好情况,实际用户表示过喜好的物品远小于系统所需用户和物品
解决办法1:将用户对未评分项目的评分设为一个固定的缺省值,或者设为其他用户对该项目的平均评分(简单,但并不能从根本上解决)
解决办法2:预测评分的方法来填充用户-物品矩阵,能够产生较理想的推荐效果
典型的预测评分方法包括 BP 神经网络、朴素贝叶斯、矩阵分解等方法
解决办法3:传递法,首先构建用户图或物品图或用户-物品图,然后图上运行随机游走之类的算法来填充矩阵从而进行推荐。
解决办法4:通过融合上下文(时间、位置、人口统计学信息、物品的标签信息)的做法也可以认为是某种程度上弥补了数据性稀疏性的不足。
冷启动(Cold Start)问题
大规模计算问题
其他:比如推荐系统的评价、推荐结果的可解释、推荐系统的多目标、推荐系统的被攻击等等问题
深度学习和推荐的结合
也称为基于社会过滤(Sociological Filtering)的方法,一种“间接”计算用户兴趣和待推荐物品匹配度的方法。
基本思想:“物以类聚,人以群分”
喜欢相似物品的用户兴趣也相似,或具有相似 兴趣的用户喜欢的物品也相似。
基于内存或记忆(Memory based )的协同过滤方法
这类方法往往通过计算其他用户兴趣和当前物品的匹配度(基于用户(User based)的协同过滤推荐)或者当前用户兴趣和其他物品的匹配度(基于物品(Item based)的协同过滤推荐)来估计当前用户兴趣-当前物品的匹配度。
基于用户(User based)的协同过滤推荐和基于物品(Item based)的协同 过滤推荐统称为基于内存或记忆(Memory based )的协同过滤方法
在计算物品相似度的时候,共同的用户比较多,所以基于物品协同过滤的推荐效果一般比基于用户的协同过滤的推荐效果要好。
基于物品的协同过滤方法的另外一个好处是,容易给推荐结果提供合理的解释,而合理的解释在推荐系统中有着非常重要的作用
基于模型(Model based)的推荐算法
基于人口统计学的过滤方法
利用用户的人口统计学特征。每个用户都有自己的人口统计学(Demographic)特征,包括年龄、性别、职业、学历、居住地、国籍等。这些信息对预测用户的兴趣也起着重要的作用。
例如推荐给儿童动 画片,推荐给青少年男女偶像剧,推荐给老年人戏曲等等。
优点:可有效解决注册用户的冷启动问题
缺点:推荐粒度比较大,只区分了不同的群体,并没有真正实现用户的个性化,并且很多用户由于隐私原因不愿意提供真实的信息
基于社会化过滤的推荐方法
契机:随着社交网站(例如 Twitter、新浪微博等网站)的兴起,大量用户之间具有社交关系。
最常见的做法是在利用传统用户-物品喜好信息的基础上,增加用户的之间的信任度信息,从而联合构建信息推荐模型。
在利用用户之间的信任度时,还可以对社交网络中的社区进行挖掘,从而在进行推荐时同时考虑两两朋友之间的关系及用户组的兴趣模型.
优点;可以使用社会关系缓解在电子商务或者其他推荐系统中遇到的数据稀疏性问题;可以推荐出新的物品,从而增加结果的多样性(Diversity)和用户的惊喜度(Serendipity)
缺点:用户之间的社会关系形成原因很多,但是只有兴趣相近的关系对用户推荐有比较大的作用,如何鉴别不同的社会关系对预测用户不同行为的作用是一个重要的研究方向
基于位置的过滤
趋势1:与具体领域的结合是推荐领域最重要的研究话题。通用的推荐技术不充分与领域的具体问题相结合,难以发挥出最佳效果。因此,在推荐中充分考虑领域知识、领域数据的特点,是领域信息推荐的重要研究方法
趋势2:深入理解用户的需求,从帮助用户完成特定任务的多个环节入手,打通不同平台与应用之间的鸿沟,扩展推荐目标对象的类型,融合多个领域、多种应用和平台、多种模态的数据,进行基于任务的跨领域异质信息的精准推荐
挖掘并综合利用上下文信息来提高推荐的可靠性,如融入位置信息的推荐
可解释的推荐:传统的推荐方法基本都是黑盒的,没有给出充分的有说服力的理由。
极大规模下的实时推荐、与深度学习模型的有效结合、多目标下的推荐、对抗对推荐系统的攻击等
近年来,包括 Apple 公司 Siri,微软公司 Cortana,谷歌公司 Google Now 等在内的深度整合交互式搜索功能的移动互联网新产品逐渐增多。由深度学习、强化学习等技术推进的新一轮人工智能技术研究热潮中,交互式搜索及其代表性应用人机对话系统由于与图灵测试的密切关联受到学术界与工业界共同的密切关注。搜索引擎涉及的数据对象已经扩展到包括虚拟空间、物理世界、人类社会在内的泛在网络空间中。另一方面,随着用户的增长以及智能手机和平板等智能设备的普及,搜索引擎的使用场景更为多样化,使得使得用户的搜索意图相应的变得多样化、异质化,搜索意图分析已经成为当前各类搜索引擎技术发展的核心环节之一。以知识图谱为代表的语义搜索(Semantic Search)将语义 Web 技术和传统的搜索引擎技术结合,是一个很有研究价值
但还处于初期阶段的课题。总之,纵观信息检索研究发展的态势和技术现状,仍有很多问题需要我们去深入研究,
从信息推荐技术的发展来看,与具体领域的结合是推荐领域最重要的研究话题。随着神经网络以及各种Word Embedding方法的普及,如何利用深度学习进行有效推荐、在推荐中如何保护用户的隐私、如何对抗对推荐系统的攻击、如何实现多种目标下的信息推荐,都是十分重要的研究课题,值得我们进一步研究。
Next blog:自动问答(Chapter 13)& 机器翻译(Chapter 14)