【CIPS 2016】(11-12章)信息检索、信息推荐与过滤 (研究进展、现状&趋势)

CIPS 2016 笔记整理

《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。

注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。

ps:我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中,有需要的可以自行查看:

https://github.com/changliang5811/CIPS-2016.git

传送门:

CIPS 2016(1-3章)——词法、句法、语义、语篇分析
CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习
CIPS 2016(6-7章)——知识图谱、文本分类与聚类
CIPS 2016(8-10章)——信息抽取、情感分析&自动文摘


文章目录

  • CIPS 2016 笔记整理
  • 前言
  • Chapter 11 信息检索
    • 什么是信息检索?
    • 研究内容
      • 信息需求理解
      • 数据质量评估
      • 检索结果排序
      • 检索性能评价
    • 展望
      • 交互式搜索技术
      • 搜索意图理解技术
      • 语义搜索技术
  • Chapter 12 信息推荐与过滤
    • 什么是信息推荐与过滤?
      • 广义的信息检索包括两类子任务
    • 信息推荐包括什么?
      • 用户兴趣的建模
      • 物品的建模
      • 用户兴趣-物品的匹配
      • 目前难点及解决办法
    • 信息推荐方法
      • 基于内容过滤(Content-based Filtering)的推荐方法
      • 基于协同过滤(Collaborative Filtering)的推荐方法
      • 其他:引入外部资源的方法
    • 展望及发展趋势
  • 总结
  • 彩蛋


前言

信息检索(Information Retrieval, IR)是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。1951 年,Calvin Mooers 首次提出了“信息检索”的概念,并给出了信息检索的主要任务:协助信息的潜在用户将信息需求转换为一张文献来源列表,而这些文献包含有对其有用的信息。文献数字化使得信息的大规模共享及保存成为现实,而检索就成为了信息管理与应用中必不可少的环节。互联网搜索引擎为人们提供了访问海量网络信息的高效便捷渠道,从而深刻的改变了人们的认知过程和信息获取方式。

信息推荐与过滤(Information Recommendation and Filtering)简称信息推荐,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。信息推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。简而言之,信息推荐研究的目标就是建立用户兴趣和物品之间的有效匹配算法、模型和系统,最终实现用户感兴趣物品的推荐,从而缓解用户在面对大量物品时的信息过载问题,提高物品信息的利用率。

众所周知,人类社会进入了大数据时代,数据量极度膨胀,人们面临严重的信息过载(Information Overload)问题,从大量信息中获得满足用户需求的信息成为从现在到未来的永恒需求。信息推荐技术是实现这一需求的重要手段,具有重要的商业价值。电子商务网站是运用信息推荐技术的最典型应用。不论是亚马逊、京东还是淘宝网站,都大量运用信息推荐技术。


Chapter 11 信息检索

(研究进展、现状&趋势)

什么是信息检索?

信息检索(Information Retrieval, IR)是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。

主要任务:协助信息的潜在用户将信息需求转换为一张文献来源列表,而这些文献包含有对其有用的信息(Calvin Mooers, 1951)

伴随着互联网及网络信息环境的迅速发展,以网络信息资源为主要组织对象的信息检索系统:搜索引擎应运而生,成为了信息化社会重要的基础设施。

研究内容

检索用户、信息资源和检索系统三个主要环节组成了信息检索应用环境下知识获取与信息传递的完整结构

当前影响信息获取效率的因素也主要体现在这几个环节,即:检索用户的意图表达、信息资源(尤其是网络信息资源)的质量度量、需求与资源的合理匹配。

本质上反映了用户个体有限的认知能力与包含近乎无限信息的数据资源空间之间的不匹配问题。

信息需求理解

  • 用户与搜索引擎交互过程的核心

  • 面临问题:1.用户可能无法准确表达搜索意图;2. 搜索引擎可能无法正确理解并与恰当的网络资源进行匹配

  • 基于用户行为的分析方法

    • 用户的信息需求会影响用户提交查询、浏览结果页面、点击相关结果等行为,通过分析用户行为记录,我们将能够有效的检测到一些用户信息需求
    • 1)利用信息需求和点击记录之间的关系——导航类查询倾向于只伴随一次点击,而信息类查询往往伴随多次点击
    • 2)用户提交的查询和提交查询后点击的 URL 会构成一个“查询-点击二部图”。基于该二部图,可以计算一对查询相互之间的相似程度。
    • 3)近年来,眼动追踪技术(Eye tracking)被广泛应用于研究和分析用户与搜索引擎交互过程(如:用户浏览搜索引擎结果页面时的注视位置与用户信息需求相关)
    • 总结:利用包括查询日志、点击日志、眼动信息和鼠标移动信息在内的用户行为信息能够有效的推测查询背后的用户信息需求
  • 基于伪相关反馈信息的分析方法

    • 针对查询频度较低的长尾查询,我们无法获得足够多的用户行为记录,来有效地进行搜索意图分析
    • 尝试基于查询和查询对应的伪相关反馈信息(如搜索引擎结果页的内容),进行搜索意图分析
  • 基于自然语言理解的分析方法

    • 直接通过对用户输入的检索项进行分析,从而得到用户意图也是近年来的研究热点
    • 针对特定领域检索,提出了结构化表示方法,并利用自然语言处理方法对用户检索项进行语义分析,从而对用户搜索意图进行分析
  • 垂直需求理解分析方法

    • 现代搜索引擎不再只返回匹配网页,而是根据用户提交的查询,返回包括新闻、图片、视频、本地搜索、购物信息等垂直结果在内的异质化结果页面

    • 关联:垂直搜索资源选择问题。大多数工作将垂直搜索资源选择问题当作一个有监督分类问题处理。

      利用查询字符串、垂直搜索引擎的查询日志、 垂直搜索引擎、 用户的反馈等信息构建分类模型

数据质量评估

  • 资源质量度量:随着互联网信息资源逐渐成为检索系统的主要查找对象,网络资源特有的缺乏编审过程、内容重复度高、质量参差不齐等问题成为了影响检索质量的重要因素。

  • 核心问题:清除索引中的冗余、低质量、不可信和过时数据,而保证真正满足用户需求的数据能够得到检索系统排序算法的关注

  • 基于链接结构的质量评估

    • 主要工作集中在链接关系分析方面,相关工作大都集中在利用PageRank 框架进行某些特定应用需求的改进,或对标准 PageRank 传统算法进行效率提升上。
      缺点:搜索引擎对于链接结构数据的依赖也客观上造成了此类数据本身质量堪忧的现象
    • 改进1:采用多种特征共同评价网页质量,设计更加全面合理的质量评估算法(Google Henzinger)
    • 改进2:采用了搜索引擎通过浏览器插件等收集的用户浏览行为数据建立用户浏览关系图替代网络结构图实施链接结构分析(Microsoft)
  • 垃圾网页识别

    • 垃圾网页

      • 利用搜索引擎运行算法的缺陷,采取针对搜索引擎的作弊手段,使其获得高于其网络信息质量排名效果的网页
      • 作弊方式主要可以分为基于内容的作弊(Content Spamming)与基于链接关系的作弊(Link Spamming)两种类型,这是从影响搜索引擎检索结果排序的两个不同角度对作弊手段进行的分类
    • 传统的垃圾网页识别方法,大都是针对特定的作弊手段设计有针对性的识别算法予以应对,如采用内容压缩比、可见内容比例等特征识别关键词堆砌类垃圾网页,采用脚本解析应对自动跳转类垃圾网页等。
      缺点:缺乏对新出现垃圾网页的应对能力,缺乏识别通用性

    • 改进1:试图采用链接结构分析方法避免对垃圾网页作弊手段本身的关注,代表性算法包括 TrustRank 及其延伸算法 Anti-TrustRank、 GoodBadRank 等

    • 改进2:为了避免链接结构分析算法本身面临的链接结构数据质量问题,可利用用户与垃圾和正常网页的交互模式差异,从作弊目的而非手段的角度来识别垃圾网页

检索结果排序

  • 结果匹配排序:数据对象的多样化、异构化导致高度动态繁杂的泛在网络内容使得文本相似度计算方法无法适用;基于同质性假设构建的用户行为模型难以应对;基于单一维度的结果分布规律的用户行为假设大量失效。迫切需要构建适应现代信息资源环境的检索结果匹配排序方法

  • 检索系统交互方式:依据用户提交的查询,按照内容相似程度、质量水平、用户偏好情况、竞价情况、时效性情况等因素将结果文档进行排序,并以有序列表的形式反馈给用户

  • 1)信息检索模型

    • 对查询和文档进行表示并进行相似度计算的框架和方法
      【CIPS 2016】(11-12章)信息检索、信息推荐与过滤 (研究进展、现状&趋势)_第1张图片 信息检索排序模型分类图
  • 2)排序学习

    • 实际搜索引擎中需要考虑的排序因素已经成百上千,单靠人工将它们整合到一个排序公式中已经不太现实
    • 使用排序学习方法,即从用户标注或者搜索日志数据中利用机器学习的方法训练排序模型(如图所示)
      【CIPS 2016】(11-12章)信息检索、信息推荐与过滤 (研究进展、现状&趋势)_第2张图片
    • 与传统排序模型相比,排序学习的优势在于对大量的排序特征进行组合优化,自动进行参数的学习,最终得到一个高效精准的排序模型。
    • 将排序看做回归或者分类问题所提出的单点型排序学习算法(Pointwise 算法)(早期)
    • 点对型排序学习算法(Pairwise 算法),其思想是将排序问题看做是同一查询下两个文档间的相对相关性关系建模(曾占主导地位)
    • 列表型排序学习算法(Listwise 算法),该方式直接建模一系列文档间的序列型关系,避免了前两类方法的近似误差(即优化目标定义在整个序列上)
  • 3)多样化搜索

    • 出现原因:1. 网络数据存在大量的冗余信息;2. 很多用户查询具有歧义;3. 对同一个查询不同的用户有不同方面的信息需求。

    • 目的:进一步考虑结果之间的差异性(或者说结果的新颖性)去除冗余、覆盖不同信息需求。

    • 早期解决办法:启发式的排序模型

      • 隐式的方法主要假设相似的文档覆盖的话题或者满足的信息需求相似,通过定义文档间的依赖关
        系来捕捉多样性
      • 显式的方法则是通过显式地定义或者挖掘查询的各个子话题,从而直接选择能够覆盖这些子话题的文档作为排序结果
    • 近年来,越来越多的工作通过机器学习的方法进行结果的多样性排序。为了建模多样性,排序学习模型需要考虑文档间的关系(序列级(listwise)排序方法)
      优化目标从极大似然的目标发展为直接优化多样性评价指标

    • 深度学习的方法也被引入到多样性排序工作中来,以便解决传统机器学习方法中多样性特征难以定义的难题

  • 4)个性化搜索

    • 基于内容分析的算法

      • 通过比较用户兴趣爱好和结果文档的内容相似性来对文档的用户相关性进行判断进而对搜索结果进行重排
      • 用户模型一般表述为关键词或主题向量或层次的形式
      • 通过比较用户模型和文档的相似性,判断真实的搜索意图,并估计文档对用户需求的匹配程度
    • 基于链接分析的方法

      • 利用互联网上网页之间的链接关系,并假设用户点击和访问过的网页为用户感兴趣的网页
      • 进行迭代最终计算出用户对每个网页的喜好度
    • 基于协作过滤的算法

      • 借鉴了基于协作过滤的推荐系统的思想
      • 不仅仅利用用户个人的信息,还利用与用户相似的其它用户或群组的信息,并基于用户群组和相似用户的兴趣偏好来个性化当前用户的搜索结果
      • 用户之间的相似性可以通过用户的兴趣爱好、历史查询、点击过的网页等内容计算得出
  • 5)排序点击模型

    • 搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息(主要是点击行为信息)是搜索引擎用来改进结果排序的重要影响因素

    • 现状:由于结果位置、展现形式等各种因素的影响,将反馈信息直接应用于搜索排序任务往往难以取得较好的效果

    • 构建描述用户点击行为的点击模型(Click Model),并基于不同的点击模型估计用户对展现结果的浏览概率,进而尝试去除结果展现位置等因素对用户行为的偏置性影响,以达到更好利用隐性反馈信息的目的

    • 传统的点击模型主要针对于传统同质化的搜索页面进行设计

      • 同质化搜索页面:搜索页面中的结果均采用相近的文本形式展现,结果之间除了文字内容不同外并没有明显的展现形式差异
      • 级联模型(Cascade model),依赖点击模型(Dependent Click Model,DCM),用户浏览模型(User Browsing Model,UBM),动态贝叶斯网络模型(Dynamic Bayesian Network,DBN)等
      • 依照结果位置因素提出用户检验行为假设,并进而对点击行为进行推演。
    • Web2.0时代:针对于垂直搜索结果的点击模型以及针对非顺序检验行为的点击模型

      • 契机:富媒体展现形式被越来越多的应用于搜索交互界面,搜索结果也变得越来越异质化

      • 垂直搜索模型:联合点击模型(Federated Click Model,FCM)模型与垂直点击模型(Vertical Click Model,VCM)

      • 多媒体垂直结果对用户的前2 秒视觉注视行为的影响(左侧为不含垂直结果的页面,右侧为包含多媒体垂直结果的页面)

      • 非顺序检验行为的建模方面:时间点击模型(Temporal Click Model,TCM),局部可观测马尔科夫模型(Partially Observable Markov Model,POM)以及基于真实用户眼动行为实验提出的局部有序点击模型(Partially Sequential Click Model,PSCM)

检索性能评价

  • 信息检索评价:信息检索和信息获取系统核心的目标是帮助用户获取到满足他们需求的信息,而评价系统的作用是帮助和监督研究开发人员向这一核心目标前进,以逐步开发出更好的系统,进而缩小系统反馈和用户需求之间的差距,提高用户满意度

  • 对搜索系统的评价包括什么?

    • 检索效率(Efficiency)评价主要考虑检索的时间开销、空间开销和响应速度等
    • 检索结果质量(Effectiveness)评价:重点考虑检索结果是否满足用户的信息需求,如考虑返回的文档中有多少相关文档、所有相关文档中返回了多少、返回的是否靠前等,是评测的重点。
    • 用户界面友好度及易用性(Interface)的评价
  • 方法1:离线性能评价

    • 主要采用基于Cranfield 范式的方法:主要特点是使用一套可重用的评测集来评价信息检索系统的好坏
    • 整个Cranfield 评测集通常包括一个文档集合,一个信息需求的集合,以及和信息需求集合匹配的标注集,静态的,可重用的,一旦被构建,就可以被用来评测新的搜索系统
    • 不同的搜索系统通过在相同的文档集合需求集上生成结果并通过统一的标注集进行评测对比来比较彼此之间的优劣
    • 常见评测集:TREC 会议构建的评测集、NTCIR 会议构建的评测集、跨语言检索评测集(CLEF组织)
    • 不同的评测指标通常具有不同的表达能力和适用范围。
  • 方法2:在线性能评价

    • 不需要专业人员进行针对文档相关性的标注,而是依照用户在使用检索系统时的显式(Explicit)或隐式(Implicit)反馈信息对检索系统的性能进行评价。

    • 用户显式反馈信息:满意度评价(Satisifaciton)、用户偏好(Preference)、信息需求完成情况(Search Outcome)等

    • 用户隐式反馈信息:用户点击(Click-through)、查询重组(Query reformulation)、停留时间(Dwell time)等交互行为信息。

    • 利用机器学习方法对各类隐式反馈信息进行综合,并对满意度评价、用户偏好等显式反馈信息进行预测

      通常使用的隐式反馈信息包括用户与搜索引擎交互过程中的各种粗粒度(Coarse grain,如查询修改、结果点击等)或细粒度(Fine grain,如鼠标滚轮行为,结果页面停留时间、鼠标移动行为模式等)信息。

展望

交互式搜索技术

  • 案例:Apple 公司Siri,微软公司Cortana,谷歌公司Google Now 等在内的深度整合交互式搜索功能的移动互联网新产品都是这一发展趋势的见证
  • 目标:实现人类自由交谈、解决人类面临的日常生活中的各类问题
  • 挑战:用户理解与建模、搜索资源整合和自然语言交互能力,缺乏对于自然界与人类社会中各类常识性知识的积累与理解

搜索意图理解技术

  • 现状:搜索引擎的数据对象已经扩展到包括虚拟空间、物理世界、人类社会在内的泛在网络空间中,内容和使用场景都开始多样化,导致用户的搜索意图相应的变得多样化、异质化

语义搜索技术

  • 现状:传统的搜索引擎越来越难满足用户快速查找信息的需求以及所需的信息
  • 以知识图谱为代表的语义搜索(Semantic Search)将语义Web 技术和传统的搜索引擎技术结合,是一个很有研究价值的课题

发展重点将有可能集中在以各种情境的垂直搜索资源为基础,知识化推理为检索运行方式,自然语言多媒体交互为手段的智能化搜索与推荐技术

Chapter 12 信息推荐与过滤

(研究进展、现状&趋势)

什么是信息推荐与过滤?

信息推荐与过滤(Information Recommendation and Filtering)简称信息推荐,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。

信息推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。

目标:建立用户兴趣和物品之间的有效匹配算法、模型和系统,最终实现用户感兴趣物品的推荐,从而缓解用户在面对大量物品时的信息过载问题,提高物品信息的利用率。

广义的信息检索包括两类子任务

  • 即兴搜索(Ad hoc Search)(传统的检索任务)

    用户需求相对动态,而信息库相对静态。搜索引擎就是一个典型的即兴搜索任务,用户不断输入代表不同需求的查询,系统从后台相对静态的信息库中返回匹配的信息

  • 过滤(Filtering)(信息推荐)

    与即兴搜索任务不同,信息推荐任务的用户需求是用户的兴趣,该需求在一段时间内相对静态,而其面对的信息却在不断动态变化。

注:过滤通常还有应用层面的另一种含义,比如垃圾邮件过滤、不良网页过滤等应用中提到的“过滤”。这个过滤并不强调用户兴趣的静态性和信息的动态性,而往往强调的是任务的结果,即去掉不需要的信息。本文介绍的不是这个层面的“过滤”

信息推荐包括什么?

用户兴趣和物品在计算机中通常都要进行形式化建模,即转化成计算机的某种内部表示。在此基础上,计算两者的匹配程度,匹配程度高的物品推荐给用户。并且不会只执行一遍,系统会根据用户的反馈对用户的兴趣模型进行调整更新

【CIPS 2016】(11-12章)信息检索、信息推荐与过滤 (研究进展、现状&趋势)_第3张图片

用户兴趣的建模

  • 信息推荐的目的就是向用户推荐其感兴趣的物品。如何获取并刻画用户的兴趣是信息推荐所面临的首要科学问题

  • 用户是否直接提供兴趣数据?

    • 提供兴趣数据(物品评分/兴趣列表)—>显式建模

      • 建模过程只需要从中构建相应的特征表示即可
    • 不直接提供—>隐式建模

      • 可以根据用户的浏览、点击、收藏等行为数据来预测用户的兴趣
      • 出于惰性或者隐私保护需要,用户并不愿意显式地提供兴趣数据,因此,隐式建模是目前更主流的用户兴趣建模方法
      • 缺点:隐式建模中用户的行为数据往往带有噪音,如何从中选择高质量的数据是用户兴趣建模所需解决的问题之一。
  • 从用户兴趣建模的结果区分

    • 基于浅层语义的方法

      • 关键词表达式(典型代表):通过关键词组合来表示用户的兴趣
      • 向量表示法:通过将用户的兴趣表示成向量,系统可以通过向量空间中的计算方法来进行推荐
    • 基于语义概念或知识的方法

      • 将用户兴趣表示成某种语义网络、或者统计推理规则、或者关键词之间的关联关系来进行推荐
  • 用户的兴趣往往十分广泛,因此建模时要考虑用户的兴趣多样性问题。并且用户的兴趣还会随着时间的推移发生变化,建模时也要及时对用户的兴趣进行更新

物品的建模

  • 目的:构建物品的某种形式化表示

  • 最常见的方法:将物品表示为其重要特征或属性表示的向量,涉及到重要特征的选择问题和特征的表示问题

    • 特征选择:借用传统文本分类中的特征选择方法

    • 特征表示:借用传统文本检索的TF-IDF表示方法

      • 从属性在物品内的出现次数(比如文本中的某个词语或图像中的某种颜色)和出现属性的物品数目(比如文本中出现某个词语或图像库中出现某种颜色的对象数目)两个方面来综合考虑属性的权重

        前者刻画了属性的代表性,即该属性在物品内部出现越多,则意味着该属性的权重越大;后者刻画了属性的区别性,即该属性在所有物品中出现越多,则意味着其区别性不大,此时反而要降低权重

  • 需要指出的是,物品和用户可以采用不同的表示方法,只要满足用户-物品相似度计算的输入要求即可

  • 物品的建模主要需要考虑物品关键特征的提取,要面向用户可能的兴趣,来抽取相应的本质特征并进行表示

用户兴趣-物品的匹配

  • 最关键的一步是计算用户兴趣和物品之间的匹配度,匹配度越大,推荐的可能性也越大。匹配度计算主要考虑用户的满意度。

  • 匹配方法1:基于统计的方法

    • 用户兴趣和物品往往表示成某种概率统计量(如向量或者属性的某种概率统计值),在进行匹配时,可以基于这些概率统计量来计算两者的匹配度
    • 可以采用传统中的文本检索模型(如向量空间模型、概率模型、统计语言模型)或者分类模型(如 k-近邻、朴素贝叶斯、支持向量机)来进行计算
    • 为了克服原始向量空间匹配度计算的不足,一些方法将用户兴趣和物品通过矩阵分解或其他方法映射到某个隐性空间,然后再进行匹配度计算
  • 匹配方法2:基于规则的方法

    • 用户的兴趣往往表示成类似于“IF…THEN…ELSE…”之类的规则表达式,用户兴趣-物品的匹配就是规则匹配的过程。

    • 用户兴趣和匹配度的计算,要同时考虑效果和效率问题

      • 在效果上,尽量推荐用户感兴趣的结果,但是用户感兴趣不一定是匹配度最大,有时候要考虑物品的新鲜度、多样性等因素
      • 在效率上,如何在极大规模的数据条件下进行快速的推荐是一个十分重要的研究问题

目前难点及解决办法

  • 数据稀疏性(Data Sparsity)问题

    • 信息推荐可以认为是根据已有用户对物品的喜好情况(如通过评级或评分来表示)来预测未知的用户-物品喜好情况,实际用户表示过喜好的物品远小于系统所需用户和物品

    • 解决办法1:将用户对未评分项目的评分设为一个固定的缺省值,或者设为其他用户对该项目的平均评分(简单,但并不能从根本上解决)

    • 解决办法2:预测评分的方法来填充用户-物品矩阵,能够产生较理想的推荐效果

      典型的预测评分方法包括 BP 神经网络、朴素贝叶斯、矩阵分解等方法

    • 解决办法3:传递法,首先构建用户图或物品图或用户-物品图,然后图上运行随机游走之类的算法来填充矩阵从而进行推荐。

    • 解决办法4:通过融合上下文(时间、位置、人口统计学信息、物品的标签信息)的做法也可以认为是某种程度上弥补了数据性稀疏性的不足。

  • 冷启动(Cold Start)问题

    • 冷启动问题是指新用户或者新物品面对的“推荐困难”问题。对于新注册用户而言,由于还没有充分了解其喜好,因此无法对其进行有效推荐
    • 解决办法1:赌博机(Bandit)算法常用于处理推荐中的冷启动问题。它的主要思想是通过多次尝试加上概率预估,来选择最有可能获得最大收益的用户兴趣来进行推荐
    • 解决办法2:利用用户的描述信息(如人口统计学信息)或者行为信息进行推荐。
  • 大规模计算问题

    • 在巨大的规模条件下为大量的在线用户提供个性化快速推荐,是一个很大的挑战。此外,推荐系统的推荐精度和实时性有时是一对矛盾,大部分推荐技术为了保证实时性,是以牺牲推荐系统的推荐质量为代价的。在提供实时推荐服务的同时,如何有效提高推荐的推荐质量,有待进一步的研究
    • 解决办法1;引入分布式计算框架(如 Hadoop),对问题的规模分而治之进行求解。
    • 解决办法2:减少匹配计算的次数,比如引入 Hash 算法,来剔除那些不需要进行匹配计算的用户-物品对
  • 其他:比如推荐系统的评价、推荐结果的可解释、推荐系统的多目标、推荐系统的被攻击等等问题

  • 深度学习和推荐的结合

信息推荐方法

基于内容过滤(Content-based Filtering)的推荐方法

  • 又被称为基于感知过滤(Cognitive Filtering)的方法。一种“直接”计算用户兴趣-物品的方法。这类方法通过直接计算用户兴趣和待推荐物品的匹配度进行推荐
  • 基本思想是给用户推荐与他们喜欢的物品在内容上比较相似的物品
  • 最主要的任务就是计算物品之间的相似度
  • 向量空间模型:对物品内容中关键特征进行抽取,接着利用诸如 TF-IDF 的权重模型计算这些关键特征的权重,然后通过夹角余弦、内积等方式计算物品之间的相似度,最后向用户推荐其没有表态是否喜欢的物品集合。计算物品相似度的关键环节与使用关键词特征对物品建模
  • 受到特征抽取方法的限制,不能充分考虑用户的个性化等缺点,因此该方法的推荐效果不能令人满意

基于协同过滤(Collaborative Filtering)的推荐方法

  • 也称为基于社会过滤(Sociological Filtering)的方法,一种“间接”计算用户兴趣和待推荐物品匹配度的方法。

  • 基本思想:“物以类聚,人以群分”

    喜欢相似物品的用户兴趣也相似,或具有相似 兴趣的用户喜欢的物品也相似。

  • 基于内存或记忆(Memory based )的协同过滤方法

    • 这类方法往往通过计算其他用户兴趣和当前物品的匹配度(基于用户(User based)的协同过滤推荐)或者当前用户兴趣和其他物品的匹配度(基于物品(Item based)的协同过滤推荐)来估计当前用户兴趣-当前物品的匹配度。

      基于用户(User based)的协同过滤推荐和基于物品(Item based)的协同 过滤推荐统称为基于内存或记忆(Memory based )的协同过滤方法

    • 在计算物品相似度的时候,共同的用户比较多,所以基于物品协同过滤的推荐效果一般比基于用户的协同过滤的推荐效果要好。

    • 基于物品的协同过滤方法的另外一个好处是,容易给推荐结果提供合理的解释,而合理的解释在推荐系统中有着非常重要的作用

  • 基于模型(Model based)的推荐算法

    • 通过设计机器学习、数据挖掘等模型使得系统能够学习在训练数据集中的复杂模式,然后基于学习到的模型对测试集合或者现实世界中的数据进行预测
    • 比如:贝叶斯模型、聚类模型、隐语义模型、矩阵分解(Matrix Factorization)模型、受限玻尔兹曼机(RBM)以及基于图的模型、基于深度学习的方法

其他:引入外部资源的方法

  • 基于人口统计学的过滤方法

    • 利用用户的人口统计学特征。每个用户都有自己的人口统计学(Demographic)特征,包括年龄、性别、职业、学历、居住地、国籍等。这些信息对预测用户的兴趣也起着重要的作用。

      例如推荐给儿童动 画片,推荐给青少年男女偶像剧,推荐给老年人戏曲等等。

    • 优点:可有效解决注册用户的冷启动问题

    • 缺点:推荐粒度比较大,只区分了不同的群体,并没有真正实现用户的个性化,并且很多用户由于隐私原因不愿意提供真实的信息

  • 基于社会化过滤的推荐方法

    • 契机:随着社交网站(例如 Twitter、新浪微博等网站)的兴起,大量用户之间具有社交关系。

    • 最常见的做法是在利用传统用户-物品喜好信息的基础上,增加用户的之间的信任度信息,从而联合构建信息推荐模型。

      在利用用户之间的信任度时,还可以对社交网络中的社区进行挖掘,从而在进行推荐时同时考虑两两朋友之间的关系及用户组的兴趣模型.

    • 优点;可以使用社会关系缓解在电子商务或者其他推荐系统中遇到的数据稀疏性问题;可以推荐出新的物品,从而增加结果的多样性(Diversity)和用户的惊喜度(Serendipity)

    • 缺点:用户之间的社会关系形成原因很多,但是只有兴趣相近的关系对用户推荐有比较大的作用,如何鉴别不同的社会关系对预测用户不同行为的作用是一个重要的研究方向

  • 基于位置的过滤

    • 契机:随着移动终端、无线网络的普及,在很多智能手机或者其他设备上都有 GPS 定位的功能,
    • 比如通过用户的位置,进行对用户推荐在他附近的好友,以及在他附近的他可能喜欢的商场或者附近旅游的景点等
    • 可以利用不同的用户在不同时间下的活动信息,对用户进行推荐。
    • 位置信息往往和传统用户-物品数据综合使用。

展望及发展趋势

  1. 趋势1:与具体领域的结合是推荐领域最重要的研究话题。通用的推荐技术不充分与领域的具体问题相结合,难以发挥出最佳效果。因此,在推荐中充分考虑领域知识、领域数据的特点,是领域信息推荐的重要研究方法

  2. 趋势2:深入理解用户的需求,从帮助用户完成特定任务的多个环节入手,打通不同平台与应用之间的鸿沟,扩展推荐目标对象的类型,融合多个领域、多种应用和平台、多种模态的数据,进行基于任务的跨领域异质信息的精准推荐

  3. 挖掘并综合利用上下文信息来提高推荐的可靠性,如融入位置信息的推荐

  4. 可解释的推荐:传统的推荐方法基本都是黑盒的,没有给出充分的有说服力的理由。

  5. 极大规模下的实时推荐、与深度学习模型的有效结合、多目标下的推荐、对抗对推荐系统的攻击等


总结

近年来,包括 Apple 公司 Siri,微软公司 Cortana,谷歌公司 Google Now 等在内的深度整合交互式搜索功能的移动互联网新产品逐渐增多。由深度学习、强化学习等技术推进的新一轮人工智能技术研究热潮中,交互式搜索及其代表性应用人机对话系统由于与图灵测试的密切关联受到学术界与工业界共同的密切关注。搜索引擎涉及的数据对象已经扩展到包括虚拟空间、物理世界、人类社会在内的泛在网络空间中。另一方面,随着用户的增长以及智能手机和平板等智能设备的普及,搜索引擎的使用场景更为多样化,使得使得用户的搜索意图相应的变得多样化、异质化,搜索意图分析已经成为当前各类搜索引擎技术发展的核心环节之一。以知识图谱为代表的语义搜索(Semantic Search)将语义 Web 技术和传统的搜索引擎技术结合,是一个很有研究价值
但还处于初期阶段的课题。总之,纵观信息检索研究发展的态势和技术现状,仍有很多问题需要我们去深入研究,

从信息推荐技术的发展来看,与具体领域的结合是推荐领域最重要的研究话题。随着神经网络以及各种Word Embedding方法的普及,如何利用深度学习进行有效推荐、在推荐中如何保护用户的隐私、如何对抗对推荐系统的攻击、如何实现多种目标下的信息推荐,都是十分重要的研究课题,值得我们进一步研究。

彩蛋

Next blog:自动问答(Chapter 13)& 机器翻译(Chapter 14)

你可能感兴趣的:(CIPS,2016,自然语言处理,nlp,信息检索)