Salton Award——Susan Dumais

 

从今天起,我打算从SIGIR开始学习信息检索的内容,这里的内容包括:

1,Saton Award 大奖获得者的演讲词,以及简单的介绍。

2,Best Paper Award 获奖论文的阅读笔记。

3,Best Student Paper Award 获奖论文的阅读笔记。

我的阅读顺序将逆着时间顺序,即从2009年开始网前推。我是一个初学者,如果有错误之处,请给予指示,非常感谢。

 

今天的主角


今天,首先来认识一下2009年的Salton大奖获得者Susan Dumais,她目前是微软研究院Adaptive Systems & Interaction组的首席研究员。在去微软之前,她的主要工作是利用统计方法实现基于概念的检索,这通常看作潜在语义索引。她的主页是http://research.microsoft.com/en-us/um/people/sdumais/,从她的主页上看到,MSR现在正在招人,有兴趣的读者可以去看看。

 

SIGIR对她的描述


“For nearly thirty years of significant, sustained, and continuing contributions to research, for exceptional mentorship, and for leadership in bridging the fields of information retrieval and human computer interaction. Her contributions to both the theoretical development and practical implementations of Latent Semantic Indexing, question-answering, desktop search, combining search and navigation, and incorporating the user and their context, have all substantially advanced and enriched the field of Information Retrieval.”

 

她的获奖演讲词


题目:An Interdisciplinary Perspective on Information Retrieval

主要内容:我将从以下三个方面来介绍我的工作,使大家了解我(此处的“我”指Salton大奖得主)。

 

1,首先,我将对那些促使我在这个领域工作整整三十年的问题给予描述,并给出我处理这些问题的方法。

 

我对信息检索的兴趣最早开始于80年代初,那时我观察到不同的人对同一物体描述时所用词汇的差异是令人惊讶的。人们在词汇使用方面的这个特征限制了简单的词汇匹配系统的效果,它只对每一个物体分配了一些特定词汇(无论如何精心的选择)来满足用户的需求。(这就是被我们称之为vocabulary mismatch, verbal disagreement, and statistical semantics问题的症状。)我们开发、部署并且评价了我们的解决方案:即收集每个物体的多个别名,以及通过利用潜在语义索引(LSI)这样的技术来降低问题表示的维度。

 

我后来的许多研究有着类似的动机,我们的目标是确定当前检索系统的局限性,并且开发新的算法、交互技术或者评价方法去克服这些限制。我们通过表示和利用用户特征、问题背景、以及检索任务环境的丰富的上下文信息,从而取得了一定的效果。例如,我对用户的兴趣和活动进行建模,来提供个性化的搜索结果并且更好的支持用户去重新找到他们之前浏览过的信息;已发现的反映物体件各种关系的属性和紧密耦合的浏览这些属性来支持更灵活的访问策略(不知道这句话理解的是否正确,原文为:identified attributes that reflect the varied relationships between objects and tightly coupled faceted browsing of these attributes with search to support more flexible access strategies);利用一些简单的任务背景来主动地检索相关信息。虽然这些例子的取得的效果鼓励了我们,但这里还有很多事要做,如在理论上如何使用户信息的表示和任务信息的表示在一致的框架下进行;在实践上扩展评价方法以便能够更好的捕捉搜索的重复性和交互性本质。

 

2,最后,我将指出一些对于信息检索的发展来说比较重要的方面(至少是我认为比较重要的)。

 

第一个需要处理的方面是信息的动态特性和用户在里面的交互信息。这些也许在社会性媒体(例如博客或者wiki)中表现的比较明显,而这些信息仍然是以“传统”的文档和网页展现的。我们如何扩展检索模型以及系统以便超越单一的、静态的信息快照的形式?我们如何为用户建模,使得我们可以在一个会话的多个查询事件中捕捉用户信息需求的变化。

 

另一个需要处理的方面是如何改进对搜索引擎的评价。虽然传统的评价方法工作的很好,但它仍有一些局限性。评价方法需要被扩展以便处理以大规模、多样的、用户交互,这些正是现代信息检索系统的特征。例如,Web搜索引擎,电子商务网站,数字图书馆都从利用Log数据研究用户中获益,这些log数据提供了重要的信息,使得我们可以更好的了解用户在做什么以及搜索结果的好坏程度。当然,在收集这些信息时,面临着很多挑战(如,个人的隐私,实验的可重复性,从含有噪音的数据中提取信息),但是我相信我们必须解决这些问题以便获得前进。我们能不能走的更远一点,来开发一种“活实验室”,在这里面研究人员可以尝试新的想法。

 

结束语: 信息检索的未来需要来自其他领域的研究者之间的合作。

你可能感兴趣的:(工作,搜索引擎,search,任务,attributes,Semantic)