Large-Scale Validation and Analysis of Interleaved Search Evaluation阅读摘要

1. Introduction

  专家判断与数据指标
  有效性,准确性和局限性
  介绍两种interleaving方法,通过问题验证和评估interleaving;是否与传统评估方法一致,是否与其他在线指标一致,敏感性和可靠性如何比较,以及如何在点击的不同信用分配方案中进行选择;最后指出interleaving的局限性。

2. Retrieval Evaluation And Related Work(检索评估和相关工作)

  文档和查询的相关性:手动判断Cranfield approach,耗时且昂贵,但可重复使用,不能理解用户的实际信息需求,且不一定与用户绩效指标相关;用户的隐式反馈,分为两类绝对度量和成对偏好,之前的研究大多属于前者,这里的关键问题是处理展示偏见(如位置),列举了一大堆研究;不同于假设用户行为提供了一个绝对的质量数据,成对偏好仅假设可以通过用户行为识别多个选项中更好的一个,如启发式的…,不过同大多数偏好方法不同,其目标是直接评估不同排名的相对质量。
  第一种interleaving方法被称为balanced interleaving,blabla,interleaving的发展
  交织方法不假设观测的用户行为在绝对规模上随检索质量而变化,相反,他们假设用户在直接比较中识别首选方案。
  balanced interleaving和team-draft leaving,在重复文档的处理方式上有所不同。

3. Interleaving Algorithms(算法介绍)

3.1. Balanced Interleaving Method
  构建方法,归属原则, Delta AB
  缺陷:如果AB仅仅是一个错位,会导致随机点击的不平衡
3.2. Team-Draft Interleaving Method
  random first pick when it is even
  缺陷

4. Experiment Design And Search Engines Used(实验与数据集)

4.1. Experiment Types
4.2. ArXiv.org Full-Text Search
  手动扰乱
4.3. Bing Web Search
  0.2%的改动(MAP,NDCG),小的参数改动,处理罕见查询(仅影响少部分查询)
4.4. Yahoo! Web Search
  不同算法,同种算法的相同参数,DCG@5的差距很小
4.5. Statistical Methodology
  bootstrap percentiles method
  蒙特卡洛方法,k=10000

5. Does Interleaving Agree With Expert Assessments?(Interleaving与专家评估)

专家意见不是groud truth。
5.1. Agreement in the Direction of Preference
  结果同方向,即DCG正,interleaving正
5.2. Correlation of the Magnitude of Difference
  不但方向相同,相关性也高(貌似有个实验不这么认为)
5.3. Internal Consistency of Interleaving Preferences 内在一致
  强传递性
5.4. Summary

6. Do Absolute Metrics And Interleaved Evaluation Agree?(绝对指标与interleaving)

6.1. Absolute Metrics
6.2. Results
  面对这些实验,绝对指标的变化;
  绝对指标欠缺一致性,某些指标没有明确的正向或者负向意义
6.3. Summary

7. How Much Click Data Is Needed To Obtain A Statistically Reliable Preference?(达到统计差异的数据量)

interleaving和绝对指标的灵敏度比较
7.1. Results
  x相同的情况下,绝对指标数据量是interleaving的两倍
  由于查询之间并不一定独立,这里有新的算法,Bootstrap Monte Carlo Method Using Resampling of Sequences(ALGORITHM4)逐步延长时间窗口,达到与总样本相同结论时(99%)的时间长度。
7.2. Summary

8. What Is The Value Of A Click Relative To A Judged Query?(interleaving的数据量与专家评审数据量对比)

8.1. Results
  NDCG@5得到结论需要的数据量,和interleaving得到结论需要的数据量。
8.2. Summary

9. How Sensitive Is Interleaving To Different Click Aggregation Schemes?(不同点击聚合方式的得分函数的效果)

前面的interleaving都是简单的点击聚合,这里讨论更多的点击聚合方式
9.1. Click Aggregation Strategies
9.2. Evaluation Methodology
9.3. Results
9.4. Summary

10. How Can One Learn A More Sensitive Click Scoring Strategy?(简单算法解决点击同权)

第9部分的缺陷:对每个点击同权
10.1. Problem Formulation
10.2. Inverse z-Test
10.3. Evaluation Methodology
10.4. Experiments on ArXiv.org (Team-Draft Interleaving)
10.5. Experiments on Yahoo! (Balanced Interleaving)
  图8图9的结论看懂了,但是表示形式没看懂
10.6. Summary

11. Limitations, Discussion, And Future Work

  我们注意到我们的研究是一项实地研究,而不是具有定性反馈的受控实验室研究。这固有地限制了我们可以进行的评估类型。此外,我们的实验是使用少量到中等数量的检索函数进行的,并且仅在有限数量的搜索域内进行。因此,在我们的研究中,用户行为的许多属性(其中许多将在下面讨论)无法可靠地测量到高精度或通用性。
11.1. Click versus Relevance
  传统信息检索并不将点击跟相关关联起来(专家意见不是groud truth)
  点击更多的反映了用户对相关性的期望,而专家则判断的是目标页面的相关性
    搜索结果片段的影响:摘要的影响
  着陆页的相关性影响:相关性难以定义,如搜adobe,看起来官网主页才是最相关的,但实际上很多人只是想找adobe最热门的某软件;模糊查询,信息深度与收益的折中,以及权威性与信息量的折中
  更可靠的方式是将专家意见和隐式数据指标合并成一个指标
11.2. Biases in Interleaving
  如第三章里提到的,interleaving会产生bias
11.3. Other Limitations and Future Research
  1.交错本身是一种改变搜索体验的干预措施,如两个良好多样性的算法,交错后可能产生差的多样性的结果
  2.传递性需要进一步检验
  3.inverse z test(future work)

12. Conclusions

这个conclusions回答每章标题的问题。

你可能感兴趣的:(数据分析)