Rocchio 1971算法进行相关性反馈题目

PB10210016  徐波-四次作业Chp.5 Queries (10.8)

1.假定初始查询Q为“extremly cheap DVDs cheap CDs”。文档d1包含词项“cheap CDs cheap software cheap DVDs”,文档d2包含“cheap thrills DVDs”。用户标记d1为相关文档,d2为不相关文档。假定我们直接使用词项频率作为文档向量中词项的权重,并采用Rocchio 1971算法进行相关性反馈,其中α=1,β=0.75,γ=0.25,请给出修改后的查询向量。

解答:

单词

extremly

cheap 

DVDs

CDs

software

thrills

Original query

1

2

1

1

0

0

Positive Feedback

0

3

1

1

1

0

Negative feedback

0

1

1

0

0

1

因为α=1,β=0.75,γ=0.25,query vector =α*Original query vector +β*Positive Feedback vector —γ*Negative feedback vector 

单词

extremly

cheap 

DVDs

CDs

software

thrills

α*Original query

1

2

1

1

0

0

β*Positive Feedback

0

2.25

0.75

0.75

0.75

0

γ*Negative feedback

0

0.25

0.25

0

0

0.25

query vector 

1

4

1.5

1.75

0.75

-0.25

故最后答案为:

单词

extremly

cheap 

DVDs

CDs

software

thrills

query vector 

1

4

1.5

1.75

0.75

0

2.在实际的Web搜索引擎中我们很少使用相关性反馈技术,试分析一下其中的原因,给出至少3个原因。

解答:

① 相关性反馈技术会增加搜索引擎服务器的负担。现代搜索引擎能够访问的Web网页数量已经达到上十亿的规模,哪怕用户只是搜索其中很少的一部分内容,基于全文搜索技术的搜索引擎也能返回成千上万的页面。即便这些结果网页都是用户所需要的,用户也没有可能对所有的网页浏览一遍,所以能够将用户最感兴趣的结果网页放于前面,势必可以增强搜索引擎用户的满意度。

② 搜索引擎用户自身的检索专业能力通常很有限。在最为普遍的关键词检索行为中,用户一般只是键人几个词语。例如,Spink等曾对Excite等搜索引擎的近300位用户做过实验调查,发现人均输入的检索词为3.34个。国内部分学者也有相似的结论,发现90%左右的用户输入的中文检索单字为2~6个,而且2字词居多,约占58%,其次为4字词(约占18%)和3字词(约占 14%)。

③ 操作过程麻烦,难以使用户用起来方便。多数用户都寄希望于搜索引擎能够自动地为他们构造有效的检索式。由于缺乏过去联机检索中常常具备的检索人员,因此,用户实际的检索行为与用户理想的检索行为存在事实上的差距,检索结果的不满意也是不奇怪的。

 

PB10210016  徐波

 

你可能感兴趣的:(Rocchio 1971算法进行相关性反馈题目)