PB10210016 徐波-第五次作业Chp.6 Ranking (10.15)
假定已知文档d1和d2和查询q的词项以及词频如下:
d1:(<2010,1>,<世博会,3>,<中国,1>,<举行,1>)
d2:(<2005,1>,<世博会,2>,<1970,1>,<日本,1>,<举行,1>)
q:(<2010,1>,<世博会,2>)
请给出文档d1、d2以及查询q的基于tf-idf权值的向量表示,然后分别计算q和d1、d2的余弦相似度,并说明q和哪个文档更相关。
解答:基于tf-idf权值的向量表示:
tf:
t |
d1 |
d2 |
q |
2010 |
1 |
0 |
1 |
世博会 |
3 |
2 |
2 |
中国 |
1 |
0 |
0 |
举行 |
1 |
1 |
0 |
2005 |
0.0 |
1 |
0 |
1970 |
0.0 |
1 |
0 |
日本 |
0.0 |
1 |
0 |
W:
t |
d1 |
d2 |
q |
2010 |
0.3010 |
0.0 |
0.3010 |
世博会 |
0.0 |
0.0 |
0.0 |
中国 |
0.3010 |
0.0 |
0.0 |
举行 |
0.0 |
0.0 |
0.0 |
2005 |
0.0 |
0.3010 |
0.0 |
1970 |
0.0 |
0.3010 |
0.0 |
日本 |
0.0 |
0.3010 |
0.0 |
故:基于tf-idf权值的向量表示:
d1:w=(0.3010,0,0.3010,0,0,0,0)
d2:w=(0,0,0,0,0.3010,0.3010,0.3010)
q: w=(0.3010,0,0,0,0,0,0)
余弦相似度(w):
t |
d1 |
d2 |
q |
q*d1 |
q*d2 |
2010 |
0.301 |
0 |
0.301 |
0.090601 |
0 |
世博会 |
0 |
0 |
0 |
0 |
0 |
中国 |
0.301 |
0 |
0 |
0 |
0 |
举行 |
0 |
0 |
0 |
0 |
0 |
2005 |
0 |
0.301 |
0 |
0 |
0 |
1970 |
0 |
0.301 |
0 |
0 |
0 |
日本 |
0 |
0.301 |
0 |
0 |
0 |
平方和 |
0.181202 |
0.271803 |
0.090601 |
|
|
求和 |
|
|
|
0.090601 |
0 |
Cos(q,d1)=0.0906/=0.7071
Cos(q,d1)=0/=0
由上分析可得q和d1文档更相关。
PB10210016 徐波