tf-idf权值的向量表示、余弦相似度

PB10210016  徐波-五次作业Chp.6 Ranking (10.15)

假定已知文档d1d2和查询q的词项以及词频如下:
d1(<2010,1>,<世博会,3>,<中国,1>,<举行,1>) 
d2(<2005,1>,<世博会,2>,<1970,1>,<日本,1>,<举行,1>)
q(<2010,1>,<世博会,2>)
请给出文档d1d2以及查询q的基于tf-idf权值的向量表示,然后分别计算qd1d2的余弦相似度,并说明q和哪个文档更相关。

解答:基于tf-idf权值的向量表示

 

tf:

t

d1

d2

q

2010

1

0

1

世博会

3

2

2

中国

1

0

0

举行

1

1

0

2005

0.0

1

0

1970

0.0

1

0

日本

0.0

1

0

W:

t

d1

d2

q

2010

0.3010

0.0

0.3010

世博会

0.0

0.0

0.0

中国

0.3010

0.0

0.0

举行

0.0

0.0

0.0

2005

0.0

0.3010

0.0

1970

0.0

0.3010

0.0

日本

0.0

0.3010

0.0

故:基于tf-idf权值的向量表示

d1:w=(0.3010,0,0.3010,0,0,0,0)

d2:w=(0,0,0,0,0.3010,0.3010,0.3010)

q: w=(0.3010,0,0,0,0,0,0)

余弦相似度(w)

t

d1

d2

q

q*d1

q*d2

2010

0.301

0

0.301

0.090601

0

世博会

0

0

0

0

0

中国

0.301

0

0

0

0

举行

0

0

0

0

0

2005

0

0.301

0

0

0

1970

0

0.301

0

0

0

日本

0

0.301

0

0

0

平方和

0.181202

0.271803

0.090601

 

 

求和

 

 

 

0.090601

0

 

Cos(q,d1)=0.0906/=0.7071

Cos(q,d1)=0/=0

由上分析可得qd1文档更相关。

PB10210016  徐波

 

你可能感兴趣的:(tf-idf权值的向量表示、余弦相似度)