[#0x002C] IR经典模型之向量模型

1. 向量模型同样将dj和qcc同级计算,采用的同级方式是扩展qcc到t维

 

2. 相似度计算

  • 依旧有dj = {w1j, w2j, …, wtj},但这里的wij不再是二元值,而是一个加权值;同样定义qcc = {w1, w2, ..., wt},这里的wi也是一个加权值
  • sim(dj, qcc) = dj • qcc / (|dj| * |qcc|), dj • qcc为向量点乘运算
  • 一次检索的过程是根据qcc来和所有dj ∈ D(文档集合),计算出一组sim值,然后依据sim值来排序D,返回前排部分文档(可自定义阈值,比如返回sim值大于0.5的或是D排序后的前30%文档)
  • |dj|² = ∑i (wij²);|qcc|² = ∑i (wi²),对于一次检索而言,|qcc|值对排序不会产生任何影响;dj • qcc =  ∑i (wij * wi)
  • term freqency(词频):表示词ki在文档dj中出现的频率,TFij = Nij / ∑t Ntj,Nij为词ki在文档dj中出现的次数,∑t Ntj为所有词在文档dj中出现的次数和,即dj包含的总词数。若词ki的TF值越高,则说明ki越能代表文档dj
  • inverse doucument frequency(逆向文档频率):设|Di| = {d|d∈D且ki∈d},|Di|值即表示文档集D中有这么多篇文档包含了词ki;IDFi = log(|D| / |Di|),|D|为文档集中的文档个数。若IDFi值越大,说明D中包含ki的文档越少,从而ki用来区分D中不同文档的能力也就越大。
  • wij = TFij * IDFi
  • wi = (½ + ½ * TFij) * IDFi

你可能感兴趣的:(模型)