搜索引擎Indri系列:检索 (Retrieval)

query parameter file 中的参数写在xml格式的文本中。下面详细说明参数的使用方法。

          
    method:linear,collectionLambda:0.4,documentLambda:0.0  
    /home/Index
    1000
      
        51  
        #combine(Airbus Subsidies)
        clueweb09-en0000-00-00004    #指定该参数后,query evaluation将在这些文档中进行
        clueweb09-en0000-00-00005clueweb09-en0000-00-00006
          
      
        52  
        #combine(South African Sanctions)
     

    10
    20
    0
    0.5

    true
    1
    indri_query_test
  

Retrieval model

  • Indri提供TF-IDF,BM25,Language Model三种检索模型。
  • Language Model提供Jelinek-Mercer,Dirichlet,Two-Stage三种smoothing方法。
  • Indri默认使用Language Model。
  • TF-IDF,BM25通过设置,Language Model通过设置。
method:linear,collectionLambda:0.4,documentLambda:0.0 #Jelinek-Mercer
method:dirichlet,mu:2500 #Dirichlet
method:twostage,mu:2500,lambda:0.4 #Two-Stage
tfidf,k1:1.2,b:0.75 # TF-IDF
okapi,k1:1.2, k3:7, b:0.75 #BM25

注意这里的值均为Indri默认值。

Feedback Model

  • Indri的pseudo-relevance feedback model 是依据 (LavrenkoCroft, 2001)中的模型实现的。
  • 只有TF-IDF和Language Model支持feedback,BM25不支持。
  • 参数说明:
 fbDocs:指定用于Feedback Model的文档数,整型。
fbTerms:指定用于Feedback Model的词数,整型。
fbMu:Feedback Model中会使用Language Model进行第一次检索,这里的mu值就是Language Model的参数,默认为0,浮点型。
fbOrigWeight:指定原查询的词与扩展的词的权重。默认为0.5,浮点型。

参考文献:

  1. https://sourceforge.net/p/lemur/wiki/IndriRunQuery/
  2. http://lemur.sourceforge.net/indri/IndriRunQuery.html
  3. https://sourceforge.net/p/lemur/wiki/Indri%20Retrieval%20Model/
  4. http://lemur.sourceforge.net/indri/IndriParameters.html

你可能感兴趣的:(搜索引擎Indri系列:检索 (Retrieval))