搜索引擎Indri系列:建立索引 (Indexing)&检索&评价 (Evaluation)

在为文档集建立索引时,需要执行IndriBuildIndex path-to-to-index_parameter_file。这里的index_parameter_file是xml格式的参数文件,用来配置索引模型的参数。
下面详细说明参数的使用方法。

 



    1G  #运行索引需要的内存,数字后可加K/M/G来表示大小,例如100M=100000000
    /home/PROJECT/Index #存放生成的索引的路径,注意:重新生成索引时要把原索引删除
     #词干提取,分为krovetz和porter,默认无词干提取
        krovetz
     

     #指定停用词,默认无停用词
        stopword
     
    
      #可多次指定
        /home/Collections/Volume1 #需要建立索引的语料的存放路径
        trectext #文档类型,有trectext, trecweb, html, xml, pdf, txt等,详见https://sourceforge.net/p/lemur/wiki/Indexer%20File%20Formats/)
    /path/to/file #包含语料对应的偏移标注的文件的存放路径,见https://sourceforge.net/p/lemur/wiki/Inline%20and%20Offset%20Annotations
 

你可能感兴趣的:(深度学习)