Solr的自动完成/自动补充实现介绍(3)

原文URL: http://java.dzone.com/news/solr-and-autocomplete-part-3?mz=33057-solr_lucene  

在之前的两个部分( part1 part2 )中,我们学会了如何配置和查询solr来获取自动完成的功能。今天,我们来看一下如果为suggester添加字段,以这种方式来提供自动完成的功能。 
 

组件配置  
在上一期的配置组件中添加如下的参数: 
Xml代码  
  1. <str name="sourceLocation">dict.txt</str>  

这样我们的配置就变成了: 
Java代码  
  1. <searchComponent name="suggest" class="solr.SpellCheckComponent">   
  2. <lst name="spellchecker">   
  3. <str name="name">suggest</str>   
  4. <str name="classname">org.apache.solr.spelling.suggest.Suggester</str>    
  5. <str name="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>   
  6. <str name="field">name_autocomplete</str>   
  7. <str name="sourceLocation">dict.txt</str>   
  8. </lst>   
  9. </searchComponent>  

使用这个参数,我们让suggest组件使用名叫dict.txt的文件作为solr的配置字典。 

handler配置  
handler的配置也需要添加额外的一个参数: 
Xml代码  
  1. <str name="spellcheck.onlyMorePopular">true</str>  


完整的配置为: 
Xml代码  
  1. <requestHandler name="/suggest" class="org.apache.solr.handler.component.SearchComponent">   
  2. <lst name="defaults">   
  3. <str name="spellcheck">true</str>   
  4. <str name="spellcheck.dictionary">suggest</str>    
  5. <str name="spellcheck.count">10</str>   
  6. <str name="spellcheck.onlyMorePopular">true</str>   
  7. </lst>   
  8. <arr name="components">   
  9. <str>suggest</str>   
  10. </arr>   
  11. </requestHandler>  

这个参数告诉solr,当查询的结果数多于设定的count数时,返回点击数更多的那些。 

Dictionary  
我们告诉solr来使用这个字段,那么这个字段长的什么样呢?下面来看一个例子: 
引用

# sample dict 
Hard disk hitachi 
Hard disk wd    2.0 
Hard disk jjdd    3.0 

这个字典的结果是什么样的呢?每个词组放在单独的一行中,每行以改词组的权重为结束(权重与词组之间以TAB字符分隔),这个权重就是跟 spellcheck.onlyMorePopular=true  香港的参数,默认值为1.0。该字段必须以UTF-8的编码格式存储。每行前有#字符的将被忽略(注释行)。 

数据  
以这种方式,我们不需要数据,字段就是数据。 

运行  
在重新构建suggester之后,我们来看一下它的运行情况,输入命令: 
引用
/suggest?q=Har

得到的结果为: 
Xml代码  
  1. <?xml version="1.0" encoding="UTF-8"?>   
  2. <response>   
  3. <lst name="responseHeader">    
  4. <int name="status">0</int>    
  5. <int name="QTime">0</int>   
  6. </lst>   
  7. <lst name="spellcheck">   
  8. <lst name="suggestions">   
  9. <lst name="Dys">      
  10. <int name="numFound">3</int>     
  11. <int name="startOffset">0</int>      
  12. <int name="endOffset">3</int>       
  13. <arr name="suggestion">       
  14. <str>Hard disk jjdd</str>     
  15. <str>Hard disk wd</str>   
  16. <str>Hard disk hitachi</str>     
  17. </arr>    
  18. </lst>   
  19. </lst>   
  20. </lst>   
  21. </response>  


结束语  
跟预期一样,suggest的结果是按权重排序的。这里的大小写敏感(注意首字母). 

你有什么建议呢?如果我们有一个很好的字典,这个字典的权重是基于用户的查询行为产生的,那么用户肯定会喜欢它!如果没有好的字典,还是不要用这种方式的好。 

下一步  
下一期,我们看一下不同方式的suggest产生的索引结构和大小。 

你可能感兴趣的:(xml,Solr,Lucene,Dictionary,encoding,disk)