lucene4.x的分组实现

lucene在4.x之前,没有实现分组的功能,如果业务中有需要分组的功能,那么必须的借助第三方的提供的插件,来实现分组,例如Bobo-browse,或者,自己用lucene写分组功能,笔者个人觉得用第三方的分组插件,虽说功能强大,但是比较繁琐,自己写的话,可以实现,但是效率方面却不是很好,在4.x之后,lucene已经自己实现分组功能提供了分组jar包 lucene-grouping-4.2.0.jar ,利用此类可以效率很高完成分组去重功能。下面不在啰嗦,直接贴出代码,如有问题,欢迎指正!

 

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
public  static  List> testGroup(String indexPath,String groupField,String sumField){
         List> map= new  ArrayList>();
         Directory d1= null
          IndexReader read1= null ;
         try {
          d1=FSDirectory.open( new  File(indexPath)); //磁盘索引
           read1=DirectoryReader.open(d1); //打开流
        IndexSearcher sear= new  IndexSearcher( new  MultiReader(read1)); //MultiReader此类可以多份索引的读入
        //但是得保证各个索引的字段结构一致
         GroupingSearch  gSearch= new  GroupingSearch(groupField); //分组查询按照place分组
         Query q= new  WildcardQuery( new  Term(groupField, "*" )); //查询所有数据
           TopGroups t=gSearch.search(sear, q,  0 , Integer.MAX_VALUE); //设置返回数据
           GroupDocs[] g=t.groups; //获取分组总数
           System.out.println( "总数据数" +t.totalHitCount);
           System.out.println( "去重复后的数量:" +g.length);
          for ( int  i= 0 ;i
                ScoreDoc []sd=g[i].scoreDocs;
                String str  =sear.doc(sd[ 0 ].doc).get(groupField);
                int  total=sumcount(str,groupField,sumField,sear);
            //System.out.println("place:"+str+"===>"+"个数:"+g[i].totalHits+);
            System.out.println( "place:" +str+ "===>" + "个数:" +g[i].totalHits);
                HashMap m= new  HashMap();
                m.put( "word" , str);
                m.put( "wx_count" , total+ "" );
                m.put( "wx_total" "10000" );
                map.add(m);
          }
          read1.close(); //关闭资源
            d1.close(); 
         } catch (Exception e){
             e.printStackTrace();
        
         return  map;
     }

至此,已经可以简单的实现分组去重统计的功能了,如果业务比较复杂,例如像报表查询,以及一些特定的统计求和功能,这个就可能需要自己写了 

 

 

http://my.oschina.net/MrMichael/blog/220757

你可能感兴趣的:(搜索引擎,爬虫,java)