新版本的BM25

通过对文档长度的求取可以使之前的结果更好:

代码如下:

 

public class DocLength {
 Hashtable<String, Integer> docLength = new Hashtable<String, Integer>();
 File dir = null;
 File[] files = null;

 public DocLength() {
 }

 public void init()
 {
  this.dir = new File("D:\\page");
  this.files = dir.listFiles();
  try
  {
   for (int i = 0; i < files.length; i++)
   {
    Document doc = new Document();
    File file = files[i];
    FileInputStream fis = new FileInputStream(file);
    String content = "";
    BufferedReader reader = new BufferedReader(
      new InputStreamReader(fis));

    StringBuffer buffer = new StringBuffer("");
    content = reader.readLine();

    while (content != null)
    {
     buffer.append(content);
     content = reader.readLine();
    }
    //System.out.println(buffer.length());
    //System.out.println(file.getName());
    docLength.put(file.getName(), buffer.length());
   }
  }
  catch (Exception e)
  {
   e.printStackTrace();
  }
  //for(Enumeration en = docLength.keys();en.hasMoreElements();)
        //{
         //String sTemp = (String)en.nextElement();
         //System.out.println(sTemp+" :"+docLength.get(sTemp));
         
        //}

 }
 public int getLength(String s)
 {
  return docLength.get(s);
 }

}


 

新的结果比以前应该好一些,因为和lucene原有方法结果更接近了,哈哈^_^(不太科学了):

Enter query:

class org.apache.lucene.search.BooleanQuery
3
查的词: contents:清华
查的词: contents:北大
查的词: contents:交流
文档编号:5215 分数:9.58620111612256 路径:D:\Page\ReadNewsNewsID=6013.asp
文档编号:6617 分数:9.476137050460517 路径:D:\Page\ReadNewsNewsID=7598.asp
文档编号:6588 分数:8.22973675042364 路径:D:\Page\ReadNewsNewsID=7569.asp
文档编号:1590 分数:8.152480135442929 路径:D:\Page\ReadNewsNewsID=11378.asp
文档编号:1355 分数:8.11256365144256 路径:D:\Page\ReadNewsNewsID=11124.asp
文档编号:13099 分数:7.732838300122418 路径:D:\Page\reviewNewsID=3475&page=2.asp
文档编号:5769 分数:7.720278491740871 路径:D:\Page\ReadNewsNewsID=6684.asp
文档编号:3835 分数:7.687283804315611 路径:D:\Page\ReadNewsNewsID=4173.asp
文档编号:605 分数:7.651525587092338 路径:D:\Page\ReadNewsNewsID=10299.asp
文档编号:5037 分数:7.613881501035856 路径:D:\Page\ReadNewsNewsID=5775.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
4
查的词: contents:中国
查的词: contents:经济
查的词: contents:方向
查的词: contents:未来
文档编号:9058 分数:14.938171422315387 路径:D:\Page\readviewreviewID=4222&NewsID=3827.asp
文档编号:2370 分数:14.881333801904368 路径:D:\Page\ReadNewsNewsID=1890.asp
文档编号:5365 分数:14.867283631468565 路径:D:\Page\ReadNewsNewsID=618.asp
文档编号:3795 分数:14.836670611637876 路径:D:\Page\ReadNewsNewsID=4120.asp
文档编号:8794 分数:14.827042304504609 路径:D:\Page\ReadNewsNewsID=9981.asp
文档编号:7039 分数:14.82562677785727 路径:D:\Page\ReadNewsNewsID=8046.asp
文档编号:5526 分数:14.823661139098814 路径:D:\Page\ReadNewsNewsID=6372.asp
文档编号:6385 分数:14.818201755863399 路径:D:\Page\ReadNewsNewsID=7353.asp
文档编号:5373 分数:14.814440580328407 路径:D:\Page\ReadNewsNewsID=619.asp
文档编号:6219 分数:14.802825798221704 路径:D:\Page\ReadNewsNewsID=7163.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
3
查的词: contents:宏观
查的词: contents:宏观调控
查的词: contents:调控
文档编号:361 分数:25.462515633350726 路径:D:\Page\ReadNewsNewsID=1003.asp
文档编号:6471 分数:25.42927022896607 路径:D:\Page\ReadNewsNewsID=7453.asp
文档编号:6856 分数:25.11237790441454 路径:D:\Page\ReadNewsNewsID=7853.asp
文档编号:1594 分数:24.629215157524044 路径:D:\Page\ReadNewsNewsID=11384.asp
文档编号:5920 分数:24.484947224696242 路径:D:\Page\ReadNewsNewsID=685.asp
文档编号:9058 分数:24.365057239390545 路径:D:\Page\readviewreviewID=4222&NewsID=3827.asp
文档编号:5592 分数:24.22364306683 路径:D:\Page\ReadNewsNewsID=6453.asp
文档编号:3576 分数:23.77110499860939 路径:D:\Page\ReadNewsNewsID=3740.asp
文档编号:4252 分数:23.67857811335597 路径:D:\Page\ReadNewsNewsID=4746.asp
文档编号:7156 分数:23.62733316377534 路径:D:\Page\ReadNewsNewsID=8167.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
3
查的词: contents:招生
查的词: contents:信息
查的词: contents:考研
文档编号:2066 分数:21.48605501787222 路径:D:\Page\ReadNewsNewsID=1520.asp
文档编号:4974 分数:21.039848403202598 路径:D:\Page\ReadNewsNewsID=5692.asp
文档编号:934 分数:20.94353834215292 路径:D:\Page\ReadNewsNewsID=1066.asp
文档编号:5966 分数:20.27047127392478 路径:D:\Page\ReadNewsNewsID=6894.asp
文档编号:3795 分数:20.1436792055359 路径:D:\Page\ReadNewsNewsID=4120.asp
文档编号:2140 分数:20.01178325952929 路径:D:\Page\ReadNewsNewsID=1600.asp
文档编号:6385 分数:19.808814217354247 路径:D:\Page\ReadNewsNewsID=7353.asp
文档编号:3900 分数:19.68849071134207 路径:D:\Page\ReadNewsNewsID=4258.asp
文档编号:2686 分数:19.677853312336758 路径:D:\Page\ReadNewsNewsID=2305.asp
文档编号:3967 分数:19.662256287839273 路径:D:\Page\ReadNewsNewsID=4359.asp
Enter query:

class org.apache.lucene.search.TermQuery
1
查的词: contents:课程
文档编号:4123 分数:8.009766527024846 路径:D:\Page\ReadNewsNewsID=4589.asp
文档编号:2107 分数:7.860723237233375 路径:D:\Page\ReadNewsNewsID=1562.asp
文档编号:1675 分数:7.75634460858468 路径:D:\Page\ReadNewsNewsID=11479.asp
文档编号:4501 分数:7.752249395264753 路径:D:\Page\ReadNewsNewsID=5029.asp
文档编号:3830 分数:7.749283291337987 路径:D:\Page\ReadNewsNewsID=4166.asp
文档编号:2080 分数:7.7188854018488 路径:D:\Page\ReadNewsNewsID=1535.asp
文档编号:2014 分数:7.640019150141763 路径:D:\Page\ReadNewsNewsID=1455.asp
文档编号:2079 分数:7.624205037620777 路径:D:\Page\ReadNewsNewsID=1534.asp
文档编号:7360 分数:7.553003203084237 路径:D:\Page\ReadNewsNewsID=8395.asp
文档编号:9058 分数:7.459900277255009 路径:D:\Page\readviewreviewID=4222&NewsID=3827.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
2
查的词: contents:致辞
查的词: contents:校长
文档编号:8246 分数:19.00371080424878 路径:D:\Page\ReadNewsNewsID=9399.asp
文档编号:8242 分数:18.60971145865807 路径:D:\Page\ReadNewsNewsID=9395.asp
文档编号:3398 分数:17.86273254548462 路径:D:\Page\ReadNewsNewsID=3286.asp
文档编号:8282 分数:17.13728104096294 路径:D:\Page\ReadNewsNewsID=9443.asp
文档编号:3649 分数:17.035919545025905 路径:D:\Page\ReadNewsNewsID=3876.asp
文档编号:3653 分数:16.94130370506445 路径:D:\Page\ReadNewsNewsID=3880.asp
文档编号:275 分数:16.56652707466222 路径:D:\Page\newsalllistpage=61.asp
文档编号:4451 分数:16.38804785374391 路径:D:\Page\ReadNewsNewsID=4974.asp
文档编号:3304 分数:15.813135236298024 路径:D:\Page\ReadNewsNewsID=3161.asp
文档编号:1852 分数:15.147972853320402 路径:D:\Page\ReadNewsNewsID=1177.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
2
查的词: contents:设置
查的词: contents:院系
文档编号:4314 分数:16.107047563701865 路径:D:\Page\ReadNewsNewsID=4825.asp
文档编号:1884 分数:15.5667727403013 路径:D:\Page\ReadNewsNewsID=1217.asp
文档编号:5212 分数:14.765724083277526 路径:D:\Page\ReadNewsNewsID=6008.asp
文档编号:3795 分数:13.461524104992522 路径:D:\Page\ReadNewsNewsID=4120.asp
文档编号:2066 分数:13.194776551381441 路径:D:\Page\ReadNewsNewsID=1520.asp
文档编号:8636 分数:11.828642348133524 路径:D:\Page\ReadNewsNewsID=9808.asp
文档编号:8635 分数:11.599665548830888 路径:D:\Page\ReadNewsNewsID=9807.asp
文档编号:934 分数:11.575431409369372 路径:D:\Page\ReadNewsNewsID=1066.asp
文档编号:5891 分数:11.427563605840222 路径:D:\Page\ReadNewsNewsID=6817.asp
文档编号:2630 分数:11.375984770866882 路径:D:\Page\ReadNewsNewsID=2234.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
2
查的词: contents:信息
查的词: contents:导师
文档编号:9098 分数:12.608920879763183 路径:D:\Page\readviewreviewID=4719&NewsID=3443.asp
文档编号:440 分数:12.419449487202819 路径:D:\Page\ReadNewsNewsID=10114.asp
文档编号:13068 分数:12.363476859814664 路径:D:\Page\reviewNewsID=3443.asp
文档编号:13066 分数:12.363435565119085 路径:D:\Page\reviewNewsID=3443&page=1.asp
文档编号:2791 分数:12.352502184636323 路径:D:\Page\ReadNewsNewsID=2436.asp
文档编号:832 分数:12.328799293650283 路径:D:\Page\ReadNewsNewsID=1054.asp
文档编号:2695 分数:12.268054665312537 路径:D:\Page\ReadNewsNewsID=2315.asp
文档编号:8347 分数:12.186684884445915 路径:D:\Page\ReadNewsNewsID=951.asp
文档编号:2696 分数:12.089922678185477 路径:D:\Page\ReadNewsNewsID=2316.asp
文档编号:3058 分数:12.023891622220942 路径:D:\Page\ReadNewsNewsID=2806.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
4
查的词: contents:称号
查的词: contents:集体
查的词: contents:先进
查的词: contents:先进集体
文档编号:8471 分数:52.6105028439186 路径:D:\Page\ReadNewsNewsID=9643.asp
文档编号:7360 分数:47.523250071350574 路径:D:\Page\ReadNewsNewsID=8395.asp
文档编号:141 分数:5.86438113234764 路径:D:\Page\newsalllistpage=191.asp
文档编号:141 分数:0.0 路径:D:\Page\newsalllistpage=191.asp
文档编号:141 分数:0.0 路径:D:\Page\newsalllistpage=191.asp
文档编号:141 分数:0.0 路径:D:\Page\newsalllistpage=191.asp
文档编号:141 分数:0.0 路径:D:\Page\newsalllistpage=191.asp
文档编号:141 分数:0.0 路径:D:\Page\newsalllistpage=191.asp
文档编号:141 分数:0.0 路径:D:\Page\newsalllistpage=191.asp
文档编号:141 分数:0.0 路径:D:\Page\newsalllistpage=191.asp
Enter query:

class org.apache.lucene.search.BooleanQuery
2
查的词: contents:院
查的词: contents:花

文档编号:3818 分数:11.815385739207832 路径:D:\Page\ReadNewsNewsID=415.asp
文档编号:1507 分数:11.769052999153812 路径:D:\Page\ReadNewsNewsID=11287.asp
文档编号:2032 分数:11.26363746744395 路径:D:\Page\ReadNewsNewsID=1475.asp
文档编号:1304 分数:11.057768656640642 路径:D:\Page\ReadNewsNewsID=11071.asp
文档编号:987 分数:11.014346249884426 路径:D:\Page\ReadNewsNewsID=10713.asp
文档编号:6798 分数:10.794585976965738 路径:D:\Page\ReadNewsNewsID=7793.asp
文档编号:1648 分数:10.7482781881927 路径:D:\Page\ReadNewsNewsID=11450.asp
文档编号:1469 分数:10.73777624023981 路径:D:\Page\ReadNewsNewsID=11242.asp
文档编号:460 分数:10.673614764318437 路径:D:\Page\ReadNewsNewsID=10137.asp
文档编号:585 分数:10.65240465613012 路径:D:\Page\ReadNewsNewsID=10280.asp

////////////////////////////////svm

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: 清华 北大 交流
contents:清华
contents:北大
contents:交流
18932 total matching documents
1. D:\Page\ReadNewsNewsID=7598.asp
2. D:\Page\ReadNewsNewsID=6013.asp
3. D:\Page\ReadNewsNewsID=7569.asp
4. D:\Page\reviewNewsID=3475&page=2.asp
5. D:\Page\ReadNewsNewsID=6684.asp
6. D:\Page\ReadNewsNewsID=11124.asp
7. D:\Page\ReadNewsNewsID=11378.asp
8. D:\Page\ReadNewsNewsID=4173.asp
9. D:\Page\ReadNewsNewsID=7462.asp
10. D:\Page\ReadNewsNewsID=6475.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: 中国 (+未来 +经济 +方向)
contents:中国
contents:未来
contents:经济
contents:方向
19114 total matching documents
1. D:\Page\readviewreviewID=22999&NewsID=7138.asp
2. D:\Page\readviewreviewID=4603&NewsID=4243.asp
3. D:\Page\readviewreviewID=3934&NewsID=2415.asp
4. D:\Page\readviewreviewID=3935&NewsID=3118.asp
5. D:\Page\ReadNewsNewsID=1562.asp
6. D:\Page\ReadNewsNewsID=9719.asp
7. D:\Page\ReadNewsNewsID=6930.asp
8. D:\Page\ReadNewsNewsID=7579.asp
9. D:\Page\ReadNewsNewsID=8671.asp
10. D:\Page\ReadNewsNewsID=11626.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: 宏观调控 (+宏观 +调控)
contents:宏观调控
contents:宏观
contents:调控
643 total matching documents
1. D:\Page\ReadNewsNewsID=1003.asp
2. D:\Page\ReadNewsNewsID=6021.asp
3. D:\Page\ReadNewsNewsID=11384.asp
4. D:\Page\ReadNewsNewsID=7598.asp
5. D:\Page\ReadNewsNewsID=6202.asp
6. D:\Page\ReadNewsNewsID=3689.asp
7. D:\Page\ReadNewsNewsID=9701.asp
8. D:\Page\ReadNewsNewsID=5924.asp
9. D:\Page\ReadNewsNewsID=8842.asp
10. D:\Page\ReadNewsNewsID=6652.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: +考研 +招生 +信息
contents:考研
contents:招生
contents:信息
67 total matching documents
1. D:\Page\ReadNewsNewsID=1586.asp
2. D:\Page\readviewreviewID=4222&NewsID=3827.asp
3. D:\Page\ReadNewsNewsID=2794.asp
4. D:\Page\ReadNewsNewsID=1991.asp
5. D:\Page\ReadNewsNewsID=2271.asp
6. D:\Page\ReadNewsNewsID=367.asp
7. D:\Page\ReadNewsNewsID=421.asp
8. D:\Page\Graduate.asp
9. D:\Page\ReadNewsNewsID=4388.asp
10. D:\Page\ReadNewsNewsID=451.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: +课程 +信息
contents:课程
contents:信息
1245 total matching documents
1. D:\Page\ReadNewsNewsID=4589.asp
2. D:\Page\ReadNewsNewsID=1562.asp
3. D:\Page\ReadNewsNewsID=5029.asp
4. D:\Page\ReadNewsNewsID=11479.asp
5. D:\Page\ReadNewsNewsID=4166.asp
6. D:\Page\ReadNewsNewsID=1535.asp
7. D:\Page\ReadNewsNewsID=1534.asp
8. D:\Page\ReadNewsNewsID=1455.asp
9. D:\Page\ReadNewsNewsID=8395.asp
10. D:\Page\ReadNewsNewsID=10423.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: 校长 致辞
contents:校长
contents:致辞
552 total matching documents
1. D:\Page\ReadNewsNewsID=9395.asp
2. D:\Page\ReadNewsNewsID=9399.asp
3. D:\Page\ReadNewsNewsID=5828.asp
4. D:\Page\Special_NewsSpecialID=53&SpecialName=±±??′ó?§1ú?ò·¢?1?D???o3éá¢.asp
5. D:\Page\Special_NewsSpecialID=53.asp
6. D:\Page\newsalllistpage=61.asp
7. D:\Page\ReadNewsNewsID=9443.asp
8. D:\Page\ReadNewsNewsID=3286.asp
9. D:\Page\ReadNewsNewsID=3876.asp
10. D:\Page\ReadNewsNewsID=3880.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: +院系 +设置
contents:院系
contents:设置
29 total matching documents
1. D:\Page\ReadNewsNewsID=4825.asp
2. D:\Page\ReadNewsNewsID=1217.asp
3. D:\Page\ReadNewsNewsID=6008.asp
4. D:\Page\ReadNewsNewsID=1520.asp
5. D:\Page\ReadNewsNewsID=3150.asp
6. D:\Page\ReadNewsNewsID=9808.asp
7. D:\Page\ReadNewsNewsID=4120.asp
8. D:\Page\ReadNewsNewsID=1515.asp
9. D:\Page\ReadNewsNewsID=5119.asp
10. D:\Page\ReadNewsNewsID=6817.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: +导师 +信息
contents:导师
contents:信息
281 total matching documents
1. D:\Page\readviewreviewID=4222&NewsID=3827.asp
2. D:\Page\ReadNewsNewsID=2992.asp
3. D:\Page\reviewNewsID=3827&page=1.asp
4. D:\Page\reviewNewsID=3827.asp
5. D:\Page\ReadNewsNewsID=1562.asp
6. D:\Page\ReadNewsNewsID=9971.asp
7. D:\Page\ReadNewsNewsID=5553.asp
8. D:\Page\ReadNewsNewsID=10139.asp
9. D:\Page\ReadNewsNewsID=11328.asp
10. D:\Page\ReadNewsNewsID=4931.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: +(先进集体 (+先进 +集体)) +称号
contents:先进集体
contents:先进
contents:集体
contents:称号
1 total matching documents
1. D:\Page\ReadNewsNewsID=8395.asp
Press (q)uit or enter number to jump to a page.

Enter query:

class org.apache.lucene.search.BooleanQuery
Searching for: +院 +花
contents:院
contents:花
171 total matching documents
1. D:\Page\ReadNewsNewsID=5987.asp
2. D:\Page\ReadNewsNewsID=7318.asp
3. D:\Page\ReadNewsNewsID=11451.asp
4. D:\Page\ReadNewsNewsID=7297.asp
5. D:\Page\ReadNewsNewsID=9672.asp
6. D:\Page\ReadNewsNewsID=5453.asp
7. D:\Page\ReadNewsNewsID=7317.asp
8. D:\Page\ReadNewsNewsID=6196.asp
9. D:\Page\ReadNewsNewsID=10315.asp
10. D:\Page\ReadNewsNewsID=3502.asp
Press (n)ext page, (q)uit or enter number to jump to a page.

 

你可能感兴趣的:(新版本的BM25)