小型搜索引擎搭建的几个关键点

在c#语言环境下搭建搜索引擎服务进行测试,使用了Lucene.Net

 

1、合适的筛选

对网上流行的网页正则进行修改,现使用正则如下

"(href|navigateurl)=(?:\""|\')[^\s]*(?:.asp|.htm)(?:\S{0,})(?:\""|\')"

 

2、进程池的使用

有效的提高的效率

  ThreadPool.QueueUserWorkItem(new WaitCallback(具体方法), lt);

 

3、提交索引

因为IndexWriter在我测试的版本独占的

所以采用的办法类似打印机等设备的使用

判断是否可用,如果可用,批量提交。

同时对ThreadPool内记录进行限制,保证网页搜索使用的线程不至于过多。

 

 

你可能感兴趣的:(搜索引擎)