[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒

开源:完全自主研发搜索引擎1.0源代码及说明,单机400万网页全文索引,任意50词以内的检索不超过 20毫秒

[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒_第1张图片

[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒_第2张图片

[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒_第3张图片

[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒_第4张图片

[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒_第5张图片

[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒_第6张图片

[置顶] 开源:完全自主研发搜索引擎,单机400万网页全文索引,任意检索不超过 20毫秒_第7张图片

搜索引擎1.0源代码、相关说明、下载地址如下:

1、Bwsyq.Search.Demo
  进行检索,就是常说的搜索引擎网站。提供检索服务。
  目前实现了:按关键词进行检索,实现了动态摘要、关键词高亮显示、自动分页、每页显示条目可自定义(默认每页显示10条检索结果)
  未实现功能:相关搜索关键词条显示、按相关度进行排序、快照、网页标题、采集时间、网页URL、并行集群检索
  其中:快照、网页标题、采集时间、网页URL 可根据实际情况自行实现
  相关搜索关键词条显示、按相关度进行排序、并行集群检索 将在下一版提供
2、Bwsyq.Search.Index
  进行索引,就是常说的全文索引。
   
3、DemoDoc 目录中的 3500个txt文档是用来做索引测试的文档。测试的使用请放置在:D:\index\DemoDoc 也可根据实际情况在代码中修改  

4、index 目录中的.idx 文件是测试建立的索引文件。 测试的使用请放置在:D:\index\index 目录,也可根据事情情况修改配置文件
   
5、注意事项:
  A、目前索引存储路径是 D:\index\index\ 可在配置文件中根据实际情况对配置文件“App.config、Web.config”进行修改
  <KeyInfo Key="SEARCHIDX" Value="D:\index\index\"/>
  B、索引所需词库存储路径是 D:\index\ App_Data 可在配置文件中根据实际情况对配置文件“App.config”进行修改
  <KeyInfo Key="PhysicaPath" Value="D:\index\"/> 修改后将 App_Data文件夹及其中的文件全部拷贝到对应目录即可
  C、检索所需词库存存储路径是 网站项目中的 App_Data 目录,无须修改
  D、BwsyqIndex.dll 是核心库,采用C语言开发,可存放在system32目录,或项目运行的目录bin或release目录中。
   
6、目前提供的版本是2.0版,有如下性能指标:  
  A、单机可索引400万网页、
  B、普通PC: AMD 2.0、 7200转硬盘、2G内存每4分钟可索引1000页(已经做了html parse)的文本
  C、经实际测试任意50词以内的检索,检索运算不超过 20毫秒
  D、检索速度不会因为索引的多少而发生任何变化,索引速度也不会因为文档多少或文档大小而变慢
  E、开发工具VS2008,测试环境 windos7 + CPU(AMD 2.0)、 5400转300G硬盘、2G内存
  注:本版本单机索引限制在 400万网页,超过将不在执行索引。
   
7、本版本截止开发周期业余时间不到 3个周末和3个周日,期间还感冒了一周,所以有很多不完善的地方,请大家多指正。
  我会尽快根据大家提供的建议进行改善并提供改进后的新版本。
   
8、本软件完全属于本人自主创作,完全没有任何借鉴和第三方代码,您可以放心的用于学习和商业用途。


下载地址1:http://ishare.iask.sina.com.cn/f/17697171.html

下载地址2: http://www.everbox.com/f/xkdvEM3eyrwYXp9yG4d2b7aawZ
下载地址3: http://www.everbox.com/f/xO8NFbNyW5frP5SXSlaTzNdDIf
下载地址4: http://www.everbox.com/f/XcC7HMzMD7PXRKkNZKEVLfLcEK
下载地址5: http://www.everbox.com/f/WXFsqChwLTbLmX2P6gQuQy1z51
下载地址6: http://www.everbox.com/f/Bi9izWoxroLcn9mBs3N2S4PBeG
下载地址7: http://www.everbox.com/f/Tf3XzMdLVXDcX233qirYPTkMvr

版权所有:未经许可不得转载,有任何疑问请与我本人联系 QQ 99923309 Mail:[email protected] 更多详情>>


我做测试的时候,单机检索3000万网页,任意(50词)以内的搜索不超过50毫秒,担心大家说我吹牛,所以先开放一个400万网页的索引搜索代码,给大家观摩观摩!

希望各位专家批评指正,多提宝贵意见,谢谢!




你可能感兴趣的:(搜索引擎,集群,测试,存储,文档,开发工具)