免费开源的全文索引与检索平台(FirteX)、中文分词系统(ICTCLAS)

ICTCLAS简介:

   国内和国际权威的公开评测、五万客户的认可——ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。

     综合性能最优——ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M。

  全方位支持各种环境下的应用开发——ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。

 官网:http://ictclas.org/index.html

      补充:小型项目用ICTCLAS制作一个基于数据库的全文搜索也是可以的,

 FirteX简介:

  FirteX 支持纯文本,网页, PDF,Microsoft Office 等文件格式,支持中文(GB2312 和 GBK) 和英文,灵活的架构也可以方便地扩展支持其他语言和编码;检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序等;系统也可以通过 COM 插件无限扩展。

   FirteX 设计成可以处理大规模数据,具有较高的性能,在单台 Pentium 4 2.8G 2GRAM 的机器上超过 200Mb 每分钟的纯文本索引速度,在近 100G 的网页上搜索,仅用十几M内存能在数毫秒内返回结果。

   FirteX采用C++开发,以GPL(General Public License)开放源码授权协议的形式发布,这意味着您可以在遵循GPL协议的基础上自由使用FirteX,也可以参与到FirteX的开发中来。如果需要其他授权协议,请联系我们。 

官网:http://www.firtex.org/index.html

 

 补充:FirteX还未封装C#,JAVA等语言的使用接口,在web项目中应用方法如下:

方法一:可以将firtex封装,建立独立的搜索服务器服务与网站socket通信来实现全文搜索;

方法二:将firtex封装在memcached,借用memcached服务做守护进程,将所有的搜索模块都封装,这样要做的工作就是装卸,不用自己写代码。(来自群讨论)






 

你可能感兴趣的:(中文分词)