Sphinx由俄罗斯人Andrew Aksyonoff 开发的高性能全文搜索软件包,在GPL与商业协议双许可协议下发行。
高速索引 (在新款CPU上,近10 MB/秒);高速搜索 (2-4G的文本量中平均查询速度不到0.1秒);高可用性 (单CPU上最大可支持100 GB的文本,100M文档); 提供良好的相关性排名;支持分布式搜索; 提供文档摘要生成; 提供从MySQL内部的插件式存储引擎上搜索 ; 支持布尔,短语, 和近义词查询; 支持每个文档多个全文检索域(默认最大32个); 支持每个文档多属性; 支持断词; 支持单字节编码与UTF-8编码;
打开网址http://www.coreseek.cn/news/7/52/ 找到适合自己的操作系统的版本,比如我是Windows那么我就可以下载Coreseek Win32通用版本,Linux下可以下载源码包,自己编译安装。这里解释下为什么我们下载的程序叫Coreseek,Coreseek是基于Sphinx开发的一款软件,对Sphinx做了一些改动,在中文方面支持得比Sphinx好,所以我们使用之。
接下来我们需要建立一个Sphinx的配置文件 E:\coreseek\etc\mysql.conf,将其内容改为下面这些:
source mysql
{type = mysql //数据库类型sql_host = localhost //数据库地址sql_user = root //数据库用户名sql_pass = //数据库密码sql_db = test //数据库名sql_port = 3306 //端口号sql_query_pre = SET NAMES utf8 //设置字符集sql_query = SELECT id,addtime,title,content FROM postsql_attr_timestamp = addtime}index mysql{source = mysqlpath = E:/coreseek/var/data/mysqlcharset_dictpath = E:/coreseek/etc/charset_type = zh_cn.utf-8}
searchd{listen = 9312max_matches = 1000pid_file = E:/coreseek/var/log/searchd_mysql.pidlog = E:/coreseek/var/log/searchd_mysql.logquery_log = E:/coreseek/var/log/query_mysql.log}
source mysql{} 定义源名称为mysql,也可以叫其他的,比如:source xxx{}type 数据源类型 。
sql_* 数据相关的配置,比如sql_host,sql_pass什么的,这些不解释。
sql_query 建立索引时的查询命令,在这里尽可能不使用where或group by,将where与groupby的内容交给sphinx,由sphinx进行条件过滤与groupby效率会更高,注意:select 的字段必须包括一个唯一主键以及要全文检索的字段,where中要用到的字段也要select出来
sql_query_pre 在执行sql_query前执行的sql命令, 可以有多条。
sql_attr 以这个开头的配置项,表示属性字段,在where,orderby,groupby中出现的字段要分别定义一个属性,定义不同类型的字段要用不同的属性名,比如上面的sql_attr_timestamp就是时间戳类型。
index mysql{} 定义索引名称为mysql,也可以叫其他的,比如:index xxx{}
source 关联源,就是source xxx定义的。
path 索引文件存放路径,比如:E:/coreseek/var/data/mysql 实际存放在E:/coreseek/var/data/目录,然后创建多个名称为mysql后缀却不同的索引文件
charset_dictpath 指明分词法读取词典文件的位置,当启用分词法时,为必填项。在使用LibMMSeg作为分词 库时,需要确保词典文件uni.lib在指定的目录下
charset_type 字符集,比如charset_type = zh_cn.gbk
searchd{} sphinx守护进程配置
listen 监听端口
pid_file pid文件路径
开始 -> 运行 -> 输入cmd回车,打开命令行工具
e:\coreseek\bin\indexer –config e:\coreseek\etc\mysql.conf –all
e:\coreseek\bin\indexer –config e:\coreseek\etc\mysql.conf 索引名称(索引名称指配置文件中所定义的)
………省略………using config file ‘e:\coreseek\etc\mysql.conf’…indexing index ‘mysql’…collected 4 docs, 0.0 MB………省略………
同样命令行下 :
e:\coreseek\bin\searchd –config e:\coreseek\etc\mysql.conf
using config file ‘e:\coreseek\etc\mysql.conf’…listening on all interfaces, port=9312accepting connections
e:\coreseek\bin\searchd –config e:\coreseek\etc\mysql.conf –install安装之后记得启动这个服务,不会启动那我没法,自己google。
在web根目录下建立一个search目录(当然不在根目录也行,同样目录名也可以随取),复制E:\coreseek\api\ sphinxapi.php文件到search目录(sphinxapi.php这个是sphinx官方提供的api),开始php程序的编写。
setServer(‘localhost’, 9312); // 设置服务端,第一个参数sphinx服务器地址,第二个sphinx监听端口
$res = $sc->query(‘sphinx’, ‘mysql’); // 执行查询,第一个参数查询的关键字,第二个查询的索引名称,mysql索引名称(这个也是在配置文件中定义的),多个索引名称以,分开,也可以用*表示所有索引。
Array (………省略………[matches] => Array([2] => Array([weight] => 2[attrs] => Array([addtime] => 1282622004))[4] => Array([weight] => 2[attrs] => Array([addtime] => 1282622079)))………省略………)
查询结果中键值分别表示2唯一主键weight权重attrs sql_attr_*中配置至此,搜索引擎算是完成一大半了,剩下的大家可以自行完成。
while($row = mysql_fetch_assoc($query)) {…..}
