Sphinx速成指南

原文地址：http://www.21andy.com/blog/20100928/1973.html

Sphinx速成指南

2008-01-11

1.Sphinx简介
1.1.什么是全文检索
1.2.介绍
1.3.Sphinx的特性
2.Sphinx安装(For MySQL)
2.1.Windows下安装
2.2.Linux下安装
3.实例说明
4.Sphinx配置
5.运行Sphinx
6.搜索（翻译）
6.1.匹配模式
6.2.布尔查询语法(Boolean query syntax)
6.3.扩展查询语法(Extended query syntax)
6.4.权重(匹配度，Weight)
7.如何调用Sphinx
8.SphinxSE的SQL查询例子演练
9.如何自动重建索引
10.相关资源

1.Sphinx简介

1.1.dۀ么是全文检索

全文检索是指以文档的全部文本信息作为检索对象的一种信息检索技术。检索的对象有可能是文章的标题，也有可能是文章的作者，也有可能是文章摘要或内容。

1.2.dۋ绍

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

1.3.Sphinx的特性

高速索引 (在新款CPU上,近10 MB/秒);

高速搜索 (2-4G的文本量中平均查询速度不到0.1秒);

高可用性 (单CPU上最大可支持100 GB的文本,100M文档);

提供良好的相关性排名

支持分布式搜索;

提供文档摘要生成;

提供从MySQL内部的插件式存储引擎上搜索

supports boolean, phrase, and word proximity queries;

支持每个文档多个全文检索域(默认最大32个);

支持每个文档多属性;

支持断词;

支持单字节编码与UTF-8编码;

supports English stemming, Russian stemming, and Soundex for morphology;

支持MySQ(MyISAM和InnoDB 表都支持);

支持PostgreSQL.

2.Sphinx安装(For MySQL)

2.1.Windows下安装

从http://dev.mysql.com上下载MySQL5.0.45版安装配置好MySQL，采用utf-8字符集

从Sphinx官网上http://www.sphinxsearch.com/downloads.html下载mysql-5.0.45-sphinxse-r871-win32.zip和sphinx-0.9.8-svn-r985-win32.zip

如果您的MySQL服务已启动请先停止掉

解压mysql-5.0.45-sphinxse-r871-win32.zip，将里面bin与share目录覆盖掉你的mysql安装目录下的相应目录

解压sphinx-0.9.8-svn-r985-win32.zip ，将里面的文件解压到D:\sphinx

sphinx的配置与实际应用是相关的，因此以下我以例子进行说明，至此sphinx安装部分结束

2.2.Linux下安装

下载mysql-5.1.22-rc.tar.gz解压至/root/mysql-5.1.22

下载sphinx-0.9.8-svn-r985.tar.gz，解压至/root/sphinx-0.9.8-svn-r985

将/root/sphinx-0.9.8-svn-r985/mysqlse下的文件复制至/root/mysql-5.1.22/storage/sphinx

在/root/mysql-5.1.22目录下运行

sh BUILD/autorun.sh
./configure --prefix=/usr/local/mysql --with-charset=utf8 --with-extra-charsets=all \
--enable-thread-safe-client --enable-assembler --with-readline --with-big-tables \
--with-plugins=sphinx
make && make install
groupadd mysql
useradd –g mysql mysql
chown mysql:mysql /usr/local/mysql -R
cd /usr/local/mysql
bin/mysql_install_db –user=mysql
(此时系统可能会提示：
[Warning] Storage engine 'SPHINX' has conflicting typecode. Assigning value 42.
可忽略，不影响使用)
cp /root/mysql-5.1.22/support-files/mysql.server /etc/init.d/mysqld
chmod 700 /etc/init.d/mysqld
cp /root/mysql-5.1.22/support-files/my-medium.cnf /etc/my.cnf
/etc/init.d/mysql start
(至些mysql启动了)

然后进入mysql命令行，运行show
engines，看是不是有一个叫sphinx的engine，有的话就表示sphinxSE（mysql的sphinx引擎）安装正常了

进入/root/sphinx-0.9.8-svn-r985，运行

ldconfig /usr/local/mysql/lib/mysql
ldconfig /usr/local/mysql/include/mysql
./configure --prefix=/usr/local/sphinx --with-mysql=/usr/local/mysql
make && make install

3.eΞ例说明

为更好说明如何应用Sphinx，现结合实例说明，我们以网站的新闻文章表为例。我们想要对新闻文章表进行全文检索（主要是标题与内容），新闻文章表的相关信息如下：

CREATE TABLE `eht_articles` (
`ARTICLESID` int(11) NOT NULL auto_increment,
`TITLE` varchar(100) NOT NULL default '',
`TITLECOLOR` varchar(20) default NULL,
`AUTHOR` varchar(200) default NULL,
`COMEFROM` varchar(200) default NULL,
`KEYWORD` varchar(200) default NULL,
`HTMLURL` varchar(200) default NULL,
`CATALOGID` int(6) default NULL,
`CONTENTS` mediumtext,
`EDITUSERID` int(6) default NULL,
`ADDTIME` int(10) default NULL,
`UPDATETIME` int(10) default NULL,
`HITS` int(6) default NULL,
PRIMARY KEY (`ARTICLESID`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

在这个表中，我主要想对标题（TITLE）与内容（CONTENTS）字段进行全文检索，在检索过程中可能我会根据文章的栏目(CATALOGID)，编辑（EDITUSERID），时间段（ADDTIME）进行条件性的全文检索，然后可能会根据主键ID（ARTICLESID），人气（HITS）进行排序显示，如何配置Sphinx来实现呢？

4.Sphinx配置

sphinx是以sphinx.conf为配置文件，索引与搜索均以这个文件为依据进行，要进行全文检索，首先就要配置好sphinx.conf，告诉sphinx哪些字段需要进行索引，哪些字段需要在where,orderby,groupby中用到。

安装完Sphinx后，在D:/sphinx目录有一个sphinx.conf.in，这个相当于sphinx的配置例子文件，我们以这个文件为蓝本，重新创建一个空白内容的sphinx.conf，存放在d:/sphinx根目录。

sphinx.conf的内容组成

source 源名称1{
…
}
index 索引名称1{
source=源名称1
…
}
source 源名称2{
…
}
index 索引名称2{
source = 源名称2
…
}
indexer{
…
}
searchd{
…
}

提示

从组成我们可以发现sphinx可以定义多个索引与数据源，不同的索引与数据源可以应用到不同表或不同应用的全文检索。

根据前面的实例，我们配置出我们需要的sphinx.conf，如下：

source cgfinal
{
type = mysql
strip_html = 0
index_html_attrs = sql_host = localhost
sql_user = root
sql_pass = admin
sql_db = test
sql_port= 3306 # optional, default is 3306
sql_query_pre= SET NAMES utf8

sql_query = SELECT ARTICLESID,TITLE,CONTENTS,AUTHOR,CATALOGID,ADDTIME,EDITUSERID,\
HITS FROM a.eht_news_articles
#sql_query = SELECT * FROM a.eht_news_articles
sql_attr_uint= CATALOGID
sql_attr_uint= EDITUSERID
sql_attr_uint = HITS
sql_attr_timestamp = ADDTIME

sql_query_post = sql_ranged_throttle= 0
#sql_query_info = SELECT * FROM a.eht_news_articles WHERE ARTICLESID=$id
}
index cgfinal
{
source = cgfinal
path = d:/sphinx/data/cgfinal
docinfo = extern
mlock = 0
morphology = none
stopwords = min_word_len = 1
charset_type = utf-8
charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\
U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,\
U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,\
U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,\
U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, \
U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D,\
U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, \
U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, \
U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, \
U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, \
U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, \
U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159,\
U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, \
U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, \
U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, \
U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175,\
U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, \
U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, \
U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, \
U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, \
U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, \
U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, \
U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, \
U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, \
U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, \
U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, \
U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, \
U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, \
U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, \
U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, \
U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, \
U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, \
U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, \
U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, \
U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, \
U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, \
U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF
min_prefix_len = 0
min_infix_len = 1
ngram_len = 1

ngrams_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
}
indexer
{
mem_limit = 32M
}
searchd
{
# address = 0.0.0.0
port = 3312
log = d:/sphinx/log/searchd.log
query_log = d:/sphinx/log/query.log
read_timeout = 5
max_children = 30
pid_file = d:/sphinx/log/searchd.pid
max_matches = 1000
seamless_rotate = 1
}

相关配置项说明：

Source部分配置项说明

#type 数据库类型，目前支持mysql与pgsql
#strip_html 是否去掉html标签
#sql_host 数据库主机地址
#sql_user 数据库用户名
#sql_pass 数据库密码
#sql_db 数据库名称
#sql_port 数据库采用的端口
#sql_query_pre 执行sql前要设置的字符集，用utf8必须SET NAMES utf8
#sql_query 全文检索要显示的内容，在这里尽可能不使用where或group by，将where与
groupby的内容交给sphinx，由sphinx进行条件过滤与groupby效率会更高
#注意：select 出来的字段必须至少包括一个唯一主键(ARTICLESID)以及要全文检索的
字段，你计划原本在where中要用到的字段也要select出来
#这里不用使用orderby
#sql_attr_开头的表示一些属性字段，你原计划要用在where,orderby,groupby中的字段要
在这里定义
#根据我们原先的SQL:
#select * from eht_articles where title like ? and catalogid=? And edituserid=? \
And addtime between ? and ? order by hits desc
#我们需要对catalogid,edituserid,addtime,hits进行属性定义(这四个字段也要在select的
字段列表中)，定义时不同的字段类型有不同的属性名称，具体可以见sphinx.conf.in中的说明

index部分配置项说明

#source 数据源名
#path 索引记录存放目录，如d:/sphinx/data/cgfinal,实际存放时会存放在d:/sphinx/data目
录，然后创建多个cgfinal名称，不同扩展名的索引文件。
#其他的配置如min_word_len,charset_type,charset_table,ngrams_chars,ngram_len这些则是支
持中文检索需要设置的内容。
#如果检索的不是中文，则charset_table,ngrams_chars,min_word_len就要设置不同的内容，具
体官方网站的论坛中有很多，大家可以去搜索看看。

5.hߐ行Sphinx

首先要对数据进行索引或重建索引

进入命令行，运行d:/sphinx/bin/release/indexer --config
d:/sphinx/sphinx.conf cgfinal

如果您在sphinx.conf中配置了多个数据源，想一次性全部索引则d:/sphinx/bin/release/indexer
--config d:/sphinx/sphinx.conf --all

如果只是想对某个数据源进行索引，则d:/sphinx/bin/release/indexer
--config d:/sphinx/sphinx.conf
索引名称(这里的索引名称是你在sphinx.conf中定义的索引名称)

运行检索守护进程searchd

进入命令行，运行d:/sphinx/bin/release/searchd --config
d:/sphinx/sphinx.conf，此时系统会在3312端口侦听mysql的全文检索请求，所以如果您的mysql与sphinx不在同一台机器，要保证3312端口不被防火墙阻隔。

6.fМ索（翻译）

6.1.e̹配模式

SPH_MATCH_ALL，匹配所有查询词（缺省模式）

SPH_MATCH_ANY，匹配任意查询词

SPH_MATCH_PHRASE，短语匹配

SPH_MATCH_BOOLEAN，布尔表达式匹配

SPH_MATCH_EXTENDED，查询匹配一个Sphinx内部查询语言表达式

6.2.e؃尔查询语法(Boolean query syntax)

布尔查询允许使用下面特殊操作符：

AND：hello & world

OR：hello | world

NOT：hello -world或hello !world

Grouping：(hello world)

举一个使用这些操作符的例子：

( cat -dog ) | ( cat -mouse)

AND是一个隐式操作符，“hello world”就相当于“hello & world”。

OR的优先级高于AND，所以“looking for cat | dog |
mouse”的意思是“looking for (cat | dog | mouse)”而不是“(looking for cat)
| dog | mouse”

象“-dog”这种隐式地包含了所有查询记录，是不会被执行的。这主要是考虑到技术上与性能上的原因，从技术上来说，sphinx不能总保持所有文章的ID列表，性能上来说，当结果集巨大（10-100M），执行这样的查询将费耗较长时间。

6.3.fɩ展查询语法(Extended query syntax)

扩展查询允许合我下面特殊操作符：

操作符OR：hello | world

操作符NOT：hello -world或hello !world

字段搜索操作符：@title hello @body world

短语(phrase)搜索符："hello world"

临近(proximity)搜索符："hello world"~10

举例：

"hello world" @title "example program"~5 @body python -(php|perl)

AND是一个隐式操作符，"hello
world"表示hello与world都要出现在匹配的记录中。

OR的优先级高于AND，所以“looking for cat | dog |
mouse”的意思是“looking for (cat | dog | mouse)”而不是“(looking for cat)
| dog | mouse”

临近距离在串中标明了，主要是用来调整单词数量，应用在引号中的所有查询字串。"cat
dog
mouse"~5表示包括这三个单词在内，总共不能多于8个单词的间隔。比如"CAT
aaa bbb ccc DOG eee fff
MOUSE"就不能匹配这个查询，因为单词间隔刚好是8个。

象aaa | ( bbb ccc | ( ddd eee )
)这样的括号嵌套查询目前还不支持，但以后会修正的。

否定（如NOT）只允许出现在顶层，不允许出现在括号内（如groups）。这点是不会改变的。因为支持否定嵌套查询会让短语排序(phrase
ranking)的实现变得过于复杂。

6.4.f݃重(匹配度，Weight)

采用什么权重功能取决于搜索模式（Search mode）

在权重函数中，有两个主要部分：（短语排名）phrase
rank和statistical rank（统计排名）

短语排名是基于搜索词在文档和查询短语中的最长公共子序列(LCS)的长度。所以如果在记录中有切确的短语匹配，记录的短语排名将有可能是最高的，等于查询单词的总个数。

统计排名是建立在经典的BM25算法基础之上，它只考虑词频。词在全部文档集合中以低的频度出现或高频度出现在匹配的文档中，那么它获得的权重就越大，最终的BM25权重是一个介于0到1之间的小数。

好的子短语匹配得到好的排名,最好的匹配放到最顶端。Sphinx作者的经验是：基于排名的密切短语比其它任何单独的统计方式表现出较好的搜索质量。

在SPH_MATCH_BOOLEAN
模式中，不需要计算权重，每条匹配记录的权重都是1

在SPH_MATCH_ALL和SPH_MATCH_PHRASE模式中，最终的权重是短语排名权重的总和

（TOFIX:翻译不畅）在SPH_MATCH_ANY模式中，本质上是一样的，但它也增加了每个字段的匹配单词数量，在这之前，短语排名权重乘以一个足够大的值以保证在任意一个字段的较高短语排名可以匹配排名较高者，即使它的字段权重比较低。

在SPH_MATCH_EXTENDED模式中，最终的权重是短语权重和BM25权重的总和，再乘以1000取整。

7.eƂ何调用Sphinx

按上面配置，第5节点对数据库进行了索引，通过Sphinx自带的search（在bin/release目录）就可以在命令行进行搜索：

（搜索CGArt）
windows上：
search -c d:/sphinx/sphinx.conf CGArt
Linux上：
cd /usr/local/sphinx
./bin/search -c sphinx.conf CGArt
运行后，系统提示一堆信息：
....
....
words:
1. 'cgart': 36 documents, 189 hits
这个表示库中有36条记录符合要求，出现CGArt的有189处。

应用程序如果想调用Sphinx，可以从两个方面：

一是通过Sphinx官方提供的API接口（接口有Python，Java，Php三种版本）

二是通过安装SphinxSE（具体见1.2部分），然后创建一个中介sphinxSE类型的表，再通过执行特定的SQL语句实现。

通过官方API调用Sphinx（以PHP为例）

在sphinx安装目录有一个API目录，里面有三个PHP文件：test.php，test2.php和sphinxapi.php。sphinxapi.php是sphinx调用接口封装文件，test.php是一个在命令行下执行的查询例子文件，test2.php是一个生成摘要的例子文件。

在命令下行运行test.php（Linux上没有API目录，需要从源程序包中复制api目录至/usr/local/sphinx）

Windows上：
D:\sphinx\bin\release>c:\php5.2\php.exe -c c:\php5.2\php.ini ..\..\api\test.php -i cgfinal CGart
Linux上(php在/usr/local/php目录，sphinx.conf在/usr/local/sphinx目录)：
cd /usr/local/sphinx
/usr/local/php/bin/php api/test.php -i cgfinal CGArt

Sphinx的API查询接口主要有这些内容(其实对照
一下sphinxapi.php就清楚了)：

//创建Sphinx的客户端接口对象
$cl = new SphinxClient ();

//设置连接Sphinx主机名与端口
$cl->SetServer('localhost',3312);

//可选，为每一个全文检索字段设置权重，主要根据你在sql_query中定义的字段的顺序，Sphinx系统以后会调整，可以按字段名称来设定权重
$cl->SetWeights ( array ( 100, 1 ) );

//设定搜索模式,SPH_MATCH_ALL,SPH_MATCH_ANY,SPH_MATCH_BOOLEAN,SPH_MATCH_EXTENDED,SPH_MATCH_PHRASE
$cl->SetMatchMode(SPH_MATCH_ALL);

//设定过滤条件$attribute是属性名，相当于字段名（用SPH_MATCH_EXTENDED时），$value是值，$exclude是布尔型，
当为true时，相当于$attribute!=$value，默认值是false
$cl->SetFilter($attribute, $values, $exclude);

//设定group by
//根据分组方法，匹配的记录集被分流到不同的组，每个组都记录着组的匹配记录数以及根据当前排序方法本组中的最佳匹配记录。
//最后的结果集包含各组的一个最佳匹配记录，和匹配数量以及分组函数值
//结果集分组可以采用任意一个排序语句，包括文档的属性以及sphinx的下面几个内部属性
//@id--匹配文档ID
//@weight, @rank, @relevance--匹配权重
//@group--group by 函数值
//@count--组内记录数量
//$groupsort的默认排序方法是@group desc，就是按分组函数值大小倒序排列
$cl->SetGroupBy($attribute, $func, $groupsort);

//设定order by的内容，第一个参数是排序方法名，值有
// SPH_SORT_RELEVANCE,SPH_SORT_ATTR_DESC,SPH_SORT_ATTR_ASC,SPH_SORT_TIME_SEGMENTS,SPH_SORT_EXTENDED
//$sortby的值如"HITS desc"
$cl->SetSortMode(SPH_SORT_EXTENDED, $sortby);

//set count-distinct attribute for group-by queries,$distinct为字符串
$cl->SetGroupDistinct ( $distinct );

//相当于mysql的limit $offset,$limit
$cl->SetLimits($start,$limit)

//$q是查询的关键字，$index是索引名称，当等于*时表查询所有索引
$res = $cl->Query ( $q, $index );
$cl->Query()返回的内容print_r后大概是：

Array
(
[error] =>
[warning] =>
[status] => 0
[fields] => Array
(
[0] => title
[1] => contents
[2] => author
)

[attrs] => Array
(
[catalogid] => 1
[addtime] => 2
[edituserid] => 1
[hits] => 1
)

[matches] => Array
(
[380] => Array
(
[weight] => 1
[attrs] => Array
(
[catalogid] => 7
[addtime] => 1112677492
[edituserid] => 1
[hits] => 1470
)

)

[599] => Array
(
[weight] => 101
[attrs] => Array
(
[catalogid] => 7
[addtime] => 1115910729
[edituserid] => 1
[hits] => 1749
)

)

[850] => Array
(
[weight] => 1
[attrs] => Array
(
[catalogid] => 2
[addtime] => 1118741392
[edituserid] => 1
[hits] => 289
)

)

[877] => Array
(
[weight] => 1
[attrs] => Array
(
[catalogid] => 2
[addtime] => 1118898869
[edituserid] => 1
[hits] => 9870
)

)

[1040] => Array
(
[weight] => 101
[attrs] => Array
(
[catalogid] => 2
[addtime] => 1120708579
[edituserid] => 1
[hits] => 318
)

)

[total] => 129
[total_found] => 129
[time] => 0.000
[words] => Array
(
[design] => Array
(
[docs] => 129
[hits] => 265
)

)

从上面可以看出Query并不能全部取得我们想要的记录内容，比如说Title,Contents字段就没有取出来，根据官方的说明是sphinx并没有连到mysql去取记录，只是根据它自己的索引内容进行计算，因此如果想用sphinxAPI去取得我们想要的记录，还必须将Query的结果为依据去查询MySQL才可以得到最终我们想要的结果集。

test2.php是一个摘要生成的例子文件，如果你的本地机器已装好sphinx，php运行环境，你可以通过浏览器看查看test2.php的运行效果。

假设我要搜索关键词"test"，通过sphinx可以取到搜索结果，在显示搜索结果时，我希望将含有"test"的进行红色或加粗显示，同时，我不希望全部都显示出来，只需要显示一段摘要，就象google或百度那样，搜出来的结果不是全篇显示，只是部分显示，这个就是摘要的作用。

以test2.php中为例，以下是test2.php的代码：

<?php
require ( "sphinxapi.php" );
$docs = array
(
"this is my test text to be highlighted, and for the sake of the testing we need to pump its length somewhat",
"another test text to be highlighted, below limit",
"test number three, without phrase match",
"final test, not only without phrase match, but also above limit and with swapped phrase text test as well",
);
$words = "test";
$index = "cgfinal";
$opts = array
(
"before_match" => "<span style='font-weight:bold;color:red'>",
"after_match" => "</span>",
"chunk_separator" => " ... ",
"limit" => 60,
"around" => 3,
);

foreach ( array(0,1) as $exact )
{
$opts["exact_phrase"] = $exact;
print "exact_phrase=$exact\n";

$cl = new SphinxClient ();
$res = $cl->BuildExcerpts ( $docs, $index, $words, $opts );
if ( !$res )
{
die ( "ERROR: " . $cl->GetLastError() . ".\n" );
} else
{
$n = 0;
foreach ( $res as $entry )
{
$n++;
print "n=$n, res=$entry<br/>";
}
print "\n";
}
}
?>
在IE上运行的效果是：

Sphinx速成指南 test2

在实际环境中，上面代码的$docs是我们用sphinx搜索出来的结果，这个结果利用BuildExcerpts方法可以实现摘要的功能。

采用SphinxSE方式调用Sphinx

采用sphinxSE必须要求为mySQL安装sphinxSE
Engine驱动，方法在第1节中我已讲到

要创建一张sphinx 专用表，你可以这样建

CREATE TABLE `sphinx` (
`id` int(11) NOT NULL,
`weight` int(11) NOT NULL,
`query` varchar(255) NOT NULL,
`CATALOGID` INT NOT NULL,
`EDITUSERID` INT NOT NULL,
`HITS` INT NULL,
`ADDTIME` INT NOT NULL,
KEY `Query` (`Query`)
) ENGINE=SPHINX DEFAULT CHARSET=utf8 CONNECTION='sphinx://localhost:3312/cgfinal';

警告

注：与一般mysql表不同的是ENGINE=SPHINX DEFAULT CHARSET=utf8
CONNECTION='sphinx://localhost:3312/cgfinal';，这里表示这个表采用SPHINXSE引擎，字符集是utf8，与sphinx的连接串是'sphinx://localhost:3312/cgfinal，cgfinal是索引名称

根据sphinx官方说明，这个表必须至少有三个字段，字段起什么名称无所谓，但类型的顺序必须是integer,integer,varchar，分别表示记录标识document
ID,匹配权重weight与查询query，同时document
ID与query必须建索引。另外这个表还可以建立几个字段，这几个字段的只能是integer或TIMESTAMP类型，字段是与sphinx的结果集绑定的，因此字段的名称必须与在sphinx.conf中定义的属性名称一致，否则取出来的将是Null值。

比如我在上面有定义了sql_attr_uint= CATALOGID，sql_attr_uint= EDITUSERID，sql_attr_uint = HITS，sql_attr_timestamp = ADDTIME，那么在这个表里头，你就可以再定义CATALOGID,EDITUSERID,HITS,ADDTIME四个字段。

通过sql语句实现查询。通过select * from sphinx where
query='sphinx表达式'
的方式可以实现查询，通过让sphinx表与eht_articles或其他表并联查询（条件是sphinx.id=eht_articles.Articlesid）还可以实现更为复杂的sql，基本上可以符合我们日常的要求。

sphinx表达式在sphinx的手册中也提到了，这里我简单说明几条：

query='关键字'
，关键字就是你要搜索的关键字，如query='CGArt'表示你要全文搜索CGArt

mode，搜索模式，值有：all,any,phrase,boolean,extended，默认是all

sort，排序模式，必须是relevance,attr_desc,attr_asc,time_segments,extended中的一种，在所有模式中除了relevance外，属性名（或用extended排序）前面都需要一个冒号。

... where query='test;sort=attr_asc:hits';

... where query='test;sort=extended:@weight desc,hits asc';

offset，结果记录集的起始位置，默认是0

limit，从结果记录集中取出的数量，默认是20条

index，要搜索的索引名称

... where query='test;index=cgfinal';

... where query='test;index=test1,test2,test3;';

minid,maxid，匹配最小与最大文档ID

weights，以逗号分割的分配给sphinx全文检索字段的权重列表

... where query='test;weights=1,2,3;';

filter,!filter，以逗号分隔的属性名与一堆要匹配的值

#只包括1,5,19的组

... where query='test;filter=group_id,1,5,19;';

#不包括3,11的组

... where query='test;!filter=group_id,3,11';

range,!range，逗号分隔的属性名一最小与最大要匹配的值

#从3至7的组

... where query='test;range=group_id,3,7;';

#不包括从5至25的组

... where query='test;!range=group_id,5,25;';

maxmatches，每个查询最大匹配的值

... where query='test;maxmatches=2000;';

groupby，group by 方法与属性

... where query='test;groupby=day:published_ts;';

... where query='test;groupby=attr:group_id;';

groupsort，group by 的排序

... where query='test;gropusort='@count desc';

需要注意的重要一点是让sphinx进行排序，过滤，切分结果记录集比用MySQL的where,orderby
和limit将有更好的效率。有两个原因，首先sphinx做了很多优化，在这些任务上它比mySQL做得更出色，其次searchd在打包，sphinxSE在传输与解包上需要的数据量更少。

你可以通过运用join在sphinxSE的搜索表和其他引擎类型的表做并联查询。这有一个从example.sql中documents表的例子：

mysql> SELECT content, date_added FROM test.documents docs
-> JOIN t1 ON (docs.id=t1.id)
-> WHERE query="one document;mode=any";
+-------------------------------------+---------------------+
| content | docdate |
+-------------------------------------+---------------------+
| this is my test document number two | 2006-06-17 14:04:28 |
| this is my test document number one | 2006-06-17 14:04:28 |
+-------------------------------------+---------------------+
2 rows in set (0.00 sec)

8.SphinxSE的SQL查询例子演练

从eht_articles中查询标题含有“动画”关键字的记录。

select c.* from eht_articles as c,sphinx as t where c.articlesid=t.id and query='@title 动画;mode=extended'

提示

说明：要指定某个字段进行搜索，要用@字段名+空格+关键字+分号+mode=extended
如果不指定字段，则系统会对TITLE,CONTENTS进行搜索
，对什么字段进行全文检索取决于在sphinx.conf中sql_query定义的select
中的字段（文本类型）

从eht_articles中查询文章内容或标题含有“CGArt”关键字的记录。

select c.* from eht_articles as c,sphinx as t where c.articlesid=sphinx.id and query='动画'

若AUTHOR,TITLE,CONTENTS三个字段都全文索引了，但只想搜title,或contents中含有“动画”关键字的文章

select c.* from eht_articles as c,sphinx as t where c.articlesid=t.id and query='@title 动画 | @contents 动画;mode=extended'

查询标题含有“动画”关键字，catalogid为7，edituserid为1的记录

select c.* from eht_articles as c,sphinx as t where c.articlesid=t.id and query='@title 动画;filter=edituserid,1;filter=catalogid,7;mode=extended'

提示

采用filter=字段名称,值就相当于where中的
字段名=值，filter提到的字段必须在sphinx的source部分的字段属性定义中定义，如

sql_attr_uint = CATALOGID
sql_attr_uint = EDITUSERID
sql_attr_uint = HITS
sql_attr_timestamp = ADDTIME

查询标题含有“动画”关键字，按人气Hits从大至小，栏目ID从大至小排序

select c.* from eht_articles as c,sphinx as t where c.articlesid=t.id and query='@title 动画;mode=extended;sort=extended:hits desc,catalogid desc'

在sphinx中，select出来的内容是按weight从大至小排序的，weight是根据sphinx内部一定的算法算出来的，越大就表示越匹配，如果想按匹配度从大至小排序，则可以：

select c.* from eht_articles as c,sphinx as t where c.articlesid=t.id and query='@title 动画;mode=extended;sort=@weight desc'

搜内容或标题含有优秀或Icon或设计，按catalogid分组，按匹配度从高至低排序

select t.*,c.* from eht_articles as c,sphinx as t where c.articlesid=t.id and query='优秀 | Icon | 设计;mode=extended;groupby=attr:catalogid;groupsort=@weight;'

9.eƂ何自动重建索引

10.g۸关资源

Sphinx官方网站：www.sphinxsearch.com

用php构建自定义搜索引擎：http://www.ibm.com/developerworks/cn/opensource/os-php-sphinxsearch/index.html

官方手册文档

本文中提到的sphinx.conf配置文件

原文地址：http://www.21andy.com/blog/20100928/1973.html

你可能感兴趣的:(sphinx)

sphinx-apidoc longgb246
[toc]一、使用sphinx-apidoc[OPTIONS]-o[EXCLUDE_PATTERN,…]sphinx-apidoc是一个自动生成Sphinx源的工具，使用该autodoc扩展。MODULE_PATH：是python的源码的文件目录。OUTPUT_PATH：是包含conf.py和*.rst的source目录。注意在python源码的py文件中，应该使用if__name__=='__m
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
python 机器人工具箱——robotics-toolbox-python FL17171314 python 开发语言
这个工具箱为Python带来了机器人特定的功能，并利用Python的可移植性、普遍性和支持性的优势，以及线性代数（numpy、scipy）、图形（matplotlib、three.js、WebGL）的开源生态系统的能力，交互式开发（jupyter、jupyterlab、mybinder.org）和文档（sphinx）。python-mpipinstall--usernumpyscipymatplo
python-自动化篇-运维-语音识别 fo安方 #python-自动化篇-运维运维 python 自动化
文章目录理论文本转换为语音使用pyttsx使用SAPI使用SpeechLib语音转换为文本代码和效果01使用pyttsx实现文本_语音02使用SAPI实现文本_语音03使用SpeechLib实现文本_语音04使用PocketSphinx实现语音转换文本理论语音识别技术，也被称为自动语音识别，目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。文本转换为语音使用pyttsx使用名为py
Sphinx的原理详解和使用 m0_68949064 PHP sphinx 全文检索搜索引擎
一、Sphinx介绍1.1简介Sphinx是由俄罗斯人AndrewAksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBM
ROS2手册的离线编译安装 ArslanRobot ROS2开发实例 ROS 机器人
ROS开发中经常要查询相关API，把文档下载到本地离线使用方便快捷，极大提高开发效率下载ROS2文档gitclonehttps://github.com/ros2/ros2_documentation.gitcdros2_documentation安装sphinxpipinstallSphinx配置sphinxsphinx-quickstart按提示进行配置编译makehtml期间如果提示exce
API文档生成(sphinx) Along20210921 sphinx 全文检索搜索引擎
1.安装pipinstallSphinx2.使用2.1文档手册Sphinx1.3.1中文手册(推荐查看)教程https://fengxc.me/基于python注释使用sphinx自动化生成API文档.html2.2创建工程新建一个文件夹sphinx_test,并创建两个子文件夹code,doc。目录结构如下：进去到doc目录，打开powershell,执行下边命令创建工程sphinx-quick
智能语音技术栈 chenkaifang 不归类
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMUSphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMUSphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多
ai智能语音机器人如何基于本地语音识别，搭建一款智能聊天机器人？ VO_794632978 WX-794632978 语音机器人人工智能机器人语音识别腾讯云阿里云
基于本地语音识别技术，搭建智能聊天机器人是一种广泛使用的人工智能应用。它可以为用户提供语音聊天、语音指令和语音控制等服务，提高用户的体验和方便性。以下是基于本地语音识别的智能聊天机器人搭建过程。确定使用的技术在搭建智能聊天机器人之前，需要确定将使用的技术和平台。通常情况下，语音识别技术可以使用开源框架，如CMUSphinx、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码，用于
sphinx在c#.net平台下使用（一） weixin_30432179 c#数据库 php
Sphinx是由俄罗斯人AndrewAksyonoff开发的一个可以结合MySQL,PostgreSQL全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。是做站内全文搜索的一把利器。sphinx已经出现很多年，并不是一个新鲜技术，但如今仍被广泛使用者。但由于IT技术的不断创新，在圈子中又出现了几款用于全文检索的新技术，如lucene就是一款与之媲美的工具，但相对而言，它
使用sphinx生成API文档火之木叶啊
使用sphinx生成API文档1、安装sphinxpipinstallSphinx2、初始化文档：在项目根目录下运行(或者进入doc目录下执行sphinx-quickstart)sphinx-quickstartdoc#api文档放在此目录下根据提示一步步来，我只处理下以下几项，其它的都是默认回车>Separatesourceandbuilddirectories(y/n)[n]:y>Projec
使用 gitee+sphinx+readthedocs 搭建个人博客明月与玄武开源项目 gitee sphinx 个人博客搭建
给大家安利如何快速搭建个人博客网站！前言这是我本地运行的一个使用sphinx构建的博客服务，这些文章，都是用markdown写的。一直有个想法，就是把自己写的这些文件，搞成一个博客网站，放到网上，但是，一想，要搞个域名、一个服务器，这样长期运营维护，成本有些高。再一个，个人技术博客，独立地址，百度中抓取率可能也不高，结果就是花了大成本，结果自嗨，别人搜索、访问不到，所以，一直没有行动。最近，发现用
实现Django的全文检索功能（一）：选择Whoosh全文检索引擎 stonefisher Django Python
Django没有内置全文检索功能，这方面的资料也很少。有搜到两篇,一篇是使用在django应用上使用sphinx全文搜索还有一篇是使用Whoosh的，看这里其中whoosh是原生唯一的python写的全文搜索引擎，虽然有说whoosh性能比不上sphinx,xapian等。不过whoosh本身很小，安装后才2.61M，非常容易集成到django/python里面，而我们的需求又不大一般小站完全够用
自身文档管理规范 __pop_ 杂七杂八总览文档管理
之前在这里叙述了用sphinx生成静态网站，并利用静态网络托管服务readthedocs现在我们有了新的需求，想知道这些东西到底是什么。过程过程A：markdown/rst->htmlmkdocssphinx相关：pandoc(不能生成整个网站的html文件，而是生成单个md/rst对应的html文件)应用场合：例如sphinx支持markdown不力，可以将md格式转为rst格式gitbook(
居然能取代 Elasticsearch？ qintian0225 elasticsearch big data 大数据
ManticoreSearch不知道是否有人了解或者使用过？它是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。在GitHub上M
Linux Mint编译安装Qemu进行固件仿真攻城狮老李物联网安全物联网 iot
文章目录前言1.准备Qemu源码包2.编译安装2.1首次尝试编译2.2安装python3-venv2.3安装sphinx2.4安装sphinx-rtd-theme2.4安装ninja2.6安装编译器3.重新编译并安装4.进行固件仿真4.1准备固件4.2Binwalk解析文件4.3看一下文件结构4.4安装sasquatch4.5重新解析文件4.6确定指令集4.7开启qemu虚拟环境。4.8为Qemu
Django内置的一些包 ___大鱼___
核心Django:Web框架。django-debug-toolbar:显示面板用于调试DjangoHTML视图。django-model-utils:很有用的数据模型工具，包含一个时间戳数据模型。ipdb:IPythonpdb。Pillow:PIL替代品。pip:包安装工具。在Python3.4及以上版本中已内置。Sphinx:Python项目的文档工具。virtualenv:Python虚拟环
API 参考与帮助内容：一站式开发与使用者支援小万哥丶程序人生后端开发软件工程技术写作 API 文档作者内容
API文档API文档是旨在了解API详细信息的综合指南。通常，它们包括端点、请求示例、响应类别和示例以及错误代码等信息。API文档可帮助开发人员了解API端点的具体细节，并了解如何将API成功集成到他们的软件中。文档生成工具API文档生成工具是直接从源代码创建API文档的软件应用程序。这简化了开发人员的工作流程，并确保文档与代码更改保持同步。这些工具的例子包括Doxygen、Sphinx、Java
使用gitlab runner 进行CI（四）：使用Gitlab Page托管项目文档 CodingInCV gitlab ci vscode
目录1.什么是GitlabPages2.开启GitlabPages3.基本过程4.托管markdown文档4.1安装sphinx等依赖4.2配置项目的sphinx配置4.3编写项目文档4.4创建首页索引4.5配置gitlab-ci.yml4.6生成网页4.7配置DNS或者hosts文件5.预览和调试5.1直接使用sphinx命令生成网页5.2VScode+sphinx插件预览5.3下载Gitlab
简述CMUSphinx的基本概念和几个工具包的区别罕几
今天再重新仔细了解CMUSphinx的基本概念和几个工具包的区别基本概念探测器Senones各种声音探测器可由少量不同的短声音探测器表示。我们使用4000个不同的短声音探测器来组成三音素探测器。我们将这些探测器称为Senones。Senones对上下文的依赖可能比左右上下文更复杂。它可以是由决策树或其他方式定义的相当复杂的函数最佳匹配过程首先，它是功能的概念。由于参数的数量很大，我们正在尝试对其进
最快的搜索引擎sphinx的windows安装和使用 zhongchengbin
1首先安装sphinx引擎下载地址：http://sphinxsearch.com/downloads/archive/下载下来的目录结构如下把sphinx.conf.in负责一份改名sphinx.conf放到bin目录下，修改sphinx.conf注意log的目录和data目录的创建，在windows下不会自动创建-----------------------------------------
【小沐学Python】Python实现语音识别（SpeechRecognition）爱看书的小沐 Python AI python 语音识别 ai vosk whisper pyaudio fastapi
文章目录1、简介2、安装和测试2.1安装python2.2安装SpeechRecognition2.3安装pyaudio2.4安装pocketsphinx（offline）2.5安装Vosk（offline）2.6安装Whisper（offline）3测试3.1命令3.2fastapi3.3google3.4recognize_sphinx3.5语音生成音频文件结语1、简介https://pypi
mysql如何创建全文索引_从零开始学习MySQL全文索引北京大学出版社 mysql如何创建全文索引
一、为什么要用全文索引我们在用一个东西前，得知道为什么要用它，使用全文索引无非有以下原因like查询太慢、json字段查询太慢(车太慢了)没时间引入ElasticSearch、Solr或者Sphinx这样的软件，或者根本就不会用(无法将五菱宏光换成兰博基尼，即使有兰博基尼也不会开)加索引、联合索引啥的都已经慢得不行了(限速80，车顶盖都卸了也只能开到30)为了提升一下自己的逼格(人家问你有没有开过
使用Sphinx创建你的文档 hanshan426
Sphinx是一个基于Python的文档生成器，它支持使用reStructuredText语法对文档内容进行格式化，同时提供了很多主题风格的文档模板，最常用的就是sphinx-rtd-theme，下面将详细介绍如何使用该主题模板。依赖环境Python准备环境安装pipwgethttps://bootstrap.pypa.io/get-pip.pypythonget-pip.py安装Sphinxpi
signature=c8626889784bc3d331991756aab80078,arena/package-lock.json at aab970e800cd063cc2420aa9fab7b3... 臧竹萌12312~~
{"name":"bull-arena","version":"2.6.4","lockfileVersion":1,"requires":true,"dependencies":{"@sphinxxxx/color-conversion":{"version":"2.2.1","resolved":"https://registry.npmjs.org/@sphinxxxx/color-conv
转换rst到markdown总结剑有偏锋
一背景知识一个社区要翻译英文文档（rst格式）到中文，且保存为markdown格式二本地在线预览工具VScode编辑器+插件1预览markdown插件markdown-all-in-oneimage.png2预览ret插件reStructuredText（注意，记得安装python环境，还有python的rst解析库Sphinx）image.png三总结1了解了rst如何转换为markdown的工
在Debian4.19 PHP7.3中安装Sphinx扩展 SkyBorder
php7.3的sphinx扩展安装依赖libsphinxclient，该依赖安装在服务端安装程序中有，下载地址在这里，可以根据对应环境下载，我在这里下载的是3.1.1的Linuxx64binaries。下载后解压，cdsphinx-3.1.1/api/libsphinxclient/进入依赖安装目录./configure--prefix=/usr/local/sphinx/client这里可以自己
xunsearch(迅搜中文全文搜索引擎)的简单使用 lingchen8 PHP php 搜索引擎全文检索
Xunsearch（中文名：迅搜）是一套免费开源的专业中文全文检索解决方案，简单易用而且功能强大、性能卓越能轻松处理海量数据的全文检索。它包含后端索引、搜索服务程序和前端脚本语言编写的开发工具包(称之为SDK)，目前迅搜只支持PHP，而且还是国产（支持国产），类似的搜索引擎还有sphinx,elasticsearch等，下面是迅搜的简单使用1.服务器端（1）下载.源码包在Linux下直接：wget
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象