数据库搜索解决方案coreseek在windows2008下安装使用-多库,GBK,分区,增量

coreseek是一块免费开源的中文全文检索/搜索软件,是基于sphinx研发的,可以大大的降低服务器运行负载,提高响应速度,可以实现多用户并发操作,,实现多个关键词的复合检索,支持中文分词,比lucene+中文分词的解决方案更精确,至于mysql的like搜索方式,就不做比较了.

1,下载

http://www.coreseek.cn/ 请自行选择win32或者linux版本

2,安装

//coreseek站上有完整的安装说明.可以对照参考

(1)如果是coreseek-4.x版本请先安装Microsoft Visual C++ 2008 运行环境 (x86)

(2)解压缩下载的coreseek压缩文件,建议放在htdoc里

(3)修改配置文件,路径在 ......htdocs\coreseek\etc\csft_mysql.conf

============================================================

#MySQL数据源配置，详情请查看： http://www.coreseek.cn/products-install/mysql/
#请先将var/test/documents.sql导入数据库，并配置好以下的MySQL用户密码数据库

#源定义
source mysql
{
type = mysql

#这里最好用127.0.0.1而不是localhost
sql_host = 127.0.0.1
sql_user = mysqli
sql_pass = 123456
sql_db = qianyu365_database
sql_port = 3306
#预查询，默认为一个空的查询列表，它们被用来设置字符编码，标记待索引的记录，更新内部计数器，设置SQL服务器连接选项和变量等等
sql_query_pre = SET NAMES utf8
#对于MySQL数据源，在预查询中禁用查询缓冲（query cache）（仅对indexer连接）是有用的，因为索引查询一般并会频繁地重新运行，缓冲它们的结果是没有意义的。这可以按如下方法实现：
sql_query_pre = SET SESSION query_cache_type=OFF
#主查询，只能有一个主查询。它被用来从SQL服务器获取文档，
#sql_query第一列字段必须是唯一的正整数值,无需再设置sql_attr_uint
#title、content作为字符串/文本字段，被全文索引
sql_query = SELECT q.qid,q.title,q.sid1,q.sid2,q.uid,q.asktime,q.status,q.answercount,qs.supplement FROM `cyask_question` q left join cyask_question_1 qs on q.qid=qs.qid
#sql_query =select qid,title,sid1,sid2,uid,asktime,status,answercount from cyask_question
#sql_attr_unit是整数属性列,既参与搜索结果,但不会被索引,只用于返回额外的信息，如果要声明字符串属性列可以使用sql_attr_str2ordinal
sql_attr_uint = sid1
sql_attr_uint = sid2
sql_attr_uint = status
sql_attr_uint = answercount
#sql_attr_timestamp列用于对结果进行排序，或者按此字段进行分组
#从SQL读取到的值必须为unix时间戳，作为时间属性,
sql_attr_timestamp = asktime
#命令行查询时，设置正确的字符集
sql_query_info_pre = SET NAMES utf8
#命令行查询时，从数据库读取原始数据信息
sql_query_info = SELECT * FROM cyask_question WHERE qid=$id
}

#index定义
index mysql
{
source = mysql #对应的source名称
path = E:/isweb/htdocs/coreseek/var/data/mysql #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
docinfo = extern
mlock = 0
morphology = none
min_word_len = 1
html_strip = 0

#中文分词配置，详情请查看： http://www.coreseek.cn/products-install/coreseek_mmseg/
#charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾
charset_dictpath = E:/isweb/htdocs/coreseek/etc/ #Windows环境下设置，/符号结尾，最好给出绝对路径，例如：C:/usr/local/coreseek/etc/...
charset_type = zh_cn.utf-8
}

#全局index定义
indexer
{
mem_limit = 128M
}

#searchd服务定义
searchd
{
listen = 9312
read_timeout = 5
max_children = 30
max_matches = 1000
seamless_rotate = 0
preopen_indexes = 0
unlink_old = 1
pid_file = E:/isweb/htdocs/coreseek/var/log/searchd_mysql.pid #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
log = E:/isweb/htdocs/coreseek/var/log/searchd_mysql.log #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
query_log = E:/isweb/htdocs/coreseek/var/log/query_mysql.log #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
binlog_path = #关闭binlog日志
}

========================================================

一, 如果提示Unigram dictionary load Error,检查etc下的uni.lib文件是否存在,如果没有,从压缩包里再拷一个进来,我就莫名其妙的丢了好几次

二, coreseek的数据库查询按照以下顺序进行

连接到数据库;
执行预查询 (参见“sql_query_pre”) ，以便完成所有必须的初始设置，比如为MySQL连接设置编码;
执行主查询 (参见 “sql_query”) ，其返回的的数据将被索引;
执行后查询 (参见 “sql_query_post”) ，以便完成所有必须的清理工作;
关闭到数据库的连接;
对短语进行排序 (或者学究一点, 索引类型相关的后处理);
再次建立到数据库的连接;
执行后索引查询 (参见“sql_query_post_index”) i，以便完成所有最终的清理善后工作;
再次关闭到数据库的连接.

三,注意set_atrr_uint的设置,上面已做了说明

四,不管你的数据库是什么编码 charset_type只能使用 zh_cn.utf-8来设置,原因

3,测试

进入到coreseek目录

在cmd中执行命令 bin\indexer -c etc\csft_mysql.conf --all

如果看到以下画面说明配置成功

数据库搜索解决方案coreseek在windows2008下安装使用-多库,GBK,分区,增量

进行命令行搜索测试

bin\search -c etc\csft_mysql.conf

看到以下画面说说明乘成功

在命令行下测试搜索服务端

bin\searchd -c etc\csft_mysql.conf --console,停止用ctrl-c

如果出现提示 warning:compat_sphinxql_magics=1 is deprecated ... 将csft_mysql.conf中的searchd中加一句compat_sphinxql_magics=0即可

正常显示为以下状态,如果显示都正常,在进行php连接测试前先不要关闭这个服务

用php进行搜索测试

在htdocs下新建一个php文件

require '../coreseek/api/sphinxapi.php';

$s = new SphinxClient();

//这里最好也使用127.0.0.1

$s->SetServer('127.0.0.1', 9312);

$result = $s->Query('中文');

echo "<pre>";

print_r($result);

echo "</pre>";

正常显示结果的,就可以使用了

注意,字符编码的问题:无论你的数据库是什么编码,都要设定set names utf8,charset_type也要设定为zh_cn.utf-8,发送搜索请求的页面编码也使用utf-8无dom格式,如果你有使用gbk,请自行转码中文.utf8是保证搜索服务的重要设定.

4,将searchd加入windows服务

E:\isweb\htdocs\coresek\bin\searchd.exe --install --config E:\isweb\htdocs\coreseek\etc\csft_mysql.conf --servicename coorseek-search

在服务器管理中就可以启动或者停止服务

5,分区查询

索引系统需要一次性通过主查询来取得全部文档信息,虽然主索引一般都是在晚上进行,不过一次性的操作也耗费大量的内存和io资源,有可能导致整个表被锁定并使得其他操作被阻止,coreseek提供了区段查询的方法来解决此问题

在csft_mysql.conf中设置:

#取出信息表的最大和最小值

sql_query_range = SELECT MIN(id),MAX(id) FROM documents

#设置区段的大小

sql_range_step = 1000

#将主索引改为 $start和$end的范围内,coreseek会自动替换这两个值

sql_query = SELECT * FROM documents WHERE id>=$start AND id<=$end

#设置分区查询的时间间隔

sql_ranged_throttle = 0

6,增量查询

如果整个数据集非常大，以至于难于经常性的重建索引，但是每次新增的记录却相对较少。可以使用主索引＋增量索引式来实现“近实时”的索引更新。这需要两个数据源和两个索引，对大量数据建立主索引，而对新增文档建立增量索引。增量索引更新的频率可以非常快，服务器更新索引压力较轻松,可以建立一个计数表，记录主索引的更新位置,增量索引则在此位置之外进行索引操作

在csft_mysql.conf主索引数据源source中设置:

#建立一个表用于存贮最大索引id

sql_query_pre = CREATE TABLE IF NOT EXISTS cyask_coreseek_counter ( counter_id INTEGER PRIMARY KEY NOT NULL,max_doc_id INTEGER NOT NULL)

##取数据之前将表的最大id记录到sph_counter表中

sql_query_pre =REPLACE INTO cyask_coreseek_counter SELECT 1, MAX(pid) FROM cyask_question

增加一个增量索引数据源

source delta : main

{

sql_query_pre = SET NAMES utf8

sql_query = SELECT id, title, body FROM documents WHERE id>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )

}

在主索引之外同样的增加一个增量索引

index delta : main

{

source = delta

path = /path/to/delta

}

相关的分区查询和增量索引的配置工作完成下来需要设定coreseek的程序操作

新的配置文件如下:

======================================================

#MySQL数据源配置，详情请查看： http://www.coreseek.cn/products-install/mysql/
#请先将var/test/documents.sql导入数据库，并配置好以下的MySQL用户密码数据库

#源定义
source mysql
{
type = mysql
sql_host = 127.0.0.1
sql_user = mysqli
sql_pass = 123456
sql_db = qianyu365_database
sql_port = 3306
#预查询，默认为一个空的查询列表，它们被用来设置字符编码，标记待索引的记录，更新内部计数器，设置SQL服务器连接选项和变量等等
sql_query_pre = SET NAMES utf8
#对于MySQL数据源，在预查询中禁用查询缓冲（query cache）（仅对indexer连接）是有用的，因为索引查询一般并会频繁地重新运行，缓冲它们的结果是没有意义的。这可以按如下方法实现：
sql_query_pre = SET SESSION query_cache_type=OFF
#建立一个表用于存贮最大索引id
sql_query_pre = CREATE TABLE IF NOT EXISTS cyask_coreseek_counter ( counter_id INTEGER PRIMARY KEY NOT NULL,max_doc_id INTEGER NOT NULL)
##取数据之前将表的最大id记录到sph_counter表中
sql_query_pre =REPLACE INTO cyask_coreseek_counter SELECT 1, MAX(qid) FROM cyask_question
#取出信息表的最大和最小值,便于设置区段查询
sql_query_range = SELECT MIN(qid),MAX(qid) FROM cyask_question
#设置区段查询的大小
sql_range_step = 1000
#设置分区查询的时间间隔
sql_ranged_throttle = 0
#主查询，只能有一个主查询。它被用来从SQL服务器获取文档，
#sql_query第一列字段必须是唯一的正整数值,无需再设置sql_attr_uint
sql_query = SELECT q.qid,q.title,q.sid1,q.sid2,q.uid,q.asktime,q.status,q.answercount,qs.supplement FROM `cyask_question` q left join cyask_question_1 qs on q.qid=qs.qid where q.qid<( SELECT max_doc_id FROM cyask_coreseek_counter WHERE counter_id=1 ) and q.qid>=$start AND q.qid<=$end
#sql_attr_unit是整数属性列,既参与搜索结果,但不会被索引,只用于返回额外的信息，如果要声明字符串属性列可以使用sql_attr_str2ordinal
#title、content作为字符串/文本字段，被全文索引
sql_attr_uint = sid1
sql_attr_uint = sid2
sql_attr_uint = status
sql_attr_uint = answercount
#sql_attr_timestamp列用于对结果进行排序，或者按此字段进行分组
#从SQL读取到的值必须为unix时间戳，作为时间属性,
sql_attr_timestamp = asktime
#命令行查询时，设置正确的字符集
sql_query_info_pre = SET NAMES utf8
#命令行查询时，从数据库读取原始数据信息
sql_query_info = SELECT * FROM cyask_question WHERE qid=$id
}

source mysql_delta : mysql
{
sql_query_pre = set names utf8
#增量源只查询上次主索引生成后新增加的数据
#如果新增加的searchid比主索引建立时的searchid还小那么会漏掉
sql_query = SELECT q.qid,q.title,q.sid1,q.sid2,q.uid,q.asktime,q.status,q.answercount,qs.supplement FROM `cyask_question` q left join cyask_question_1 qs on q.qid=qs.qid where q.qid>( SELECT max_doc_id FROM cyask_coreseek_counter WHERE counter_id=1 ) and q.qid>=$start AND q.qid<=$end
sql_query_range = SELECT MIN(qid),MAX(qid) FROM cyask_question where qid>( SELECT max_doc_id FROM cyask_coreseek_counter WHERE counter_id=1 )
}

#index定义
index mysql
{
#设置索引的源
source = mysql
#设置生成的索引存放路径
path = E:/isweb/htdocs/coreseek/var/data/mysql
#定义文档信息的存储模式，extern表示文档信息和文档id分开存储
docinfo = extern
#设置已缓存数据的内存锁定，为0表示不锁定
mlock = 0
#设置词形处理器列表，设置为none表示不使用任何词形处理器
morphology = none
#定义最小索引词的长度
min_word_len = 1
#定义是否从输入全文数据中取出HTML标记
html_strip = 0
#中文分词配置，详情请查看： http://www.coreseek.cn/products-install/coreseek_mmseg/
#charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾
#指定分词读取词典文件的位置
charset_dictpath = E:/isweb/htdocs/coreseek/etc/
#设置字符集编码类型，我这里采用的utf8编码和数据库的一致
charset_type = zh_cn.utf-8
}
#定义增量索引

index mysql_delta
{
source = mysql_delta
path = E:/isweb/htdocs/coreseek/var/data/mysql_delta
}

#全局index定义
indexer
{
#定义生成索引过程使用索引的限制
mem_limit = 512M
}

#searchd服务定义
searchd
{
#定义监听的IP和端口
listen = 9312
#定义网络客户端请求的读超时时间
read_timeout = 5
#定义子进程的最大数量
max_children = 50
#定义守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
max_matches = 500
#启用无缝seamless轮转，防止searchd轮转在需要预取大量数据的索引时停止响应
#也就是说在任何时刻查询都可用，或者使用旧索引，或者使用新索引
seamless_rotate = 1
#配置在启动时强制重新打开所有索引文件
preopen_indexes = 1
#设置索引轮转成功以后删除以.old为扩展名的索引拷贝
unlink_old = 1
pid_file = E:/isweb/htdocs/coreseek/var/log/searchd_mysql.pid
log = E:/isweb/htdocs/coreseek/var/log/searchd_mysql.log
query_log = E:/isweb/htdocs/coreseek/var/log/query_mysql.log .
binlog_path = #关闭binlog日志
}

======================================================

7,定时更新操作

一,重新生成全部索引

如果searchd守护进程已经启动，那么需要加上—rotate参数：

进入到coreseek目录,在cmd中执行命令

bin\indexer -c etc\csft_mysql.conf --all --rotate

二,设置生成主索引的定时执行命令,每天凌晨1点执行

indexer -c c:\pathTo\csft.conf --index main

E:\isweb\htdocs\coresek\bin\indexer -c etc\csft_mysql.conf --rotate mysql

三,设置生成增量索引的定时执行命令,每10分钟执行一次

E:\isweb\htdocs\coresek\bin\indexer -c etc\csft_mysql.conf --rotate mysql_delta

四,增量索引和主索引的合并,每15分钟一次

E:\isweb\htdocs\coresek\bin\indexer --config etc\csft_mysql.conf --merge mysql mysql_delta --rotate

Sphinx到Coreseek安装全解云天河Blog MYSQL PHP Linux shpinx coreseek 中文分词全文索引
此次采用的是CentOS6.532位如有出入，请参阅相关配置手册说明——@Author云天河BlogSphinx部分简介Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为M
给全文搜索引擎Manticore (Sphinx) search 增加中文分词冰糖葫芦加冰
Sphinxsearch是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更新，sphinxsearch的版本太低，bug也会出现；后来也使用最新的sphinxsearch，它可以支持几乎所有语言，通过其内置的ngramto
全文搜索引擎-sphinx及xunsearch 云窗96
使用全文搜索引擎站内搜索类型1、sphinx(斯芬克斯)sphinx不支持中文，coreseek(基于sphinx，并且支持中文)2、lucenejava支持好，为php也提供方法3、xunsearch(迅搜)国产、仅支持phpsphinx的使用优点：高速的建立索引可达到10M/s高性能的搜索(在2-4G的文本数据上，平均每次检索响应的时间小于0.1秒)可处理海量数据(目前已知可以处理100G的文
Sphinx搜索引擎 Coreseek 中文分词搜索引擎安装使用,站内搜索一件小毛衣
Sphinx搜索引擎Coreseek中文分词搜索引擎安装使用，站内搜索，php简单使用；一.简介Coreseek是一款中文全文检索开源软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。相比Sphinx，Coreseek增加了一个带有中文分司的词库。二.Coreseek下载wgethttp
coreseek安装使用 school_1087
本文引自:http://www.phperz.com/article/14/0615/95.htmlsphinx的安装使用，其实都是大同小异，以下以coreseek安装为例Coreseek是一款中文全文检索/搜索软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，因为sphinx不支持分词，所以用coreseek特别适合，现在用的是Coreseek3.2.14稳定版,目前暂时没有新的
Sphinx实时搜索设计探讨 JobinLi
背景Sphinx是一个全文搜索引擎，虽然官方没对中文分词检索做直接支持，但是配合coreseek还是能很好地实现中文全文检索的。至于分词结果，不本文讨论范围内，本文主要针对Sphinx的实时搜索能力进行探讨。用过Sphinx的应该都知道，虽然提供了更新属性的接口(php中是UpdateAttributes函数)，但是却无法对文本类型字段进行更新。本文主要以PHP来进行实际操作示范。题外话：其实El
使用python测试sphinx(coreseek)做全文索引 lpj24
coreseek是一个基础sphinx的中文索引工具，我今天写一下关于使用python做测试的方式。1.coreseek安装，连接mysql的配置此处不赘述，很多人写过这方面的博客，单纯讲python连接sphinx.当然我们先启动sphinx进程，./searched2.python要连接sphinx肯定是需要第三方库的，你可以去pypi找，当然sphinx已经告诉我们了，我们去/home/lp
coreseek+php之sphinx扩展安装+php调用示例张清柏
[参考资料](https://blog.csdn.net/moqiang02/article/details/42027243)[关于排序和分而已,及sphinxapi.php的调用](https://blog.csdn.net/joyatonce/article/details/52059564)首先了解sphinx是什么?他是一个服务,用于搜索的服务,也可以说是一个搜索引擎,如果使用搜索引擎,
如何在thinkphp框架下使用coreseek？ LiChangBao
1.进入到coreseek的api路径（D:\coreseek-3.2.14-win32\api）复制sphinxapi.php文件；2.进入到thinkphp框架的Vendor文件夹下，把上一步复制的sphinxapi.php文件粘贴到此处，并重命名为Sphinx.class.php;3.在需要使用sphinx的PHP文件中导入sphinx类库（即：import('Vendor.Sphinx')
coreseek windows下服务 FATAL: Tokenizer initialization failure 解决办法 ksr12333 coreseek
coreseek命令行模式一切正常在windows下安装成服务启动正常，但是一使用，就会出现没有结果的错误，再去服务里一看，服务自动停止了（出错了）去日志看下FATAL:Tokenizerinitializationfailure发现这个百度google后，发现都是说windows下要用绝对路径，并且在路径里要用“/"代替"\"这些都实验了，无效正准备用源码试试看到底错误是什么原因忽然想到一点我在
mysql + sphinx 安装过程详解 zhsj0110 sphinx
参考：http://www.cnblogs.com/chenzehe/archive/2010/11/04/1868354.htmlhttp://www.coreseek.cn/news/7/99/http://klinmy.blog.163.com/blog/static/5680802008428445716/http://love3400wind.blog.163.com/blog/stat
Sphinx 安装记录阳光梦搜索引擎
前言如果你想支持中文全文检索的话，请参考coreseek安装记录。如果你已经安装sphinx或者coreseek,只是想查找怎么配置和使用sphinx和coreseek的话，请参考coreeek和sphinx的配置与使用下面的表纯属文章虚构，由于配置内容较多，部分省略，具体可以参考官方文档。想吐槽一句：编译安装真浪费时间，configure&&make&&makeinstall一个软件就需要几十分
如何给mysql innodb表添加Sphinx中文快速搜索支持 xie156005934
由于innodb表不能做全文索引，因此模糊查询的效率很低，几十万行的数据like查询一般是分钟级的，而sphinx则很好的解决了这个问题，可以在0.几秒内完成这个查询，下面看下如何给innodb表添加sphinx支持一、安装sphinx官方下载地址：http://sphinxsearch.com/downloads/archive/由于coreseek4.1要求2.0.2的版本，我的操作系统是ce
mysql安装sphinx引擎 weixin_34143774 数据库
一般情况下，我们在使用数据库的时候使用的引擎是InnoDB或者是MYISAM默认安装会把一些其它的引擎给安装上，但是不会安装sphinx.(我测试的数据库是5.6使用的cmake)使用showengines命令可以查看mysql数据库的引擎如果你是用的是coreseek，直接拷贝的mysqlse那么可能不会编译成功，可能会出现一些版本不兼容的错误。一般到sphinx官方网站上下载sphinx，解压
php + MongoDB + Sphinx 实现全文检索 (一) _Lyux php
现状:Sphinx目前的稳定版本为2.2.11.Sphinx目前对英文等字母语言采用空格分词,故其对中文分词支持不好,目前官方中文分词方案仅支持按单字分词.在Sphinx基础上,目前国内有两个中文分词解决方案,一个是sphinx-for-chinese,一个是coreseek.sphinx-for-chinese没有官网,文档较少,可查到的最新版本可支持sphinx1.10.coreseek官方还
安装coreseek全文检索服务器 wangjun_1218 mysql linux综合全文检索 mysql 测试服务器 opera gcc
==安装coreseek全文检索服务器==root:groupaddxmpuseradd-gxmp-d/home/coreseek-m-s/bin/bashcoreseekpasswdcoreseekcoreseek:cd~mkdirlocalfile;cdlocalfilewgethttp://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.ta
sphinx索引工具的使用 yt_php 工具的使用
介绍mysql全文索引有个缺点是经常使用的词汇不会建立索引而且不支持中文，sphinx提供了比数据库本身更专业的搜索功能。1高速的建立索引（创建100万条索引只需3~4分钟）2高性能搜索（一千万条查询速度为毫秒级）3处理海量数据（单一索引最大可包含一亿条记录）4优秀的相关度算法但是sphinx只支持英文与俄文，这里我们需要另一款软件，coreseek，基于sphinx，添加了中文词库，专攻中文搜索
sphinx原理以及索引流程 wuliZs_
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx 原理及实现钻石王小二吼吼吼 mysql优化
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx应用项目实践踩坑记 Winner-雪花飘技术 php 服务器
之前写的关于sphinx环境及使用的文章只是简单的做个小demo的测试，真正应用到项目中会遇到各种问题袭来，没有leader指导，只能自己摸索，应用到项目上线也是花了好几天的时间，这次记录只要是指出各个坑点，避免日后再踩坑。环境搭建docker如何安装在这里就不详细说了，有了docker环境后使用dockersearchsunfjun/coreseek，笔者使用的docker源是阿里源vi/etc
coreseek下相关知识（匹配模式、排序模式、指定字段查询、多字段查询、指定字段内容高亮、增量索引实时更新，其他技巧）总结篇 qiuyu6958334 php 搜索引擎Coreseek
从标题看，这几个都是重点知识，把这些都学会了，coreseek基本上使用无障碍了，所以很重要！！匹配模式1、SPH_MATCH_ALL,匹配所有查询词(默认模式);2、SPH_MATCH_ANY,匹配查询词中的任意一个;3、SPH_MATCH_PHRASE,将整个查询看作一个词组，要求按顺序完整匹配;4、SPH_MATCH_BOOLEAN,将查询看作一个布尔表达式(参见第5.2节“布尔查询语法”)
sphinx全等匹配（等于）查询的语法 gianttj
sphinx全等匹配的语法，以下用sphinxSE语法作为示例：SELECT*FROM`attribute_content_search`WHEREquery='"^感冒$"|"^便秘$";mode=extended2;limit=1000'limit1000;字段开始和字段结束修饰符(在版本Coreseek3.1/Sphinx0.9.9-rc2中引入)，其中“^”为开始符，“$”为结尾符，有点类
sphinx多条件搜索阿瑟·柯南·道尔 Sphinx
1、sphinx多条件搜索创建索引、开启搜索服务，以下是我创建的表单，option标签的value微数据库字段request->csrfToken?>"/>搜索字段：全部标题作者作者：2、然后将coreseek中的csft_mysql.conf类方法yii框架的yii\vendor\composer\下在yii\vendor\autoload.php中添加require_once__DIR__.'
Sphinx + Coreseek 实现中文分词搜索 Sponge_CMZ php
Sphinx+Coreseek实现中文分词搜索SphinxCoreseek实现中文分词搜索全文检索1全文检索vs数据库2中文检索vs汉化检索3自建全文搜索与使用Google等第三方网站提供的站内全文搜索的区别SphinxCoreseek介绍Coreseek安装使用1.全文检索1.1全文检索vs.数据库全文检索是数据库的有力补充，全文检索并不能替代数据库在应用系统中的作用。当应用系统的数据以大量的文
浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别 Huangwenting1990
Sphinx是一个基于SQL的全文检索引擎；普遍使用于很多网站Sphinx的特性如下：a)高速的建立索引(在当代CPU上，峰值性能可达到10MB/秒);b)高性能的搜索(在2–4GB的文本数据上，平均每次检索响应时间小于0.1秒);c)可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);Sphinx本身对中文的支持并不好。主要体现在对一段话断词；英文
Coreseek算法分析内核中的洋葱搜索
Coreseek算法分析本文对coreseek代码中涉及到的一部分算法进行说明，以便在阅读代码的时候，能更容易理解相关的代码。本文所整理的只是其中的部分算法，后面将在逐渐深入理解的基础上，进一步添加。一．Soundex算法1.算法原理Soundex是一种语音算法，利用英文字的读音计算近似值，值由四个字符构成，第一个字符为英文字母，后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形，可用S
手把手搭建sphinx环境内核中的洋葱搜索
手把手搭建sphinx环境1一．概述1二．虚拟机的搭建21.安装virtualbox22.准备suse的安装环境23.安装suse44.配置共享文件夹55.设置网络7三．Mysql的安装81.获取mysql源代码82.获取sphinx源码93.增加sphinxSE引擎94.配置编译95.启动和测试96.系统自动启动mysql10四．Sphinx的搭建101.解压coreseek102.首先安装MM
研究了coreseek下的sphinx 配置及api调用，收获颇多。任亚军系统架构 api sql query float lucene unix
前言：之前一直使用lucene，有很多优点及缺点，最大的缺点就是要维护一个索引的成本很高，需要牵扯到很多方面，其中也包含业务方面；优点呢，不用多说了，速度快，支持查询的模式多，各种条件下的查询都能实现，所以想找一个更加符合现有应用状况的搜索引擎，故想到了coreseek=(sphinx+中文分词+框架)Sphinx最大的好处是业务层面不需要你去关心索引的建立、更新等，后台定时去维护主索引和增量索引
nginx开启关闭shell diwan2439
#!/bin/sh#file:/usr/local/bin/sphinx./etc/rc.d/init.d/functionsappName="Sphinx"stop(){/usr/local/bin/searchd-c/usr/local/coreseek/etc/sphinx.conf--stop>/dev/null2>&1ret=$?if[$ret-eq0];thenaction$"Stop
Centos 编译安装sphinx-0.9.9全文检索 YPHP coreseek sphinx php centos
Sphinx简介Sphinx是开源的搜索引擎，它支持英文的全文检索。所以如果单独搭建Sphinx，你就已经可以使用全文索引了。但是往往我们要求的是中文索引，怎么做呢？国人提供了一个可供企业使用的，基于Sphinx的中文全文检索引擎。也就是说Coreseek实际上的内核还是Sphinx。那么他们的版本对应呢？sphinx可以通过设置为“一元切分模式”来支持搜索中文在实际使用中，搜索非中文的话，sph
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

数据库搜索解决方案coreseek在windows2008下安装使用-多库,GBK,分区,增量

你可能感兴趣的:(coreseek)