sinykk

sphinx 的安装及使用 windws centos coreseek

之前在做JAVA时知道有一个LUCENCE,当时想等有空再去学习，后来主要做PHP了，就少兴趣去学LUCENCE了，而这次因项目中要用到全文检索，而我也不会，并且对这个全文检索很感兴趣，于是学了这个SPHINX。学在这之前很多疑惑，后面多看多试也了解了不少，我站在我最初的学的地方来回答一下当时我自己的疑惑

全文检索是什么，有什么用，怎么用

全文检索就是搜索数据库中所有指定是表，指定的字段，只是这种搜索效率远远高于SQL的 like or 等，因为这个还涉及到一个分词，也只有在全文检索中用到

另一个全文检索可以搜索任意文档，因为可以使用python 的万能数据源

至于怎么用：其实这个有点像memcache，相当于一个插件，通过PHP去调SPHINX里查出来的数据。

另也可以像SQL一查写SQL语句查询SPHINX里的数据

快速使用coreseek4

1、配置conf文件

创建索引
2、D:\coreseek4\bin>indexer -c ../etc/csft_sinykk.conf --all

启动一个SPHINX服务
3、D:\coreseek4\bin>searchd -c ../etc/csft_sinykk.conf --index all

在此处可以在线测试
D:\coreseek4\bin>search -c ../etc/csft_sinykk.conf 'teststr'

---------------------------------------------------------------
注：新版CORESEEK4.0.1并不支持主键字符串，官方说的支持字符串仅是 sql_field_string

升级SphinxSE为1.11-dev版本，支持字符串属性（补丁文件见下文）
在SphinxSE之中，可以调用返回sql_field_string等设置了string的属性，从而在MySQL通过SphinxSE查询时，可以得到Coreseek/Sphinx索引中保存的字符串值

如果要使用sql_attr_string sql_field_str新属性时一定要使用新的sphinxapi.php
---------------------------------------------------------------

=========================================

重点

在配置文件中有

sql_query                = SELECT id,cate_id,contents FROM articles
                                                              #sql_query第一列id需为整数
                                                              #title、content作为字符串/文本字段，被全文索

sql_attr_uint             = cate_id #凡时定义了sql_attr_类型的字段都不参与全文检索，但可以通过 setFilter进行过滤搜索

#sql_query_info = SELECT * FROM articles WHERE id=$id #命令行查询时，从数据库读取原始数据信息，仅供MYSQL使用，并且只用于调试使用

合并索引方法：
indexer --merge main delta --config /usr/local/coreseek/etc/csft.conf --rotate

bin\searchd -c etc\csft_mysql.conf --pidfile
注解：--pidfile这个选项一定要添加，强制生成pid，不然在合并索引时会报pid文件无法打开错误（这项非常重要）

更新索引（相当于重建索引，好处请查文档）

D:\coreseek\bin>indexer -c ../etc/csft_rtsinykk2.conf rtarticles_2_delta --rotate

==========================================

二、 Sphinx 在 windows 上的安装

1. 直接在 http://www.sphinxsearch.com/downloads.html 找到最新的 windows 版本，我这里下的是 Win32 release binaries with MySQL support ，下载后解压在 D:/sphinx 目录下；

2. 在 D:/sphinx/ 下新建一个 data 目录用来存放索引文件，一个 log 目录方日志文件，复制 D:/sphinx/sphinx.conf.in 到 D:/sphinx/bin/sphinx.conf （注意修改文件名）；

3. 修改 D:/sphinx/bin/sphinx.conf ，我这里列出需要修改的几个：

type           = mysql # 数据源，我这里是mysql
sql_host       = localhost # 数据库服务器
sql_user       = root # 数据库用户名
sql_pass       = '' # 数据库密码
sql_db         = test # 数据库
sql_port       = 3306 # 数据库端口

sql_query_pre = SET NAMES utf8 # 去掉此行前面的注释，如果你的数据库是uft8 编码的

index test1
{
# 放索引的目录
path      = D:/sphinx/data/
# 编码
charset_type     = utf-8
# 指定utf-8 的编码表
charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
# 简单分词，只支持0 和1 ，如果要搜索中文，请指定为1
ngram_len       = 1
# 需要分词的字符，如果要搜索中文，去掉前面的注释
ngram_chars      = U+3000..U+2FA1F
}

# 搜索服务需要修改的部分
searchd
{
# 日志
log = D:/sphinx/log/searchd.log

# PID file, searchd process ID file name
pid_file = D:/sphinx/log/searchd.pid

# windows 下启动searchd 服务一定要注释掉这个
# seamless_rotate = 1
}

4. 导入测试数据

sql 文件在 D:/sphinx/example.sql

C:/Program Files/MySQL/MySQL Server 5.0/bin>mysql -uroot test<d:/sphinx/example.sql

5. 建立索引

D:/sphinx/bin>indexer.exe test1 ( 备注 :test1 为 sphinx.conf 的 index test1() )
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff

using config file ‘./sphinx.conf’…
indexing index ‘test1′…
collected 4 docs, 0.0 MB
sorted 0.0 Mhits, 100.0% done
total 4 docs, 193 bytes
total 0.101 sec, 1916.30 bytes/sec, 39.72 docs/sec

D:/sphinx/bin>

6. 搜索 ’test’ 试试

D:/sphinx/bin>search.exe test1 (注：test1 为搜索的英文单词)

显示结果如下

using config file ‘./sphinx.conf’…
index ‘test1′: query ‘test ‘: returned 3 matches of 3 total in 0.000 sec

displaying matches:
1. document=1, weight=2, group_id=1, date_added=Wed Nov 26 14:58:59 2008
id=1
group_id=1
group_id2=5
date_added=2008-11-26 14:58:59
title=test one
content=this is my test document number one. also checking search within
phrases.
2. document=2, weight=2, group_id=1, date_added=Wed Nov 26 14:58:59 2008
id=2
group_id=1
group_id2=6
date_added=2008-11-26 14:58:59
title=test two
content=this is my test document number two
3. document=4, weight=1, group_id=2, date_added=Wed Nov 26 14:58:59 2008
id=4
group_id=2
group_id2=8
date_added=2008-11-26 14:58:59
title=doc number four
content=this is to test groups

words:
1. ‘test’: 3 documents, 5 hits
D:/sphinx/bin>

6. 测试中文搜索

修改 test 数据库中 documents 数据表，

UPDATE `test`.`documents` SET `title` = ‘ 测试中文 ’, `content` = ‘this is my test document number two ，应该搜的到吧 ’ WHERE `documents`.`id` = 2;

重建索引：

D:/sphinx/bin>indexer.exe test1

搜索 ’ 中文 ’ 试试：

D:/sphinx/bin>search.exe 中文 (注：搜索的中文字)
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff

using config file ‘./sphinx.conf’…
index ‘test1′: query ‘ 中文 ‘: returned 0 matches of 0 total in 0.000 sec

words:
D:/sphinx/bin>

貌似没有搜到，这是因为 windows 命令行中的编码是 gbk ，当然搜不出来。我们可以用程序试试，在 D:/sphinx/api 下新建一个 foo.php 的文件，注意 utf-8 编码

启动 Sphinx searchd 服务

D:/sphinx/bin>searchd.exe
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff

WARNING: forcing –console mode on Windows
using config file ‘./sphinx.conf’…
creating server socket on 0.0.0.0:9312
accepting connections

<?php
require ’sphinxapi.php’;
$s = new SphinxClient();
$s->SetServer(’localhost’,9312);
$result = $s->Query(’ 中文 ’);
var_dump($result);
?>

执行 PHP 查询：

访问 http://www.test.com/sphinx/api/foo.php ( 自己配置的虚拟主机 )

参考：http://blog.csdn.net/siren0203/article/details/5564082

======================================================

coreseek 分词使用

因coreseek集成了sphinx，所以下载coreseek,就可以直接使用其中ETC/文件夹下相关CONF文件。

主要配置，详细查看

http://www.coreseek.cn/products-install/mysql/

http://www.coreseek.cn/products-install/coreseek_mmseg/

charset_dictpath = D:/coreseek/etc/

charset_type = zh_cn.utf-8

测试代码

require ( "sphinxapi.php" );

$cl = new SphinxClient ();
$cl->SetServer ( '127.0.0.1', 9312);
$cl->SetConnectTimeout ( 3 );
$cl->SetArrayResult ( true );
$cl->SetMatchMode ( SPH_MATCH_ANY);
$cl->SetLimits(20,10);//分页
$res = $cl->Query ( '已经被我们格式化了', "*" );

if(isset($res['matches'])){

 $ids = '';
 foreach($res['matches'] as $r){
 $ids .=$r['id'].',';
 }
 $ids = substr($ids,0,-1);
 $idsarr = explode(',',$ids);
 $conn = new mysqli('localhost','root','','demo');
 $conn->set_charset('utf8');
 $sql = "select id,title,contents from articles where id in ($ids)";
 echo $sql;
 $result = $conn->query($sql);


 $words = array_keys($res['words']);
 var_dump($words);
 //将数据库查出来的数组放到新数组中，并使用数组的键名为IN 的ID，这样方便排序
 $data = array();
 while($i = $result->fetch_assoc()){
 echo $i['id'].replacestr($words,$i['title']).' ';
 echo replacestr($words,$i['contents']).' ';*/
 $data[$i['id']] = $i;
 }
 foreach($idsarr as $i){
 echo ' ================================= ';
 echo $data[$i]['id'].replacestr($words, $data[$i]['title']).' ';
 echo replacestr($words, $data[$i]['contents']).' ';
 }


 echo ' ';
 echo ' ';
 var_dump($res['matches']);
}else{
 echo ' not matches ';
 var_dump($res);
}

print_r($cl);
print_r($res);

function replacestr($arr,$str){
 foreach($arr as $r){
 $str = str_replace($r,"".$r."",$str);
 }
 return $str;
}

======================================================

在一个配置文件中配置多个 source index 并且在代码中使用 AddQuery方式可以一次查询多个类型的QUERY，如同时查询用户+应用+标签等

$sphinx->AddQuery($query, 'artists');
$sphinx->AddQuery($query, 'variations');
$sphinx->SetFilter('name', array(3));
$sphinx->SetLimits(0, 10);
$result = $sphinx->RunQueries();

======================================================

所有的搜索都不是死的，都是动态的，所以需要把搜索做成动态的，能搜索最新的信息。

思路：

1 建立主索引+增量索引

2并运行这个主索引searchd -c ../etc/csft_rtsinykk.conf --pidfile

3 定时任务linux crontab

更新增量索引 indexer -c ../etc/csft_rtsinykk.conf --rotate delta

合并索引 indexer --merge rtarticles delta --config /usr/local/coreseek/etc/ csft_rtsinykk.conf --rotate

4定时任务更新主索引

-------------------------------------------

今天试了在建立增量索引时不使用delta方式，增量索引为独立索引，只是其配置和主索引一样，不一样的地方在 sql_query里如 (SELECT id,cate_id,title,contents FROM articles WHERE id>(SELECT max_doc_id FROM sphinx_counter WHERE counter_id=1)
})

这样更新索引时只需要作

D:\coreseek\bin>indexer -c ../etc/csft_rtsinykk2.conf rtarticles_2_delta --rotate

然后在搜索的时候使用

$res = $cl->Query ( '人生不过是一场忍耐', "rtarticles_2 rtarticles_2_delta " );

这样就不需要进行索引合并（索引合并会带来较大的IO操作）

-----------------------------------2011-8-24---------------------------------------

参考：http://www.coreseek.cn/docs/coreseek_3.2-sphinx_0.9.9.html#live-updates

3.11. 实时索引更新

有这么一种常见的情况：整个数据集非常大，以至于难于经常性的重建索引，但是每次新增的记录却相当地少。一个典型的例子是：一个论坛有1000000个已经归档的帖子，但每天只有1000个新帖子。

在这种情况下可以用所谓的“主索引＋增量索引”（main+delta）模式来实现“近实时”的索引更新。

这种方法的基本思路是设置两个数据源和两个索引，对很少更新或根本不更新的数据建立主索引，而对新增文档建立增量索引。在上述例子中，那1000000个已经归档的帖子放在主索引中，而每天新增的1000个帖子则放在增量索引中。增量索引更新的频率可以非常快，而文档可以在出现几分种内就可以被检索到。

确定具体某一文档的分属那个索引的分类工作可以自动完成。一个可选的方案是，建立一个计数表，记录将文档集分成两部分的那个文档ID，而每次重新构建主索引时，这个表都会被更新。

Example 4. 全自动的即时更新

# in MySQL
CREATE TABLE sph_counter
(
    counter_id INTEGER PRIMARY KEY NOT NULL,
    max_doc_id INTEGER NOT NULL
);

# in sphinx.conf
source main
{
    # ...
    sql_query_pre = SET NAMES utf8
    sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM documents
    sql_query = SELECT id, title, body FROM documents \
        WHERE id<=( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )
}

source delta : main
{
    sql_query_pre = SET NAMES utf8
    sql_query = SELECT id, title, body FROM documents \
        WHERE id>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )
}

index main
{
    source = main
    path = /path/to/main
    # ... all the other settings
}

# note how all other settings are copied from main,
# but source and path are overridden (they MUST be)
index delta : main
{
    source = delta
    path = /path/to/delta
}

======================================

---------------------------------------------------------------
安装 sphinxSE 引擎
SphinxSE Plugin Install (插件模式安装) :
---------------------------------------------------------------

    Chinese : 解压ha_sphinx.dll放到MySQL 5.1.x的lib/plugin/目录中，使用root登陆MySQL；

    Install (启用):
    mysql> INSTALL PLUGIN sphinx SONAME "ha_sphinx.dll" ;

    --------------------------------------------
    Uninstall (关闭):
    mysql > UNINSTALL PLUGIN sphinx ;

    检查引擎模块是否正常加载
    mysql> show engines;

    CONNECTION='sphinx://localhost:3312/cgfinal';，这里表示这个表采用SPHINXSE引擎，字符集是utf8，与sphinx的连接串是'sphinx://localhost:3312/cgfinal，cgfinal是索引名称

============================

在 centos5.6 64位机器上用coreseek4.1 beta时出错

重装libliconv都不行

============================

/usr/local/sphinx/src/sphinx.cpp:15557: undefined reference to `libiconv_open'
libsphinx.a(sphinx.o)(.text+0x53a01):/usr/local/sphinx/src/sphinx.cpp:15575: undefined
reference to `libiconv'
libsphinx.a(sphinx.o)(.text+0x53a28):/usr/local/sphinx/src/sphinx.cpp:15581: undefined
reference to `libiconv_close'

官方解决方法

## 如果出现undefined reference to `libiconv'的类似错误，可以按照如下方法处理：
##方法一：（Linux使用）
## 直接执行：export LIBS="-liconv"
##然后再次configure后，进行编译安装make && make install

民间解决方法

安装sphinx时又报错
解决
一开始以为libiconv的问题，又重装了几次还是一样，最后终于找着办法了
编辑：
./src/MakeFile文件(必须confiure后在编辑这个意识是告诉g++编译器要加入库iconv的支持)
将
LIBS = -lm -lz -lexpat -L/usr/local/lib -lrt -lpthread
改成
LIBS = -lm -lz -lexpat -L/usr/local/lib -lrt -lpthread -liconv

ok了

注意是liconv

Sphinx到Coreseek安装全解云天河Blog MYSQL PHP Linux shpinx coreseek 中文分词全文索引
此次采用的是CentOS6.532位如有出入，请参阅相关配置手册说明——@Author云天河BlogSphinx部分简介Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为M
给全文搜索引擎Manticore (Sphinx) search 增加中文分词冰糖葫芦加冰
Sphinxsearch是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更新，sphinxsearch的版本太低，bug也会出现；后来也使用最新的sphinxsearch，它可以支持几乎所有语言，通过其内置的ngramto
全文搜索引擎-sphinx及xunsearch 云窗96
使用全文搜索引擎站内搜索类型1、sphinx(斯芬克斯)sphinx不支持中文，coreseek(基于sphinx，并且支持中文)2、lucenejava支持好，为php也提供方法3、xunsearch(迅搜)国产、仅支持phpsphinx的使用优点：高速的建立索引可达到10M/s高性能的搜索(在2-4G的文本数据上，平均每次检索响应的时间小于0.1秒)可处理海量数据(目前已知可以处理100G的文
Sphinx搜索引擎 Coreseek 中文分词搜索引擎安装使用,站内搜索一件小毛衣
Sphinx搜索引擎Coreseek中文分词搜索引擎安装使用，站内搜索，php简单使用；一.简介Coreseek是一款中文全文检索开源软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。相比Sphinx，Coreseek增加了一个带有中文分司的词库。二.Coreseek下载wgethttp
coreseek安装使用 school_1087
本文引自:http://www.phperz.com/article/14/0615/95.htmlsphinx的安装使用，其实都是大同小异，以下以coreseek安装为例Coreseek是一款中文全文检索/搜索软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，因为sphinx不支持分词，所以用coreseek特别适合，现在用的是Coreseek3.2.14稳定版,目前暂时没有新的
Sphinx实时搜索设计探讨 JobinLi
背景Sphinx是一个全文搜索引擎，虽然官方没对中文分词检索做直接支持，但是配合coreseek还是能很好地实现中文全文检索的。至于分词结果，不本文讨论范围内，本文主要针对Sphinx的实时搜索能力进行探讨。用过Sphinx的应该都知道，虽然提供了更新属性的接口(php中是UpdateAttributes函数)，但是却无法对文本类型字段进行更新。本文主要以PHP来进行实际操作示范。题外话：其实El
使用python测试sphinx(coreseek)做全文索引 lpj24
coreseek是一个基础sphinx的中文索引工具，我今天写一下关于使用python做测试的方式。1.coreseek安装，连接mysql的配置此处不赘述，很多人写过这方面的博客，单纯讲python连接sphinx.当然我们先启动sphinx进程，./searched2.python要连接sphinx肯定是需要第三方库的，你可以去pypi找，当然sphinx已经告诉我们了，我们去/home/lp
coreseek+php之sphinx扩展安装+php调用示例张清柏
[参考资料](https://blog.csdn.net/moqiang02/article/details/42027243)[关于排序和分而已,及sphinxapi.php的调用](https://blog.csdn.net/joyatonce/article/details/52059564)首先了解sphinx是什么?他是一个服务,用于搜索的服务,也可以说是一个搜索引擎,如果使用搜索引擎,
如何在thinkphp框架下使用coreseek？ LiChangBao
1.进入到coreseek的api路径（D:\coreseek-3.2.14-win32\api）复制sphinxapi.php文件；2.进入到thinkphp框架的Vendor文件夹下，把上一步复制的sphinxapi.php文件粘贴到此处，并重命名为Sphinx.class.php;3.在需要使用sphinx的PHP文件中导入sphinx类库（即：import('Vendor.Sphinx')
coreseek windows下服务 FATAL: Tokenizer initialization failure 解决办法 ksr12333 coreseek
coreseek命令行模式一切正常在windows下安装成服务启动正常，但是一使用，就会出现没有结果的错误，再去服务里一看，服务自动停止了（出错了）去日志看下FATAL:Tokenizerinitializationfailure发现这个百度google后，发现都是说windows下要用绝对路径，并且在路径里要用“/"代替"\"这些都实验了，无效正准备用源码试试看到底错误是什么原因忽然想到一点我在
mysql + sphinx 安装过程详解 zhsj0110 sphinx
参考：http://www.cnblogs.com/chenzehe/archive/2010/11/04/1868354.htmlhttp://www.coreseek.cn/news/7/99/http://klinmy.blog.163.com/blog/static/5680802008428445716/http://love3400wind.blog.163.com/blog/stat
Sphinx 安装记录阳光梦搜索引擎
前言如果你想支持中文全文检索的话，请参考coreseek安装记录。如果你已经安装sphinx或者coreseek,只是想查找怎么配置和使用sphinx和coreseek的话，请参考coreeek和sphinx的配置与使用下面的表纯属文章虚构，由于配置内容较多，部分省略，具体可以参考官方文档。想吐槽一句：编译安装真浪费时间，configure&&make&&makeinstall一个软件就需要几十分
如何给mysql innodb表添加Sphinx中文快速搜索支持 xie156005934
由于innodb表不能做全文索引，因此模糊查询的效率很低，几十万行的数据like查询一般是分钟级的，而sphinx则很好的解决了这个问题，可以在0.几秒内完成这个查询，下面看下如何给innodb表添加sphinx支持一、安装sphinx官方下载地址：http://sphinxsearch.com/downloads/archive/由于coreseek4.1要求2.0.2的版本，我的操作系统是ce
mysql安装sphinx引擎 weixin_34143774 数据库
一般情况下，我们在使用数据库的时候使用的引擎是InnoDB或者是MYISAM默认安装会把一些其它的引擎给安装上，但是不会安装sphinx.(我测试的数据库是5.6使用的cmake)使用showengines命令可以查看mysql数据库的引擎如果你是用的是coreseek，直接拷贝的mysqlse那么可能不会编译成功，可能会出现一些版本不兼容的错误。一般到sphinx官方网站上下载sphinx，解压
php + MongoDB + Sphinx 实现全文检索 (一) _Lyux php
现状:Sphinx目前的稳定版本为2.2.11.Sphinx目前对英文等字母语言采用空格分词,故其对中文分词支持不好,目前官方中文分词方案仅支持按单字分词.在Sphinx基础上,目前国内有两个中文分词解决方案,一个是sphinx-for-chinese,一个是coreseek.sphinx-for-chinese没有官网,文档较少,可查到的最新版本可支持sphinx1.10.coreseek官方还
安装coreseek全文检索服务器 wangjun_1218 mysql linux综合全文检索 mysql 测试服务器 opera gcc
==安装coreseek全文检索服务器==root:groupaddxmpuseradd-gxmp-d/home/coreseek-m-s/bin/bashcoreseekpasswdcoreseekcoreseek:cd~mkdirlocalfile;cdlocalfilewgethttp://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.ta
sphinx索引工具的使用 yt_php 工具的使用
介绍mysql全文索引有个缺点是经常使用的词汇不会建立索引而且不支持中文，sphinx提供了比数据库本身更专业的搜索功能。1高速的建立索引（创建100万条索引只需3~4分钟）2高性能搜索（一千万条查询速度为毫秒级）3处理海量数据（单一索引最大可包含一亿条记录）4优秀的相关度算法但是sphinx只支持英文与俄文，这里我们需要另一款软件，coreseek，基于sphinx，添加了中文词库，专攻中文搜索
sphinx原理以及索引流程 wuliZs_
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx 原理及实现钻石王小二吼吼吼 mysql优化
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx应用项目实践踩坑记 Winner-雪花飘技术 php 服务器
之前写的关于sphinx环境及使用的文章只是简单的做个小demo的测试，真正应用到项目中会遇到各种问题袭来，没有leader指导，只能自己摸索，应用到项目上线也是花了好几天的时间，这次记录只要是指出各个坑点，避免日后再踩坑。环境搭建docker如何安装在这里就不详细说了，有了docker环境后使用dockersearchsunfjun/coreseek，笔者使用的docker源是阿里源vi/etc
coreseek下相关知识（匹配模式、排序模式、指定字段查询、多字段查询、指定字段内容高亮、增量索引实时更新，其他技巧）总结篇 qiuyu6958334 php 搜索引擎Coreseek
从标题看，这几个都是重点知识，把这些都学会了，coreseek基本上使用无障碍了，所以很重要！！匹配模式1、SPH_MATCH_ALL,匹配所有查询词(默认模式);2、SPH_MATCH_ANY,匹配查询词中的任意一个;3、SPH_MATCH_PHRASE,将整个查询看作一个词组，要求按顺序完整匹配;4、SPH_MATCH_BOOLEAN,将查询看作一个布尔表达式(参见第5.2节“布尔查询语法”)
sphinx全等匹配（等于）查询的语法 gianttj
sphinx全等匹配的语法，以下用sphinxSE语法作为示例：SELECT*FROM`attribute_content_search`WHEREquery='"^感冒$"|"^便秘$";mode=extended2;limit=1000'limit1000;字段开始和字段结束修饰符(在版本Coreseek3.1/Sphinx0.9.9-rc2中引入)，其中“^”为开始符，“$”为结尾符，有点类
sphinx多条件搜索阿瑟·柯南·道尔 Sphinx
1、sphinx多条件搜索创建索引、开启搜索服务，以下是我创建的表单，option标签的value微数据库字段request->csrfToken?>"/>搜索字段：全部标题作者作者：2、然后将coreseek中的csft_mysql.conf类方法yii框架的yii\vendor\composer\下在yii\vendor\autoload.php中添加require_once__DIR__.'
Sphinx + Coreseek 实现中文分词搜索 Sponge_CMZ php
Sphinx+Coreseek实现中文分词搜索SphinxCoreseek实现中文分词搜索全文检索1全文检索vs数据库2中文检索vs汉化检索3自建全文搜索与使用Google等第三方网站提供的站内全文搜索的区别SphinxCoreseek介绍Coreseek安装使用1.全文检索1.1全文检索vs.数据库全文检索是数据库的有力补充，全文检索并不能替代数据库在应用系统中的作用。当应用系统的数据以大量的文
浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别 Huangwenting1990
Sphinx是一个基于SQL的全文检索引擎；普遍使用于很多网站Sphinx的特性如下：a)高速的建立索引(在当代CPU上，峰值性能可达到10MB/秒);b)高性能的搜索(在2–4GB的文本数据上，平均每次检索响应时间小于0.1秒);c)可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);Sphinx本身对中文的支持并不好。主要体现在对一段话断词；英文
Coreseek算法分析内核中的洋葱搜索
Coreseek算法分析本文对coreseek代码中涉及到的一部分算法进行说明，以便在阅读代码的时候，能更容易理解相关的代码。本文所整理的只是其中的部分算法，后面将在逐渐深入理解的基础上，进一步添加。一．Soundex算法1.算法原理Soundex是一种语音算法，利用英文字的读音计算近似值，值由四个字符构成，第一个字符为英文字母，后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形，可用S
手把手搭建sphinx环境内核中的洋葱搜索
手把手搭建sphinx环境1一．概述1二．虚拟机的搭建21.安装virtualbox22.准备suse的安装环境23.安装suse44.配置共享文件夹55.设置网络7三．Mysql的安装81.获取mysql源代码82.获取sphinx源码93.增加sphinxSE引擎94.配置编译95.启动和测试96.系统自动启动mysql10四．Sphinx的搭建101.解压coreseek102.首先安装MM
研究了coreseek下的sphinx 配置及api调用，收获颇多。任亚军系统架构 api sql query float lucene unix
前言：之前一直使用lucene，有很多优点及缺点，最大的缺点就是要维护一个索引的成本很高，需要牵扯到很多方面，其中也包含业务方面；优点呢，不用多说了，速度快，支持查询的模式多，各种条件下的查询都能实现，所以想找一个更加符合现有应用状况的搜索引擎，故想到了coreseek=(sphinx+中文分词+框架)Sphinx最大的好处是业务层面不需要你去关心索引的建立、更新等，后台定时去维护主索引和增量索引
nginx开启关闭shell diwan2439
#!/bin/sh#file:/usr/local/bin/sphinx./etc/rc.d/init.d/functionsappName="Sphinx"stop(){/usr/local/bin/searchd-c/usr/local/coreseek/etc/sphinx.conf--stop>/dev/null2>&1ret=$?if[$ret-eq0];thenaction$"Stop
Centos 编译安装sphinx-0.9.9全文检索 YPHP coreseek sphinx php centos
Sphinx简介Sphinx是开源的搜索引擎，它支持英文的全文检索。所以如果单独搭建Sphinx，你就已经可以使用全文索引了。但是往往我们要求的是中文索引，怎么做呢？国人提供了一个可供企业使用的，基于Sphinx的中文全文检索引擎。也就是说Coreseek实际上的内核还是Sphinx。那么他们的版本对应呢？sphinx可以通过设置为“一元切分模式”来支持搜索中文在实际使用中，搜索非中文的话，sph
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

sphinx 的安装及使用 windws centos coreseek

3.11. 实时索引更新

你可能感兴趣的:(coreseek)