sphinx中文版Coreseek中文检索引擎安装和使用方法(Linux)

　　众所周知，在MYSQL数据库中，如果你在百万级别数据库中使用 like 的话那你一定在那骂娘，coreseek是一个针对于中文检索方案的一种全文检索技术，基于sphinx开发的。但是在coreseek中不但支持了mysql数据源，还支持了python、xml、mssql、odbc。而且提供了很多语言PHP、C#、JAVA、python等丰富API接口。在中文全文搜索引擎中，基本没有什么能有coreseek匹敌的（是我太深入了嘛-^-），在千万条数据测试下，coreseek生成索引后全文检索的时间不会超过0.5s，这个速度是非常可观的。

　　在论坛如discuz(discuz后台可配置coreseek)、电商网站（shopex）都是支持配置全文检索的。下面我们就来全程安装一下coreseek全文检索引擎。我使用的系统是 centos5.5。

1. 安装必要的编译工作支持

　　安装coreseek之前需要安装这些工具，当然使用yum安装你的机子需要先保证已经联网

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

2. 下载coreseek和编译安装

$ wget http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz

$ tar xzvf coreseek-3.2.14.tar.gz

$ cd coreseek-3.2.14



##安装mmseg中文分词

$ cd mmseg-3.2.14

$ ./bootstrap    #输出的warning信息可以忽略，如果出现error则需要解决

$ ./configure --prefix=/usr/local/mmseg3

$ make && make install

$ cd ..



##安装coreseek

$ cd csft-3.2.14

$ sh buildconf.sh    #输出的warning信息可以忽略，如果出现error则需要解决

$ ./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql    ##如果提示mysql问题，可以查看MySQL数据源安装说明

$ make && make install

$ cd ..

3. 配置MYSQL数据源

vi /usr/local/coreseek/etc/csft.conf

摘录我的MYSQL数据源配置文件

source src1{

        type = mysql

        sql_host = localhost

        sql_user = root

        sql_pass = 123456

        sql_db = test

        sql_port = 3306

        sql_query_pre = SET NAMES utf8

        sql_query = SELECT id,group_id,author_id,UNIX_TIMESTAMP(date_added) as date_added,title,content FROM documents

        sql_attr_uint = author_id

        sql_attr_uint = group_id

        sql_attr_timestamp = date_added

        sql_query_info_pre = SET NAMES utf8

}



index src1{

        source = src1

        path = /usr/local/coreseek/var/data/src1/

        docinfo = extern

        mlock =0

        morphology = none

        min_word_len =1

        html_strip =0



        charset_type = zh_cn.utf-8

        charset_dictpath = /usr/local/mmseg3/etc/

        #charset-table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F

        #ngram_len = 1

        #ngram_chars = U+3000..U+2FA1F

}



searchd{

        listen = 9312

        read_timeout =5

        max_children = 30

        max_matches = 1000

        seamless_rotate = 0

        preopen_indexes = 0

        unlink_old = 1

        pid_file = /usr/local/coreseek/var/log/searchd_rtindex.pid

        log = /usr/local/coreseek/var/log/searchd_rindex.log

        query_log = /usr/local/coreseek/var/log/query_rtindex.log

}

　 a. source是配置数据源，按照提示输入MYSQL的主机、帐号、密码和数据库即可，我的MYSQL就安装在本机上（MYSQL的安装可自行百度）

　　b. sql_query_pre是在执行查询之前执行的SQL语句。（注意：在coreseek只能识别utf8字符集编码，所以我们要执行转换一下）

　　c. sql_query是要查询进行索引的SQL语句，sql_attr_unit和sql_attr_timestamp是设置属性的，属性在全文检索中可以用来设置过滤和排序。

　　d. index和source应该是成对出现，index就是配置索引的功能（我们还可以配置多个索引主索引+增量索引的功能）

　　e. searchd是常驻进程的全文检索服务，默认监控本机的9312端口

　　f. charset_type和charset_dictpath是中文分词配置

4. 创建索引和测试全文检索

　　上面我们配置了MYSQL数据源，我们要做到是test库中的documents表进行全文检索，为了测试全文检索的效率，我批量插入了该表30W的数据,以下我们就对该表进行索引测试和全文检索测试。

　　a. 测试indexer索引

$ cd /usr/local/coreseek/

$  /usr/local/coreseek/bin/indexer -c etc/csft.conf

##以下为正常情况下的提示信息：

    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]

    Copyright (c) 2007-2010,

    Beijing Choice Software Technologies Inc (http://www.coreseek.com)



     using config file 'etc/csft.conf'...

    total 0 reads, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg

    total 0 writes, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg

　　b. 创建sphinx索引文件(30W的数据我创建花了2分钟左右，索引文件大概200MB)

$  /usr/local/coreseek/bin/indexer -c etc/csft.conf --all

##以下为正常索引全部数据时的提示信息：（csft-4.0版类似）

    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]

    Copyright (c) 2007-2010,

    Beijing Choice Software Technologies Inc (http://www.coreseek.com)



     using config file 'etc/csft.conf'...

    indexing index 'xml'...

    collected 3 docs, 0.0 MB

    sorted 0.0 Mhits, 100.0% done

    total 3 docs, 7585 bytes

    total 0.075 sec, 101043 bytes/sec, 39.96 docs/sec

    total 2 reads, 0.000 sec, 5.6 kb/call avg, 0.0 msec/call avg

    total 7 writes, 0.000 sec, 3.9 kb/call avg, 0.0 msec/call avg

　　c. 使用search程序测试全文检索（注意是search不是searchd）

$  /usr/local/coreseek/bin/search -c etc/csft.conf

##以下为正常测试搜索时的提示信息：（csft-4.0版类似）

    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]

    Copyright (c) 2007-2010,

    Beijing Choice Software Technologies Inc (http://www.coreseek.com)



     using config file 'etc/csft.conf'...

    index 'xml': query '': returned 3 matches of 3 total in 0.093 sec



    displaying matches:

    1. document=1, weight=1, published=Thu Apr  1 22:20:07 2010, author_id=1

    2. document=2, weight=1, published=Thu Apr  1 23:25:48 2010, author_id=1

    3. document=3, weight=1, published=Thu Apr  1 12:01:00 2010, author_id=2



    words:





$  /usr/local/coreseek/bin/search -c etc/csft.conf -a Twittter和Opera都提供了搜索服务

##以下为正常测试搜索关键词时的提示信息：（csft-4.0版类似）

    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]

    Copyright (c) 2007-2010,

    Beijing Choice Software Technologies Inc (http://www.coreseek.com)



     using config file 'etc/csft.conf'...

    index 'xml': query 'Twittter和Opera都提供了搜索服务 ': returned 3 matches of 3 total in 0.038 sec



    displaying matches:

    1. document=3, weight=24, published=Thu Apr  1 12:01:00 2010, author_id=2

    2. document=1, weight=4, published=Thu Apr  1 22:20:07 2010, author_id=1

    3. document=2, weight=3, published=Thu Apr  1 23:25:48 2010, author_id=1



    words:

    1. 'twittter': 1 documents, 3 hits

    2. '和': 3 documents, 15 hits

    3. 'opera': 1 documents, 25 hits

    4. '都': 2 documents, 4 hits

    5. '提供': 0 documents, 0 hits

    6. '了': 3 documents, 18 hits

    7. '搜索': 2 documents, 5 hits

    8. '服务': 1 documents, 1 hits

　　d. 开启searchd服务

　　开启searchd服务，使能用API程序进行调用（注意：你需要配置你的防火墙或者关闭，和关闭selinux）

　　- service iptables stop #暂时关闭防火墙

　　- setenforce 0 # 暂时关闭selinux

$  /usr/local/coreseek/bin/searchd -c etc/csft.conf

##以下为正常开启搜索服务时的提示信息：（csft-4.0版类似）

    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]

    Copyright (c) 2007-2010,

    Beijing Choice Software Technologies Inc (http://www.coreseek.com)



    using config file 'etc/csft.conf'...

    listening on all interfaces, port=9312

##如要停止搜索服务，请使用/usr/local/coreseek/bin/searchd -c etc/csft.conf --stop

##如要已启动服务，要更新索引，请使用/usr/local/coreseek/bin/indexer -c etc/csft.conf --all --rotate

5. 使用PHP API调用coreseek

　　复制api/sphinxapi.php文件到你的项目，以下是我的一个PHP测试脚本程序：

<?php

error_reporting(E_ALL ^ E_NOTICE);

header("Content-type: text/html; charset=utf-8"); 



require ( "sphinxapi.php" );

define(INDEX_SRC1, 'src1');



$cl = new SphinxClient();



$cl->SetServer("10.2.4.15",9312);

$cl->SetArrayResult(true);



$keyword = "媒体";



$result = $cl->Query($keyword, INDEX_SRC1);



//处理$result

$matches = isset($result['matches']) ? $result['matches'] : '';

if(is_array($matches)){

    foreach ($matches as $v){

        $ids[] = $v['id'];

    }

}else{

    print("<pre>");    

    print $cl->GetLastError();

    print $cl->GetLastWarning();

    //print "没找到了亲～";

    print("<pre>");

    return;

}

$ids = implode(',', $ids);





//拿着id ,拉库

$link = mysql_connect('localhost','root','123456') or die('mysql link fail!');

mysql_select_db('test',$link);

mysql_query("SET NAMES UTF8");



$sql = "select * from documents where id in({$ids})";

$result = mysql_query($sql,$link);



$data = array();

while ($row = mysql_fetch_assoc($result))

{

       $data[] = $row;

}

mysql_close($link);





// 关键字高亮

$p_titles = array();

$p_contents = array();



$build_opts= array(//查询结果集设置

    'before_match'=> '<font color="red">',

    'after_match'=> '</font>',

    'limit'=> '130',

    //'exact_phrase'=> true,

    'single_passage'=> true,

    'chunk_separator' => '',

);



foreach($data as $key=>$value)

{

    $p_titles[$key] = $value['title'];

    $p_contents[$key] = $value['content'];

}



$p_titles   = $cl->BuildExcerpts($p_titles, INDEX_SRC1, $keyword, $build_opts);

$p_contents = $cl->BuildExcerpts($p_contents, INDEX_SRC1, $keyword, $build_opts);



foreach($data as $key=>$post)

{

    $data[$key]['title']  = $p_titles[$key];

    $data[$key]['content'] = $p_contents[$key];

}



var_dump($data);

?>

6. 设置coreseek自动启动

　　在/etc/rc.d/rc.local文件中加入以下行

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft.conf

　　程序启动你的服务器，使用命令 ps -aux查看是否已经启动成功了。

7. 中文分词mmseg的一些用法

　　官方文档：http://www.coreseek.cn/opensource/mmseg/#mmseg_ini

　　LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包，其在GPL协议下发行的中文分词法，采用Chih-Hao Tsai的MMSEG算法

　　词典的构造

　　mmseg -u unigram.txt

　　该命令执行后，将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件，将该文件改名为uni.lib，完成词典的构造。需要注意的是，unigram.txt需要预先准备，并且编码格式必须为UTF-8编码

　　mmseg -d <dict_dir> tobe_segment.txt

　　其中，命令使用‘-d’开关指定词库文件所在的位置，参数dict_dir为词库文件（uni.lib ）所在的目录；tobe_segment.txt 为待切分的文本文件，必须为UTF-8编码。如果一切正确，mmseg会将切分结果以及所花费的时间显示到标准输出上。

　　对特殊短语的支持

　由于LibMMSeg是为Sphinx全文搜索引擎设计的，因此其内置了部分搜索引擎切分算法的特性，主要表现在对特殊短语的支持上。

　　在搜索引擎中，需要处理C++时，如果分词器中没有词组C++，则将被切分为C/x +/x +/x，在进一步的检索中，可能每个词会由于出现的过于频繁而被过滤掉，导致搜索的结果与　　C++相关度不高不说，也严重影响的全文搜索的速度。在LibMMSeg中，内置对特殊短语的支持。

　　其输入文件格式如下

　　// test commit
　　.net => dotnet
　　c# => csharp
　　c++ => cplusplus

　　其中左侧是待支持的特殊短语，右侧是左侧的特殊短语需要被转换为的短语。这一转换在分词前进行。

　　可以在行的开头加入'//'作为注释符号，发现符号'//'后，整行将被忽略。

　　特殊短语词库构造命令：

　　mmseg -b exceptions.txt

　　其中, 开关'-b'指示mmseg是要构造特殊短语词库；exceptions.txt是用户编辑的特殊短语转换规则。

　　该命令执行后，将在当前目录下产生一个名为"synonyms.dat"的文件，将该文件放在"uni.lib"同一目录下，分词系统将自动启动特殊短语转换功能。

　　分词

　　mmseg -d tobe_segment.txt

　　其中，命令使用‘-d’开关指定词库文件所在的位置，参数dict_dir为词库文件（uni.lib ）所在的目录；tobe_segment.txt 为待切分的文本文件，必须为UTF-8编码。如果一切正确，　　mmseg会将切分结果以及所花费的时间显示到标准输出上。

　　注意：分词中的相似词组，比如要在词库里有存在的配置才会有效！

总结：当然以上都是一些安装的菜鸟级别应用，coreseek是一个强大系统官方也有很全的文档，还有查询表达式、增量索引、实时索引、中文词库、分布式索引等高级的应用。

Sphinx到Coreseek安装全解云天河Blog MYSQL PHP Linux shpinx coreseek 中文分词全文索引
此次采用的是CentOS6.532位如有出入，请参阅相关配置手册说明——@Author云天河BlogSphinx部分简介Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为M
给全文搜索引擎Manticore (Sphinx) search 增加中文分词冰糖葫芦加冰
Sphinxsearch是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更新，sphinxsearch的版本太低，bug也会出现；后来也使用最新的sphinxsearch，它可以支持几乎所有语言，通过其内置的ngramto
全文搜索引擎-sphinx及xunsearch 云窗96
使用全文搜索引擎站内搜索类型1、sphinx(斯芬克斯)sphinx不支持中文，coreseek(基于sphinx，并且支持中文)2、lucenejava支持好，为php也提供方法3、xunsearch(迅搜)国产、仅支持phpsphinx的使用优点：高速的建立索引可达到10M/s高性能的搜索(在2-4G的文本数据上，平均每次检索响应的时间小于0.1秒)可处理海量数据(目前已知可以处理100G的文
Sphinx搜索引擎 Coreseek 中文分词搜索引擎安装使用,站内搜索一件小毛衣
Sphinx搜索引擎Coreseek中文分词搜索引擎安装使用，站内搜索，php简单使用；一.简介Coreseek是一款中文全文检索开源软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。相比Sphinx，Coreseek增加了一个带有中文分司的词库。二.Coreseek下载wgethttp
coreseek安装使用 school_1087
本文引自:http://www.phperz.com/article/14/0615/95.htmlsphinx的安装使用，其实都是大同小异，以下以coreseek安装为例Coreseek是一款中文全文检索/搜索软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，因为sphinx不支持分词，所以用coreseek特别适合，现在用的是Coreseek3.2.14稳定版,目前暂时没有新的
Sphinx实时搜索设计探讨 JobinLi
背景Sphinx是一个全文搜索引擎，虽然官方没对中文分词检索做直接支持，但是配合coreseek还是能很好地实现中文全文检索的。至于分词结果，不本文讨论范围内，本文主要针对Sphinx的实时搜索能力进行探讨。用过Sphinx的应该都知道，虽然提供了更新属性的接口(php中是UpdateAttributes函数)，但是却无法对文本类型字段进行更新。本文主要以PHP来进行实际操作示范。题外话：其实El
使用python测试sphinx(coreseek)做全文索引 lpj24
coreseek是一个基础sphinx的中文索引工具，我今天写一下关于使用python做测试的方式。1.coreseek安装，连接mysql的配置此处不赘述，很多人写过这方面的博客，单纯讲python连接sphinx.当然我们先启动sphinx进程，./searched2.python要连接sphinx肯定是需要第三方库的，你可以去pypi找，当然sphinx已经告诉我们了，我们去/home/lp
coreseek+php之sphinx扩展安装+php调用示例张清柏
[参考资料](https://blog.csdn.net/moqiang02/article/details/42027243)[关于排序和分而已,及sphinxapi.php的调用](https://blog.csdn.net/joyatonce/article/details/52059564)首先了解sphinx是什么?他是一个服务,用于搜索的服务,也可以说是一个搜索引擎,如果使用搜索引擎,
如何在thinkphp框架下使用coreseek？ LiChangBao
1.进入到coreseek的api路径（D:\coreseek-3.2.14-win32\api）复制sphinxapi.php文件；2.进入到thinkphp框架的Vendor文件夹下，把上一步复制的sphinxapi.php文件粘贴到此处，并重命名为Sphinx.class.php;3.在需要使用sphinx的PHP文件中导入sphinx类库（即：import('Vendor.Sphinx')
coreseek windows下服务 FATAL: Tokenizer initialization failure 解决办法 ksr12333 coreseek
coreseek命令行模式一切正常在windows下安装成服务启动正常，但是一使用，就会出现没有结果的错误，再去服务里一看，服务自动停止了（出错了）去日志看下FATAL:Tokenizerinitializationfailure发现这个百度google后，发现都是说windows下要用绝对路径，并且在路径里要用“/"代替"\"这些都实验了，无效正准备用源码试试看到底错误是什么原因忽然想到一点我在
mysql + sphinx 安装过程详解 zhsj0110 sphinx
参考：http://www.cnblogs.com/chenzehe/archive/2010/11/04/1868354.htmlhttp://www.coreseek.cn/news/7/99/http://klinmy.blog.163.com/blog/static/5680802008428445716/http://love3400wind.blog.163.com/blog/stat
Sphinx 安装记录阳光梦搜索引擎
前言如果你想支持中文全文检索的话，请参考coreseek安装记录。如果你已经安装sphinx或者coreseek,只是想查找怎么配置和使用sphinx和coreseek的话，请参考coreeek和sphinx的配置与使用下面的表纯属文章虚构，由于配置内容较多，部分省略，具体可以参考官方文档。想吐槽一句：编译安装真浪费时间，configure&&make&&makeinstall一个软件就需要几十分
如何给mysql innodb表添加Sphinx中文快速搜索支持 xie156005934
由于innodb表不能做全文索引，因此模糊查询的效率很低，几十万行的数据like查询一般是分钟级的，而sphinx则很好的解决了这个问题，可以在0.几秒内完成这个查询，下面看下如何给innodb表添加sphinx支持一、安装sphinx官方下载地址：http://sphinxsearch.com/downloads/archive/由于coreseek4.1要求2.0.2的版本，我的操作系统是ce
mysql安装sphinx引擎 weixin_34143774 数据库
一般情况下，我们在使用数据库的时候使用的引擎是InnoDB或者是MYISAM默认安装会把一些其它的引擎给安装上，但是不会安装sphinx.(我测试的数据库是5.6使用的cmake)使用showengines命令可以查看mysql数据库的引擎如果你是用的是coreseek，直接拷贝的mysqlse那么可能不会编译成功，可能会出现一些版本不兼容的错误。一般到sphinx官方网站上下载sphinx，解压
php + MongoDB + Sphinx 实现全文检索 (一) _Lyux php
现状:Sphinx目前的稳定版本为2.2.11.Sphinx目前对英文等字母语言采用空格分词,故其对中文分词支持不好,目前官方中文分词方案仅支持按单字分词.在Sphinx基础上,目前国内有两个中文分词解决方案,一个是sphinx-for-chinese,一个是coreseek.sphinx-for-chinese没有官网,文档较少,可查到的最新版本可支持sphinx1.10.coreseek官方还
安装coreseek全文检索服务器 wangjun_1218 mysql linux综合全文检索 mysql 测试服务器 opera gcc
==安装coreseek全文检索服务器==root:groupaddxmpuseradd-gxmp-d/home/coreseek-m-s/bin/bashcoreseekpasswdcoreseekcoreseek:cd~mkdirlocalfile;cdlocalfilewgethttp://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.ta
sphinx索引工具的使用 yt_php 工具的使用
介绍mysql全文索引有个缺点是经常使用的词汇不会建立索引而且不支持中文，sphinx提供了比数据库本身更专业的搜索功能。1高速的建立索引（创建100万条索引只需3~4分钟）2高性能搜索（一千万条查询速度为毫秒级）3处理海量数据（单一索引最大可包含一亿条记录）4优秀的相关度算法但是sphinx只支持英文与俄文，这里我们需要另一款软件，coreseek，基于sphinx，添加了中文词库，专攻中文搜索
sphinx原理以及索引流程 wuliZs_
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx 原理及实现钻石王小二吼吼吼 mysql优化
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx应用项目实践踩坑记 Winner-雪花飘技术 php 服务器
之前写的关于sphinx环境及使用的文章只是简单的做个小demo的测试，真正应用到项目中会遇到各种问题袭来，没有leader指导，只能自己摸索，应用到项目上线也是花了好几天的时间，这次记录只要是指出各个坑点，避免日后再踩坑。环境搭建docker如何安装在这里就不详细说了，有了docker环境后使用dockersearchsunfjun/coreseek，笔者使用的docker源是阿里源vi/etc
coreseek下相关知识（匹配模式、排序模式、指定字段查询、多字段查询、指定字段内容高亮、增量索引实时更新，其他技巧）总结篇 qiuyu6958334 php 搜索引擎Coreseek
从标题看，这几个都是重点知识，把这些都学会了，coreseek基本上使用无障碍了，所以很重要！！匹配模式1、SPH_MATCH_ALL,匹配所有查询词(默认模式);2、SPH_MATCH_ANY,匹配查询词中的任意一个;3、SPH_MATCH_PHRASE,将整个查询看作一个词组，要求按顺序完整匹配;4、SPH_MATCH_BOOLEAN,将查询看作一个布尔表达式(参见第5.2节“布尔查询语法”)
sphinx全等匹配（等于）查询的语法 gianttj
sphinx全等匹配的语法，以下用sphinxSE语法作为示例：SELECT*FROM`attribute_content_search`WHEREquery='"^感冒$"|"^便秘$";mode=extended2;limit=1000'limit1000;字段开始和字段结束修饰符(在版本Coreseek3.1/Sphinx0.9.9-rc2中引入)，其中“^”为开始符，“$”为结尾符，有点类
sphinx多条件搜索阿瑟·柯南·道尔 Sphinx
1、sphinx多条件搜索创建索引、开启搜索服务，以下是我创建的表单，option标签的value微数据库字段request->csrfToken?>"/>搜索字段：全部标题作者作者：2、然后将coreseek中的csft_mysql.conf类方法yii框架的yii\vendor\composer\下在yii\vendor\autoload.php中添加require_once__DIR__.'
Sphinx + Coreseek 实现中文分词搜索 Sponge_CMZ php
Sphinx+Coreseek实现中文分词搜索SphinxCoreseek实现中文分词搜索全文检索1全文检索vs数据库2中文检索vs汉化检索3自建全文搜索与使用Google等第三方网站提供的站内全文搜索的区别SphinxCoreseek介绍Coreseek安装使用1.全文检索1.1全文检索vs.数据库全文检索是数据库的有力补充，全文检索并不能替代数据库在应用系统中的作用。当应用系统的数据以大量的文
浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别 Huangwenting1990
Sphinx是一个基于SQL的全文检索引擎；普遍使用于很多网站Sphinx的特性如下：a)高速的建立索引(在当代CPU上，峰值性能可达到10MB/秒);b)高性能的搜索(在2–4GB的文本数据上，平均每次检索响应时间小于0.1秒);c)可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);Sphinx本身对中文的支持并不好。主要体现在对一段话断词；英文
Coreseek算法分析内核中的洋葱搜索
Coreseek算法分析本文对coreseek代码中涉及到的一部分算法进行说明，以便在阅读代码的时候，能更容易理解相关的代码。本文所整理的只是其中的部分算法，后面将在逐渐深入理解的基础上，进一步添加。一．Soundex算法1.算法原理Soundex是一种语音算法，利用英文字的读音计算近似值，值由四个字符构成，第一个字符为英文字母，后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形，可用S
手把手搭建sphinx环境内核中的洋葱搜索
手把手搭建sphinx环境1一．概述1二．虚拟机的搭建21.安装virtualbox22.准备suse的安装环境23.安装suse44.配置共享文件夹55.设置网络7三．Mysql的安装81.获取mysql源代码82.获取sphinx源码93.增加sphinxSE引擎94.配置编译95.启动和测试96.系统自动启动mysql10四．Sphinx的搭建101.解压coreseek102.首先安装MM
研究了coreseek下的sphinx 配置及api调用，收获颇多。任亚军系统架构 api sql query float lucene unix
前言：之前一直使用lucene，有很多优点及缺点，最大的缺点就是要维护一个索引的成本很高，需要牵扯到很多方面，其中也包含业务方面；优点呢，不用多说了，速度快，支持查询的模式多，各种条件下的查询都能实现，所以想找一个更加符合现有应用状况的搜索引擎，故想到了coreseek=(sphinx+中文分词+框架)Sphinx最大的好处是业务层面不需要你去关心索引的建立、更新等，后台定时去维护主索引和增量索引
nginx开启关闭shell diwan2439
#!/bin/sh#file:/usr/local/bin/sphinx./etc/rc.d/init.d/functionsappName="Sphinx"stop(){/usr/local/bin/searchd-c/usr/local/coreseek/etc/sphinx.conf--stop>/dev/null2>&1ret=$?if[$ret-eq0];thenaction$"Stop
Centos 编译安装sphinx-0.9.9全文检索 YPHP coreseek sphinx php centos
Sphinx简介Sphinx是开源的搜索引擎，它支持英文的全文检索。所以如果单独搭建Sphinx，你就已经可以使用全文索引了。但是往往我们要求的是中文索引，怎么做呢？国人提供了一个可供企业使用的，基于Sphinx的中文全文检索引擎。也就是说Coreseek实际上的内核还是Sphinx。那么他们的版本对应呢？sphinx可以通过设置为“一元切分模式”来支持搜索中文在实际使用中，搜索非中文的话，sph
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

sphinx中文版Coreseek中文检索引擎安装和使用方法(Linux)

你可能感兴趣的:(coreseek)