sphinx中文版Coreseek中文检索引擎安装和使用方法(Windows)

　　昨天闲下来研究了MYSQL的索引优化，继而了解了MYSQL的全文检索，在大数据量下如果你使用like去检索数据库的信息的实现全文检索，那么恭喜你你会暴库。。

　　全文检索引擎中Sphinx是比较优秀的，但是对中文支持不是很多，所以就有了Coreseek，核心是Sphinx引擎，但是对中文检索有了很好的支持，而且有很全的中文文档，开源免费试用，支持Windows、Linunx甚至是Mac。

　　Coreseek介绍

　　 Coreseek 全面支持： FreeBSD6/7/8，Mac OS X 10.6，RHEL5、CentOS-5、Fedora-12/13、gentoo-10、openSUSE-10/11、slackware-13.0/13.1、debian-5、ubuntu-9/10、archlinux-2010，WindowsXP、Windows2003、Windows7、Windows Server 2008等，32与64位操作系统均可使用，可支持MySQL、MariaDB、PostgreSQL、SQL Server、Oracle等多种数据库系统，并提供Python万能数据源以支持任意来源的数据。

　　常用的文件和目录

　　Coreseek/

/api/

sphinxapi.php       #针对PHP的api,实际上是一个类

              /bin/

                      indexer.exe           #建立索引的命令

                      searchd.exe          #监听端口，开启服务的命令

       search.exe            #执行搜索命令

       mmseg.exe          #词库相关命令

              /etc/

                      *.conf                   #配置文件

       unigram.txt          #词库文件txt

       thesaurus.txt       #同义词词库文件 txt

                         uni.lib                  #建立索引用到的词库文件，由mmseg命令加工                                 # unigram.txt文件形成

              /var/

                       /data/                #索引存放位置

　　Coreseek安装

　　以下是介绍在windows下测试环境的安装（不建议把coreseek正式部署在windows），首先去官方网站下载稳定版本的安装包(3.2版本)，下载后解压缩到一个文件夹，如解压缩到C盘：路径为 C:\coreseek-3.2.14-win32，以下为安装coreseek windows版本记录

　　1. 安装searchd服务

　　cd c:/
　　C:\coreseek-3.2.14-win32\bin\searchd.exe --install --config C:\coreseek-3.2.14-win32\csft.conf --servicename coreseekd 

　　注意: 命令一定要是绝对路径，不能使用PATH变量或短路径
　　　　　你需要先配置csft.conf文件，笔者测试的MYSQL，详见第二条

　　Coreseek/Sphinx有几个命令调用命令 searchd,search,indexer,spelldump,indextool，以下为摘录于官方文档：

1. indexer命令参考

indexer 是Sphinx的两个关键工具之一。不管是从命令行直接调用，还是作为一个较大的脚本的一部分使用，indexer都只负责一件事情——收集要被检索的数据。

indexer的调用语法基本上是这样：
indexer [OPTIONS] [indexname1 [indexname2 [...]]]
用户可以在sphinx.conf中设置好可能有哪些索引（index）（这些索引可以在晚些时候别搜索），因此在调用indexer的时候，最简单的情况下，只需要告诉它你要简历哪个（或者哪些）索引就行了。

假设 sphinx.conf 包含了两个索引的具体设置， mybigindex 和 mysmallindex, ，你可以这么调用:
$ indexer mybigindex
$ indexer mysmallindex mybigindex
在配置文件sphinx.conf里面，用户可以为他们的数据指定一个或多个索引。然后调用indexer来对其中一个特定的索引进行重新编制索引操作，或者是重新编制所有索引——不限于某一个或同时全部，用户总是可以指定现有索引的一个组合。

indexer的大部分选项都可以在配置文件中给出，然而有一部分选项还需要在命令行上指定，这些选项影响编制索引这一操作是如何进行的。这些选项列举如下：
--config <file> (简写为-c <file>) 使 indexer 将指定的文件file作为配置文件。通常，indexer是会在安装目录（例如e.g. /usr/local/sphinx/etc/sphinx.conf ，如果sphinx被安装在/usr/local/sphinx）中寻找sphinx.conf，若找不到，则继续在用户在shell中调用indexer时所在的目录中寻找。这个选项一般在共享sphinx安装的情况下使用，比如二进制文件安装在/usr/local/sphinx，而不同用户都有权定制自己的sphinx设置。或者在同一个服务器上运行多个实例的情况下使用。在上述两中情况中，用户可以创建自己的sphinx.conf文件，然后把它做为参数传给indexer。例如：
$ indexer --config /home/myuser/sphinx.conf myindex
--all 使indexer对sphinx.conf文件中列出的所有索引进行重新编制索引，这样就不比一次列出每个索引的名字了。这个选项在配置文件较小的情况下，或者在类似基于cron的维护工作中很有用。在上述情况中，整个索引集每天或每周或别的什么合适的时间间隔中就重新建立一次。用法示例：
$ indexer --config /home/myuser/sphinx.conf --all
--rotate 用于轮换索引。对新的文档建立索引时几乎肯定都确保搜索服务仍然可用，除非你有信心在搜索服务停止同时不给你的用户带来困扰。--rotate建立一个额外的索引，并列于原有索引（与原有索引在相同目录，简单地在原有索引文件名基础上加一个.new后缀）。一旦这个额外的索引建立完成，indexer给searchd发一个SIGHUP信号做为通知。searchd会尝试将索引重新命名（给原有索引加上.old后缀，而把带有.new后缀的新索引改为原名，以达替换之目的），继而用新的文件重启服务。依 seamless_rotate 选项设定之不同，在新索引可用之前可能有一点小的延迟。用法示例：
$ indexer --rotate --all
--quiet 使indexer不输出除错误（error）外的任何东西。这个选项仍然拽可用在cron定时任务的情境下或者脚本中，这些情况下大部分输出是无关紧要或完全没用的，除非是发生了某些种类的错误。用法示例：
$ indexer --rotate --all --quiet
--noprogress 不随时显示进度信息，而是仅在索引结束时报告最终的状态细节（例如为哪些文档建立了索引，建立索引的速度等）。当脚本没有运行在一个控制台（console，或“tty”）时，这个选项是默认的。用法示例：
$ indexer --rotate --all --noprogress
--buildstops <outputfile.text> <N> 像建立索引一样扫描索引对应的数据源，产生一个最终会被加入索引的词项的列表。换种说法，产生一个用这个索引可以检索的词项的列表。注意，这个选项使indexer并不真正更新指定的索引，而只是“假装”建在立索引似地处理一遍数据，包括运行sql_query_pre或者sql_query_post选项指定的查询。outputfile.txt文件最终会包含一个词表，每行一个词，按词频排序，高频在前。参数N指定了列表中最多可出现的词项数目，如果N比索引中全部词项的数目还大，则返回的词项数就是全部词项数。客户端应用程序利用这种字典式的词表来提供“您是要搜索。。。吗？(Did you mean…)”的功能，通常这个选项与下面要讲的--buildfreqs选项一同使用。示例：
$ indexer myindex --buildstops word_freq.txt 1000
这条命令在当前目录产生一个word_freq.txt文件，内含myindex这个索引中最常用的1000个词，且最常用的排在最前面。注意，当指定了多个索引名或使用了--all选项（相当于列出配置文件中的所有索引名）时，这个选项对其中的最后一个索引起作用。
--buildfreqs 与 --buildstops一同使用 (如果没有指定 --buildstops 则--buildfreqs也被忽略). 它给--buildstops产生的词表的每项增加一个计数信息，即该词在索引中共出现了多少次，这在建立停用词（stop words，出现特别普遍的词）表时可能有用。在开发“您是要搜索。。。吗？(Did you mean…)”的功能时这个选项也能帮上忙，因为有了它你就能知道一个词比另一个相近的词出现得更频繁的程度。示例：
$ indexer myindex --buildstops word_freq.txt 1000 --buildfreqs
这个命令将产生一个类似于上一条命令的word_freq.txt ，但不同在于，每个词的后面都会附加一个数字，指明在指定的索引中这个词出现了多少次。
--merge <dst-index> <src-index> 用于在物理上将多个索引合并，比方说你在使用“主索引＋增量索引”模式，主索引很少改变，但增量索引很频繁地重建，而--merge选项允许将这两个索引合而为一。操作是从右向左进行的，即先考察src-index的内容，然后在物理上将之与dst-index合并，最后结果留在dst-index里。用伪代码说就是dst-index += src-index。示例：
$ indexer --merge main delta --rotate
上例中main是主索引，很少更动，delta是增量索引，频繁更新。上述命令调用indexer将delta的内容合并到main里面并且对索引进行轮换。
--merge-dst-range <attr> <min> <max> 在合并索引的时候运行范围过滤。具体地说，向目标索引 (是 --merge 的一个参数，如果没有指定 --merge，则--merge-dst-range 也被忽略)合并时，indexer会对将要合并进去的文档做一次过滤，只有通过过滤才能最终出现在目标索引中。举一个实用的例子，假设某个索引有一个“已删除（deleted）”属性，0代表“尚未删除”。这样一个索引可以用如下命令进行合并：
$ indexer --merge main delta --merge-dst-range deleted 0 0
这样标记为已删除的文档（值为1）就不会出现在新生成的目标索引中了。这个选项可以在命令行上指定多次，以便指定多个相继的过滤，这样一个文档要想合并到最终的目标索引中去，就必须依次通过全部这些过滤。
2. searchd命令参考

searchd 也是sphinx的两个关键工具之一。 searchd是系统实际上处理搜索的组件，运行时它表现得就像一种服务，他与客户端应用程序调用的五花八门的API通讯，负责接受查询、处理查询和返回数据集。

不同于 indexer, searchd 并不是设计用来在命令行或者一般的脚本中调用的，相反，它或者做为一个守护程序（daemon）被init.d调用（在Unix/Linux类系统上），或者做为一种服务（在Windows类系统上），因此并不是所有的命令行选项都总是有效，这与构建时的选项有关。

调用 searchd 就像这么简单：
$ searchd [OPTIONS]
不管 searchd 是如何构建的，下列选项总是可用：
--help (可以简写为 -h ) 列出可以在你当前的 searchd 构建上调用的参数。

--config <file> (可简写为 -c <file>) 使 searchd 使用指定的配置文件，与上述indexer的--config开关相同。
--stop 用来停掉 searchd，使用sphinx.conf中所指定的PID文件，因此您可能还需要用--config选项来确认searchd使用哪个配置文件。值得注意的是，调用 --stop 会确保用 UpdateAttributes() 对索引进行的更动会反应到实际的索引文件中去。示例：
$ searchd --config /home/myuser/sphinx.conf --stop
--status 用来查询运行中的searchd实例的状态，，使用指定的（也可以不指定，使用默认）配置文件中描述的连接参数。它通过配置好的第一个UNIX套接字或TCP端口与运行中的实例连接。一旦连接成功，它就查询一系列状态和性能计数器的值并把这些数据打印出来。在应用程序中，可以用Status() API调用来访问相同的这些计数器。示例：
$ searchd --status
$ searchd --config /home/myuser/sphinx.conf --status
--pidfile 用来显式指定一个PID文件。PID文件存储着关于searchd的进程信息，这些信息用于进程间通讯（例如indexer需要知道这个PID以便在轮换索引的时候与searchd进行通讯）searchd在正常模式运行时会使用一个PID（即不是使用--console选项启动的），但有可能存在searchd在控制台（--console）模式运行，而同时正在索引正在进行更新和轮换操作的情况，此时就需要一个PID文件。
$ searchd --config /home/myuser/sphinx.conf --pidfile /home/myuser/sphinx.pid
--console 用来强制searchd以控制台模式启动；典型情况下searchd像一个传统的服务器应用程序那样运行，它把信息输出到（sphinx.conf配置文件中指定的）日志文件中。但有些时候需要调试配置文件或者守护程序本身的问题，或者诊断一些很难跟踪的问题，这时强制它把信息直接输出到调用他的控制台或者命令行上会使调试工作容易些。同时，以控制台模式运行还意味着进程不会fork（因此搜索操作都是串行执行的），也不会写日志文件。（要特别注意，searchd并不是被主要设计用来在控制台模式运行的）。可以这样调用searchd：
$ searchd --config /home/myuser/sphinx.conf --console
--iostats 当使用日志时（必须在sphinx.conf中启用query_log选项）启用--iostats会对每条查询输出关于查询过程中发生的输入输出操作的详细信息，会带来轻微的性能代价，并且显然会导致更大的日志文件。更多细节请参考 query log format 一节。可以这样启动searchd：
$ searchd --config /home/myuser/sphinx.conf --iostats
--cpustats 使实际CPU时间报告（不光是实际度量时间（wall time））出现在查询日志文件（每条查询输出一次）和状态报告（累加之后）中。这个选项依赖clock_gettime()系统调用，因此可能在某些系统上不可用。可以这样启动searchd：
$ searchd --config /home/myuser/sphinx.conf --cpustats
--port portnumber (可简写为 -p) 指定searchd监听的端口，通常用于调试。这个选项的默认值是9312，但有时用户需要它运行在其他端口上。在这个命令行选项中指定端口比配置文件中做的任何设置优先级都高。有效的端口范围是0到65535，但要使用低于1024的端口号可能需要权限较高的账户。使用示例：
$ searchd --port 9313
--index <index> 强制searchd只提供针对指定索引的搜索服务。跟上面的--port相同，这主要是用于调试，如果是长期使用，则应该写在配置文件中。使用示例：
$ searchd --index myindex
searchd在Windows平台上有一些特有的选项，与它做为windows服务所产生的额外处理有关，这些选项只存在于Windows二进制版本。

注意，在Windows上searchd默认以--console模式运行，除非用户将它安装成一个服务。
--install 将searchd安装成一个微软管理控制台（Microsoft Management Console，控制面板 / 管理工具 / 服务）中的服务。如果一条命令指定了--install，那么同时使用的其他所有选项，都会被保存下来，服务安装好后，每次启动都会调用这些命令。例如，调用searchd时，我们很可能希望用--config指定要使用的配置文件，那么在使用--install的同时也要加入这个选项。一旦调用了这个选项，用户就可以在控制面板中的管理控制台中对searchd进行启动、停止等操作，因此一切可以开始、停止和重启服务的方法对searchd也都有效。示例：
C:\WINDOWS\system32> C:\Sphinx\bin\searchd.exe --install
   --config C:\Sphinx\sphinx.conf
如果每次启动searchd你都希望得到I/O stat信息，那就应该把这个选项也用在调用--install的命令行里：
C:\WINDOWS\system32> C:\Sphinx\bin\searchd.exe --install
   --config C:\Sphinx\sphinx.conf --iostats
--delete 在微软管理控制台（Microsoft Management Console）和其他服务注册的地方删除searchd，当然之前要已经通过--install安装过searchd服务。注意，这个选项既不删除软件本身，也不删除任何索引文件。调用这个选项之后只是使软件提供的服务不能从windows的服务系统中调用，也不能在机器重启后自动启动了。如果调用时searchd正在做为服务运行中，那么现有的示例并不会被结束（一直会运行到机器重启或调用--stop）。如果服务安装时（用--servicename）指定了自定义的名字，那在调用此选项卸载服务时里也需要用--servicename指定相同的名字。示例：
C:\WINDOWS\system32> C:\Sphinx\bin\searchd.exe --delete
--servicename <name> 在安装或卸载服务时指定服务的名字，这个名字会出现在管理控制台中。有一个默认的名字searchd，但若安装服务的系统可能有多个管理员登录，或同时运行多个searchd实例，那么起一个描述性强的名字将是个好好主意。注意，只有在与--install或者--delete同时使用的时候--servicename才有效，否则这个选项什么都不做。示例：
C:\WINDOWS\system32> C:\Sphinx\bin\searchd.exe --install
   --config C:\Sphinx\sphinx.conf --servicename SphinxSearch
--ntservice 在Windows平台，管理控制台将searchd做为服务调用时将这个选项传递给它。通常没有必要直接调用这个开关，它是为Windows系统准备的，当服务启动时，系统把这个参数传递给searchd。然而理论上，你也可以用这个开关从命令行将searchd启动成普通服务模式（与--console代表的控制台模式相对）
最后但并非最不重要的，类似其他的守护进程（daemon），searchd多种信号。

SIGTERM

进行一次平滑的重启。新的请求不会被接受；但是已经开始的请求不会被强行中断。

SIGHUP

启动索引轮询。取决于 seamless_rotate 的设置，新的请求可能会在短期内陷入停顿；客户端将接收到临时错误。

SIGUSR1

强制重新打开searchd日志和查询日志，使得日志轮询可以进行。
3. search命令参考

search是Sphinx中的一个辅助工具。searchd负责服务器类环境中的搜索，而search专注于在命令行上对索引进行快速测试，而不需要构建一个复杂的架构来处理到服务器端的连接和处理服务器返回的响应。

注意：search并不是设计用来做为客户端应用程序的一部分。我们强烈建议用户不要针对search编写接口，相反，应该针对searchd。Sphinx提供的任何客户端API也都不支持这种用法。（任何时候search总是每次都重新调入索引，而searchd会把索引缓冲在内存中以利性能）。

澄清了这些我们就可以继续了。很多通过API构造的查询也可以用search来做到，然而对于非常复杂的查询，可能还是用个小脚本和对应的API调用来实现比较简单。除此之外，可能有些新的特性先在searchd系统中实现了而尚未引入到search中。

search 的调用语法如下：
search [OPTIONS] word1 [word2 [word3 [...]]]
调用search并不要求searchd正在运行，只需运行search的账户对配置文件和索引文件及其所在路径有读权限即可。

默认行为是对在配置文件中设置的全部索引的全部字段搜索word1（AND word2 AND word3….）。如果用API调用来构建这个搜索，那相当于向SetMatchMode传递参数SPH_MATCH_ALL，然后在调用Query的时候指定要查询的索引是*。

search有很多选项。首先是通用的选项：

--config <file> (可简写为 -c <file> ) 使search使用指定的配置文件，这与上述indexer的对应选项相同。

--index <index> (可简写为 -i <index> ) 使search仅搜索指定的索引。通常它会尝试搜索sphinx.conf中列出的全部物理索引，不包括分布式索引。

--stdin 使search接受标准输入（STDIN）上传入的查询，而不是命令行上给出的查询。有时你要用脚本通过管道给search传入查询，这正是这个选项的用武之地。

设置匹配方式的选项：

--any (可简写为 -a) 更改匹配模式，匹配指定的任意一个词（word1 OR word2 OR word3），这对应API调用中向SetMatchMode传递参数SPH_MATCH_ANY。

--phrase (可简写为 -p ) 更改匹配模式，将指定的全部词做为一个词组（不包括标点符号）构成查询，这对应API调用中向SetMatchMode传递参数SPH_MATCH_PHRASE。

--boolean (可简写为-b ) 将匹配模式设为 Boolean matching。注意如果在命令行上使用布尔语法，可能需要对某些符号（用反斜线“\”）加以转义，以避免外壳程序（shell）或命令行处理器对这些符号做特殊理解，例如，在Unix/Linux系统上必须转义“&”以防止search被fork成一个后台进程，尽管这个问题也可以像下文一样通过使用--stdin选项来解决。这个选项对应API调用中向SetMatchMode传递参数SPH_MATCH_BOOLEAN。

--ext (可简写为 -e ) 将匹配模式设为Extended matching。这对应与API调用中向SetMatchMode传递参数SPH_MATCH_EXTENDED。要注意的是因为已经有了更好的扩展匹配模式版本2，所以并不鼓励使用这个选项，见下一条说明。

--ext2 (可简写为 -e2 ) 将匹配模式设为 Extended matching, version 2。这个选项对应在API调用中向SetMatchMode传递参数SPH_MATCH_EXTENDED2。要注意这个选项相比老的扩展匹配模式更有效也提供更多的特性，因此推荐使用这个新版的选项。

--filter <attr> <v> (可简写为 -f <attr> <v> ) 对结果进行过滤，只有指定的属性attr匹配指定的值v时才能通过过滤。例如--filter deleted 0 只匹配那些有deleted属性，并且其值是0的文档。也可以在命令行上多次给出--filter以便指定多重过滤，但是如果重复定义针对同一个属性的过滤器，那么第二次指定的过滤条件会覆盖第一次的。

用于处理搜索结果的选项：

--limit <count> (可简写为 -l count ) 限制返回的最多匹配结果数。如果指定了分组（group）选项，则表示的是返回的最多匹配组数。默认值是20个结果（与API相同）

--offset <count> (可简写为 -o <count> ) 从第count个结果开始返回，用于给搜索结果分页。如果想要每页20个结果，那么第二页就从偏移量20开始，第三页从偏移量40开始，以此类推。

--group <attr> (可简写为-g <attr> ) 搜索结果按照指定的属性attr进行分组。类似SQL中的GROUP BY子句，这会将attr属性值一致的结果结合在一起，返回的结果集中的每条都是一组中最好的那条结果。如果没有特别指定，那“最好”指的是相关度最大的。

--groupsort <expr> (可简写为 -gs <expr> ) 尽搜索结果根据-group分组后，再用表达式<expr>的值决定分组的顺序。注意，这个选项指定的不是各组内部哪条结果是最好的，而是分组本身返回的顺序。

--sortby <clause> (可简写为 -s <clause> ) 指定结果按照<clause>中指定的顺序排序。这使用户可以控制搜索结果展现时的顺序，即根据不同的列排序。例如，--sortby "@weight DESC entrytime DESC" 的意思是将结果首先按权值（相关度）排序，如果有两条或以上结果的相关度相同，则他们的顺序由时间值entrytime决定，时间最近（值最大）的排在前面。通常需要将这些项目放在引号里(--sortby "@weight DESC")或者用逗号隔开(--sortby @weight,DESC)，以避免它们被分开处理。另外，与通常的排序模式相同，如果指定了--group(分组)，这个选项就影响分组内部的结果如何排序。

--sortexpr expr (可简写为 -S expr ) 搜索结果展现的顺序由指定的算术表达式expr决定。例如： --sortexpr "@weight + ( user_karma + ln(pageviews) )*0.1"（再次提示，要用引号来避免shell对星号*做特殊处理）。扩展排序模式在Sorting modes 一章下的SPH_SORT_EXTENDED条目下具体讨论。

--sort=date 搜索结果按日期升序（日期较久远的在前）排列。要求索引中有一个属性被指定为时间戳。要求索引中有一个属性被指定为时间戳。

--rsort=date specifies that the results should be sorted by ascending (i.e. oldest first) date. This requires that there is an attribute in the index that is set as a timestamp.

--sort=ts 搜索结果按时间戳分成组。先返回时间戳在最近一小时内的这组结果，在组内部按相关度排序。其后返回时间戳为最近一天之内的结果，也按相关度排序。再之后是最近一周的，最后是最近一个月的。在Sorting modes 一章的SPH_SORT_TIME_SEGMENTS 条目下对此有更详细的讨论。

其他选项：

--noinfo (可简写为-q ) 令search不在SQL数据库中查询文档信息（Document Info）。具体地说，为了调试search和MySQL共同使用时出现的问题，你可以在使用这个选项的同时提供一个根据文档ID搜索整个文章全文的查询。细节可参考sql_query_info指令。
4. spelldump命令参考

spelldump 是Sphinx的一个辅助程序。

用于从ispell或者MySpell格式的字典文件中可用来辅助建立词形列表（wordforms）的内容——词的全部可能变化都预先构造好。

一般用法如下：
spelldump [options] <dictionary> <affix> [result] [locale-name]
两个主要参数是词典的主文件（[language-prefix].dict）和词缀文件（[language-prefix].aff）；通常这两种文件被命名为[语言简写].dict和[语言简写].aff，大多数常见的Linux发行版中都有这些文件，网上也到处找得到。

[result] 指定的是字典数据的输出位置，而[locale-name]指定了具体使用的区域设置(locale)

还有一个-c [file]选项，用来指定一个包含大小写转换方面细节的文件。

用法示例：
spelldump en.dict en.aff
spelldump ru.dict ru.aff ru.txt ru_RU.CP1251
spelldump ru.dict ru.aff ru.txt .1251
结果文件会包含字典中包含的全部词，字典序排列，wordforms文件格式。可以根据具体的使用环境定制这些文件。结果文件的一个例子：
zone > zone
zoned > zoned
zoning > zoning
5. indextool命令参考

indextool 是版本0.9.9-rc2中引入的辅助工具。用于输出关于物理索引的多种调试信息。（未来还计划加入索引验证等功能，因此起名较indextool而不是indexdump）。基本用法如下：
indextool <command> [options]
唯一一个所有命令都有的选项是--config，用于指定配置文件：

--config <file> (可简写为 -c <file> ) 覆盖默认的配置文件名。

其他可用的命令如下：

--dumpheader FILENAME.sph 在设计任何其他索引文件甚至配置文件的前提下，快速输出索引头文件的内容，包括索引的全部设置，尤其是完整的属性列表、字段列表。在版本0.9.9-rc2之前，这个命令是由search工具提供的。

--dumpheader INDEXNAME 输出给定索引名的索引头内容，索引头文件的路径是在配置文件中查得的。

--dumpdocids INDEXNAME 输出给定索引名涉及的文档ID。数据是从属性文件(.spa)中抽取的，因此要求doc_info=extern正常工作。

--dumphitlist INDEXNAME KEYWORD 输出指定关键字KEYWORD在执行索引中的的全部出现。

　　`2. 配置csft.conf文件`

#MySQL数据源配置，详情请查看：http://www.coreseek.cn/products-install/mysql/
#请先将var/test/documents.sql导入数据库，并配置好以下的MySQL用户密码数据库

#源定义
source mysql
{
    type                    = mysql

    sql_host                = localhost
    sql_user                = root
    sql_pass                = 123456
    sql_db                  = test
    sql_port                = 3306
    sql_query_pre           = SET NAMES utf8 #预查询

    sql_query               = SELECT id, group_id,author_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content FROM documents
                                                              #主查询-查询的数据将被索引sql_query第一列id需为整数
    sql_attr_uint           = author_id                                                          #title、content作为字符串/文本字段，被全文索引
    sql_attr_uint           = group_id           #从SQL读取到的值必须为整数
    sql_attr_timestamp      = date_added #从SQL读取到的值必须为整数，作为时间属性

    sql_query_info_pre      = SET NAMES utf8                                        #命令行查询时，设置正确的字符集
    sql_query_info          = SELECT * FROM documents WHERE id=$id #命令行查询时，从数据库读取原始数据信息

    #区段查询 每次查询一段数据来建立索引
    #sql_query_range = SELECT MIN(id),MAX(id) FROM documents
    #sql_range_step  = 1000
    #sql_query = SELECT * FROM documents WHERE id>=$start AND id<=$end    
}

#index定义
index mysql
{
    source            = mysql             #对应的source名称
    path            = C:/coreseek-3.2.14-win32/var/data/mysql/ #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    docinfo            = extern
    mlock            = 0
    morphology        = none
    min_word_len        = 1
    html_strip                = 0

    #中文分词配置，详情请查看：http://www.coreseek.cn/products-install/coreseek_mmseg/
    #charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾
    charset_dictpath = C:/coreseek-3.2.14-win32/etc/                             #Windows环境下设置，/符号结尾，最好给出绝对路径，例如：C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8
}

#全局index定义
indexer
{
    mem_limit            = 128M
}

#searchd服务定义
searchd
{
    listen                  =   9312
    read_timeout        = 5
    max_children        = 30
    max_matches            = 1000
    seamless_rotate        = 0
    preopen_indexes        = 0
    unlink_old            = 1
    pid_file = C:/coreseek-3.2.14-win32/var/log/searchd_mysql.pid  #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    log = C:/coreseek-3.2.14-win32/var/log/searchd_mysql.log        #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    query_log = C:/coreseek-3.2.14-win32/var/log/query_mysql.log #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
}

　详细官方文档：http://www.coreseek.cn/products-install/mysql/

生成索引

　　将MYSQL数据源中的数据查询到sphinx中，再根据配置文件csft.conf配置的索引index进行索引生成，索引一般分为主索引、增量索引和实时索引。一般20W条的MYSQL数据行生成索引的时间为2分钟左右（indexer命令详见以上）

C:\coreseek-3.2.14-win32\bin\indexer -c C:\coreseek-3.2.14-win32\csft.conf --all

使用API进行测试

　　将api/sphinxapi.php包含到PHP文件中就可以使用API程序调用coreseek了，1000W的数据行中，使用API调用全文检索返回的时间<500ms，使用接口的相关参数比如可以控制搜索返回行数、分组排序、限制条件等，从sphinx返回 ids（MYSQL数据库表中的主键），根据ids可以到MYSQL中检索到需要的数据。

　　一段PHP的测试代码

include 'sphinxapi.php';
$sp = new SphinxClient;
$sp->SetServer('127.0.0.1', 9314);
$sp->SetConnectTimeout(5);

$sp->SetLimits(0, 10);//($start, $limit);

$keyword=(isset($_GET['kw'])&& !empty($_GET['kw'])) ?trim($_GET['kw']) : '搜索内容';

//在执行搜索之前，可以加入各种条件
$result=$sp>Query($keyword,'iiyicms');//'*‘   'iiyicms:iiyicms_increment'

你可能感兴趣的:(coreseek)

Sphinx到Coreseek安装全解云天河Blog MYSQL PHP Linux shpinx coreseek 中文分词全文索引
此次采用的是CentOS6.532位如有出入，请参阅相关配置手册说明——@Author云天河BlogSphinx部分简介Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为M
给全文搜索引擎Manticore (Sphinx) search 增加中文分词冰糖葫芦加冰
Sphinxsearch是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更新，sphinxsearch的版本太低，bug也会出现；后来也使用最新的sphinxsearch，它可以支持几乎所有语言，通过其内置的ngramto
全文搜索引擎-sphinx及xunsearch 云窗96
使用全文搜索引擎站内搜索类型1、sphinx(斯芬克斯)sphinx不支持中文，coreseek(基于sphinx，并且支持中文)2、lucenejava支持好，为php也提供方法3、xunsearch(迅搜)国产、仅支持phpsphinx的使用优点：高速的建立索引可达到10M/s高性能的搜索(在2-4G的文本数据上，平均每次检索响应的时间小于0.1秒)可处理海量数据(目前已知可以处理100G的文
Sphinx搜索引擎 Coreseek 中文分词搜索引擎安装使用,站内搜索一件小毛衣
Sphinx搜索引擎Coreseek中文分词搜索引擎安装使用，站内搜索，php简单使用；一.简介Coreseek是一款中文全文检索开源软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。相比Sphinx，Coreseek增加了一个带有中文分司的词库。二.Coreseek下载wgethttp
coreseek安装使用 school_1087
本文引自:http://www.phperz.com/article/14/0615/95.htmlsphinx的安装使用，其实都是大同小异，以下以coreseek安装为例Coreseek是一款中文全文检索/搜索软件，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，因为sphinx不支持分词，所以用coreseek特别适合，现在用的是Coreseek3.2.14稳定版,目前暂时没有新的
Sphinx实时搜索设计探讨 JobinLi
背景Sphinx是一个全文搜索引擎，虽然官方没对中文分词检索做直接支持，但是配合coreseek还是能很好地实现中文全文检索的。至于分词结果，不本文讨论范围内，本文主要针对Sphinx的实时搜索能力进行探讨。用过Sphinx的应该都知道，虽然提供了更新属性的接口(php中是UpdateAttributes函数)，但是却无法对文本类型字段进行更新。本文主要以PHP来进行实际操作示范。题外话：其实El
使用python测试sphinx(coreseek)做全文索引 lpj24
coreseek是一个基础sphinx的中文索引工具，我今天写一下关于使用python做测试的方式。1.coreseek安装，连接mysql的配置此处不赘述，很多人写过这方面的博客，单纯讲python连接sphinx.当然我们先启动sphinx进程，./searched2.python要连接sphinx肯定是需要第三方库的，你可以去pypi找，当然sphinx已经告诉我们了，我们去/home/lp
coreseek+php之sphinx扩展安装+php调用示例张清柏
[参考资料](https://blog.csdn.net/moqiang02/article/details/42027243)[关于排序和分而已,及sphinxapi.php的调用](https://blog.csdn.net/joyatonce/article/details/52059564)首先了解sphinx是什么?他是一个服务,用于搜索的服务,也可以说是一个搜索引擎,如果使用搜索引擎,
如何在thinkphp框架下使用coreseek？ LiChangBao
1.进入到coreseek的api路径（D:\coreseek-3.2.14-win32\api）复制sphinxapi.php文件；2.进入到thinkphp框架的Vendor文件夹下，把上一步复制的sphinxapi.php文件粘贴到此处，并重命名为Sphinx.class.php;3.在需要使用sphinx的PHP文件中导入sphinx类库（即：import('Vendor.Sphinx')
coreseek windows下服务 FATAL: Tokenizer initialization failure 解决办法 ksr12333 coreseek
coreseek命令行模式一切正常在windows下安装成服务启动正常，但是一使用，就会出现没有结果的错误，再去服务里一看，服务自动停止了（出错了）去日志看下FATAL:Tokenizerinitializationfailure发现这个百度google后，发现都是说windows下要用绝对路径，并且在路径里要用“/"代替"\"这些都实验了，无效正准备用源码试试看到底错误是什么原因忽然想到一点我在
mysql + sphinx 安装过程详解 zhsj0110 sphinx
参考：http://www.cnblogs.com/chenzehe/archive/2010/11/04/1868354.htmlhttp://www.coreseek.cn/news/7/99/http://klinmy.blog.163.com/blog/static/5680802008428445716/http://love3400wind.blog.163.com/blog/stat
Sphinx 安装记录阳光梦搜索引擎
前言如果你想支持中文全文检索的话，请参考coreseek安装记录。如果你已经安装sphinx或者coreseek,只是想查找怎么配置和使用sphinx和coreseek的话，请参考coreeek和sphinx的配置与使用下面的表纯属文章虚构，由于配置内容较多，部分省略，具体可以参考官方文档。想吐槽一句：编译安装真浪费时间，configure&&make&&makeinstall一个软件就需要几十分
如何给mysql innodb表添加Sphinx中文快速搜索支持 xie156005934
由于innodb表不能做全文索引，因此模糊查询的效率很低，几十万行的数据like查询一般是分钟级的，而sphinx则很好的解决了这个问题，可以在0.几秒内完成这个查询，下面看下如何给innodb表添加sphinx支持一、安装sphinx官方下载地址：http://sphinxsearch.com/downloads/archive/由于coreseek4.1要求2.0.2的版本，我的操作系统是ce
mysql安装sphinx引擎 weixin_34143774 数据库
一般情况下，我们在使用数据库的时候使用的引擎是InnoDB或者是MYISAM默认安装会把一些其它的引擎给安装上，但是不会安装sphinx.(我测试的数据库是5.6使用的cmake)使用showengines命令可以查看mysql数据库的引擎如果你是用的是coreseek，直接拷贝的mysqlse那么可能不会编译成功，可能会出现一些版本不兼容的错误。一般到sphinx官方网站上下载sphinx，解压
php + MongoDB + Sphinx 实现全文检索 (一) _Lyux php
现状:Sphinx目前的稳定版本为2.2.11.Sphinx目前对英文等字母语言采用空格分词,故其对中文分词支持不好,目前官方中文分词方案仅支持按单字分词.在Sphinx基础上,目前国内有两个中文分词解决方案,一个是sphinx-for-chinese,一个是coreseek.sphinx-for-chinese没有官网,文档较少,可查到的最新版本可支持sphinx1.10.coreseek官方还
安装coreseek全文检索服务器 wangjun_1218 mysql linux综合全文检索 mysql 测试服务器 opera gcc
==安装coreseek全文检索服务器==root:groupaddxmpuseradd-gxmp-d/home/coreseek-m-s/bin/bashcoreseekpasswdcoreseekcoreseek:cd~mkdirlocalfile;cdlocalfilewgethttp://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.ta
sphinx索引工具的使用 yt_php 工具的使用
介绍mysql全文索引有个缺点是经常使用的词汇不会建立索引而且不支持中文，sphinx提供了比数据库本身更专业的搜索功能。1高速的建立索引（创建100万条索引只需3~4分钟）2高性能搜索（一千万条查询速度为毫秒级）3处理海量数据（单一索引最大可包含一亿条记录）4优秀的相关度算法但是sphinx只支持英文与俄文，这里我们需要另一款软件，coreseek，基于sphinx，添加了中文词库，专攻中文搜索
sphinx原理以及索引流程 wuliZs_
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx 原理及实现钻石王小二吼吼吼 mysql优化
在使用mysql数据库过程中，如果想实现全文检索的优化，可以使用mysql自带全文索引，但是不支持中文。。关于sphinx的安装网上很多教程写的都不错比如：http://www.coreseek.cn/products-install/。这里就不再说明安装方法了。有兴趣的可以自己参考。MySQL在高并发连接、数据库记录数较多的情况下，SELECT...WHERE...LIKE'%...%'的全文搜
sphinx应用项目实践踩坑记 Winner-雪花飘技术 php 服务器
之前写的关于sphinx环境及使用的文章只是简单的做个小demo的测试，真正应用到项目中会遇到各种问题袭来，没有leader指导，只能自己摸索，应用到项目上线也是花了好几天的时间，这次记录只要是指出各个坑点，避免日后再踩坑。环境搭建docker如何安装在这里就不详细说了，有了docker环境后使用dockersearchsunfjun/coreseek，笔者使用的docker源是阿里源vi/etc
coreseek下相关知识（匹配模式、排序模式、指定字段查询、多字段查询、指定字段内容高亮、增量索引实时更新，其他技巧）总结篇 qiuyu6958334 php 搜索引擎Coreseek
从标题看，这几个都是重点知识，把这些都学会了，coreseek基本上使用无障碍了，所以很重要！！匹配模式1、SPH_MATCH_ALL,匹配所有查询词(默认模式);2、SPH_MATCH_ANY,匹配查询词中的任意一个;3、SPH_MATCH_PHRASE,将整个查询看作一个词组，要求按顺序完整匹配;4、SPH_MATCH_BOOLEAN,将查询看作一个布尔表达式(参见第5.2节“布尔查询语法”)
sphinx全等匹配（等于）查询的语法 gianttj
sphinx全等匹配的语法，以下用sphinxSE语法作为示例：SELECT*FROM`attribute_content_search`WHEREquery='"^感冒$"|"^便秘$";mode=extended2;limit=1000'limit1000;字段开始和字段结束修饰符(在版本Coreseek3.1/Sphinx0.9.9-rc2中引入)，其中“^”为开始符，“$”为结尾符，有点类
sphinx多条件搜索阿瑟·柯南·道尔 Sphinx
1、sphinx多条件搜索创建索引、开启搜索服务，以下是我创建的表单，option标签的value微数据库字段request->csrfToken?>"/>搜索字段：全部标题作者作者：2、然后将coreseek中的csft_mysql.conf类方法yii框架的yii\vendor\composer\下在yii\vendor\autoload.php中添加require_once__DIR__.'
Sphinx + Coreseek 实现中文分词搜索 Sponge_CMZ php
Sphinx+Coreseek实现中文分词搜索SphinxCoreseek实现中文分词搜索全文检索1全文检索vs数据库2中文检索vs汉化检索3自建全文搜索与使用Google等第三方网站提供的站内全文搜索的区别SphinxCoreseek介绍Coreseek安装使用1.全文检索1.1全文检索vs.数据库全文检索是数据库的有力补充，全文检索并不能替代数据库在应用系统中的作用。当应用系统的数据以大量的文
浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别 Huangwenting1990
Sphinx是一个基于SQL的全文检索引擎；普遍使用于很多网站Sphinx的特性如下：a)高速的建立索引(在当代CPU上，峰值性能可达到10MB/秒);b)高性能的搜索(在2–4GB的文本数据上，平均每次检索响应时间小于0.1秒);c)可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);Sphinx本身对中文的支持并不好。主要体现在对一段话断词；英文
Coreseek算法分析内核中的洋葱搜索
Coreseek算法分析本文对coreseek代码中涉及到的一部分算法进行说明，以便在阅读代码的时候，能更容易理解相关的代码。本文所整理的只是其中的部分算法，后面将在逐渐深入理解的基础上，进一步添加。一．Soundex算法1.算法原理Soundex是一种语音算法，利用英文字的读音计算近似值，值由四个字符构成，第一个字符为英文字母，后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形，可用S
手把手搭建sphinx环境内核中的洋葱搜索
手把手搭建sphinx环境1一．概述1二．虚拟机的搭建21.安装virtualbox22.准备suse的安装环境23.安装suse44.配置共享文件夹55.设置网络7三．Mysql的安装81.获取mysql源代码82.获取sphinx源码93.增加sphinxSE引擎94.配置编译95.启动和测试96.系统自动启动mysql10四．Sphinx的搭建101.解压coreseek102.首先安装MM
研究了coreseek下的sphinx 配置及api调用，收获颇多。任亚军系统架构 api sql query float lucene unix
前言：之前一直使用lucene，有很多优点及缺点，最大的缺点就是要维护一个索引的成本很高，需要牵扯到很多方面，其中也包含业务方面；优点呢，不用多说了，速度快，支持查询的模式多，各种条件下的查询都能实现，所以想找一个更加符合现有应用状况的搜索引擎，故想到了coreseek=(sphinx+中文分词+框架)Sphinx最大的好处是业务层面不需要你去关心索引的建立、更新等，后台定时去维护主索引和增量索引
nginx开启关闭shell diwan2439
#!/bin/sh#file:/usr/local/bin/sphinx./etc/rc.d/init.d/functionsappName="Sphinx"stop(){/usr/local/bin/searchd-c/usr/local/coreseek/etc/sphinx.conf--stop>/dev/null2>&1ret=$?if[$ret-eq0];thenaction$"Stop
Centos 编译安装sphinx-0.9.9全文检索 YPHP coreseek sphinx php centos
Sphinx简介Sphinx是开源的搜索引擎，它支持英文的全文检索。所以如果单独搭建Sphinx，你就已经可以使用全文索引了。但是往往我们要求的是中文索引，怎么做呢？国人提供了一个可供企业使用的，基于Sphinx的中文全文检索引擎。也就是说Coreseek实际上的内核还是Sphinx。那么他们的版本对应呢？sphinx可以通过设置为“一元切分模式”来支持搜索中文在实际使用中，搜索非中文的话，sph
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

sphinx中文版Coreseek中文检索引擎安装和使用方法(Windows)

1. `indexer`命令参考

2. `searchd`命令参考

3. `search`命令参考

4. `spelldump`命令参考

5. `indextool`命令参考

`2. 配置csft.conf文件`

你可能感兴趣的:(coreseek)

sphinx中文版Coreseek中文检索引擎安装和使用方法(Windows)

1. indexer命令参考

2. searchd命令参考

3. search命令参考

4. spelldump命令参考

5. indextool命令参考

2. 配置csft.conf文件

你可能感兴趣的:(coreseek)

1. `indexer`命令参考

2. `searchd`命令参考

3. `search`命令参考

4. `spelldump`命令参考

5. `indextool`命令参考

　　`2. 配置csft.conf文件`