豆浆油条Melon

sphinx中文分词搜索coreseek windows下安装与基本使用简介

这是半年前没有对外写的文章，现在拿出来分享下。可能会有一些不正确或不严谨的地方，某些语言可能比较轻浮，请见谅。

首先说明一下coreseek其实就是基于sphinx的中文分词版本，sphinx本身并没有提供中文分词功能，需要自行安装中文词库比较麻烦，coreseek提供了中文分词功能，提供了完整的官方中文使用文档，并且在使用上和官方的sphinx并没有差别。以coreseek-4.1版本为例

下载地址 http://www.coreseek.cn/news/14/54/

帮助手册 http://www.coreseek.cn/products-install/#doc_cn

下面开始coreseek的安装

安装过程很简单，下载coreseek-4.1-win32.zip，解压至某一个文件夹，这里假设放在d:\coreseek下，双击打开test.cmd进行测试，会出来一串命令行的提示信息，留意提示信息，如果没有提示错误就算安装完成

安装后，先别急着怎么使用，首先要配置好文档，解缩包中有测试文件这里测试也略，教程尽量简单点（其实是我懒。。）

配置文件的位置可以放在任何地方，不过建议就放在d:\coreseek\bin\的目录好了，d:\coreseek\etc\目录下提供了好多配置的参考，我们把csft_mysql.conf复制至d:\coreseek\bin\下，命名为sphinx.conf（可任意名称），打开它看到的内容大概是这样：

#源定义

source mysql

{

    type                    = mysql

 

    sql_host                = localhost

    sql_user                = root

    sql_pass                = 

    sql_db                    = test

    sql_port                = 3306

    sql_query_pre            = SET NAMES utf8

 

    sql_query                = SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content FROM documents

                                                              #sql_query第一列id需为整数

                                                              #title、content作为字符串/文本字段，被全文索引

    sql_attr_uint            = group_id           #从SQL读取到的值必须为整数

    sql_attr_timestamp        = date_added #从SQL读取到的值必须为整数，作为时间属性

 

    sql_query_info_pre      = SET NAMES utf8                                        #命令行查询时，设置正确的字符集

    sql_query_info            = SELECT * FROM documents WHERE id=$id #命令行查询时，从数据库读取原始数据信息

}

 

#index定义

index mysql

{

    source            = mysql             #对应的source名称

    path            = var/data/mysql #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...

    docinfo            = extern

    mlock            = 0

    morphology        = none

    min_word_len        = 1

    html_strip                = 0

 

    #中文分词配置，详情请查看：http://www.coreseek.cn/products-install/coreseek_mmseg/

    #charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾

    charset_dictpath = etc/                             #Windows环境下设置，/符号结尾，最好给出绝对路径，例如：C:/usr/local/coreseek/etc/...

    charset_type        = zh_cn.utf-8

}

 

#全局index定义

indexer

{

    mem_limit            = 128M

}

 

#searchd服务定义

searchd

{

    listen                  =   9312

    read_timeout        = 5

    max_children        = 30

    max_matches            = 1000

    seamless_rotate        = 0

    preopen_indexes        = 0

    unlink_old            = 1

    pid_file = var/log/searchd_mysql.pid  #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...

    log = var/log/searchd_mysql.log        #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...

    query_log = var/log/query_mysql.log #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...

    binlog_path =                                #关闭binlog日志

}

这么多字段干嘛用的。。。

先别管这个，看文件中的配置格式

source mysql

{

    ...

}

 

index mysql

{

    ...

}

....

这些就是配置文件中的'类'，配置格式就是以类为基础的，类的格式是 '关键字 [名称] {}'，每个关键字的作用：

source：定义数据索引源（就是被搜索的数据啦），如果以mysql为索引源，那么source里的信息包含数据库账号、密码、端口、获取数据索引的sql语句等

index：定义如何处理索引源，例如索引文件目录、分词单位、分词配置文件、去除数据的html标签等

indexer：定义indexer服务设置，例如内存使用大小限制、文件索引大小限制

searchd：定义searchd服务设置，用于搜索时的设置，例如服务端口、搜索最大数量限制、搜索超时时间等

其实配置文件中好多字段都有默认值的，并不需要我们进行配置（不用写出来），下面对一些常用的配置字段进行解释，以mysql数据库为例

基本环境：

主机 localhost

账号 root

密码 root

端口 3306

数据库 ibos

数据表：email

数据结构：

CREATE TABLE email (
emailid mediumint(8) unsigned NOT NULL auto_increment COMMENT '邮件id',

fromid int(10) unsigned NOT NULL default '0' COMMENT '发送人ID',

toid int(10) unsigned NOT NULL default '0' COMMENT '收件人ID',
content text unsigned NOT NULL COMMENT '邮件内容',
subject varchar(100) unsigned NOT NULL COMMENT  '邮件标题',

sendtime int(10) NOT NULL COMMENT '发送时间',

attachment varchar(100) NOT NULL COMMENT '附件ID，以逗号分割',
PRIMARY KEY (emailid),
) ENGINE=MyISAM';

配置内容：

#定义数据源，取一个好听的名字，就叫email吧。。。

source attach {

    type                        =     mysql    #定义数据源的类型

    sql_host                  =     localhost

    sql_user                  =     root

    sql_pass                  =     root

    sql_db                     =     ibos

    sql_port                   =     3306

 

    #sql_query_pre是获取数据源前执行的操作，内容是mysql可执行的语句，你可以设置多个sql_query_pre，sphinx将会按顺序执行

    sql_query_pre         =     SET NAMES utf8    #一般设置好编码以保证数据格式正确

    sql_query_pre         ＝     xxx

    

    #sql_query就是真正获取数据源的语句，内容是mysql可执行的语句

    #SELECT的第一个字段是非负整数并且值都不相同的，搜索结果返回的ID就是这个，建议使用数据表的主键，这里是emailid

    #其它字段是用来设置搜索条件和希望被搜索的字段，如果那个字段你认为对搜索没有作用，那就不要选择

    sql_query                = SELECT emailid,fromid,toid,subject,content,sendtime,attachement FROM email

 

    ＃sql_attr_    索引属性，主要被用来设置搜索条件，并且搜索结果返回的信息也包含这些属性的值

    #设置某个属性的前提是在sql_query中有返回这个字段的数据

    #sql_attr_uint，从SQL读取到的值必须为整数

    sql_attr_uint            = fromid

    sql_attr_uint            = toid

    #sql_attr_timestamp，从SQL读取到的值必须为整数，作为时间属性

    sql_attr_timestamp  = sendtime

    

    #程序运行前执行的查询操作，这个没有什么意义，可以不写，仅仅用于调试目的

    sql_query_info    =    SELECT * FROM email

}

 

#接下来要配置如何处理索引源，名称建议和索引源一样吧

index email {

    source                 = email    #对应的source名称

    path                    = d:\coreseek\data\email    #生成索引文件的路径（包含文件名），可自定义

    min_word_len     = 1    ＃最小分词长度

    html_strip            = 1    ＃是否去除html标签，强烈建议开启此项，像邮件这些富文本包含大量html标签，对搜索没有任何帮助，而且增加搜索时间和索引文件大小（至少增大5倍以上）

    charset_dictpath = d:\coreseek\etc\    #中文分词配置文件目录

    charset_type        = zh_cn.utf-8

}

 

＃还可以定义多个索引源

source diary {

}

index diary {

    source :diary

}

 

#indexer服务定义，注意没有名字！这个设置是全局的！

indexer {

    mem_limit            = 128M    ＃内存大小限制

}

 

#searchd服务定义，注意没有名字！这个设置是全局的！

searchd {

    listen                         =  9312    #服务端口，默认9312

    read_timeout            = 5          ＃最大搜索时间
    max_matches            = 1000    ＃最大匹配数

    max_children            = 30        ＃子进程数目限制

    ＃这几项看文档吧

    pid_file                      = d:\coreseek\var\log\searchd_mysql.pid

    log                             = d:\coreseek\var\log\searchd_mysql.log        #全部searchd运行时事件会被记录在这个日志文件中。

    query_log                   = d:\coreseek\var\log\query_mysql.log          #全部搜索查询会被记录在此文件中

}

好了，配置就到这里，那如何进行搜索，那就要用到cmd命令行，别吓着了，其实我们记住三个命令就可以了

开始－运行－ cmd 打开命令行模式

建立索引

d:\coreseek\bin\indexer -c d:\coreseek\bin\sphinx.conf --all #sphinx.conf就是刚刚我们的配置文件

按回车，如无意外会看到正在建立索引的信息，稍等一会就可以了

开始搜索，注意命令行模式并不支持中文搜索（用其它方式，例如PHP没问题），coreseek官方有解决办法，但是我们一般不用命令行进行搜索，这里只是测试

d:\coreseek\bin\search -c d:\coreseek\bin\sphinx.conf 搜索字符串

例：搜索banana

d:\coreseek\bin\search -c d:\coreseek\bin\sphinx.conf banana

如无意外就会有搜索结果信息了。。。

打开控制台，这条和搜索那条命令不一样，是searchd不是search，这个命令下一篇讲PHP的时候会用到

d:\coreseek\bin\searchd -c d:\coreseek\bin\sphinx.conf #Ctrl + c 可关闭控制台

打开控制台的作用就是让让sphinx监听端口，接收搜索命令，例如用PHP代码执行sphinx搜索就要打开控制台

更多知识

继承

因为是类，所以可以继承。。

定义父类email

source email {

    ....

}

定义子类subemail继承email类的所有设置：

source subemail : email { ＃除了source，index也可以使用继承

    ....

}

子类中可以重载email中的设置

source subemail : email {

    sql_host      = www.ibos.com.cn    #重载主机

    sql_query    = SELECT * FROM subemail    #重载sql_query语句

}

其实继承很少被使用到，但有一个很实用的例子就是有很多数据源使用同一数据库的时候，继承就派上用场了

source setdb {     #setdb类只实现连接数据库

    sql_host                  =     localhost

    sql_user                  =     root

    sql_pass                  =     root

    sql_db                     =     ibos

    sql_port                   =     3306

}

souce email : setdb{    #继承setdb类

    sql_query = ...        #直接写查询语句，而不用再写数据库信息

}

souce diary : setdb {

    sql_query = ...  

}

 

souce article : setdb {

    sql_query = ...  

}

souce forum : setdb {

    sql_query = ...  

}

增量索引

以下是出自官方文档，觉得官方解释得比较清楚，更多例子参考文章中的附件 IBOS的配置文件中email的增量索引配置

有这么一种常见的情况：整个数据集非常大，以至于难于经常性的重建索引，但是每次新增的记录却相当地少。一个典型的例子是：一个论坛有1000000个已经归档的帖子，但每天只有1000个新帖子。

在这种情况下可以用所谓的“主索引＋增量索引”（main+delta）模式来实现“近实时”的索引更新。

这种方法的基本思路是设置两个数据源和两个索引，对很少更新或根本不更新的数据建立主索引，而对新增文档建立增量索引。在上述例子中，那1000000个已经归档的帖子放在主索引中，而每天新增的1000个帖子则放在增量索引中。增量索引更新的频率可以非常快，而文档可以在出现几分种内就可以被检索到。

确定具体某一文档的分属那个索引的分类工作可以自动完成。一个可选的方案是，建立一个计数表，记录将文档集分成两部分的那个文档ID，而每次重新构建主索引时，这个表都会被更新。

# in MySQL

CREATE TABLE sph_counter

(

    counter_id INTEGER PRIMARY KEY NOT NULL,

    max_doc_id INTEGER NOT NULL

);

 

# in sphinx.conf

source main

{

    # ...

    sql_query_pre = SET NAMES utf8

    sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM documents

    sql_query = SELECT id, title, body FROM documents \

        WHERE id<=( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )

}

 

source delta : main

{

    sql_query_pre = SET NAMES utf8

    sql_query = SELECT id, title, body FROM documents \

        WHERE id>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 )

}

 

index main

{

    source = main

    path = /path/to/main

    # ... all the other settings

}

 

# note how all other settings are copied from main,

# but source and path are overridden (they MUST be)

index delta : main

{

    source = delta

    path = /path/to/delta

}

请注意，上例中我们显示设置了数据源delta的sql_query_pre选项，覆盖了全局设置。必须显示地覆盖这个选项，否则对delta做索引的时候也会运行那条REPLACE查询，那样会导致delta源中选出的数据为空。可是简单地将delta的sql_query_pre设置成空也不行，因为在继承来的数据源上第一次运行这个指令的时候，继承来的所有值都会被清空，这样编码设置的部分也会丢失。因此需要再次显式调用编码设置查询。

jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
数学建模之数学模型-3：动态规划 ^ω^宇博数学模型数学建模动态规划算法
文章目录动态规划基本概念阶段状态决策策略状态转移方程指标函数最优指标函数动态规划的求解前向算法后向算法二者比较应用案例一种中文分词的动态规划模型摘要引言动态规划的分词模型问题的数学描述消除状态的后效性选择优化条件算法描述和计算实例算法的效率分析和评价结束语参考文献动态规划基本概念一个多阶段决策过程最优化问题的动态规划模型包括以下666个要素：以下是对动态规划中阶段、状态、决策、策略、状态转移方程、
C# JIEBA.NET分词器开发指南老胖闲聊 C#c#.net 开发语言
JIEBA.NET是Jieba分词器的.NET实现版本。Jieba是一个流行的中文分词工具，最初是用Python编写的，而JIEBA.NET将其移植到了.NET平台。它的核心功能是将连续的中文文本切分成有意义的词语（分词），并支持关键词提取、词性标注等功能。以下将通过JIEBA.NET的工作原理、分词过程拆解和案例实战三部分来进行详细讲解：一、工作原理1.分词的基本原理中文分词是将连续的中文字符序
纯前端全文检索的两种实现方案：ElasticLunr.js 和 libsearch 传而习乎前端全文检索 javascript
纯前端全文检索的两种实现方案：ElasticLunr.js和libsearch在前端开发中，实现全文检索功能可以显著提升用户体验，尤其是在处理大量文本数据时。本文将介绍两种流行的纯前端全文检索方案：ElasticLunr.js和libsearch。这两种方案各有特点，适用于不同的场景。1.使用ElasticLunr.js实现纯前端全文检索方案特点基于Lunr.js的扩展：支持字段搜索、查询时加权和
论文摘要生成器：用TextRank算法实现文献关键信息提取 Atlas Shepherd python 算法自然语言处理 python 信息可视化
我们基于python代码，使用PyQt5创建图形用户界面（GUI），同时支持中英文两种语言的文本论文文献关键信息提取。PyQt5：用于创建GUI应用程序。jieba：中文分词库，用于中文文本的处理。re：正则表达式模块，用于文本清理和句子分割。numpy：提供数值计算能力，如数组操作、矩阵运算等，主要用于TextRank算法的实现。importsysimportreimportjiebaimpor
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
doris：Elasticsearch 向阳1218 大数据 doris
ElasticsearchCatalog除了支持自动映射ES元数据外，也可以利用Doris的分布式查询规划能力和ES(Elasticsearch)的全文检索能力相结合，提供更完善的OLAP分析场景解决方案：ES中的多index分布式Join查询。Doris和ES中的表联合查询，更复杂的全文检索过滤。使用限制支持Elasticsearch5.x及以上版本。创建CatalogCREATECATALOG
Elasticsearch在Linux环境下部署(单机版) Handsome Mr.Li elasticsearch elasticsearch linux 搜索引擎
目录1.前言2.Centos下安装2.1下载完成后进行解压操作2.2修改内存参数2.3创建ES专属用户2.4修改ES核心配置信息3.配置Elasticsearch的用户名密码3.1编辑配置文件3.2重启es服务3.3设置用户名密码3.4验证是否生效4.安装ik中文分词器1.前言我的Elasticsearch版本为7.3.2Elasticsearch下载地址:下载地址2.Centos下安装2.1下载
Lucene初探之总体架构 Derrick_gu java Lucene 架构文档对象搜索 Lucene
从总体上来说，Lucene的可以被概括为三点：高效、可扩展的全文检索库；基于Java实现；支持对纯文本文件进行索引可搜索；Lucene的工作流程和架构如下所示：通过该图片，我们可以看出，Lucene的工作流程可以被分为两个部分：索引、搜索。我们可以将这些过程进行抽象组件化：通过上下两个图片的对比，基本上可以直观地了解各个组件的工作：Document代表被索引的各个分散的文档；IndexWirter
Elasticsearch（一）：安装Elasticsearch + kibana + ik分词器 Gooooa Elasticsearch elasticsearch安装 es安装 ik分词器 kibana安装
原文来源自黑马的课程1.Elasticsearch介绍和安装用户访问我们的首页，一般都会直接搜索来寻找自己想要购买的商品。而商品的数量非常多，而且分类繁杂。如果能正确的显示出用户想要的商品，并进行合理的过滤，尽快促成交易，是搜索系统要研究的核心。面对这样复杂的搜索业务和数据量，使用传统数据库搜索就显得力不从心，一般我们都会使用全文检索技术，比如之前大家学习过的Solr。不过今天，我们要讲的是另一个
阿里云Milvus 2.5：支持全文检索，1次查询实现文本+向量双精度匹配人工智能大数据milvus
随着大模型时代带来的各种新型应用探索，结合传统基于文本匹配的精确检索与语义检索所带来的增益日益显著，尤其在一些深度依赖关键字词匹配的场景中，这种需求变得尤为关键。目前，阿里云向量检索服务Milvus版（简称阿里云Milvus）集成开源Milvus2.5版本内核，在支持向量检索的基础上，新增支持原生全文检索、基于特定词汇的精准文本匹配等功能，在RAG、多模态搜索等场景下搜索精度明显提升，使用体验大幅
使用 nodejs 和 ElasticSearch 快速搭建全文检索 dbLenis 数据库 java 编程语言大数据 linux
点击蓝色“有关SQL”关注我哟加个“星标”，天天与10000人一起快乐成长上次群友问我，Python怎么学，我说四个小时足够了，你们不信。这次，我用2个小时，仅仅用Google，快速搭建了一个nodejs+Elasticsearch的小Demo.足可见，在有搜索的年代，快速上手一门技术，已经不是什么难事。1安装1.1下载地址https://nodejs.org/en/download提供windo
掌握 ElasticSearch 四种match查询的原理与应用全端工程师 elasticsearch elasticsearch django 大数据
文章目录一、引言(Introduction)二、准备工作：创建索引和添加示例数据三、`match`查询四、`match_all`查询五、`multi_match`查询六、`match_phrase`查询七、总结(Conclusion)一、引言(Introduction)在信息爆炸的时代，快速准确地找到所需信息至关重要。全文检索技术应运而生，它允许我们对文本内容进行深入搜索，而不仅仅是简单的关键词匹
Elasticsearch集群部署详解 Jeffrey_Zeng_ elasticsearch linux
文章目录Elasticsearch功能与特性：Elasticsearch单节点安装部署Elasticsearch集群安装部署附件1、安装Java（JDK）2、问题一2、问题二Elasticsearch功能与特性：（1）分布式搜索和分析引擎（2）全文检索，结构化检索，数据分析（3）对海量数据进行近实时的处理分布式：ES自动可以将海量数据分散到多台服务器上存储和检索海量数据的处理：分布式后，可采用大量
Objective-C实现NLP中文分词（附完整源码）源代码大师 Objective-C实战教程自然语言处理 objective-c 中文分词
Objective-C实现NLP中文分词实现中文分词（NLP中的重要任务之一）在Objective-C中需要处理文本的切分和识别词语边界。尽管Objective-C在自然语言处理（NLP）领域并不常见，但通过合理的算法设计和数据结构，可以实现基本的中文分词功能。本文将介绍如何使用基于字典的最大匹配算法（MaximumMatchingAlgorithm），例如正向最大匹配（ForwardMaximu
Elasticsearch 相关面试题一切顺势而行 elasticsearch
1.Elasticsearch基础Elasticsearch是什么？Elasticsearch是一个分布式搜索引擎，基于Lucene实现。Mapping是什么？ES中有哪些数据类型？Mapping：定义字段的类型和属性。数据类型：text、keyword、integer、float等。2.什么是全文检索？全文检索是一种基于文本内容的检索方式。3.ES支持哪些类型的查询？全文查询：match、que
Elasticsearch（ES）基础查询语法的使用 m0_74825108 面试学习路线阿里巴巴 elasticsearch django python
1.MatchQuery(全文检索查询)用于执行全文检索，适合搜索文本字段。{“query”:{“match”:{“field”:“value”}}}match_phrase：精确匹配短语，适合用于短语搜索。{“query”:{“match_phrase”:{“field”:“text”}}}2.TermQuery(精确匹配查询)用于对某个字段的精确值进行查询，常用于不分词的字段（如ID、标签、关
文档检索服务平台 liupan6889 产品设计全文检索 elasticsearch 全文检索开源软件
文档检索服务平台是基于Elasticsearch的全文检索，包含数据采集、数据清洗、数据转换、数据检索等模块。项目地址：Github、国内Gitee演示地址：http://silianpan.cn/gdss/以下是演示角色和账号（密码同账号）：测试用户：test超级管理员：admin系统架构部分截图登录全文检索文章详情
PHP实现站内搜索的开源利器——WindSearch rock365337 WindSearch php 开源搜索引擎
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。github地址：https://github.com/rock365/windsearch必须极速安装~使用composer安装：composerrequirerock365/windsearch或使用Git
PHP实现站内搜索的开源利器——WindSearch
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。github地址：https://github.com/rock365/windsearch必须极速安装~使用composer安装：composerrequirerock365/windsearch或使用Git
PHP搜索引擎WindSearch，新增Faker伪数据生成功能
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。Faker数据生成安装导入//将WindSearch代码下载到本地，再像下面这样引入require_once'yourdirname/windsearch/vendor/autoload.php';开始生成//
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
PHP全文检索引擎WindSearch，新增“即用模式”
WindSearch是一个可以跟php项目完美融合的全文检索引擎，它由纯PHP开发，相比ES，WS无内存占用，无需维护，没有任何繁琐的安装配置，同时又拥有强大的索引跟搜索能力，总的来说，ES常用的功能它都有，但WS更轻量，更方便。WindSearch2.0版本新增“即用模式”，简单搜索场景下，导入、搜索等操作，更加简单直接，无需任何配置。即用模式导入、搜索操作的代码示例：导入数据//实例化对象$W
Lucene总体架构 weixin_34332905 java
Lucene总的来说是：•一个高效的，可扩展的，全文检索库。•全部用Java实现，无须配置。•仅支持纯文本文件的索引(Indexing)和搜索(Search)。•不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。在Luceneinaction中，Lucene的构架和过程如下图说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。让我们更细一些看Lucene的各组
Jieba分词算法应用 C嘎嘎嵌入式开发算法服务器数据库 c++linux
1.Jieba分词算法简介Jieba是一个用于中文分词的Python库，其核心思想是基于词典和统计模型来进行分词。由于中文文本中没有明显的单词边界，因此分词是中文处理中的一个重要任务。Jieba提供了以下几种主要的分词模式：精确模式：尽可能准确地切分句子，适合用于文本分析。全模式：将句子中所有可能的词语都切分出来，适合用于搜索引擎。搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎
002 使用kibana操作ElasticSearch7.x 陌殇殇 #ElasticSearch java elasticsearch 搜索引擎
文章目录4.使用kibana操作es4.1.文档操作1.put方式发送数据2.post方式发送数据3.查看索引文档GET4.更新文档POST5.删除文档&索引DELETE6.批量添加数据_bulk4.2.QueryDLS(查询领域对象语言)1.url检索数据语法2.查询所有数据3.查询全部数据并排序4.查询全部数据排序并分页5.区间查询6.全文检索match7.短语匹配match_phrase8.
Python：第三方库衍生星球 python 第三方库
1.第三方Python库库名用途pip安装指令NumPy矩阵运算pipinstallnumpyMatplotlib产品级2D图形绘制pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文分词pipinstalljieba
docker pgsql实现pg_jieba全文检索敏捷利齐 SQL docker 全文检索容器
安装pg_jieba分词器安装依赖工具查看docker运行的所有容器dockerps进入pg数据库容器dockerexec-itpostgres4postgisbash安装必要的工具和依赖apt-getinstall-ygitbuild-essentialcmakelibpq-devpostgresql-server-dev-all安装pg_jieba分词gitclonehttps://githu
AI知识库和全文检索的区别 xixingzhe2 AI 人工智能
1、AI知识库的作用AI知识库是基于人工智能技术构建的智能系统，能够理解、推理和生成信息。它的核心作用包括：1.1语义理解自然语言处理（NLP）：AI知识库能够理解用户查询的语义，而不仅仅是关键词匹配。上下文关联：能够结合上下文信息，提供更准确的答案。1.2知识推理逻辑推理：通过知识图谱或预训练模型，AI知识库可以进行逻辑推理，回答复杂问题。多跳推理：能够从多个数据源中提取信息，综合生成答案。1.
python --jieba 分词好好学习的顾顾 python 二级备考 python
jieba库是什么jieba库中文分词第三方库，中文文本需要通过分词获得单个的词语。jieba库的原理：利用中文字库，确定汉字之间的关联概率，汉字件概率大的组成词组，形成分词结果，还可以添加自定义的词组。jieba库的使用jieba库分词有3种1.精确模式：一段文本精确地切分成若干个中文单词，若干个中文单词经过组合，精确还原原先地文本，不存在冗余单词。2.全模式：一段文本种所有可能出现地词语都扫描
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

sphinx中文分词搜索coreseek windows下安装与基本使用简介

更多知识

继承

增量索引

你可能感兴趣的:(sphinx,全文检索,coreseek,中文分词)