dcj3sjt126com

Sphinx中文指南

1、简介

1.1.Sphinx是什么
1.2.Sphinx的特性
1.3.Sphinx中文分词

2、安装配置实例

2.1 在GNU/Linux/unix系统上安装
- 2.1.1 sphinx安装
- 2.1.2.sfc安装(见另文)
- 2.1.3.coreseek安装（见另文）
2.2 在windows下安装

3、配置实例
4、应用

4.1 在CLI上测试
4.2 使用API调用

5、附录

1.Sphinx简介

1.1.Sphinx是什么

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBMS 的原生支持）

1.2.Sphinx的特性

高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);
高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);
可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
提供了优秀的相关度算法，基于短语相似度和统计（BM25）的复合Ranking方法;
支持分布式搜索;
支持短语搜索
提供文档摘要生成
可作为MySQL的存储引擎提供搜索服务;
支持布尔、短语、词语相似度等多种检索模式;
文档支持多个全文检索字段(最大不超过32个);
文档支持多个额外的属性信息(例如：分组信息，时间戳等);
支持断词;

1.3.Sphinx中文分词

中文的全文检索和英文等latin系列不一样，后者是根据空格等特殊字符来断词，而中文是根据语义来分词。目前大多数数据库尚未支持中文全文检索，如Mysql。故，国内出现了一些Mysql的中文全文检索的插件，做的比较好的有hightman的中文分词。Sphinx如果需要对中文进行全文检索，也得需要一些插件来补充。其中我知道的插件有 coreseek 和 sfc 。

Coreseek是现在用的最多的sphinx中文全文检索，它提供了为Sphinx设计的中文分词包LibMMSeg 。并提供了多个系统的二进制发行版，其中有rpm,deb及windows下的二进制包。另外，coreseek也为sphinx贡献了以下事项：
- GBK编码的数据源支持
- 采用Chih-Hao Tsai MMSEG算法的中文分词器
- 中文使用手册（这份中文手册对国内使用sphinx新手——特别是英语不太好的人来说，提供了极大的便利）
sfc（sphinx-for-chinese）是由网友happy兄提供的另外一个中文分词插件。其中文词典采用的是xdict。据其介绍,经过测试，目前版本在索引速度上(Linux 测试平台)基本上能够达到索引UTF-8英文的一半，即官方宣称速度的一半。（时间主要是消耗在分词上）。 现提供了与sphinx最新版(sphinx 0.9.10)同步的sphinx-for-chinese-0.9.10-dev-r2006.tar.gz 。此版本增加了sql_attr_string，经过本人的测试。其安装和配置都非常方便。happy兄在分词方面还有另外一个贡献——php-mmseg，这是php对中文分词的一个扩展库。

在此，对以上二位作者谨以最大的敬意

此外，如果你对中文分词不感兴趣。或者说仅需要实现类似sql中like的功能，如： select * from product where prodName like ‘%手机%’。sphinx也不会让你失望，这个或许就是官网对中文的简单实现——直接对字索引。并且搜索速度还不错^_^ 。

本文会对以上三种中文应用进行测试，并以文档的方式记录下来，这也许正是本文档的重点。

2.安装配置实例

2.1在GNU/Linux/unix系统上安装

Sphinx在mysql上的应用有两种方式：
①、采用API调用，如使用PHP、java等的API函数或方法查询。优点是可不必对mysql重新编译，服务端进程“低耦合”，且程序可灵活、方便的调用；
缺点是如已有搜索程序的条件下，需修改部分程序。推荐程序员使用。
②、使用插件方式（sphinxSE）把sphinx编译成一个mysql插件并使用特定的sql语句进行检索。其特点是，在sql端方便组合，且能直接返回数据给客户端
不必二次查询（注）,在程序上仅需要修改对应的sql，但这对使用框架开发的程序很不方便，比如使用了ORM。另外还需要对mysql进行重新编译，且需要mysql-5.1以上版本
支持插件存储。系统管理员可使用这种方式
二次查询注：到现在发布版本为止——sphinx-0.9.9，sphinx在检索到结果后只能返回记录的ID，而非要查的sql数据，故需要重新根据这些ID再次从数据库中查询，
正在开发的sphinx 0.9.10版本已可存储这些文本数据，作者曾试过，性能和存储上的效果都不佳，毕竟还没出正式版

本文采用的是第一种方式

在*nix系统下安装，首先需要以下一些软件支持

软件环境：

操作系统：Centos-5.2
数据库：mysql-5.0.77-3.el5 mysql-devel（如果要使用sphinxSE插件存储请使用mysql-5.1以上版本）
编译软件：gcc gcc-c++ autoconf automake
Sphinx ：Sphinx-0.9.9 (最新稳定版 )

安装：

[root@localhost ~]# yum install -y mysql mysql-devel
[root@localhost ~]# yum install -y automake autoconf
[root@localhost ~]# cd /usr/local/src/
[root@localhost src]# wget http://www.sphinxsearch.com/downloads/sphinx-0.9.9.tar.gz
[root@localhost src]# tar zxvf sphinx-0.9.9.tar.gz
[root@localhost local]# cd sphinx-0.9.9
[root@localhost sphinx-0.9.9]# ./configure –prefix=/usr/local/sphinx #注意：这里sphinx已经默认支持了mysql
[root@localhost sphinx-0.9.9]# make && make install # 其中的“警告”可以忽略

安装完毕后查看一下/usr/local/sphinx下是否有三个目录 bin etc var，如有，则安装无误！

2.1.2.sfc安装(点击进入)
2.1.3.coreseek安装（点击进入）

3.配置实例

3.1、数据源。

这里我们采用 mysql的数据源。具体情况如下：

Mysql server：192.168.1.10

Mysql db :test

Mysql 表：test.sphinx_article

mysql> desc sphinx_article;
+———–+———————+——+—–+———+—————-+
| Field | Type | Null | Key | Default | Extra |
+———–+———————+——+—–+———+—————-+
| id | int(11) unsigned | NO | PRI | NULL | auto_increment |
| title | varchar(255) | NO | | | |
| cat_id | tinyint(3) unsigned | NO | MUL | | |
| member_id | int(11) unsigned | NO | MUL | | |
| content | longtext | NO | | | |
| created | int(11) | NO | MUL | | |
+———–+———————+——+—–+———+—————-+
6 rows in set (0.00 sec)

3.2、配置文件

[root@localhost ~]#cd /usr/local/sphinx/etc #进入sphinx的配置文件目录
[root@localhost etc]# cp sphinx.conf.dist sphinx.conf #新建Sphinx配置文件
[root@localhost etc]# vim sphinx.conf #编辑sphinx.conf

具体实例配置文件：

##### 索引源 ###########
source article_src
{
type = mysql    #####数据源类型
sql_host = 192.168.1.10    ######mysql主机
sql_user = root   ########mysql用户名
sql_pass = pwd############mysql密码
sql_db = test #########mysql数据库名
sql_port= 3306 ###########mysql端口
sql_query_pre = SET NAMES UTF8 ###mysql检索编码，特别要注意这点，很多人中文检索不到是数据库的编码是GBK或其他非UTF8
sql_query = SELECT id,title,cat_id,member_id,content,created FROM sphinx_article ####### 获取数据的sql

#####以下是用来过滤或条件查询的属性############

sql_attr_uint = cat_id ######## 无符号整数属性
sql_attr_uint = member_id
sql_attr_timestamp = created ############ UNIX时间戳属性

sql_query_info = select * from sphinx_article where id=$id ######### 用于命令界面端(CLI)调用的测试

}

### 索引 ###

index article
{
source = article_src ####声明索引源
path = /usr/local/sphinx/var/data/article #######索引文件存放路径及索引的文件名
docinfo = extern ##### 文档信息存储方式
mlock = 0 ###缓存数据内存锁定
morphology = none #### 形态学（对中文无效）
min_word_len = 1 #### 索引的词最小长度
charset_type = utf-8 #####数据编码

##### 字符表，注意：如使用这种方式，则sphinx会对中文进行单字切分，
##### 即进行字索引，若要使用中文分词，必须使用其他分词插件如 coreseek，sfc

charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\
U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,\
U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,\
U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,\
U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, \
U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D,\
U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, \
U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, \
U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, \
U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, \
U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, \
U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159,\
U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, \
U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, \
U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, \
U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175,\
U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, \
U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, \
U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, \
U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, \
U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, \
U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, \
U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, \
U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, \
U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, \
U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, \
U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, \
U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, \
U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, \
U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, \
U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, \
U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, \
U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, \
U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, \
U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, \
U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, \
U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF
min_prefix_len = 0 #最小前缀
min_infix_len = 1 #最小中缀
ngram_len = 1 # 对于非字母型数据的长度切割

#加上这个选项，则会对每个中文，英文字词进行分割，速度会慢
#ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
#U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
#U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
#U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF

}

######### 索引器配置 #####
indexer
{
mem_limit = 256M ####### 内存限制
}

############ sphinx 服务进程 ########
searchd
{
#listen = 9312 ### 监听端口，在此版本开始，官方已在IANA获得正式授权的9312端口，以前版本默认的是3312

log = /usr/local/sphinx/var/log/searchd.log #### 服务进程日志，一旦sphinx出现异常，基本上可以从这里查询有效信息，轮换（rotate）出的问题一般可在此寻到答案
query_log = /usr/local/sphinx/var/log/query.log ### 客户端查询日志，笔者注：若欲对一些关键词进行统计，可以分析此日志文件
read_timeout = 5 ## 请求超时
max_children = 30 ### 同时可执行的最大searchd 进程数
pid_file = /usr/local/sphinx/var/log/searchd.pid #######进程ID文件
max_matches = 1000 ### 查询结果的最大返回数
seamless_rotate = 1 ### 是否支持无缝切换，做增量索引时通常需要
}

3.3、建立索引文件

[root@localhost sphinx]# bin/indexer -c etc/sphinx.conf article ### 建立索引文件的命令
Sphinx 0.9.9-release (r2117)
Copyright (c) 2001-2009, Andrew Aksyonoff

using config file ‘etc/sphinx.conf’…
indexing index ‘article’…
collected 1000 docs, 0.2 MB
sorted 0.4 Mhits, 99.6% done
total 1000 docs, 210559 bytes
total 3.585 sec, 58723 bytes/sec, 278.89 docs/sec
total 2 reads, 0.031 sec, 1428.8 kb/call avg, 15.6 msec/call avg
total 11 writes, 0.032 sec, 671.6 kb/call avg, 2.9 msec/call avg
[root@localhost sphinx]#
出现以上代表已经索引成功，若不成功的话请根据提示的错误修改配置文件，或到这里提问，我看到后会尽快解决

4.应用

4.1 在CLI上测试

在上一步中，我们建立了索引，现在我们对刚建立的索引进行测试。测试有两种方式：CLI端和API调用

在CLI端上命令测试是使用sphinx自带的搜索命令：search

###### 在article索引上检索 “北京”关键词 ########
[root@localhost sphinx]# bin/search -c etc/sphinx.conf 北京
Sphinx 0.9.9-release (r2117)
Copyright (c) 2001-2009, Andrew Aksyonoff

using config file ‘etc/sphinx.conf’…
index ‘article’: query ‘北京 ‘: returned 995 matches of 995 total in 0.008 sec

displaying matches:
1. document=76, weight=2, cat_id=1, member_id=2, created=Sat Jan 23 19:05:09 2010
id=76
title=??????????
cat_id=1
member_id=2
content=????????????????????????????????
created=1264244709
2. document=85, weight=2, cat_id=1, member_id=2, created=Sat Jan 23 19:05:09 2010
id=85
title=????????????
cat_id=1
member_id=2
content=??▒????????????▒????????▒????▒?????????????????????????????
created=1264244709
…..这里省略….
20. document=17, weight=1, cat_id=1, member_id=2, created=Sat Jan 23 19:05:09 2010
id=17
title=????????????
cat_id=1
member_id=2
content=??????????????????????????????????????????????????????????
created=1264244709

words:
1. ‘北京’: 995 documents, 999 hits

至此，可以看到，我们已经检索出所有有关“北京”的信息

注意：这里我使用的是putty的客户端，在客户端编码设置的是utf-8，这个是测试的前提条件

4.2 API调用

在本例中，我使用PHP的api来测试，在测试前，先启动sphinx服务进程，并对centos的防火墙做好9312端口的开放

[root@localhost sphinx]# bin/searchd -c etc/sphinx.conf & ### 使sphinx在后台运行
[1] 5759
[root@localhost sphinx]# Sphinx 0.9.9-release (r2117)
Copyright (c) 2001-2009, Andrew Aksyonoff

using config file ‘etc/sphinx.conf’…
listening on all interfaces, port=9312

[1]+ Done bin/searchd -c etc/sphinx.conf

php测试代码：

<?php
header(‘Content-type:text/html;charset=utf-8′);
?><form name=”form1″ method=”get” action=”">
<label>
<input style=”width:400px;” type=”text” name=”keyword”>
</label>
<label>
<input type=”submit” name=”Submit” value=”sphinx搜索”>
</label>
</form>

<?php
$keyword = $_GET['keyword'];
if (trim($keyword)==”) {
die(‘请输入关键词’);
}
else {
echo ‘关键词是：’.$keyword;
}

require “sphinxapi.php”;
$cl = new SphinxClient();
$cl->SetServer(’192.168.1.150′, 9312); //注意这里的主机
#$cl->SetMatchMode(SPH_MATCH_EXTENDED); //使用多字段模式
//dump($cl);
$index=”article”;
$res = $cl->Query($keyword, $index);
$err = $cl->GetLastError();
dump($res);
function dump($var)
{
echo ‘<pre>’;
var_dump($var);
echo ‘</pre>’;
}
?>

检索“北京”dump后的结果是如下：

array(10) {
  ["error"]=>
  string(0) ""
  ["warning"]=>
  string(0) ""
  ["status"]=>
  int(0)
  ["fields"]=>
  array(2) {
    [0]=>
    string(5) "title"
    [1]=>
    string(7) "content"
  }
  ["attrs"]=>
  array(3) {
    ["cat_id"]=>
    int(1)
    ["member_id"]=>
    int(1)
    ["created"]=>
    int(2)
  }
  ["matches"]=>
  array(20) {
    [76]=>
    array(2) {
      ["weight"]=>
      string(1) "2"
      ["attrs"]=>
      array(3) {
        ["cat_id"]=>
        string(1) "1"
        ["member_id"]=>
        string(1) "2"
        ["created"]=>
        string(10) "1264244709"
      }
    }
  .....这里省略.....
    [17]=>
    array(2) {
      ["weight"]=>
      string(1) "1"
      ["attrs"]=>
      array(3) {
        ["cat_id"]=>
        string(1) "1"
        ["member_id"]=>
        string(1) "2"
        ["created"]=>
        string(10) "1264244709"
      }
    }
  }
  ["total"]=>
  string(3) "995"
  ["total_found"]=>
  string(3) "995"
  ["time"]=>
  string(5) "0.008"
  ["words"]=>
  array(1) {
    ["北京"]=>
    array(2) {
      ["docs"]=>
      string(3) "995"
      ["hits"]=>
      string(3) "999"
    }
  }
}

至此PHP已可调用出结果！

附录

这是本人对sphinx写的入门手册，也为自己存档使用。为写本文，特重新安装了一遍Sphinx，并新建mysql表加入1000条记录，动手重复了一下所有
过程。如有错误或疑问请到以下地址反馈，谢谢！
欢迎到sphinx中文站(www.sphinxsearch.org)讨论sphinx的相关问题，交流你我的思想！

欢迎查阅我所写的Sphinx的其他相关文章：sphinx中文分词，sphinx高级应用，Sphinx FAQ，Sphinx服务架构

参考文章：

Sphinx速成指南
 用php构建自定义搜索引擎
 Sphinx中文手册

sphinx-apidoc longgb246
[toc]一、使用sphinx-apidoc[OPTIONS]-o[EXCLUDE_PATTERN,…]sphinx-apidoc是一个自动生成Sphinx源的工具，使用该autodoc扩展。MODULE_PATH：是python的源码的文件目录。OUTPUT_PATH：是包含conf.py和*.rst的source目录。注意在python源码的py文件中，应该使用if__name__=='__m
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
python 机器人工具箱——robotics-toolbox-python FL17171314 python 开发语言
这个工具箱为Python带来了机器人特定的功能，并利用Python的可移植性、普遍性和支持性的优势，以及线性代数（numpy、scipy）、图形（matplotlib、three.js、WebGL）的开源生态系统的能力，交互式开发（jupyter、jupyterlab、mybinder.org）和文档（sphinx）。python-mpipinstall--usernumpyscipymatplo
python-自动化篇-运维-语音识别 fo安方 #python-自动化篇-运维运维 python 自动化
文章目录理论文本转换为语音使用pyttsx使用SAPI使用SpeechLib语音转换为文本代码和效果01使用pyttsx实现文本_语音02使用SAPI实现文本_语音03使用SpeechLib实现文本_语音04使用PocketSphinx实现语音转换文本理论语音识别技术，也被称为自动语音识别，目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。文本转换为语音使用pyttsx使用名为py
Sphinx的原理详解和使用 m0_68949064 PHP sphinx 全文检索搜索引擎
一、Sphinx介绍1.1简介Sphinx是由俄罗斯人AndrewAksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBM
ROS2手册的离线编译安装 ArslanRobot ROS2开发实例 ROS 机器人
ROS开发中经常要查询相关API，把文档下载到本地离线使用方便快捷，极大提高开发效率下载ROS2文档gitclonehttps://github.com/ros2/ros2_documentation.gitcdros2_documentation安装sphinxpipinstallSphinx配置sphinxsphinx-quickstart按提示进行配置编译makehtml期间如果提示exce
API文档生成(sphinx) Along20210921 sphinx 全文检索搜索引擎
1.安装pipinstallSphinx2.使用2.1文档手册Sphinx1.3.1中文手册(推荐查看)教程https://fengxc.me/基于python注释使用sphinx自动化生成API文档.html2.2创建工程新建一个文件夹sphinx_test,并创建两个子文件夹code,doc。目录结构如下：进去到doc目录，打开powershell,执行下边命令创建工程sphinx-quick
智能语音技术栈 chenkaifang 不归类
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMUSphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMUSphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多
ai智能语音机器人如何基于本地语音识别，搭建一款智能聊天机器人？ VO_794632978 WX-794632978 语音机器人人工智能机器人语音识别腾讯云阿里云
基于本地语音识别技术，搭建智能聊天机器人是一种广泛使用的人工智能应用。它可以为用户提供语音聊天、语音指令和语音控制等服务，提高用户的体验和方便性。以下是基于本地语音识别的智能聊天机器人搭建过程。确定使用的技术在搭建智能聊天机器人之前，需要确定将使用的技术和平台。通常情况下，语音识别技术可以使用开源框架，如CMUSphinx、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码，用于
sphinx在c#.net平台下使用（一） weixin_30432179 c#数据库 php
Sphinx是由俄罗斯人AndrewAksyonoff开发的一个可以结合MySQL,PostgreSQL全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。是做站内全文搜索的一把利器。sphinx已经出现很多年，并不是一个新鲜技术，但如今仍被广泛使用者。但由于IT技术的不断创新，在圈子中又出现了几款用于全文检索的新技术，如lucene就是一款与之媲美的工具，但相对而言，它
使用sphinx生成API文档火之木叶啊
使用sphinx生成API文档1、安装sphinxpipinstallSphinx2、初始化文档：在项目根目录下运行(或者进入doc目录下执行sphinx-quickstart)sphinx-quickstartdoc#api文档放在此目录下根据提示一步步来，我只处理下以下几项，其它的都是默认回车>Separatesourceandbuilddirectories(y/n)[n]:y>Projec
使用 gitee+sphinx+readthedocs 搭建个人博客明月与玄武开源项目 gitee sphinx 个人博客搭建
给大家安利如何快速搭建个人博客网站！前言这是我本地运行的一个使用sphinx构建的博客服务，这些文章，都是用markdown写的。一直有个想法，就是把自己写的这些文件，搞成一个博客网站，放到网上，但是，一想，要搞个域名、一个服务器，这样长期运营维护，成本有些高。再一个，个人技术博客，独立地址，百度中抓取率可能也不高，结果就是花了大成本，结果自嗨，别人搜索、访问不到，所以，一直没有行动。最近，发现用
实现Django的全文检索功能（一）：选择Whoosh全文检索引擎 stonefisher Django Python
Django没有内置全文检索功能，这方面的资料也很少。有搜到两篇,一篇是使用在django应用上使用sphinx全文搜索还有一篇是使用Whoosh的，看这里其中whoosh是原生唯一的python写的全文搜索引擎，虽然有说whoosh性能比不上sphinx,xapian等。不过whoosh本身很小，安装后才2.61M，非常容易集成到django/python里面，而我们的需求又不大一般小站完全够用
自身文档管理规范 __pop_ 杂七杂八总览文档管理
之前在这里叙述了用sphinx生成静态网站，并利用静态网络托管服务readthedocs现在我们有了新的需求，想知道这些东西到底是什么。过程过程A：markdown/rst->htmlmkdocssphinx相关：pandoc(不能生成整个网站的html文件，而是生成单个md/rst对应的html文件)应用场合：例如sphinx支持markdown不力，可以将md格式转为rst格式gitbook(
居然能取代 Elasticsearch？ qintian0225 elasticsearch big data 大数据
ManticoreSearch不知道是否有人了解或者使用过？它是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。在GitHub上M
Linux Mint编译安装Qemu进行固件仿真攻城狮老李物联网安全物联网 iot
文章目录前言1.准备Qemu源码包2.编译安装2.1首次尝试编译2.2安装python3-venv2.3安装sphinx2.4安装sphinx-rtd-theme2.4安装ninja2.6安装编译器3.重新编译并安装4.进行固件仿真4.1准备固件4.2Binwalk解析文件4.3看一下文件结构4.4安装sasquatch4.5重新解析文件4.6确定指令集4.7开启qemu虚拟环境。4.8为Qemu
Django内置的一些包 ___大鱼___
核心Django:Web框架。django-debug-toolbar:显示面板用于调试DjangoHTML视图。django-model-utils:很有用的数据模型工具，包含一个时间戳数据模型。ipdb:IPythonpdb。Pillow:PIL替代品。pip:包安装工具。在Python3.4及以上版本中已内置。Sphinx:Python项目的文档工具。virtualenv:Python虚拟环
API 参考与帮助内容：一站式开发与使用者支援小万哥丶程序人生后端开发软件工程技术写作 API 文档作者内容
API文档API文档是旨在了解API详细信息的综合指南。通常，它们包括端点、请求示例、响应类别和示例以及错误代码等信息。API文档可帮助开发人员了解API端点的具体细节，并了解如何将API成功集成到他们的软件中。文档生成工具API文档生成工具是直接从源代码创建API文档的软件应用程序。这简化了开发人员的工作流程，并确保文档与代码更改保持同步。这些工具的例子包括Doxygen、Sphinx、Java
使用gitlab runner 进行CI（四）：使用Gitlab Page托管项目文档 CodingInCV gitlab ci vscode
目录1.什么是GitlabPages2.开启GitlabPages3.基本过程4.托管markdown文档4.1安装sphinx等依赖4.2配置项目的sphinx配置4.3编写项目文档4.4创建首页索引4.5配置gitlab-ci.yml4.6生成网页4.7配置DNS或者hosts文件5.预览和调试5.1直接使用sphinx命令生成网页5.2VScode+sphinx插件预览5.3下载Gitlab
简述CMUSphinx的基本概念和几个工具包的区别罕几
今天再重新仔细了解CMUSphinx的基本概念和几个工具包的区别基本概念探测器Senones各种声音探测器可由少量不同的短声音探测器表示。我们使用4000个不同的短声音探测器来组成三音素探测器。我们将这些探测器称为Senones。Senones对上下文的依赖可能比左右上下文更复杂。它可以是由决策树或其他方式定义的相当复杂的函数最佳匹配过程首先，它是功能的概念。由于参数的数量很大，我们正在尝试对其进
最快的搜索引擎sphinx的windows安装和使用 zhongchengbin
1首先安装sphinx引擎下载地址：http://sphinxsearch.com/downloads/archive/下载下来的目录结构如下把sphinx.conf.in负责一份改名sphinx.conf放到bin目录下，修改sphinx.conf注意log的目录和data目录的创建，在windows下不会自动创建-----------------------------------------
【小沐学Python】Python实现语音识别（SpeechRecognition）爱看书的小沐 Python AI python 语音识别 ai vosk whisper pyaudio fastapi
文章目录1、简介2、安装和测试2.1安装python2.2安装SpeechRecognition2.3安装pyaudio2.4安装pocketsphinx（offline）2.5安装Vosk（offline）2.6安装Whisper（offline）3测试3.1命令3.2fastapi3.3google3.4recognize_sphinx3.5语音生成音频文件结语1、简介https://pypi
mysql如何创建全文索引_从零开始学习MySQL全文索引北京大学出版社 mysql如何创建全文索引
一、为什么要用全文索引我们在用一个东西前，得知道为什么要用它，使用全文索引无非有以下原因like查询太慢、json字段查询太慢(车太慢了)没时间引入ElasticSearch、Solr或者Sphinx这样的软件，或者根本就不会用(无法将五菱宏光换成兰博基尼，即使有兰博基尼也不会开)加索引、联合索引啥的都已经慢得不行了(限速80，车顶盖都卸了也只能开到30)为了提升一下自己的逼格(人家问你有没有开过
使用Sphinx创建你的文档 hanshan426
Sphinx是一个基于Python的文档生成器，它支持使用reStructuredText语法对文档内容进行格式化，同时提供了很多主题风格的文档模板，最常用的就是sphinx-rtd-theme，下面将详细介绍如何使用该主题模板。依赖环境Python准备环境安装pipwgethttps://bootstrap.pypa.io/get-pip.pypythonget-pip.py安装Sphinxpi
signature=c8626889784bc3d331991756aab80078,arena/package-lock.json at aab970e800cd063cc2420aa9fab7b3... 臧竹萌12312~~
{"name":"bull-arena","version":"2.6.4","lockfileVersion":1,"requires":true,"dependencies":{"@sphinxxxx/color-conversion":{"version":"2.2.1","resolved":"https://registry.npmjs.org/@sphinxxxx/color-conv
转换rst到markdown总结剑有偏锋
一背景知识一个社区要翻译英文文档（rst格式）到中文，且保存为markdown格式二本地在线预览工具VScode编辑器+插件1预览markdown插件markdown-all-in-oneimage.png2预览ret插件reStructuredText（注意，记得安装python环境，还有python的rst解析库Sphinx）image.png三总结1了解了rst如何转换为markdown的工
在Debian4.19 PHP7.3中安装Sphinx扩展 SkyBorder
php7.3的sphinx扩展安装依赖libsphinxclient，该依赖安装在服务端安装程序中有，下载地址在这里，可以根据对应环境下载，我在这里下载的是3.1.1的Linuxx64binaries。下载后解压，cdsphinx-3.1.1/api/libsphinxclient/进入依赖安装目录./configure--prefix=/usr/local/sphinx/client这里可以自己
xunsearch(迅搜中文全文搜索引擎)的简单使用 lingchen8 PHP php 搜索引擎全文检索
Xunsearch（中文名：迅搜）是一套免费开源的专业中文全文检索解决方案，简单易用而且功能强大、性能卓越能轻松处理海量数据的全文检索。它包含后端索引、搜索服务程序和前端脚本语言编写的开发工具包(称之为SDK)，目前迅搜只支持PHP，而且还是国产（支持国产），类似的搜索引擎还有sphinx,elasticsearch等，下面是迅搜的简单使用1.服务器端（1）下载.源码包在Linux下直接：wget
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key