sphinx 配置文件全解析

sphinx的配置文件是在配置的时候最容易出错的了：

我们先要明白几个概念：

source：数据源，数据是从什么地方来的。
index：索引，当有数据源之后，从数据源处构建索引。索引实际上就是相当于一个字典检索。有了整本字典内容以后，才会有字典检索。
searchd：提供搜索查询服务。它一般是以deamon的形式运行在后台的。
indexer：构建索引的服务。当要重新构建索引的时候，就是调用indexer这个命令。
attr：属性，属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。

sphinx的配置文件过于冗长，我们把sphinx默认的配置文件中的注释部分去掉，重新进行描述理解，就成下面的样子了：

配置文件

## 数据源src1
source src1
{
	## 说明数据源的类型。数据源的类型可以是：mysql，pgsql，mssql，xmlpipe，odbc，python
	## 有人会奇怪，python是一种语言怎么可以成为数据源呢？
	## python作为一种语言，可以操作任意其他的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/）
	type			= mysql
	
	## 下面是sql数据库特有的端口，用户名，密码，数据库名等。
	sql_host		= localhost
	sql_user		= test
	sql_pass		=
	sql_db			= test
	sql_port		= 3306

	## 如果是使用unix sock连接可以使用这个。
	# sql_sock		= /tmp/mysql.sock

	## indexer和mysql之间的交互，需要考虑到效率和安全性。
	## 比如考虑到效率，他们两者之间的交互需要使用压缩协议；考虑到安全，他们两者之间的传输需要使用ssl
	## 那么这个参数就代表这个意思，0/32/2048/32768  无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
	# mysql_connect_flags	= 32

	## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就代表ssl连接所需要使用的几个参数。
	# mysql_ssl_cert		= /etc/ssl/client-cert.pem
	# mysql_ssl_key		= /etc/ssl/client-key.pem
	# mysql_ssl_ca		= /etc/ssl/cacert.pem

	## mssql特有，是否使用windows登陆
	# mssql_winauth		= 1

	## mssql特有，是使用unicode还是单字节数据。
	# mssql_unicode		= 1 # request Unicode data from server

	## odbc的dsn串
	# odbc_dsn		= DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
	
	## sql某一列的缓冲大小，一般是针对字符串来说的。
	## 为什么要有这么一种缓冲呢？
	## 有的字符串，虽然长度很长，但是实际上并没有使用那么长的字符，所以在Sphinx并不会收录所有的字符，而是给每个属性一个缓存作为长度限制。
	## 默认情况下非字符类型的属性是1KB，字符类型的属性是1MB。
	## 而如果想要配置这个buffer的话，就可以在这里进行配置了。
	# sql_column_buffers	= content=12M, comments=1M

	## indexer的sql执行前需要执行的操作。
	# sql_query_pre		= SET NAMES utf8
	# sql_query_pre		= SET SESSION query_cache_type=OFF

	## indexer的sql执行语句
	sql_query		= \
		SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
		FROM documents

	## 有的时候有多个表，我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
	## 而这个join操作可能非常慢，导致建立索引的时候特别慢，那么这个时候，就可以考虑在sphinx端进行join操作了。
	## sql_joined_field是增加一个字段，这个字段是从其他表查询中查询出来的。
	## 这里封号后面的查询语句是有要求的，如果是query，则返回id和查询字段，如果是payload-query，则返回id，查询字段和权重。
	## 并且这里的后一个查询需要按照id进行升序排列。
	# sql_joined_field	= tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
	# sql_joined_field	= wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC

	## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
	## 当indexer建立索引的时候，查到这个字段，就读取这个文件地址，然后加载，并进行分词和索引建立等操作。
	# sql_file_field		= content_file_path

	## 当数据源数据太大的时候，一个sql语句查询下来往往很有可能锁表等操作。
	## 那么我么就可以使用多次查询，那么这个多次查询就需要有个范围和步长，sql_query_range和sql_range_step就是做这个使用的。
	## 获取最大和最小的id，然后根据步长来获取数据。比如下面的例子，如果有4500条数据，这个表建立索引的时候就会进行5次sql查询。 
	## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
	# sql_query_range		= SELECT MIN(id),MAX(id) FROM documents
	# sql_range_step		= 1000
	# sql_ranged_throttle	= 0

	## 下面都是些不同属性的数据了
	## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。

	## uint无符号整型属性
	sql_attr_uint		= group_id
	
	## bool属性
	# sql_attr_bool		= is_deleted
	
	## 长整型属性
	# sql_attr_bigint		= my_bigint_id
	
	## 时间戳属性，经常被用于做排序
	sql_attr_timestamp	= date_added

	## 字符串排序属性。一般我们按照字符串排序的话，我们会将这个字符串存下来进入到索引中，然后在查询的时候比较索引中得字符大小进行排序。
	## 但是这个时候索引就会很大，于是我们就想到了一个方法，我们在建立索引的时候，先将字符串值从数据库中取出，暂存，排序。
	## 然后给排序后的数组分配一个序号，然后在建立索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
	## 这，就是这个字段的意义。
	# sql_attr_str2ordinal	= author_name

	## 浮点数属性，经常在查询地理经纬度的时候会用到。
	# sql_attr_float		= lat_radians
	# sql_attr_float		= long_radians

	## 多值属性（MVA）
	## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫做多值属性。
	## 我要对某个标签进行查询过滤，那么在建立查询的时候就应该把这个标签的值放入到索引中。
	## 这个字段，sql_attr_multi就是用来做这个事情的。
	# sql_attr_multi		= uint tag from query; SELECT docid, tagid FROM tags
	# sql_attr_multi		= uint tag from ranged-query; \
	#	SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
	#	SELECT MIN(docid), MAX(docid) FROM tags

	## 字符串属性。
	# sql_attr_string		= stitle

	## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
	# sql_attr_str2wordcount	= stitle

	## 字符串字段，可全文搜索，可返回原始文本信息。
	# sql_field_string	= author

	## 文档词汇数记录字段，可全文搜索，可返回原始信息
	# sql_field_str2wordcount	= title

	## 取后查询，在sql_query执行后立即操作。
	## 它和sql_query_post_index的区别就是执行时间不同
	## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引建立完成后才执行。
	## 所以如果要记录最后索引执行时间，那么应该在sql_query_post_index中执行。
	# sql_query_post		=

	## 参考sql_query_post的说明。
	# sql_query_post_index	= REPLACE INTO counters ( id, val ) \
	#	VALUES ( 'max_indexed_id', $maxid )

	## 命令行获取信息查询。
	## 什么意思呢？
	## 我们进行索引一般只会返回主键id，而不会返回表中的所有字段。
	## 但是在调试的时候，我们一般需要返回表中的字段，那这个时候，就需要使用sql_query_info。
	## 同时这个字段只在控制台有效，在api中是无效的。
	sql_query_info		= SELECT * FROM documents WHERE id=$id

	## 比如有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。
	## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。
	## 这个时候就使用到了这个字段了。
	## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的非常清晰了。
	# sql_query_killlist	= SELECT id FROM documents WHERE edited>=@last_reindex

	## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。
	## SQL数据源解压字段设置
	# unpack_zlib		= zlib_column
	## MySQL数据源解压字段设置
	# unpack_mysqlcompress	= compressed_column
	# unpack_mysqlcompress	= compressed_column_2
	## MySQL数据源解压缓冲区设置
	# unpack_mysqlcompress_maxsize	= 16M


	## xmlpipe的数据源就是一个xml文档
	# type			= xmlpipe

	## 读取数据源的命令
	# xmlpipe_command		= cat /home/yejianfeng/instance/coreseek/var/test.xml

	## 字段
	# xmlpipe_field		= subject
	# xmlpipe_field		= content

	## 属性
	# xmlpipe_attr_timestamp	= published
	# xmlpipe_attr_uint	= author_id

	## UTF-8修复设置
	## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题
	## 如果设置了这个字段，非utf-8序列就会全部被替换为空格。
	# xmlpipe_fixup_utf8	= 1
}

## sphinx的source是有继承这么一种属性的，意思就是除了父source之外，这个source还有这个特性
source src1throttled : src1
{
	sql_ranged_throttle	= 100
}

## 索引test1
index test1
{
	## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
	# type			= plain

	## 索引数据源
	source			= src1
	## 索引文件存放路径
	path			= /home/yejianfeng/instance/coreseek/var/data/test1

	## 文档信息的存储模式，包括有none,extern,inline。默认是extern。
	## docinfo指的就是数据的所有属性（field）构成的一个集合。
	## 首先文档id是存储在一个文件中的（spa）
	## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，所以进行查询过滤的时候，不需要进行额外操作。
	## 当使用extern的时候，文档的属性是存放在另外一个文件（spd）中的，但是当启动searchd的时候，会把这个文件加载到内存中。
	## extern就意味着每次做查询过滤的时候，除了查找文档id之外，还需要去内存中根据属性进行过滤。
	## 但是即使这样，extern由于文件大小小，效率也不低。所以不是有特殊要求，一般都是使用extern
	docinfo			= extern

	## 缓冲内存锁定。
	## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问，则它会被交换到磁盘上。
	## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。
	mlock			= 0

	## 词形处理器
	## 词形处理是什么意思呢？比如在英语中，dogs是dog的复数，所以dog是dogs的词干，这两个实际上是同一个词。
	## 所以英语的词形处理器会讲dogs当做dog来进行处理。
	morphology		= none

	## 词形处理有的时候会有问题，比如将gps处理成gp，这个设置可以允许根据词的长度来决定是否要使用词形处理器。
	# min_stemming_len	= 1

	## 词形处理后是否还要检索原词？
	# index_exact_words	= 1

	## 停止词，停止词是不被索引的词。
	# stopwords		= /home/yejianfeng/instance/coreseek/var/data/stopwords.txt

	## 自定义词形字典
	# wordforms		= /home/yejianfeng/instance/coreseek/var/data/wordforms.txt

	## 词汇特殊处理。
	## 有的一些特殊词我们希望把它当成另外一个词来处理。比如，c++ => cplusplus来处理。
	# exceptions		= /home/yejianfeng/instance/coreseek/var/data/exceptions.txt

	## 最小索引词长度，小于这个长度的词不会被索引。
	min_word_len		= 1

	## 字符集编码类型，可以为sbcs,utf-8。对于Coreseek，还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
	charset_type		= sbcs

	## 字符表和大小写转换规则。对于Coreseek，这个字段无效。
	# 'sbcs' default value is
	# charset_table		= 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
	#
	# 'utf-8' default value is
	# charset_table		= 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F

	## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
	# ignore_chars		= U+00AD

	## 是否启用通配符，默认为0，不启用
	# enable_star		= 1

	## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
	## 最小前缀索引长度
	## 为什么要有这个配置项呢？
	## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，导致索引文件体积和搜索时间增加巨大。
	## 那么我们就有必要限制下前缀索引的前缀长度，比如example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。
	# min_prefix_len		= 0
	## 最小索引中缀长度。理解同上。
	# min_infix_len		= 0

	## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
	# prefix_fields		= filename
	# infix_fields		= url, domain

	## 词汇展开
	## 是否尽可能展开关键字的精确格式或者型号形式
	# expand_keywords		= 1

	## N-Gram索引的分词技术
	## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来做的（中文、韩文、日文）
	## 对coreseek来说，这两个配置项可以忽略。
	# ngram_len		= 1
	# ngram_chars		= U+3000..U+2FA1F

	## 词组边界符列表和步长
	## 哪些字符被看做分隔不同词组的边界。
	# phrase_boundary		= ., ?, !, U+2026 # horizontal ellipsis
	# phrase_boundary_step	= 100

	## 混合字符列表
	# blend_chars		= +, &, U+23
	# blend_mode		= trim_tail, skip_pure

	## html标记清理，是否从输出全文数据中去除HTML标记。
	html_strip		= 0

	## HTML标记属性索引设置。
	# html_index_attrs	= img=alt,title; a=title;

	## 需要清理的html元素
	# html_remove_elements	= style, script

	## searchd是预先打开全部索引还是每次查询再打开索引。
	# preopen			= 1

	## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
	# ondisk_dict		= 1

	## 由于在索引建立的时候，需要建立临时文件和和副本，还有旧的索引
	## 这个时候磁盘使用量会暴增，于是有个方法是临时文件重复利用
	## 这个配置会极大减少建立索引时候的磁盘压力，代价是索引建立速度变慢。
	# inplace_enable		= 1
	# inplace_hit_gap		= 0 # preallocated hitlist gap size
	# inplace_docinfo_gap	= 0 # preallocated docinfo gap size
	# inplace_reloc_factor	= 0.1 # relocation buffer size within arena
	# inplace_write_factor	= 0.1 # write buffer size within arena

	## 在经过过短的位置后增加位置值
	# overshort_step		= 1

	## 在经过 停用词 处后增加位置值
	# stopword_step		= 1

	## 位置忽略词汇列表
	# hitless_words		= all
	# hitless_words		= hitless.txt

	## 是否检测并索引句子和段落边界
	# index_sp			= 1

	## 字段内需要索引的HTML/XML区域的标签列表
	# index_zones		= title, h*, th
}

index test1stemmed : test1
{
	path			= /home/yejianfeng/instance/coreseek/var/data/test1stemmed
	morphology		= stem_en
}

index dist1
{
	type			= distributed

	local			= test1
	local			= test1stemmed

	## 分布式索引（distributed index）中的远程代理和索引声明
	agent			= localhost:9313:remote1
	agent			= localhost:9314:remote2,remote3
	# agent			= /var/run/searchd.sock:remote4

	## 分布式索引（ distributed index）中声明远程黑洞代理
	# agent_blackhole		= testbox:9312:testindex1,testindex2

	## 远程代理的连接超时时间
	agent_connect_timeout	= 1000

	## 远程查询超时时间
	agent_query_timeout	= 3000
}

index rt
{
	type			= rt

	path			= /home/yejianfeng/instance/coreseek/var/data/rt

	## RT索引内存限制
	# rt_mem_limit		= 512M

	## 全文字段定义
	rt_field		= title
	rt_field		= content

	## 无符号整数属性定义
	rt_attr_uint		= gid

	## 各种属性定义
	# rt_attr_bigint		= guid
	# rt_attr_float		= gpa
	# rt_attr_timestamp	= ts_added
	# rt_attr_string		= author
}

indexer
{
	## 建立索引的时候，索引内存限制
	mem_limit		= 32M

	## 每秒最大I/O操作次数，用于限制I/O操作
	# max_iops		= 40

	## 最大允许的I/O操作大小，以字节为单位，用于I/O节流
	# max_iosize		= 1048576

	## 对于XMLLpipe2数据源允许的最大的字段大小，以字节为单位
	# max_xmlpipe2_field	= 4M

	## 写缓冲区的大小，单位是字节
	# write_buffer		= 1M

	## 文件字段可用的最大缓冲区大小，字节为单位
	# max_file_field_buffer	= 32M
}

## 搜索服务配置
searchd
{
	# listen			= 127.0.0.1
	# listen			= 192.168.0.1:9312
	# listen			= 9312
	# listen			= /var/run/searchd.sock

	## 监听端口
	listen			= 9312
	listen			= 9306:mysql41

	## 监听日志
	log			= /home/yejianfeng/instance/coreseek/var/log/searchd.log

	## 查询日志
	query_log		= /home/yejianfeng/instance/coreseek/var/log/query.log

	## 客户端读超时时间 
	read_timeout		= 5

	## 客户端持久连接超时时间，即客户端读一次以后，持久连接，然后再读一次。中间这个持久连接的时间。
	client_timeout		= 300

	## 并行执行搜索的数目
	max_children		= 30

	## 进程id文件
	pid_file		= /home/yejianfeng/instance/coreseek/var/log/searchd.pid

	## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
	max_matches		= 1000

	## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
	## 当进行索引轮换的时候，可能需要消耗大量的时间在轮换索引上。
	## 但是启动了无缝轮转，就以消耗内存为代价减少轮转的时间
	seamless_rotate		= 1

	## 索引预开启，是否强制重新打开所有索引文件
	preopen_indexes		= 1

	## 索引轮换成功之后，是否删除以.old为扩展名的索引拷贝
	unlink_old		= 1

	## 属性刷新周期
	## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
	# attr_flush_period	= 900

	## 索引字典存储方式
	# ondisk_dict_default	= 1

	## 用于多值属性MVA更新的存储空间的内存共享池大小
	mva_updates_pool	= 1M

	## 网络通讯时允许的最大的包的大小
	max_packet_size		= 8M

	## 崩溃日志文件
	# crash_log_path		= /home/yejianfeng/instance/coreseek/var/log/crash

	## 每次查询允许设置的过滤器的最大个数
	max_filters		= 256

	## 单个过滤器允许的值的最大个数
	max_filter_values	= 4096

	## TCP监听待处理队列长度
	# listen_backlog		= 5

	## 每个关键字的读缓冲区的大小
	# read_buffer		= 256K

	## 无匹配时读操作的大小
	# read_unhinted		= 32K

	## 每次批量查询的查询数限制
	max_batch_queries	= 32

	## 每个查询的公共子树文档缓存大小
	# subtree_docs_cache	= 4M

	## 每个查询的公共子树命中缓存大小
	# subtree_hits_cache	= 8M

	## 多处理模式（MPM）。 可选项；可用值为none、fork、prefork，以及threads。 默认在Unix类系统为form，Windows系统为threads。
	workers			= threads # for RT to work

	## 并发查询线程数
	# dist_threads		= 4

	## 二进制日志路径
	# binlog_path		= # disable logging
	# binlog_path		= /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there

	## 二进制日志刷新
	# binlog_flush		= 2

	## 二进制日志大小限制
	# binlog_max_log_size	= 256M

	## 线程堆栈
	# thread_stack			= 128K

	## 关键字展开限制
	# expansion_limit		= 1000

	## RT索引刷新周期 
	# rt_flush_period		= 900

	## 查询日志格式
	## 可选项，可用值为plain、sphinxql，默认为plain。 
	# query_log_format		= sphinxql

	## MySQL版本设置
	# mysql_version_string	= 5.0.37

	## 插件目录
	# plugin_dir			= /usr/local/sphinx/lib

	## 服务端默认字符集
	# collation_server		= utf8_general_ci
	## 服务端libc字符集
	# collation_libc_locale	= ru_RU.UTF-8

	## 线程服务看守
	# watchdog				= 1
	## 兼容模式
	# compat_sphinxql_magics	= 1
}

参考文章

Coreseek 4.1 参考手册 / Sphinx 2.0.1-beta

sphinx-apidoc longgb246
[toc]一、使用sphinx-apidoc[OPTIONS]-o[EXCLUDE_PATTERN,…]sphinx-apidoc是一个自动生成Sphinx源的工具，使用该autodoc扩展。MODULE_PATH：是python的源码的文件目录。OUTPUT_PATH：是包含conf.py和*.rst的source目录。注意在python源码的py文件中，应该使用if__name__=='__m
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
python 机器人工具箱——robotics-toolbox-python FL17171314 python 开发语言
这个工具箱为Python带来了机器人特定的功能，并利用Python的可移植性、普遍性和支持性的优势，以及线性代数（numpy、scipy）、图形（matplotlib、three.js、WebGL）的开源生态系统的能力，交互式开发（jupyter、jupyterlab、mybinder.org）和文档（sphinx）。python-mpipinstall--usernumpyscipymatplo
python-自动化篇-运维-语音识别 fo安方 #python-自动化篇-运维运维 python 自动化
文章目录理论文本转换为语音使用pyttsx使用SAPI使用SpeechLib语音转换为文本代码和效果01使用pyttsx实现文本_语音02使用SAPI实现文本_语音03使用SpeechLib实现文本_语音04使用PocketSphinx实现语音转换文本理论语音识别技术，也被称为自动语音识别，目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。文本转换为语音使用pyttsx使用名为py
Sphinx的原理详解和使用 m0_68949064 PHP sphinx 全文检索搜索引擎
一、Sphinx介绍1.1简介Sphinx是由俄罗斯人AndrewAksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBM
ROS2手册的离线编译安装 ArslanRobot ROS2开发实例 ROS 机器人
ROS开发中经常要查询相关API，把文档下载到本地离线使用方便快捷，极大提高开发效率下载ROS2文档gitclonehttps://github.com/ros2/ros2_documentation.gitcdros2_documentation安装sphinxpipinstallSphinx配置sphinxsphinx-quickstart按提示进行配置编译makehtml期间如果提示exce
API文档生成(sphinx) Along20210921 sphinx 全文检索搜索引擎
1.安装pipinstallSphinx2.使用2.1文档手册Sphinx1.3.1中文手册(推荐查看)教程https://fengxc.me/基于python注释使用sphinx自动化生成API文档.html2.2创建工程新建一个文件夹sphinx_test,并创建两个子文件夹code,doc。目录结构如下：进去到doc目录，打开powershell,执行下边命令创建工程sphinx-quick
智能语音技术栈 chenkaifang 不归类
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMUSphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMUSphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多
ai智能语音机器人如何基于本地语音识别，搭建一款智能聊天机器人？ VO_794632978 WX-794632978 语音机器人人工智能机器人语音识别腾讯云阿里云
基于本地语音识别技术，搭建智能聊天机器人是一种广泛使用的人工智能应用。它可以为用户提供语音聊天、语音指令和语音控制等服务，提高用户的体验和方便性。以下是基于本地语音识别的智能聊天机器人搭建过程。确定使用的技术在搭建智能聊天机器人之前，需要确定将使用的技术和平台。通常情况下，语音识别技术可以使用开源框架，如CMUSphinx、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码，用于
sphinx在c#.net平台下使用（一） weixin_30432179 c#数据库 php
Sphinx是由俄罗斯人AndrewAksyonoff开发的一个可以结合MySQL,PostgreSQL全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。是做站内全文搜索的一把利器。sphinx已经出现很多年，并不是一个新鲜技术，但如今仍被广泛使用者。但由于IT技术的不断创新，在圈子中又出现了几款用于全文检索的新技术，如lucene就是一款与之媲美的工具，但相对而言，它
使用sphinx生成API文档火之木叶啊
使用sphinx生成API文档1、安装sphinxpipinstallSphinx2、初始化文档：在项目根目录下运行(或者进入doc目录下执行sphinx-quickstart)sphinx-quickstartdoc#api文档放在此目录下根据提示一步步来，我只处理下以下几项，其它的都是默认回车>Separatesourceandbuilddirectories(y/n)[n]:y>Projec
使用 gitee+sphinx+readthedocs 搭建个人博客明月与玄武开源项目 gitee sphinx 个人博客搭建
给大家安利如何快速搭建个人博客网站！前言这是我本地运行的一个使用sphinx构建的博客服务，这些文章，都是用markdown写的。一直有个想法，就是把自己写的这些文件，搞成一个博客网站，放到网上，但是，一想，要搞个域名、一个服务器，这样长期运营维护，成本有些高。再一个，个人技术博客，独立地址，百度中抓取率可能也不高，结果就是花了大成本，结果自嗨，别人搜索、访问不到，所以，一直没有行动。最近，发现用
实现Django的全文检索功能（一）：选择Whoosh全文检索引擎 stonefisher Django Python
Django没有内置全文检索功能，这方面的资料也很少。有搜到两篇,一篇是使用在django应用上使用sphinx全文搜索还有一篇是使用Whoosh的，看这里其中whoosh是原生唯一的python写的全文搜索引擎，虽然有说whoosh性能比不上sphinx,xapian等。不过whoosh本身很小，安装后才2.61M，非常容易集成到django/python里面，而我们的需求又不大一般小站完全够用
自身文档管理规范 __pop_ 杂七杂八总览文档管理
之前在这里叙述了用sphinx生成静态网站，并利用静态网络托管服务readthedocs现在我们有了新的需求，想知道这些东西到底是什么。过程过程A：markdown/rst->htmlmkdocssphinx相关：pandoc(不能生成整个网站的html文件，而是生成单个md/rst对应的html文件)应用场合：例如sphinx支持markdown不力，可以将md格式转为rst格式gitbook(
居然能取代 Elasticsearch？ qintian0225 elasticsearch big data 大数据
ManticoreSearch不知道是否有人了解或者使用过？它是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。在GitHub上M
Linux Mint编译安装Qemu进行固件仿真攻城狮老李物联网安全物联网 iot
文章目录前言1.准备Qemu源码包2.编译安装2.1首次尝试编译2.2安装python3-venv2.3安装sphinx2.4安装sphinx-rtd-theme2.4安装ninja2.6安装编译器3.重新编译并安装4.进行固件仿真4.1准备固件4.2Binwalk解析文件4.3看一下文件结构4.4安装sasquatch4.5重新解析文件4.6确定指令集4.7开启qemu虚拟环境。4.8为Qemu
Django内置的一些包 ___大鱼___
核心Django:Web框架。django-debug-toolbar:显示面板用于调试DjangoHTML视图。django-model-utils:很有用的数据模型工具，包含一个时间戳数据模型。ipdb:IPythonpdb。Pillow:PIL替代品。pip:包安装工具。在Python3.4及以上版本中已内置。Sphinx:Python项目的文档工具。virtualenv:Python虚拟环
API 参考与帮助内容：一站式开发与使用者支援小万哥丶程序人生后端开发软件工程技术写作 API 文档作者内容
API文档API文档是旨在了解API详细信息的综合指南。通常，它们包括端点、请求示例、响应类别和示例以及错误代码等信息。API文档可帮助开发人员了解API端点的具体细节，并了解如何将API成功集成到他们的软件中。文档生成工具API文档生成工具是直接从源代码创建API文档的软件应用程序。这简化了开发人员的工作流程，并确保文档与代码更改保持同步。这些工具的例子包括Doxygen、Sphinx、Java
使用gitlab runner 进行CI（四）：使用Gitlab Page托管项目文档 CodingInCV gitlab ci vscode
目录1.什么是GitlabPages2.开启GitlabPages3.基本过程4.托管markdown文档4.1安装sphinx等依赖4.2配置项目的sphinx配置4.3编写项目文档4.4创建首页索引4.5配置gitlab-ci.yml4.6生成网页4.7配置DNS或者hosts文件5.预览和调试5.1直接使用sphinx命令生成网页5.2VScode+sphinx插件预览5.3下载Gitlab
简述CMUSphinx的基本概念和几个工具包的区别罕几
今天再重新仔细了解CMUSphinx的基本概念和几个工具包的区别基本概念探测器Senones各种声音探测器可由少量不同的短声音探测器表示。我们使用4000个不同的短声音探测器来组成三音素探测器。我们将这些探测器称为Senones。Senones对上下文的依赖可能比左右上下文更复杂。它可以是由决策树或其他方式定义的相当复杂的函数最佳匹配过程首先，它是功能的概念。由于参数的数量很大，我们正在尝试对其进
最快的搜索引擎sphinx的windows安装和使用 zhongchengbin
1首先安装sphinx引擎下载地址：http://sphinxsearch.com/downloads/archive/下载下来的目录结构如下把sphinx.conf.in负责一份改名sphinx.conf放到bin目录下，修改sphinx.conf注意log的目录和data目录的创建，在windows下不会自动创建-----------------------------------------
【小沐学Python】Python实现语音识别（SpeechRecognition）爱看书的小沐 Python AI python 语音识别 ai vosk whisper pyaudio fastapi
文章目录1、简介2、安装和测试2.1安装python2.2安装SpeechRecognition2.3安装pyaudio2.4安装pocketsphinx（offline）2.5安装Vosk（offline）2.6安装Whisper（offline）3测试3.1命令3.2fastapi3.3google3.4recognize_sphinx3.5语音生成音频文件结语1、简介https://pypi
mysql如何创建全文索引_从零开始学习MySQL全文索引北京大学出版社 mysql如何创建全文索引
一、为什么要用全文索引我们在用一个东西前，得知道为什么要用它，使用全文索引无非有以下原因like查询太慢、json字段查询太慢(车太慢了)没时间引入ElasticSearch、Solr或者Sphinx这样的软件，或者根本就不会用(无法将五菱宏光换成兰博基尼，即使有兰博基尼也不会开)加索引、联合索引啥的都已经慢得不行了(限速80，车顶盖都卸了也只能开到30)为了提升一下自己的逼格(人家问你有没有开过
使用Sphinx创建你的文档 hanshan426
Sphinx是一个基于Python的文档生成器，它支持使用reStructuredText语法对文档内容进行格式化，同时提供了很多主题风格的文档模板，最常用的就是sphinx-rtd-theme，下面将详细介绍如何使用该主题模板。依赖环境Python准备环境安装pipwgethttps://bootstrap.pypa.io/get-pip.pypythonget-pip.py安装Sphinxpi
signature=c8626889784bc3d331991756aab80078,arena/package-lock.json at aab970e800cd063cc2420aa9fab7b3... 臧竹萌12312~~
{"name":"bull-arena","version":"2.6.4","lockfileVersion":1,"requires":true,"dependencies":{"@sphinxxxx/color-conversion":{"version":"2.2.1","resolved":"https://registry.npmjs.org/@sphinxxxx/color-conv
转换rst到markdown总结剑有偏锋
一背景知识一个社区要翻译英文文档（rst格式）到中文，且保存为markdown格式二本地在线预览工具VScode编辑器+插件1预览markdown插件markdown-all-in-oneimage.png2预览ret插件reStructuredText（注意，记得安装python环境，还有python的rst解析库Sphinx）image.png三总结1了解了rst如何转换为markdown的工
在Debian4.19 PHP7.3中安装Sphinx扩展 SkyBorder
php7.3的sphinx扩展安装依赖libsphinxclient，该依赖安装在服务端安装程序中有，下载地址在这里，可以根据对应环境下载，我在这里下载的是3.1.1的Linuxx64binaries。下载后解压，cdsphinx-3.1.1/api/libsphinxclient/进入依赖安装目录./configure--prefix=/usr/local/sphinx/client这里可以自己
xunsearch(迅搜中文全文搜索引擎)的简单使用 lingchen8 PHP php 搜索引擎全文检索
Xunsearch（中文名：迅搜）是一套免费开源的专业中文全文检索解决方案，简单易用而且功能强大、性能卓越能轻松处理海量数据的全文检索。它包含后端索引、搜索服务程序和前端脚本语言编写的开发工具包(称之为SDK)，目前迅搜只支持PHP，而且还是国产（支持国产），类似的搜索引擎还有sphinx,elasticsearch等，下面是迅搜的简单使用1.服务器端（1）下载.源码包在Linux下直接：wget
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

sphinx 配置文件全解析

我们先要明白几个概念：

配置文件

参考文章

你可能感兴趣的:(sphinx)