Sphinx 配置文件的说明【备忘】

## 数据源src1
source src1
{
    ## 说明数据源的类型。数据源的类型可以是：mysql，pgsql，mssql，xmlpipe，odbc，python
    ## 有人会奇怪，python是一种语言怎么可以成为数据源呢？
    ## python作为一种语言，可以操作任意其他的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/）
    type            = mysql

    ## 下面是sql数据库特有的端口，用户名，密码，数据库名等。
    sql_host        = localhost
    sql_user        = test
    sql_pass        =
    sql_db          = test
    sql_port        = 3306

    ## 如果是使用unix sock连接可以使用这个。
    # sql_sock      = /tmp/mysql.sock

    ## indexer和mysql之间的交互，需要考虑到效率和安全性。
    ## 比如考虑到效率，他们两者之间的交互需要使用压缩协议；考虑到安全，他们两者之间的传输需要使用ssl
    ## 那么这个参数就代表这个意思，0/32/2048/32768  无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
    # mysql_connect_flags   = 32

    ## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就代表ssl连接所需要使用的几个参数。
    # mysql_ssl_cert        = /etc/ssl/client-cert.pem
    # mysql_ssl_key     = /etc/ssl/client-key.pem
    # mysql_ssl_ca      = /etc/ssl/cacert.pem

    ## mssql特有，是否使用windows登陆
    # mssql_winauth     = 1

    ## mssql特有，是使用unicode还是单字节数据。
    # mssql_unicode     = 1 # request Unicode data from server

    ## odbc的dsn串
    # odbc_dsn      = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};

    ## sql某一列的缓冲大小，一般是针对字符串来说的。
    ## 为什么要有这么一种缓冲呢？
    ## 有的字符串，虽然长度很长，但是实际上并没有使用那么长的字符，所以在Sphinx并不会收录所有的字符，而是给每个属性一个缓存作为长度限制。
    ## 默认情况下非字符类型的属性是1KB，字符类型的属性是1MB。
    ## 而如果想要配置这个buffer的话，就可以在这里进行配置了。
    # sql_column_buffers    = content=12M, comments=1M

    ## indexer的sql执行前需要执行的操作。
    # sql_query_pre     = SET NAMES utf8

    ##对于MySQL数据源，在预查询中禁用查询缓冲（query cache）是有用的，因为索引查询一般并会频繁地重新运行，缓冲它们的结果是没有意义的
    # sql_query_pre     = SET SESSION query_cache_type=OFF

    ## indexer的sql执行语句
    sql_query       = \
        SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
        FROM documents

    ## 有的时候有多个表，我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
    ## 而这个join操作可能非常慢，导致建立索引的时候特别慢，那么这个时候，就可以考虑在sphinx端进行join操作了。
    ## sql_joined_field是增加一个字段，这个字段是从其他表查询中查询出来的。
    ## 这里封号后面的查询语句是有要求的，如果是query，则返回id和查询字段，如果是payload-query，则返回id，查询字段和权重。
    ## 并且这里的后一个查询需要按照id进行升序排列。
    # sql_joined_field  = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
    # sql_joined_field  = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC

    ## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
    ## 当indexer建立索引的时候，查到这个字段，就读取这个文件地址，然后加载，并进行分词和索引建立等操作。
    # sql_file_field        = content_file_path

    ## 当数据源数据太大的时候，一个sql语句查询下来往往很有可能锁表等操作。
    ## 那么我么就可以使用多次查询，那么这个多次查询就需要有个范围和步长，sql_query_range和sql_range_step就是做这个使用的。
    ## 获取最大和最小的id，然后根据步长来获取数据。比如下面的例子，如果有4500条数据，这个表建立索引的时候就会进行5次sql查询。 
    ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
    # sql_query_range       = SELECT MIN(id),MAX(id) FROM documents
    # sql_range_step        = 1000
    # sql_ranged_throttle   = 0

    ## 下面都是些不同属性的数据了
    ## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。

    ## uint无符号整型属性
    sql_attr_uint       = group_id

    ## bool属性
    # sql_attr_bool     = is_deleted

    ## 长整型属性
    # sql_attr_bigint       = my_bigint_id

    ## 时间戳属性，经常被用于做排序
    sql_attr_timestamp  = date_added

    ## 字符串排序属性。一般我们按照字符串排序的话，我们会将这个字符串存下来进入到索引中，然后在查询的时候比较索引中得字符大小进行排序。
    ## 但是这个时候索引就会很大，于是我们就想到了一个方法，我们在建立索引的时候，先将字符串值从数据库中取出，暂存，排序。
    ## 然后给排序后的数组分配一个序号，然后在建立索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
    ## 这，就是这个字段的意义。
    # sql_attr_str2ordinal  = author_name

    ## 浮点数属性，经常在查询地理经纬度的时候会用到。
    # sql_attr_float        = lat_radians
    # sql_attr_float        = long_radians

    ## 多值属性（MVA）
    ## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫做多值属性。
    ## 我要对某个标签进行查询过滤，那么在建立查询的时候就应该把这个标签的值放入到索引中。
    ## 这个字段，sql_attr_multi就是用来做这个事情的。
    # sql_attr_multi        = uint tag from query; SELECT docid, tagid FROM tags
    # sql_attr_multi        = uint tag from ranged-query; \
    #   SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
    #   SELECT MIN(docid), MAX(docid) FROM tags

    ## 字符串属性。
    # sql_attr_string       = stitle

    ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
    # sql_attr_str2wordcount    = stitle

    ## 字符串字段，可全文搜索，可返回原始文本信息。
    # sql_field_string  = author

    ## 文档词汇数记录字段，可全文搜索，可返回原始信息
    # sql_field_str2wordcount   = title

    ## 取后查询，在sql_query执行后立即操作。
    ## 它和sql_query_post_index的区别就是执行时间不同
    ## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引建立完成后才执行。
    ## 所以如果要记录最后索引执行时间，那么应该在sql_query_post_index中执行。
    # sql_query_post        =

    ## 参考sql_query_post的说明。
    # sql_query_post_index  = REPLACE INTO counters ( id, val ) \
    #   VALUES ( 'max_indexed_id', $maxid )

    ## 命令行获取信息查询。
    ## 什么意思呢？
    ## 我们进行索引一般只会返回主键id，而不会返回表中的所有字段。
    ## 但是在调试的时候，我们一般需要返回表中的字段，那这个时候，就需要使用sql_query_info。
    ## 同时这个字段只在控制台有效，在api中是无效的。
    sql_query_info      = SELECT * FROM documents WHERE id=$id

    ## 比如有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。
    ## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。
    ## 这个时候就使用到了这个字段了。
    ## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的非常清晰了。
    # sql_query_killlist    = SELECT id FROM documents WHERE edited>=@last_reindex

    ## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。
    ## SQL数据源解压字段设置
    # unpack_zlib       = zlib_column
    ## MySQL数据源解压字段设置
    # unpack_mysqlcompress  = compressed_column
    # unpack_mysqlcompress  = compressed_column_2
    ## MySQL数据源解压缓冲区设置
    # unpack_mysqlcompress_maxsize  = 16M


    ## xmlpipe的数据源就是一个xml文档
    # type          = xmlpipe

    ## 读取数据源的命令
    # xmlpipe_command       = cat /home/yejianfeng/instance/coreseek/var/test.xml

    ## 字段
    # xmlpipe_field     = subject
    # xmlpipe_field     = content

    ## 属性
    # xmlpipe_attr_timestamp    = published
    # xmlpipe_attr_uint = author_id

    ## UTF-8修复设置
    ## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题
    ## 如果设置了这个字段，非utf-8序列就会全部被替换为空格。
    # xmlpipe_fixup_utf8    = 1
}

## sphinx的source是有继承这么一种属性的，意思就是除了父source之外，这个source还有这个特性
source src1throttled : src1
{
    sql_ranged_throttle = 100
}

## 索引test1
index test1
{
    ## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
    # type          = plain

    ## 索引数据源
    source          = src1
    ## 索引文件存放路径
    path            = /home/yejianfeng/instance/coreseek/var/data/test1

    ## 文档信息的存储模式，包括有none,extern,inline。默认是extern。
    ## docinfo指的就是数据的所有属性（field）构成的一个集合。
    ## 首先文档id是存储在一个文件中的（spa）
    ## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，所以进行查询过滤的时候，不需要进行额外操作。
    ## 当使用extern的时候，文档的属性是存放在另外一个文件（spd）中的，但是当启动searchd的时候，会把这个文件加载到内存中。
    ## extern就意味着每次做查询过滤的时候，除了查找文档id之外，还需要去内存中根据属性进行过滤。
    ## 但是即使这样，extern由于文件大小小，效率也不低。所以不是有特殊要求，一般都是使用extern
    docinfo         = extern

    ## 缓冲内存锁定。
    ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问，则它会被交换到磁盘上。
    ## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。
    mlock           = 0

    ## 词形处理器
    ## 词形处理是什么意思呢？比如在英语中，dogs是dog的复数，所以dog是dogs的词干，这两个实际上是同一个词。
    ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
    morphology      = none

    ## 词形处理有的时候会有问题，比如将gps处理成gp，这个设置可以允许根据词的长度来决定是否要使用词形处理器。
    # min_stemming_len  = 1

    ## 词形处理后是否还要检索原词？
    # index_exact_words = 1

    ## 停止词，停止词是不被索引的词。
    # stopwords     = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt

    ## 自定义词形字典
    # wordforms     = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt

    ## 词汇特殊处理。
    ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如，c++ => cplusplus来处理。
    # exceptions        = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt

    ## 最小索引词长度，小于这个长度的词不会被索引。
    min_word_len        = 1

    ## 字符集编码类型，可以为sbcs,utf-8。对于Coreseek，还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
    charset_type        = sbcs

    ## 字符表和大小写转换规则。对于Coreseek，这个字段无效。
    # 'sbcs' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
    #
    # 'utf-8' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F

    ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
    # ignore_chars      = U+00AD

    ## 是否启用通配符，默认为0，不启用
    # enable_star       = 1

    ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
    ## 最小前缀索引长度
    ## 为什么要有这个配置项呢？
    ## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，导致索引文件体积和搜索时间增加巨大。
    ## 那么我们就有必要限制下前缀索引的前缀长度，比如example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。
    # min_prefix_len        = 0
    ## 最小索引中缀长度。理解同上。
    # min_infix_len     = 0

    ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
    # prefix_fields     = filename
    # infix_fields      = url, domain

    ## 词汇展开
    ## 是否尽可能展开关键字的精确格式或者型号形式
    # expand_keywords       = 1

    ## N-Gram索引的分词技术
    ## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来做的（中文、韩文、日文）
    ## 对coreseek来说，这两个配置项可以忽略。
    # ngram_len     = 1
    # ngram_chars       = U+3000..U+2FA1F

    ## 词组边界符列表和步长
    ## 哪些字符被看做分隔不同词组的边界。
    # phrase_boundary       = ., ?, !, U+2026 # horizontal ellipsis
    # phrase_boundary_step  = 100

    ## 混合字符列表
    # blend_chars       = +, &, U+23
    # blend_mode        = trim_tail, skip_pure

    ## html标记清理，是否从输出全文数据中去除HTML标记。
    html_strip      = 0

    ## HTML标记属性索引设置。
    # html_index_attrs  = img=alt,title; a=title;

    ## 需要清理的html元素
    # html_remove_elements  = style, script

    ## searchd是预先打开全部索引还是每次查询再打开索引。
    # preopen           = 1

    ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
    # ondisk_dict       = 1

    ## 由于在索引建立的时候，需要建立临时文件和和副本，还有旧的索引
    ## 这个时候磁盘使用量会暴增，于是有个方法是临时文件重复利用
    ## 这个配置会极大减少建立索引时候的磁盘压力，代价是索引建立速度变慢。
    # inplace_enable        = 1
    # inplace_hit_gap       = 0 # preallocated hitlist gap size
    # inplace_docinfo_gap   = 0 # preallocated docinfo gap size
    # inplace_reloc_factor  = 0.1 # relocation buffer size within arena
    # inplace_write_factor  = 0.1 # write buffer size within arena

    ## 在经过过短的位置后增加位置值
    # overshort_step        = 1

    ## 在经过 停用词 处后增加位置值
    # stopword_step     = 1

    ## 位置忽略词汇列表
    # hitless_words     = all
    # hitless_words     = hitless.txt

    ## 是否检测并索引句子和段落边界
    # index_sp          = 1

    ## 字段内需要索引的HTML/XML区域的标签列表
    # index_zones       = title, h*, th
}

index test1stemmed : test1
{
    path            = /home/yejianfeng/instance/coreseek/var/data/test1stemmed
    morphology      = stem_en
}

index dist1
{
    type            = distributed

    local           = test1
    local           = test1stemmed

    ## 分布式索引（distributed index）中的远程代理和索引声明
    agent           = localhost:9313:remote1
    agent           = localhost:9314:remote2,remote3
    # agent         = /var/run/searchd.sock:remote4

    ## 分布式索引（ distributed index）中声明远程黑洞代理
    # agent_blackhole       = testbox:9312:testindex1,testindex2

    ## 远程代理的连接超时时间
    agent_connect_timeout   = 1000

    ## 远程查询超时时间
    agent_query_timeout = 3000
}

index rt
{
    type            = rt

    path            = /home/yejianfeng/instance/coreseek/var/data/rt

    ## RT索引内存限制
    # rt_mem_limit      = 512M

    ## 全文字段定义
    rt_field        = title
    rt_field        = content

    ## 无符号整数属性定义
    rt_attr_uint        = gid

    ## 各种属性定义
    # rt_attr_bigint        = guid
    # rt_attr_float     = gpa
    # rt_attr_timestamp = ts_added
    # rt_attr_string        = author
}

indexer
{
    ## 建立索引的时候，索引内存限制
    mem_limit       = 32M

    ## 每秒最大I/O操作次数，用于限制I/O操作
    # max_iops      = 40

    ## 最大允许的I/O操作大小，以字节为单位，用于I/O节流
    # max_iosize        = 1048576

    ## 对于XMLLpipe2数据源允许的最大的字段大小，以字节为单位
    # max_xmlpipe2_field    = 4M

    ## 写缓冲区的大小，单位是字节
    # write_buffer      = 1M

    ## 文件字段可用的最大缓冲区大小，字节为单位
    # max_file_field_buffer = 32M
}

## 搜索服务配置
searchd
{
    # listen            = 127.0.0.1
    # listen            = 192.168.0.1:9312
    # listen            = 9312
    # listen            = /var/run/searchd.sock

    ## 监听端口
    listen          = 9312
    listen          = 9306:mysql41

    ## 监听日志
    log         = /home/yejianfeng/instance/coreseek/var/log/searchd.log

    ## 查询日志
    query_log       = /home/yejianfeng/instance/coreseek/var/log/query.log

    ## 客户端读超时时间 
    read_timeout        = 5

    ## 客户端持久连接超时时间，即客户端读一次以后，持久连接，然后再读一次。中间这个持久连接的时间。
    client_timeout      = 300

    ## 并行执行搜索的数目
    max_children        = 30

    ## 进程id文件
    pid_file        = /home/yejianfeng/instance/coreseek/var/log/searchd.pid

    ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
    max_matches     = 1000

    ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
    ## 当进行索引轮换的时候，可能需要消耗大量的时间在轮换索引上。
    ## 但是启动了无缝轮转，就以消耗内存为代价减少轮转的时间
    seamless_rotate     = 1

    ## 索引预开启，是否强制重新打开所有索引文件
    preopen_indexes     = 1

    ## 索引轮换成功之后，是否删除以.old为扩展名的索引拷贝
    unlink_old      = 1

    ## 属性刷新周期
    ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
    # attr_flush_period = 900

    ## 索引字典存储方式
    # ondisk_dict_default   = 1

    ## 用于多值属性MVA更新的存储空间的内存共享池大小
    mva_updates_pool    = 1M

    ## 网络通讯时允许的最大的包的大小
    max_packet_size     = 8M

    ## 崩溃日志文件
    # crash_log_path        = /home/yejianfeng/instance/coreseek/var/log/crash

    ## 每次查询允许设置的过滤器的最大个数
    max_filters     = 256

    ## 单个过滤器允许的值的最大个数
    max_filter_values   = 4096

    ## TCP监听待处理队列长度
    # listen_backlog        = 5

    ## 每个关键字的读缓冲区的大小
    # read_buffer       = 256K

    ## 无匹配时读操作的大小
    # read_unhinted     = 32K

    ## 每次批量查询的查询数限制
    max_batch_queries   = 32

    ## 每个查询的公共子树文档缓存大小
    # subtree_docs_cache    = 4M

    ## 每个查询的公共子树命中缓存大小
    # subtree_hits_cache    = 8M

    ## 多处理模式（MPM）。 可选项；可用值为none、fork、prefork，以及threads。 默认在Unix类系统为form，Windows系统为threads。
    workers         = threads # for RT to work

    ## 并发查询线程数
    # dist_threads      = 4

    ## 二进制日志路径
    # binlog_path       = # disable logging
    # binlog_path       = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there

    ## 二进制日志刷新
    # binlog_flush      = 2

    ## 二进制日志大小限制
    # binlog_max_log_size   = 256M

    ## 线程堆栈
    # thread_stack          = 128K

    ## 关键字展开限制
    # expansion_limit       = 1000

    ## RT索引刷新周期 
    # rt_flush_period       = 900

    ## 查询日志格式
    ## 可选项，可用值为plain、sphinxql，默认为plain。 
    # query_log_format      = sphinxql

    ## MySQL版本设置
    # mysql_version_string  = 5.0.37

    ## 插件目录
    # plugin_dir            = /usr/local/sphinx/lib

    ## 服务端默认字符集
    # collation_server      = utf8_general_ci
    ## 服务端libc字符集
    # collation_libc_locale = ru_RU.UTF-8

    ## 线程服务看守
    # watchdog              = 1
    ## 兼容模式
    # compat_sphinxql_magics    = 1
}

sphinx-apidoc longgb246
[toc]一、使用sphinx-apidoc[OPTIONS]-o[EXCLUDE_PATTERN,…]sphinx-apidoc是一个自动生成Sphinx源的工具，使用该autodoc扩展。MODULE_PATH：是python的源码的文件目录。OUTPUT_PATH：是包含conf.py和*.rst的source目录。注意在python源码的py文件中，应该使用if__name__=='__m
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
python 机器人工具箱——robotics-toolbox-python FL17171314 python 开发语言
这个工具箱为Python带来了机器人特定的功能，并利用Python的可移植性、普遍性和支持性的优势，以及线性代数（numpy、scipy）、图形（matplotlib、three.js、WebGL）的开源生态系统的能力，交互式开发（jupyter、jupyterlab、mybinder.org）和文档（sphinx）。python-mpipinstall--usernumpyscipymatplo
python-自动化篇-运维-语音识别 fo安方 #python-自动化篇-运维运维 python 自动化
文章目录理论文本转换为语音使用pyttsx使用SAPI使用SpeechLib语音转换为文本代码和效果01使用pyttsx实现文本_语音02使用SAPI实现文本_语音03使用SpeechLib实现文本_语音04使用PocketSphinx实现语音转换文本理论语音识别技术，也被称为自动语音识别，目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。文本转换为语音使用pyttsx使用名为py
Sphinx的原理详解和使用 m0_68949064 PHP sphinx 全文检索搜索引擎
一、Sphinx介绍1.1简介Sphinx是由俄罗斯人AndrewAksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBM
ROS2手册的离线编译安装 ArslanRobot ROS2开发实例 ROS 机器人
ROS开发中经常要查询相关API，把文档下载到本地离线使用方便快捷，极大提高开发效率下载ROS2文档gitclonehttps://github.com/ros2/ros2_documentation.gitcdros2_documentation安装sphinxpipinstallSphinx配置sphinxsphinx-quickstart按提示进行配置编译makehtml期间如果提示exce
API文档生成(sphinx) Along20210921 sphinx 全文检索搜索引擎
1.安装pipinstallSphinx2.使用2.1文档手册Sphinx1.3.1中文手册(推荐查看)教程https://fengxc.me/基于python注释使用sphinx自动化生成API文档.html2.2创建工程新建一个文件夹sphinx_test,并创建两个子文件夹code,doc。目录结构如下：进去到doc目录，打开powershell,执行下边命令创建工程sphinx-quick
智能语音技术栈 chenkaifang 不归类
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMUSphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等，CMUSphinx是离线的语音识别工具，支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用，所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行，Kaldi的优势就是集成了很多
ai智能语音机器人如何基于本地语音识别，搭建一款智能聊天机器人？ VO_794632978 WX-794632978 语音机器人人工智能机器人语音识别腾讯云阿里云
基于本地语音识别技术，搭建智能聊天机器人是一种广泛使用的人工智能应用。它可以为用户提供语音聊天、语音指令和语音控制等服务，提高用户的体验和方便性。以下是基于本地语音识别的智能聊天机器人搭建过程。确定使用的技术在搭建智能聊天机器人之前，需要确定将使用的技术和平台。通常情况下，语音识别技术可以使用开源框架，如CMUSphinx、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码，用于
sphinx在c#.net平台下使用（一） weixin_30432179 c#数据库 php
Sphinx是由俄罗斯人AndrewAksyonoff开发的一个可以结合MySQL,PostgreSQL全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。是做站内全文搜索的一把利器。sphinx已经出现很多年，并不是一个新鲜技术，但如今仍被广泛使用者。但由于IT技术的不断创新，在圈子中又出现了几款用于全文检索的新技术，如lucene就是一款与之媲美的工具，但相对而言，它
使用sphinx生成API文档火之木叶啊
使用sphinx生成API文档1、安装sphinxpipinstallSphinx2、初始化文档：在项目根目录下运行(或者进入doc目录下执行sphinx-quickstart)sphinx-quickstartdoc#api文档放在此目录下根据提示一步步来，我只处理下以下几项，其它的都是默认回车>Separatesourceandbuilddirectories(y/n)[n]:y>Projec
使用 gitee+sphinx+readthedocs 搭建个人博客明月与玄武开源项目 gitee sphinx 个人博客搭建
给大家安利如何快速搭建个人博客网站！前言这是我本地运行的一个使用sphinx构建的博客服务，这些文章，都是用markdown写的。一直有个想法，就是把自己写的这些文件，搞成一个博客网站，放到网上，但是，一想，要搞个域名、一个服务器，这样长期运营维护，成本有些高。再一个，个人技术博客，独立地址，百度中抓取率可能也不高，结果就是花了大成本，结果自嗨，别人搜索、访问不到，所以，一直没有行动。最近，发现用
实现Django的全文检索功能（一）：选择Whoosh全文检索引擎 stonefisher Django Python
Django没有内置全文检索功能，这方面的资料也很少。有搜到两篇,一篇是使用在django应用上使用sphinx全文搜索还有一篇是使用Whoosh的，看这里其中whoosh是原生唯一的python写的全文搜索引擎，虽然有说whoosh性能比不上sphinx,xapian等。不过whoosh本身很小，安装后才2.61M，非常容易集成到django/python里面，而我们的需求又不大一般小站完全够用
自身文档管理规范 __pop_ 杂七杂八总览文档管理
之前在这里叙述了用sphinx生成静态网站，并利用静态网络托管服务readthedocs现在我们有了新的需求，想知道这些东西到底是什么。过程过程A：markdown/rst->htmlmkdocssphinx相关：pandoc(不能生成整个网站的html文件，而是生成单个md/rst对应的html文件)应用场合：例如sphinx支持markdown不力，可以将md格式转为rst格式gitbook(
居然能取代 Elasticsearch？ qintian0225 elasticsearch big data 大数据
ManticoreSearch不知道是否有人了解或者使用过？它是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。在GitHub上M
Linux Mint编译安装Qemu进行固件仿真攻城狮老李物联网安全物联网 iot
文章目录前言1.准备Qemu源码包2.编译安装2.1首次尝试编译2.2安装python3-venv2.3安装sphinx2.4安装sphinx-rtd-theme2.4安装ninja2.6安装编译器3.重新编译并安装4.进行固件仿真4.1准备固件4.2Binwalk解析文件4.3看一下文件结构4.4安装sasquatch4.5重新解析文件4.6确定指令集4.7开启qemu虚拟环境。4.8为Qemu
Django内置的一些包 ___大鱼___
核心Django:Web框架。django-debug-toolbar:显示面板用于调试DjangoHTML视图。django-model-utils:很有用的数据模型工具，包含一个时间戳数据模型。ipdb:IPythonpdb。Pillow:PIL替代品。pip:包安装工具。在Python3.4及以上版本中已内置。Sphinx:Python项目的文档工具。virtualenv:Python虚拟环
API 参考与帮助内容：一站式开发与使用者支援小万哥丶程序人生后端开发软件工程技术写作 API 文档作者内容
API文档API文档是旨在了解API详细信息的综合指南。通常，它们包括端点、请求示例、响应类别和示例以及错误代码等信息。API文档可帮助开发人员了解API端点的具体细节，并了解如何将API成功集成到他们的软件中。文档生成工具API文档生成工具是直接从源代码创建API文档的软件应用程序。这简化了开发人员的工作流程，并确保文档与代码更改保持同步。这些工具的例子包括Doxygen、Sphinx、Java
使用gitlab runner 进行CI（四）：使用Gitlab Page托管项目文档 CodingInCV gitlab ci vscode
目录1.什么是GitlabPages2.开启GitlabPages3.基本过程4.托管markdown文档4.1安装sphinx等依赖4.2配置项目的sphinx配置4.3编写项目文档4.4创建首页索引4.5配置gitlab-ci.yml4.6生成网页4.7配置DNS或者hosts文件5.预览和调试5.1直接使用sphinx命令生成网页5.2VScode+sphinx插件预览5.3下载Gitlab
简述CMUSphinx的基本概念和几个工具包的区别罕几
今天再重新仔细了解CMUSphinx的基本概念和几个工具包的区别基本概念探测器Senones各种声音探测器可由少量不同的短声音探测器表示。我们使用4000个不同的短声音探测器来组成三音素探测器。我们将这些探测器称为Senones。Senones对上下文的依赖可能比左右上下文更复杂。它可以是由决策树或其他方式定义的相当复杂的函数最佳匹配过程首先，它是功能的概念。由于参数的数量很大，我们正在尝试对其进
最快的搜索引擎sphinx的windows安装和使用 zhongchengbin
1首先安装sphinx引擎下载地址：http://sphinxsearch.com/downloads/archive/下载下来的目录结构如下把sphinx.conf.in负责一份改名sphinx.conf放到bin目录下，修改sphinx.conf注意log的目录和data目录的创建，在windows下不会自动创建-----------------------------------------
【小沐学Python】Python实现语音识别（SpeechRecognition）爱看书的小沐 Python AI python 语音识别 ai vosk whisper pyaudio fastapi
文章目录1、简介2、安装和测试2.1安装python2.2安装SpeechRecognition2.3安装pyaudio2.4安装pocketsphinx（offline）2.5安装Vosk（offline）2.6安装Whisper（offline）3测试3.1命令3.2fastapi3.3google3.4recognize_sphinx3.5语音生成音频文件结语1、简介https://pypi
mysql如何创建全文索引_从零开始学习MySQL全文索引北京大学出版社 mysql如何创建全文索引
一、为什么要用全文索引我们在用一个东西前，得知道为什么要用它，使用全文索引无非有以下原因like查询太慢、json字段查询太慢(车太慢了)没时间引入ElasticSearch、Solr或者Sphinx这样的软件，或者根本就不会用(无法将五菱宏光换成兰博基尼，即使有兰博基尼也不会开)加索引、联合索引啥的都已经慢得不行了(限速80，车顶盖都卸了也只能开到30)为了提升一下自己的逼格(人家问你有没有开过
使用Sphinx创建你的文档 hanshan426
Sphinx是一个基于Python的文档生成器，它支持使用reStructuredText语法对文档内容进行格式化，同时提供了很多主题风格的文档模板，最常用的就是sphinx-rtd-theme，下面将详细介绍如何使用该主题模板。依赖环境Python准备环境安装pipwgethttps://bootstrap.pypa.io/get-pip.pypythonget-pip.py安装Sphinxpi
signature=c8626889784bc3d331991756aab80078,arena/package-lock.json at aab970e800cd063cc2420aa9fab7b3... 臧竹萌12312~~
{"name":"bull-arena","version":"2.6.4","lockfileVersion":1,"requires":true,"dependencies":{"@sphinxxxx/color-conversion":{"version":"2.2.1","resolved":"https://registry.npmjs.org/@sphinxxxx/color-conv
转换rst到markdown总结剑有偏锋
一背景知识一个社区要翻译英文文档（rst格式）到中文，且保存为markdown格式二本地在线预览工具VScode编辑器+插件1预览markdown插件markdown-all-in-oneimage.png2预览ret插件reStructuredText（注意，记得安装python环境，还有python的rst解析库Sphinx）image.png三总结1了解了rst如何转换为markdown的工
在Debian4.19 PHP7.3中安装Sphinx扩展 SkyBorder
php7.3的sphinx扩展安装依赖libsphinxclient，该依赖安装在服务端安装程序中有，下载地址在这里，可以根据对应环境下载，我在这里下载的是3.1.1的Linuxx64binaries。下载后解压，cdsphinx-3.1.1/api/libsphinxclient/进入依赖安装目录./configure--prefix=/usr/local/sphinx/client这里可以自己
xunsearch(迅搜中文全文搜索引擎)的简单使用 lingchen8 PHP php 搜索引擎全文检索
Xunsearch（中文名：迅搜）是一套免费开源的专业中文全文检索解决方案，简单易用而且功能强大、性能卓越能轻松处理海量数据的全文检索。它包含后端索引、搜索服务程序和前端脚本语言编写的开发工具包(称之为SDK)，目前迅搜只支持PHP，而且还是国产（支持国产），类似的搜索引擎还有sphinx,elasticsearch等，下面是迅搜的简单使用1.服务器端（1）下载.源码包在Linux下直接：wget
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

Sphinx 配置文件的说明【备忘】

你可能感兴趣的:(sphinx)