m0_68949064

Sphinx的原理详解和使用

一、Sphinx介绍

1.1 简介

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持，也支持从标准输入读取特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBMS 的原生支持）。

1.2 Sphinx的主要特性

高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);
高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);
可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
提供了优秀的相关度算法，基于短语相似度和统计（BM25）的复合Ranking方法;
支持分布式搜索;
支持短语搜索
提供文档摘要生成
可作为MySQL的存储引擎提供搜索服务;
支持布尔、短语、词语相似度等多种检索模式;
文档支持多个全文检索字段(最大不超过32个);
文档支持多个额外的属性信息(例如：分组信息，时间戳等);
支持断词;
支持单字节编码与UTF-8编码。

1.3 Sphinx工作流程

流程图解释：

Database：数据源，是Sphinx做索引的数据来源。因为Sphinx是无关存储引擎、数据库的，所以数据源可以是MySQL、PostgreSQL、XML等数据。
Indexer：索引程序，从数据源中获取数据，并将数据生成全文索引。可以根据需求，定期运行Indexer达到定时更新索引的需求。
Searchd：Searchd直接与客户端程序进行对话，并使用Indexer程序构建好的索引来快速地处理搜索查询。
APP：客户端程序。接收来自用户输入的搜索字符串，发送查询给Searchd程序并显示返回结果。

Sphinx的整个工作流程就是Indexer程序到数据库里面提取数据，对数据进行分词，然后根据生成的分词生成单个或多个索引，并将它们传递给searchd程序。然后客户端可以通过API调用进行搜索。

1.4 Sphinx中文分词

中文的全文检索和英文等latin系列不一样，后者是根据空格等特殊字符来断词，而中文是根据语义来分词。目前大多数数据库尚未支持中文全文检索，如Mysql。故，国内出现了一些Mysql的中文全文检索的插件，做的比较好的有hightman的中文分词。Sphinx如果需要对中文进行全文检索，也得需要一些插件来补充，比如 coreseek 和 sfc 。

二、Sphinx安装和使用

2.1 安装

1）在安装Sphinx之前需要安装的linux扩展

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

2）下载coreseek，附带压缩包图展示

下载地址：coreseek-4.1-beta.tar.gz · pirnt_recho/coreseek - Gitee.com

3）安装csft

cd csft-4.1

./buildconf.sh

./configure --prefix=/usr/local/coreseek

sudo make && make install

4）安装mmseg（coreseek的中文库）

cd mmseg-3.2.14

./configure --prefix=/usr/local/mmseg3

sudo make && make install

5）sphinx.conf 配置文件详细说明

进入Coreseek安装目录，创建sphinx.conf文件（数据库MySQL数据导入配置文件）

cd /usr/local/coreseek/etc/

cp sphinx.conf.dist sphinx.conf

Sphinx.conf 配置文件说明

## 数据源src1
source src1
{
    ## 说明数据源的类型。数据源的类型可以是：mysql，pgsql，mssql，xmlpipe，odbc，python
    ## 有人会奇怪，python是一种语言怎么可以成为数据源呢？
    ## python作为一种语言，可以操作任意其他的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/）
    type            = mysql
     
    ## 下面是sql数据库特有的端口，用户名，密码，数据库名等。
    sql_host        = localhost
    sql_user        = test
    sql_pass        =
    sql_db          = test
    sql_port        = 3306
  
    ## 如果是使用unix sock连接可以使用这个。
    # sql_sock      = /tmp/mysql.sock
  
    ## indexer和mysql之间的交互，需要考虑到效率和安全性。
    ## 比如考虑到效率，他们两者之间的交互需要使用压缩协议；考虑到安全，他们两者之间的传输需要使用ssl
    ## 那么这个参数就代表这个意思，0/32/2048/32768  无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
    # mysql_connect_flags   = 32
  
    ## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就代表ssl连接所需要使用的几个参数。
    # mysql_ssl_cert        = /etc/ssl/client-cert.pem
    # mysql_ssl_key     = /etc/ssl/client-key.pem
    # mysql_ssl_ca      = /etc/ssl/cacert.pem
  
    ## mssql特有，是否使用windows登陆
    # mssql_winauth     = 1
  
    ## mssql特有，是使用unicode还是单字节数据。
    # mssql_unicode     = 1 # request Unicode data from server
  
    ## odbc的dsn串
    # odbc_dsn      = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
     
    ## sql某一列的缓冲大小，一般是针对字符串来说的。
    ## 为什么要有这么一种缓冲呢？
    ## 有的字符串，虽然长度很长，但是实际上并没有使用那么长的字符，所以在Sphinx并不会收录所有的字符，而是给每个属性一个缓存作为长度限制。
    ## 默认情况下非字符类型的属性是1KB，字符类型的属性是1MB。
    ## 而如果想要配置这个buffer的话，就可以在这里进行配置了。
    # sql_column_buffers    = content=12M, comments=1M
  
    ## indexer的sql执行前需要执行的操作。
    # sql_query_pre     = SET NAMES utf8
    # sql_query_pre     = SET SESSION query_cache_type=OFF
  
    ## indexer的sql执行语句
    sql_query       = \
        SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
        FROM documents
  
    ## 有的时候有多个表，我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
    ## 而这个join操作可能非常慢，导致建立索引的时候特别慢，那么这个时候，就可以考虑在sphinx端进行join操作了。
    ## sql_joined_field是增加一个字段，这个字段是从其他表查询中查询出来的。
    ## 这里封号后面的查询语句是有要求的，如果是query，则返回id和查询字段，如果是payload-query，则返回id，查询字段和权重。
    ## 并且这里的后一个查询需要按照id进行升序排列。
    # sql_joined_field  = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
    # sql_joined_field  = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC
  
    ## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
    ## 当indexer建立索引的时候，查到这个字段，就读取这个文件地址，然后加载，并进行分词和索引建立等操作。
    # sql_file_field        = content_file_path
  
    ## 当数据源数据太大的时候，一个sql语句查询下来往往很有可能锁表等操作。
    ## 那么我么就可以使用多次查询，那么这个多次查询就需要有个范围和步长，sql_query_range和sql_range_step就是做这个使用的。
    ## 获取最大和最小的id，然后根据步长来获取数据。比如下面的例子，如果有4500条数据，这个表建立索引的时候就会进行5次sql查询。 
    ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
    # sql_query_range       = SELECT MIN(id),MAX(id) FROM documents
    # sql_range_step        = 1000
    # sql_ranged_throttle   = 0
  
    ## 下面都是些不同属性的数据了
    ## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。
  
    ## uint无符号整型属性
    sql_attr_uint       = group_id
     
    ## bool属性
    # sql_attr_bool     = is_deleted
     
    ## 长整型属性
    # sql_attr_bigint       = my_bigint_id
     
    ## 时间戳属性，经常被用于做排序
    sql_attr_timestamp  = date_added
  
    ## 字符串排序属性。一般我们按照字符串排序的话，我们会将这个字符串存下来进入到索引中，然后在查询的时候比较索引中得字符大小进行排序。
    ## 但是这个时候索引就会很大，于是我们就想到了一个方法，我们在建立索引的时候，先将字符串值从数据库中取出，暂存，排序。
    ## 然后给排序后的数组分配一个序号，然后在建立索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
    ## 这，就是这个字段的意义。
    # sql_attr_str2ordinal  = author_name
  
    ## 浮点数属性，经常在查询地理经纬度的时候会用到。
    # sql_attr_float        = lat_radians
    # sql_attr_float        = long_radians
  
    ## 多值属性（MVA）
    ## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫做多值属性。
    ## 我要对某个标签进行查询过滤，那么在建立查询的时候就应该把这个标签的值放入到索引中。
    ## 这个字段，sql_attr_multi就是用来做这个事情的。
    # sql_attr_multi        = uint tag from query; SELECT docid, tagid FROM tags
    # sql_attr_multi        = uint tag from ranged-query; \
    #   SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
    #   SELECT MIN(docid), MAX(docid) FROM tags
  
    ## 字符串属性。
    # sql_attr_string       = stitle
  
    ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
    # sql_attr_str2wordcount    = stitle
  
    ## 字符串字段，可全文搜索，可返回原始文本信息。
    # sql_field_string  = author
  
    ## 文档词汇数记录字段，可全文搜索，可返回原始信息
    # sql_field_str2wordcount   = title
  
    ## 取后查询，在sql_query执行后立即操作。
    ## 它和sql_query_post_index的区别就是执行时间不同
    ## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引建立完成后才执行。
    ## 所以如果要记录最后索引执行时间，那么应该在sql_query_post_index中执行。
    # sql_query_post        =
  
    ## 参考sql_query_post的说明。
    # sql_query_post_index  = REPLACE INTO counters ( id, val ) \
    #   VALUES ( 'max_indexed_id', $maxid )
  
    ## 命令行获取信息查询。
    ## 什么意思呢？
    ## 我们进行索引一般只会返回主键id，而不会返回表中的所有字段。
    ## 但是在调试的时候，我们一般需要返回表中的字段，那这个时候，就需要使用sql_query_info。
    ## 同时这个字段只在控制台有效，在api中是无效的。
    sql_query_info      = SELECT * FROM documents WHERE id=$id
  
    ## 比如有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。
    ## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。
    ## 这个时候就使用到了这个字段了。
    ## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的非常清晰了。
    # sql_query_killlist    = SELECT id FROM documents WHERE edited>=@last_reindex
  
    ## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。
    ## SQL数据源解压字段设置
    # unpack_zlib       = zlib_column
    ## MySQL数据源解压字段设置
    # unpack_mysqlcompress  = compressed_column
    # unpack_mysqlcompress  = compressed_column_2
    ## MySQL数据源解压缓冲区设置
    # unpack_mysqlcompress_maxsize  = 16M
  
  
    ## xmlpipe的数据源就是一个xml文档
    # type          = xmlpipe
  
    ## 读取数据源的命令
    # xmlpipe_command       = cat /home/yejianfeng/instance/coreseek/var/test.xml
  
    ## 字段
    # xmlpipe_field     = subject
    # xmlpipe_field     = content
  
    ## 属性
    # xmlpipe_attr_timestamp    = published
    # xmlpipe_attr_uint = author_id
  
    ## UTF-8修复设置
    ## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题
    ## 如果设置了这个字段，非utf-8序列就会全部被替换为空格。
    # xmlpipe_fixup_utf8    = 1
}
  
## sphinx的source是有继承这么一种属性的，意思就是除了父source之外，这个source还有这个特性
source src1throttled : src1
{
    sql_ranged_throttle = 100
}
  
## 索引src1
index src1
{
    ## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
    # type          = plain
  
    ## 索引数据源
    source          = src1
    ## 索引文件存放路径
    path            = /home/yejianfeng/instance/coreseek/var/data/src1
  
    ## 文档信息的存储模式，包括有none,extern,inline。默认是extern。
    ## docinfo指的就是数据的所有属性（field）构成的一个集合。
    ## 首先文档id是存储在一个文件中的（spa）
    ## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，所以进行查询过滤的时候，不需要进行额外操作。
    ## 当使用extern的时候，文档的属性是存放在另外一个文件（spd）中的，但是当启动searchd的时候，会把这个文件加载到内存中。
    ## extern就意味着每次做查询过滤的时候，除了查找文档id之外，还需要去内存中根据属性进行过滤。
    ## 但是即使这样，extern由于文件大小小，效率也不低。所以不是有特殊要求，一般都是使用extern
    docinfo         = extern
  
    ## 缓冲内存锁定。
    ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问，则它会被交换到磁盘上。
    ## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。
    mlock           = 0
  
    ## 词形处理器
    ## 词形处理是什么意思呢？比如在英语中，dogs是dog的复数，所以dog是dogs的词干，这两个实际上是同一个词。
    ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
    morphology      = none
  
    ## 词形处理有的时候会有问题，比如将gps处理成gp，这个设置可以允许根据词的长度来决定是否要使用词形处理器。
    # min_stemming_len  = 1
  
    ## 词形处理后是否还要检索原词？
    # index_exact_words = 1
  
    ## 停止词，停止词是不被索引的词。
    # stopwords     = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
  
    ## 自定义词形字典
    # wordforms     = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
  
    ## 词汇特殊处理。
    ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如，c++ => cplusplus来处理。
    # exceptions        = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt
  
    ## 最小索引词长度，小于这个长度的词不会被索引。
    min_word_len        = 1
  
    ## 字符集编码类型，可以为sbcs,utf-8。对于Coreseek，还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
    charset_type        = sbcs
  
    ## 字符表和大小写转换规则。对于Coreseek，这个字段无效。
    # 'sbcs' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
    #
    # 'utf-8' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
  
    ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
    # ignore_chars      = U+00AD
  
    ## 是否启用通配符，默认为0，不启用
    # enable_star       = 1
  
    ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
    ## 最小前缀索引长度
    ## 为什么要有这个配置项呢？
    ## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，导致索引文件体积和搜索时间增加巨大。
    ## 那么我们就有必要限制下前缀索引的前缀长度，比如example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。
    # min_prefix_len        = 0
    ## 最小索引中缀长度。理解同上。
    # min_infix_len     = 0
  
    ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
    # prefix_fields     = filename
    # infix_fields      = url, domain
  
    ## 词汇展开
    ## 是否尽可能展开关键字的精确格式或者型号形式
    # expand_keywords       = 1
  
    ## N-Gram索引的分词技术
    ## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来做的（中文、韩文、日文）
    ## 对coreseek来说，这两个配置项可以忽略。
    # ngram_len     = 1
    # ngram_chars       = U+3000..U+2FA1F
  
    ## 词组边界符列表和步长
    ## 哪些字符被看做分隔不同词组的边界。
    # phrase_boundary       = ., ?, !, U+2026 # horizontal ellipsis
    # phrase_boundary_step  = 100
  
    ## 混合字符列表
    # blend_chars       = +, &, U+23
    # blend_mode        = trim_tail, skip_pure
  
    ## html标记清理，是否从输出全文数据中去除HTML标记。
    html_strip      = 0
  
    ## HTML标记属性索引设置。
    # html_index_attrs  = img=alt,title; a=title;
  
    ## 需要清理的html元素
    # html_remove_elements  = style, script
  
    ## searchd是预先打开全部索引还是每次查询再打开索引。
    # preopen           = 1
  
    ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
    # ondisk_dict       = 1
  
    ## 由于在索引建立的时候，需要建立临时文件和和副本，还有旧的索引
    ## 这个时候磁盘使用量会暴增，于是有个方法是临时文件重复利用
    ## 这个配置会极大减少建立索引时候的磁盘压力，代价是索引建立速度变慢。
    # inplace_enable        = 1
    # inplace_hit_gap       = 0 # preallocated hitlist gap size
    # inplace_docinfo_gap   = 0 # preallocated docinfo gap size
    # inplace_reloc_factor  = 0.1 # relocation buffer size within arena
    # inplace_write_factor  = 0.1 # write buffer size within arena
  
    ## 在经过过短的位置后增加位置值
    # overshort_step        = 1
  
    ## 在经过 停用词 处后增加位置值
    # stopword_step     = 1
  
    ## 位置忽略词汇列表
    # hitless_words     = all
    # hitless_words     = hitless.txt
  
    ## 是否检测并索引句子和段落边界
    # index_sp          = 1
  
    ## 字段内需要索引的HTML/XML区域的标签列表
    # index_zones       = title, h*, th
}
  
index src1stemmed : src1
{
    path            = /home/yejianfeng/instance/coreseek/var/data/src1stemmed
    morphology      = stem_en
}
  
index dist1
{
    type            = distributed
  
    local           = src1
    local           = src1stemmed
  
    ## 分布式索引（distributed index）中的远程代理和索引声明
    agent           = localhost:9313:remote1
    agent           = localhost:9314:remote2,remote3
    # agent         = /var/run/searchd.sock:remote4
  
    ## 分布式索引（ distributed index）中声明远程黑洞代理
    # agent_blackhole       = testbox:9312:testindex1,testindex2
  
    ## 远程代理的连接超时时间
    agent_connect_timeout   = 1000
  
    ## 远程查询超时时间
    agent_query_timeout = 3000
}
  
index rt
{
    type            = rt
  
    path            = /home/yejianfeng/instance/coreseek/var/data/rt
  
    ## RT索引内存限制
    # rt_mem_limit      = 512M
  
    ## 全文字段定义
    rt_field        = title
    rt_field        = content
  
    ## 无符号整数属性定义
    rt_attr_uint        = gid
  
    ## 各种属性定义
    # rt_attr_bigint        = guid
    # rt_attr_float     = gpa
    # rt_attr_timestamp = ts_added
    # rt_attr_string        = author
}
  
indexer
{
    ## 建立索引的时候，索引内存限制
    mem_limit       = 32M
  
    ## 每秒最大I/O操作次数，用于限制I/O操作
    # max_iops      = 40
  
    ## 最大允许的I/O操作大小，以字节为单位，用于I/O节流
    # max_iosize        = 1048576
  
    ## 对于XMLLpipe2数据源允许的最大的字段大小，以字节为单位
    # max_xmlpipe2_field    = 4M
  
    ## 写缓冲区的大小，单位是字节
    # write_buffer      = 1M
  
    ## 文件字段可用的最大缓冲区大小，字节为单位
    # max_file_field_buffer = 32M
}
  
## 搜索服务配置
searchd
{
    # listen            = 127.0.0.1
    # listen            = 192.168.0.1:9312
    # listen            = 9312
    # listen            = /var/run/searchd.sock
  
    ## 监听端口
    listen          = 9312
    listen          = 9306:mysql41
  
    ## 监听日志
    log         = /home/yejianfeng/instance/coreseek/var/log/searchd.log
  
    ## 查询日志
    query_log       = /home/yejianfeng/instance/coreseek/var/log/query.log
  
    ## 客户端读超时时间 
    read_timeout        = 5
  
    ## 客户端持久连接超时时间，即客户端读一次以后，持久连接，然后再读一次。中间这个持久连接的时间。
    client_timeout      = 300
  
    ## 并行执行搜索的数目
    max_children        = 30
  
    ## 进程id文件
    pid_file        = /home/yejianfeng/instance/coreseek/var/log/searchd.pid
  
    ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
    max_matches     = 1000
  
    ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
    ## 当进行索引轮换的时候，可能需要消耗大量的时间在轮换索引上。
    ## 但是启动了无缝轮转，就以消耗内存为代价减少轮转的时间
    seamless_rotate     = 1
  
    ## 索引预开启，是否强制重新打开所有索引文件
    preopen_indexes     = 1
  
    ## 索引轮换成功之后，是否删除以.old为扩展名的索引拷贝
    unlink_old      = 1
  
    ## 属性刷新周期
    ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
    # attr_flush_period = 900
  
    ## 索引字典存储方式
    # ondisk_dict_default   = 1
  
    ## 用于多值属性MVA更新的存储空间的内存共享池大小
    mva_updates_pool    = 1M
  
    ## 网络通讯时允许的最大的包的大小
    max_packet_size     = 8M
  
    ## 崩溃日志文件
    # crash_log_path        = /home/yejianfeng/instance/coreseek/var/log/crash
  
    ## 每次查询允许设置的过滤器的最大个数
    max_filters     = 256
  
    ## 单个过滤器允许的值的最大个数
    max_filter_values   = 4096
  
    ## TCP监听待处理队列长度
    # listen_backlog        = 5
  
    ## 每个关键字的读缓冲区的大小
    # read_buffer       = 256K
  
    ## 无匹配时读操作的大小
    # read_unhinted     = 32K
  
    ## 每次批量查询的查询数限制
    max_batch_queries   = 32
  
    ## 每个查询的公共子树文档缓存大小
    # subtree_docs_cache    = 4M
  
    ## 每个查询的公共子树命中缓存大小
    # subtree_hits_cache    = 8M
  
    ## 多处理模式（MPM）。 可选项；可用值为none、fork、prefork，以及threads。 默认在Unix类系统为form，Windows系统为threads。
    workers         = threads # for RT to work
  
    ## 并发查询线程数
    # dist_threads      = 4
  
    ## 二进制日志路径
    # binlog_path       = # disable logging
    # binlog_path       = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there
  
    ## 二进制日志刷新
    # binlog_flush      = 2
  
    ## 二进制日志大小限制
    # binlog_max_log_size   = 256M
  
    ## 线程堆栈
    # thread_stack          = 128K
  
    ## 关键字展开限制
    # expansion_limit       = 1000
  
    ## RT索引刷新周期 
    # rt_flush_period       = 900
  
    ## 查询日志格式
    ## 可选项，可用值为plain、sphinxql，默认为plain。 
    # query_log_format      = sphinxql
  
    ## MySQL版本设置
    # mysql_version_string  = 5.0.37
  
    ## 插件目录
    # plugin_dir            = /usr/local/sphinx/lib
  
    ## 服务端默认字符集
    # collation_server      = utf8_general_ci
    ## 服务端libc字符集
    # collation_libc_locale = ru_RU.UTF-8
  
    ## 线程服务看守
    # watchdog              = 1
    ## 兼容模式
    # compat_sphinxql_magics    = 1
}

6） php配置Sphinx扩展

## 安装Sphinx扩展包
wget http://pecl.php.net/get/sphinx-1.3.3.tgz

tar -xvzf sphinx-1.3.3.tgz

cd sphinx-1.3.3

/usr/local/php/bin/phpize

./configure --with-php-config=/usr/local/php/bin/php-config

make && make install

## 修改php.ini配置文件，加入下面内容

[sphinx]

extension=sphinx.so

2.2 命令行操作

## 开始将数据源src1导入Sphinx引擎
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf src1

## 将所有数据源导入Sphinx引擎
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf --all

## 开始运行Sphinx引擎
/usr/local/coreseek/bin/searcher -c /usr/local/coreseek/etc/sphinx.conf

## 停止运行Sphinx引擎
/usr/local/coreseek/bin/searcher -c /usr/local/coreseek/etc/sphinx.conf --stop

2.3 PHP操作Sphinx客户端

2.3.1 php配置Sphinx扩展

Sphinx扩展下载地址：PECL :: Package :: sphinx

2.3.2 php操作方法

setServer('120.27.202.51', 9312);

//设置匹配模式
// SPH_MATCH_ALL：匹配所有查询词（默认模式）
// SPH_MATCH_ANY：匹配查询词中的任意一个
// SPH_MATCH_PHRASE：将整个查询看作一个词组，要求按顺序完整匹配
// SPH_MATCH_BOOLEAN：将查询看作一个布尔表达式（允许使用特殊的操作符）
// SPH_MATCH_FULLSCAN：强制使用下文所述的“完整扫描”模式来对查询进行匹配
// SPH_MATCH_EXTENDED2：将查询看作一个CoreSeek/Sphinx内部查询语言的表达式，后后面有详细的表格说明
$sc->SetMatchMode(SPH_MATCH_EXTENDED2);

$sc->query('@type '.$category.' @paper_author "'.$author_val_arr[$key].'"  @(paper,paper_keyword,abstract,paper_chinese,abstract_chinese) '.$keyword, 'paper');

//分页，四个参数分别代表偏移量、条数、返回的数据的最大值、当查询数量超过该值就停止查询
$page = input('page', 1);
$sc->SetLimits(($page-1)*10, 10, 2000000, 0);

//排序模式,按照create_time倒叙排序
// SPH_SORT_RELEVANCE 模式, 按相关度降序排列（最好的匹配排在最前面）
// SPH_SORT_ATTR_DESC 模式, 按属性降序排列 （属性值越大的越是排在前面）
// SPH_SORT_ATTR_ASC 模式, 按属性升序排列（属性值越小的越是排在前面）
// SPH_SORT_TIME_SEGMENTS 模式, 先按时间段（最近一小时/天/周/月）降序，再按相关度降序
// SPH_SORT_EXTENDED 模式, 按一种类似SQL的方式将列组合起来，升序或降序排列。
// SPH_SORT_EXPR 模式，按某个算术表达式排序。
$sc->SetSortMode(SPH_SORT_EXTENDED, "create_time DESC");

//设置过滤条件
$sc->SetFilter("type", array(1,3,5)); 

//设置过滤范围
$from = 2015;
$end = 2024;
$sc->SetFilterRange('year', $from, $end);

//统计归类并按照统计数量排序，类似SQL的方式
$sc->setGroupBy('cat_id', SPH_GROUPBY_ATTR, "@count desc");

//重置过滤条件
//$sc->ResetFilters();

//重置分组 
//$sp->ResetGroupBy(); 

//src1是数据源
//查询条件：field1匹配key1，field2匹配key2，field3或者field4匹配key3，然后这三项要同时符合要求
$name1 = 'key1';
$name2 = 'key2';
$name3 = 'key3';
$sc->query("@field1 {$name1} @field2 {$name2} @(field3,field4) {$name3}", 'src1');

//合并查询获取结果集
$result = $sc->RunQueries();

SPH_MATCH_EXTENDED2模式的规则：

操作符	示例	释义
操作符OR	look \| at	匹配含有look或者at
操作符NOT	look -at 或者 look !at	区配包含hello，且不包含world
字段搜索操作符@	@descr look @content at	匹配descr中有look及content中有at【字段匹配】
字段限位修饰符@[]	@descr[5] looks	匹配descr字段前5个词中包含有looks【字段匹配】
多字段搜索符@()	@(descr,content) look	匹配descr或content包含有look【字段匹配】
全字段搜索符@*	@* look	区配任何一列包含有look【字段匹配】
阀值匹配符	"the word is a Puzzle"/3	匹配至少包含有3个词
短语(phrase)搜索符	"the word"	匹配任何一个词
临近(proximity)搜索符	"the word"~6	匹配the与word之间小于6个词
严格有序搜索符	aaa<	匹配aaa,bbb,ccc按顺序出现
字段开始和字段结束修饰符	^the word$	匹配以the开始，word为结尾
隐式操作符AND	"the word"	the与word都要出现在匹配的记录中

你可能感兴趣的:(PHP,sphinx,全文检索,搜索引擎)

PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
php服务器状态监测,PHP网站状态在线监控源码傲雪吟霜白如冰 php服务器状态监测
在网上找的一个在线监控源码，比较简单，但是功能也略有不足，例如如果网站挂了就按照监控频率一直发邮件提示，网站恢复之后不会发邮件通知；不能直接填写要监控的网址或者某一页面，适合监控大量的网站或者vps、服务器。最新使用感受：没有发送邮件限制，我设置监控频率是一个小时，一天没管就把邮箱塞满了。如果服务器恢复的话不会专门发邮件提醒。如果只是监控几个站的话有很多免费的监控网站可以使用，只是使用数量上有限制
php状态监控源码,PHP服务器状态监控实现程序江子星 php状态监控源码
*/header('Content-type:text/html;charset=utf-8');include'./smtp/class.smtp.php';include'./smtp/class.phpmailer.php';functionsendmail($subject='',$body=''){date_default_timezone_set('Asia/Shanghai');//
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
php 实现JWT 每天瞎忙的农民工 php php
在PHP中，JSONWebToken(JWT)是一种开放标准(RFC7519)用于在各方之间作为JSON对象安全地传输信息。JWT通常用于身份验证系统，如OAuth2或基于令牌的身份验证。以下是一个基本的PHP实现JWT生成和验证的代码示例。JWT的组成部分JWT包含三个部分：Header（头部）：说明算法和令牌类型。Payload（有效载荷）：包含声明（如用户数据、过期时间等）。Signatur
discuz discuz_admincp.php 讲解,Discuz! 1.5-2.5 命令执行漏洞分析(CVE-2018-14729) weixin_39740419 discuz 讲解
0x00漏洞简述漏洞信息8月27号有人在GitHub上公布了有关Discuz1.5-2.5版本中后台数据库备份功能存在的命令执行漏洞的细节。漏洞影响版本Discuz!1.5-2.50x01漏洞复现官方论坛下载相应版本就好。0x02漏洞分析需要注意的是这个漏洞其实是需要登录后台的，并且能有数据库备份权限，所以比较鸡肋。我这边是用Discuz!2.5完成漏洞复现的，并用此进行漏洞分析的。漏洞点在：so
FastCGI结合docker下的Nginx执行shell脚本南波波 nginx docker
1使用docker下载Nginx下面展示一些内联代码片。a.#dockerpullnginx#dockerrun--namerunoob-php-nginx-p8088:80-d\-v~/nginx/www:/usr/share/nginx/html:ro\-v~/nginx/conf/conf.d:/etc/nginx/conf.d:ro\nginxb.在~/nginx/conf/conf.d创
什么是 PHP? 为什么用 PHP? 谁在用 PHP? m0_37438181 永远学习 php 开发语言
一、什么是PHP？PHP（HypertextPreprocessor，超文本预处理器）是一种广泛应用于Web开发的通用开源脚本语言。PHP主要用于服务器端编程，可以嵌入HTML中，与数据库进行交互，生成动态网页内容。它具有以下特点：简单易学：语法相对简单，容易上手，对于初学者来说是一个不错的选择。跨平台性：可以在多种操作系统上运行，如Windows、Linux、Unix等。丰富的函数库：提供了大量
【网络安全】漏洞挖掘：php代码审计秋说网络安全 php web安全漏洞挖掘
未经许可，不得转载。文章目录正文正文在应用程序中，通过一个JavaScript注释发现了一个备份ZIP文件。解压后，获取了应用程序的代码，其中包含如下代码片段：代码首先检查变量$action是否等于'convert'，如果是，则继续执行。随后对传入的变量$data使用trim()函数去除两端空白字符，并使用eval()函数执行$data的内容。显然，代码对$data没有进行任何过滤或验证，因此可以
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
内网穿透之EW使用、判断服务器是否出网板栗妖怪学习内网渗透
环境搭建使用的是下面文章的环境记一次学习--内网穿透-CSDN博客ew代理然后同样通过thinkphp漏洞写入文件，然后通过蚁剑连接然后上传ew的Linux版本，然后加权执行一层代理正向代理设置正向代理（在ubuntu上），然后kali在proxychain配置文件中连接ubuntu的192.168.244.154的代理端口反向代理在ubuntu上设置反向代理，将连接反弹到kali上的某个端口。然
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
定制优化Nextcloud镜像攻城狮_正
Nextcloud是一款开源免费的私有云存储网盘项目，可以让你快速便捷地搭建一套属于自己或团队的云同步网盘，从而实现跨平台跨设备文件同步、共享、版本控制、团队协作等功能。它的客户端覆盖了Windows、Mac、Android、iOS、Linux等各种平台，也提供了网页端以及WebDAV接口，所以你几乎可以在各种设备上方便地访问你的云盘。Nextcloud基于PHP语言开发，可以使用Nginx+PH
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
华纳云：修复WordPress内存耗尽错误的常用方法有哪些？华纳云IDC服务商服务器 WordPress
WordPress内存耗尽错误通常是由于PHP内存限制不足导致的。修复这种错误的方法有多种，以下是几种常用的方法：1.修改wp-config.php文件在WordPress根目录的wp-config.php文件中添加或修改以下代码，增加PHP的内存限制：define('WP_MEMORY_LIMIT','256M');将256M替换为所需的内存值。例如，可以将其设置为128M,256M,512M等
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
CentOS下php安装mcrypt扩展天咋哭了
（以下步骤均为本人实际操作，可能与你的安装方法有所区别，但我会尽量排除疑惑）大致步骤（1）安装mcrypt，（2）安装php对mcrypt的扩展，（3）重启apache（1）、确认你的linux没有安装mcrypt库，如果已安装，跳过安装步骤[root@test-206~]#yumlistinstalled|grepmcryptlibmcrypt.x86_642.5.8-4.el5.centosi
[Unity优化] Unity3D如何减少安装包大小 hcq666
译官方文档：http://docs.unity3d.com/Manual/ReducingFilesize.htmlPDF文档：http://www.rukawa.cn/Uploads/Attachment/ReducingFilesize/ReducingFilesize.pdf原文地址：http://www.rukawa.cn/index.php?s=/home/article/detail/
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen