PHP+MySQL+sphinx+scws实现全文检索功能详解

本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。分享给大家供大家参考，具体如下：

我的个人环境是PHP7.1+MariaDB10.1.23

下载安装资源包

sphinx地址

http://sphinxsearch.com/downloads/release/

PHP的sphinx扩展下载

http://pecl.php.net/package/sphinx

SCWS 下载地址

http://www.xunsearch.com/scws/download.php

SCWS 词库下载地址

http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2

安装过程

因为我的是PHP 7 版本，安装sphinx的时候遇到点问题

安装sphinx

[root@MevHost sphinxb]# mkdir -p /usr/local/src/sphinx
[root@MevHost sphinxb]# cd /usr/local/src/sphinx 
[root@MevHost sphinxb]# tar -xf sphinx-2.2.11-release.tar.gz  
[root@MevHost sphinxb]# cd sphinx-2.2.11-release
// 这里是指定安装的目录，还有引用mysql,(我这里是mariadb的安装目录)
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2 --with-mysql=/usr/local/mariadb/
[root@MevHost sphinxb]# make && make install

安装sphinx客户端

这个要安装上，不然安装PHP安装sphinx扩展时会出现报错

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/sphinx-2.2.11-release/api/libsphinxclient  //sphinx-2.2.11-release目录下  
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2/libsphinxclient 
[root@MevHost sphinxb]# make && make install

为PHP安装sphinx扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx
[root@MevHost sphinxb]# tar zxvf sphinx-1.3.1.tgz  
[root@MevHost sphinxb]# cd sphinx-1.3.1  
[root@MevHost sphinxb]# phpize  
[root@MevHost sphinxb]# ./configure --with-sphinx=/usr/local/sphinx2/libsphinxclient --with-php-config=/usr/local/php/bin/php-config 
[root@MevHost sphinxb]# make && make install

成功后再 php.ini 添加：

extension=sphinx.so

PHP7版本sphinx扩展下载

下载地址

http://git.php.net/?p=pecl/search_engine/sphinx.git;a=shortlog;h=refs/heads/php7

安装scws

[root@MevHost sphinxb]# tar -jxvf scws-1.2.3.tar.bz2
[root@MevHost sphinxb]# mkdir /usr/local/scws  
[root@MevHost sphinxb]# cd scws-1.2.3  
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/scws/  
[root@MevHost sphinxb]# make && make install

为PHP安装scws扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/scws-1.2.3/phpext 
[root@MevHost sphinxb]# phpize  
[root@MevHost sphinxb]# ./configure --with-php-config=/usr/local/php/bin/php-config
[root@MevHost sphinxb]# make && make install

在php.ini 加入

extension = scws.so
scws.default.charset=utf-8
scws.default.fpath = /usr/local/scws/etc

安装scws词库

[root@MevHost sphinxb]# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
#www为php-fpm运行用户
[root@MevHost sphinxb]# chown www:www /usr/local/scws/etc/dict.utf8.xdb

创建MySQL数据源

mtest.sql

/*
Navicat MySQL Data Transfer
Source Database    : mtest
Target Server Type  : MYSQL
Target Server Version : 50505
File Encoding     : 65001
Date: 2017-12-10 17:47:58
*/
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for userinfo
-- ----------------------------
DROP TABLE IF EXISTS `userinfo`;
CREATE TABLE `userinfo` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `userid` int(11) unsigned NOT NULL DEFAULT '0',
 `addtime` datetime NOT NULL,
 `post` varchar(20) NOT NULL DEFAULT '',
 `summary` text NOT NULL,
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of userinfo
-- ----------------------------
INSERT INTO `userinfo` VALUES ('17', '1', '2017-12-10 00:24:54', '在CentOS7中使用Sendmail通', 'sendmail');
INSERT INTO `userinfo` VALUES ('18', '2', '2017-12-10 10:24:54', '彻底理解PHP的SESSION机制', 'session');
INSERT INTO `userinfo` VALUES ('19', '3', '2017-12-10 12:24:54', '手把手编写自己的PHPMVC框架实例教程', 'mvc');
INSERT INTO `userinfo` VALUES ('20', '4', '2017-12-10 00:24:54', 'php获取今日、昨日、上周、本月的起始时', '时间');
-- ----------------------------
-- Table structure for users
-- ----------------------------
DROP TABLE IF EXISTS `users`;
CREATE TABLE `users` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `username` varchar(20) NOT NULL DEFAULT '',
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of users
-- ----------------------------
INSERT INTO `users` VALUES ('1', 'Lionee');
INSERT INTO `users` VALUES ('2', 'libber');
INSERT INTO `users` VALUES ('3', 'sysmob');
INSERT INTO `users` VALUES ('4', '学习');

配置sphinx

配置文件在/usr/local/sphinx2/etc

cp sphinx-min.conf.dist sphinx.conf

source users
{
  type      = mysql
  sql_host    = 127.0.0.1
  sql_user    = root
  sql_pass    = 123456
  sql_db     = mtest
  sql_port    = 3306 # optional, default is 3306
  sql_query_pre = SET NAMES utf8 
    sql_query_pre = SET SESSION query_cache_type=OFF 
    sql_query =   SELECT a.id, a.userid,b.username, UNIX_TIMESTAMP(a.addtime) AS addtime, a.post, a.summary  FROM userinfo a left join users b on a.userid = b.id 
  sql_attr_uint = userid 
  sql_field_string = username 
  sql_field_string = post 
  sql_attr_timestamp = addtime
  sql_ranged_throttle = 0 
  #sql_attr_uint   = group_id
  #sql_attr_timestamp = date_added
  #sql_ranged_throttle  = 0
}
source src1throttled : users 
{
  sql_ranged_throttle = 100
}
index users 
{ 
  source = users 
  path = /usr/local/sphinx2/var/data/users 
  docinfo = extern 
  mlock = 0 
  morphology = none 
  min_word_len = 1 
  html_strip = 1 
  charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF 
  ngram_len = 1 
  ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF 
}
common
{
}
indexer
{
  mem_limit    = 128M
}
searchd
{
  #php
  listen     = 9312
  #mysql
  listen     = 9306:mysql41
  log     = /usr/local/sphinx2/var/log/searchd.log
  query_log    = /usr/local/sphinx2/var/log/query.log
  query_log_format = sphinxql
  read_timeout    = 5
  client_timeout   = 300
  max_children    = 30
  persistent_connections_limit  = 30
  pid_file    = /usr/local/sphinx2/var/log/searchd.pid
  seamless_rotate   = 1
  preopen_indexes   = 1
  unlink_old   = 1
  mva_updates_pool  = 1M
  max_packet_size   = 8M
  max_filters   = 256
  max_filter_values  = 4096
  max_batch_queries  = 32
  workers     = threads # for RT to work
}

启动sphinx

[root@MevHost ~]# pkill searchd
[root@MevHost ~]# /usr/local/sphinx2/bin/indexer --config /usr/local/sphinx2/etc/sphinx.conf --all 
[root@MevHost ~]# /usr/local/sphinx2/bin/searchd --config /usr/local/sphinx2/etc/sphinx.conf

如果出现下面的报错

"Oops! It seems that sphinx was built with wrong endianess (cross-compiling?)
either reconfigure and rebuild, defining ac_cv_c_bigendian=no in the environment of
./configure script,
either ensure that '#define USE_LITTLE_ENDIAN = 1' in config/config.h"

我是直接把sphinx下面的config/config.h 改成了他提示的这个 #define USE_LITTLE_ENDIAN = 1，之后make的,

接下来的这段是我们的PHP代码了




  
  Document


  
    输入：
 
  


set_charset('utf-8');
//默认词库
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
//自定义词库
// $so->add_dict('./dd.txt',SCWS_XDICT_TXT);
//默认规则
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
//设定分词返回结果时是否去除一些特殊的标点符号
$so->set_ignore(true);
//设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。
// 按位异或的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字
//1,2,4,8 分别对应常量 SCWS_MULTI_SHORT SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL
$so->set_multi(false);
//设定是否将闲散文字自动以二字分词法聚合
$so->set_duality(false);
//设定搜索词
$so->send_text($key);
$words_array = $so->get_result();
$words = "";
foreach($words_array as $v)
{
  $words = $words.'|('.$v['word'].')';
}
//加入全词
#$words = '('.$key.')'.$words;
$words = trim($words,'|');
$so->close();
echo '输入：'.$key.''."\r\n";
echo '分词：'.$words.''."\r\n";
//========================================搜索
$sc = new SphinxClient();
$sc->SetServer('127.0.0.1',9312);
#$sc->SetMatchMode(SPH_MATCH_ALL);
$sc->SetMatchMode(SPH_MATCH_ANY);
$sc->SetArrayResult(TRUE);
$res = $sc->Query($words,$index);
echo "";
echo "";
print_r($res);
$e_time = microtime(true);
$time = $e_time - $b_time;
echo $time;
}
exit;
?>

sphinx 配置文件解析

source：数据源，数据是从什么地方来的。
index：索引，当有数据源之后，从数据源处构建索引。索引实际上就是相当于一个字典检索。有了整本字典内容以后，才会有字典检索。
searchd：提供搜索查询服务。它一般是以deamon的形式运行在后台的。
indexer：构建索引的服务。当要重新构建索引的时候，就是调用indexer这个命令。
attr：属性，属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。

sphinx.conf

## 数据源src1
source src1
{
  ## 说明数据源的类型。数据源的类型可以是：mysql，pgsql，mssql，xmlpipe，odbc，python
  ## 有人会奇怪，python是一种语言怎么可以成为数据源呢？
  ## python作为一种语言，可以操作任意其他的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/）
  type      = mysql
  ## 下面是sql数据库特有的端口，用户名，密码，数据库名等。
  sql_host    = localhost
  sql_user    = test
  sql_pass    =
  sql_db     = test
  sql_port    = 3306
  ## 如果是使用unix sock连接可以使用这个。
  # sql_sock   = /tmp/mysql.sock
  ## indexer和mysql之间的交互，需要考虑到效率和安全性。
  ## 比如考虑到效率，他们两者之间的交互需要使用压缩协议；考虑到安全，他们两者之间的传输需要使用ssl
  ## 那么这个参数就代表这个意思，0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
  # mysql_connect_flags  = 32
  ## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就代表ssl连接所需要使用的几个参数。
  # mysql_ssl_cert    = /etc/ssl/client-cert.pem
  # mysql_ssl_key   = /etc/ssl/client-key.pem
  # mysql_ssl_ca   = /etc/ssl/cacert.pem
  ## mssql特有，是否使用windows登陆
  # mssql_winauth   = 1
  ## mssql特有，是使用unicode还是单字节数据。
  # mssql_unicode   = 1 # request Unicode data from server
  ## odbc的dsn串
  # odbc_dsn   = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
  ## sql某一列的缓冲大小，一般是针对字符串来说的。
  ## 为什么要有这么一种缓冲呢？
  ## 有的字符串，虽然长度很长，但是实际上并没有使用那么长的字符，所以在Sphinx并不会收录所有的字符，而是给每个属性一个缓存作为长度限制。
  ## 默认情况下非字符类型的属性是1KB，字符类型的属性是1MB。
  ## 而如果想要配置这个buffer的话，就可以在这里进行配置了。
  # sql_column_buffers  = content=12M, comments=1M
  ## indexer的sql执行前需要执行的操作。
  # sql_query_pre   = SET NAMES utf8
  # sql_query_pre   = SET SESSION query_cache_type=OFF
  ## indexer的sql执行语句
  sql_query    = \
    SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
    FROM documents
  ## 有的时候有多个表，我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
  ## 而这个join操作可能非常慢，导致建立索引的时候特别慢，那么这个时候，就可以考虑在sphinx端进行join操作了。
  ## sql_joined_field是增加一个字段，这个字段是从其他表查询中查询出来的。
  ## 这里封号后面的查询语句是有要求的，如果是query，则返回id和查询字段，如果是payload-query，则返回id，查询字段和权重。
  ## 并且这里的后一个查询需要按照id进行升序排列。
  # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
  # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC
  ## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
  ## 当indexer建立索引的时候，查到这个字段，就读取这个文件地址，然后加载，并进行分词和索引建立等操作。
  # sql_file_field    = content_file_path
  ## 当数据源数据太大的时候，一个sql语句查询下来往往很有可能锁表等操作。
  ## 那么我么就可以使用多次查询，那么这个多次查询就需要有个范围和步长，sql_query_range和sql_range_step就是做这个使用的。
  ## 获取最大和最小的id，然后根据步长来获取数据。比如下面的例子，如果有4500条数据，这个表建立索引的时候就会进行5次sql查询。 
  ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
  # sql_query_range    = SELECT MIN(id),MAX(id) FROM documents
  # sql_range_step    = 1000
  # sql_ranged_throttle  = 0
  ## 下面都是些不同属性的数据了
  ## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。
  ## uint无符号整型属性
  sql_attr_uint    = group_id
  ## bool属性
  # sql_attr_bool   = is_deleted
  ## 长整型属性
  # sql_attr_bigint    = my_bigint_id
  ## 时间戳属性，经常被用于做排序
  sql_attr_timestamp = date_added
  ## 字符串排序属性。一般我们按照字符串排序的话，我们会将这个字符串存下来进入到索引中，然后在查询的时候比较索引中得字符大小进行排序。
  ## 但是这个时候索引就会很大，于是我们就想到了一个方法，我们在建立索引的时候，先将字符串值从数据库中取出，暂存，排序。
  ## 然后给排序后的数组分配一个序号，然后在建立索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
  ## 这，就是这个字段的意义。
  # sql_attr_str2ordinal = author_name
  ## 浮点数属性，经常在查询地理经纬度的时候会用到。
  # sql_attr_float    = lat_radians
  # sql_attr_float    = long_radians
  ## 多值属性（MVA）
  ## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫做多值属性。
  ## 我要对某个标签进行查询过滤，那么在建立查询的时候就应该把这个标签的值放入到索引中。
  ## 这个字段，sql_attr_multi就是用来做这个事情的。
  # sql_attr_multi    = uint tag from query; SELECT docid, tagid FROM tags
  # sql_attr_multi    = uint tag from ranged-query; \
  #  SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
  #  SELECT MIN(docid), MAX(docid) FROM tags
  ## 字符串属性。
  # sql_attr_string    = stitle
  ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
  # sql_attr_str2wordcount  = stitle
  ## 字符串字段，可全文搜索，可返回原始文本信息。
  # sql_field_string = author
  ## 文档词汇数记录字段，可全文搜索，可返回原始信息
  # sql_field_str2wordcount  = title
  ## 取后查询，在sql_query执行后立即操作。
  ## 它和sql_query_post_index的区别就是执行时间不同
  ## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引建立完成后才执行。
  ## 所以如果要记录最后索引执行时间，那么应该在sql_query_post_index中执行。
  # sql_query_post    =
  ## 参考sql_query_post的说明。
  # sql_query_post_index = REPLACE INTO counters ( id, val ) \
  #  VALUES ( 'max_indexed_id', $maxid )
  ## 命令行获取信息查询。
  ## 什么意思呢？
  ## 我们进行索引一般只会返回主键id，而不会返回表中的所有字段。
  ## 但是在调试的时候，我们一般需要返回表中的字段，那这个时候，就需要使用sql_query_info。
  ## 同时这个字段只在控制台有效，在api中是无效的。
  sql_query_info   = SELECT * FROM documents WHERE id=$id
  ## 比如有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。
  ## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。
  ## 这个时候就使用到了这个字段了。
  ## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的非常清晰了。
  # sql_query_killlist  = SELECT id FROM documents WHERE edited>=@last_reindex
  ## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。
  ## SQL数据源解压字段设置
  # unpack_zlib    = zlib_column
  ## MySQL数据源解压字段设置
  # unpack_mysqlcompress = compressed_column
  # unpack_mysqlcompress = compressed_column_2
  ## MySQL数据源解压缓冲区设置
  # unpack_mysqlcompress_maxsize = 16M
  ## xmlpipe的数据源就是一个xml文档
  # type     = xmlpipe
  ## 读取数据源的命令
  # xmlpipe_command    = cat /home/yejianfeng/instance/coreseek/var/test.xml
  ## 字段
  # xmlpipe_field   = subject
  # xmlpipe_field   = content
  ## 属性
  # xmlpipe_attr_timestamp  = published
  # xmlpipe_attr_uint = author_id
  ## UTF-8修复设置
  ## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题
  ## 如果设置了这个字段，非utf-8序列就会全部被替换为空格。
  # xmlpipe_fixup_utf8  = 1
}
## sphinx的source是有继承这么一种属性的，意思就是除了父source之外，这个source还有这个特性
source src1throttled : src1
{
  sql_ranged_throttle = 100
}
## 索引test1
index test1
{
  ## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
  # type     = plain
  ## 索引数据源
  source     = src1
  ## 索引文件存放路径
  path      = /home/yejianfeng/instance/coreseek/var/data/test1
  ## 文档信息的存储模式，包括有none,extern,inline。默认是extern。
  ## docinfo指的就是数据的所有属性（field）构成的一个集合。
  ## 首先文档id是存储在一个文件中的（spa）
  ## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，所以进行查询过滤的时候，不需要进行额外操作。
  ## 当使用extern的时候，文档的属性是存放在另外一个文件（spd）中的，但是当启动searchd的时候，会把这个文件加载到内存中。
  ## extern就意味着每次做查询过滤的时候，除了查找文档id之外，还需要去内存中根据属性进行过滤。
  ## 但是即使这样，extern由于文件大小小，效率也不低。所以不是有特殊要求，一般都是使用extern
  docinfo     = extern
  ## 缓冲内存锁定。
  ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问，则它会被交换到磁盘上。
  ## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。
  mlock      = 0
  ## 词形处理器
  ## 词形处理是什么意思呢？比如在英语中，dogs是dog的复数，所以dog是dogs的词干，这两个实际上是同一个词。
  ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
  morphology   = none
  ## 词形处理有的时候会有问题，比如将gps处理成gp，这个设置可以允许根据词的长度来决定是否要使用词形处理器。
  # min_stemming_len = 1
  ## 词形处理后是否还要检索原词？
  # index_exact_words = 1
  ## 停止词，停止词是不被索引的词。
  # stopwords   = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
  ## 自定义词形字典
  # wordforms   = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
  ## 词汇特殊处理。
  ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如，c++ => cplusplus来处理。
  # exceptions    = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt
  ## 最小索引词长度，小于这个长度的词不会被索引。
  min_word_len    = 1
  ## 字符集编码类型，可以为sbcs,utf-8。对于Coreseek，还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
  charset_type    = sbcs
  ## 字符表和大小写转换规则。对于Coreseek，这个字段无效。
  # 'sbcs' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
  #
  # 'utf-8' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
  ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
  # ignore_chars   = U+00AD
  ## 是否启用通配符，默认为0，不启用
  # enable_star    = 1
  ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
  ## 最小前缀索引长度
  ## 为什么要有这个配置项呢？
  ## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，导致索引文件体积和搜索时间增加巨大。
  ## 那么我们就有必要限制下前缀索引的前缀长度，比如example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。
  # min_prefix_len    = 0
  ## 最小索引中缀长度。理解同上。
  # min_infix_len   = 0
  ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
  # prefix_fields   = filename
  # infix_fields   = url, domain
  ## 词汇展开
  ## 是否尽可能展开关键字的精确格式或者型号形式
  # expand_keywords    = 1
  ## N-Gram索引的分词技术
  ## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来做的（中文、韩文、日文）
  ## 对coreseek来说，这两个配置项可以忽略。
  # ngram_len   = 1
  # ngram_chars    = U+3000..U+2FA1F
  ## 词组边界符列表和步长
  ## 哪些字符被看做分隔不同词组的边界。
  # phrase_boundary    = ., ?, !, U+2026 # horizontal ellipsis
  # phrase_boundary_step = 100
  ## 混合字符列表
  # blend_chars    = +, &, U+23
  # blend_mode    = trim_tail, skip_pure
  ## html标记清理，是否从输出全文数据中去除HTML标记。
  html_strip   = 0
  ## HTML标记属性索引设置。
  # html_index_attrs = img=alt,title; a=title;
  ## 需要清理的html元素
  # html_remove_elements = style, script
  ## searchd是预先打开全部索引还是每次查询再打开索引。
  # preopen      = 1
  ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
  # ondisk_dict    = 1
  ## 由于在索引建立的时候，需要建立临时文件和和副本，还有旧的索引
  ## 这个时候磁盘使用量会暴增，于是有个方法是临时文件重复利用
  ## 这个配置会极大减少建立索引时候的磁盘压力，代价是索引建立速度变慢。
  # inplace_enable    = 1
  # inplace_hit_gap    = 0 # preallocated hitlist gap size
  # inplace_docinfo_gap  = 0 # preallocated docinfo gap size
  # inplace_reloc_factor = 0.1 # relocation buffer size within arena
  # inplace_write_factor = 0.1 # write buffer size within arena
  ## 在经过过短的位置后增加位置值
  # overshort_step    = 1
  ## 在经过 停用词 处后增加位置值
  # stopword_step   = 1
  ## 位置忽略词汇列表
  # hitless_words   = all
  # hitless_words   = hitless.txt
  ## 是否检测并索引句子和段落边界
  # index_sp     = 1
  ## 字段内需要索引的HTML/XML区域的标签列表
  # index_zones    = title, h*, th
}
index test1stemmed : test1
{
  path      = /home/yejianfeng/instance/coreseek/var/data/test1stemmed
  morphology   = stem_en
}
index dist1
{
  type      = distributed
  local      = test1
  local      = test1stemmed
  ## 分布式索引（distributed index）中的远程代理和索引声明
  agent      = localhost:9313:remote1
  agent      = localhost:9314:remote2,remote3
  # agent     = /var/run/searchd.sock:remote4
  ## 分布式索引（ distributed index）中声明远程黑洞代理
  # agent_blackhole    = testbox:9312:testindex1,testindex2
  ## 远程代理的连接超时时间
  agent_connect_timeout  = 1000
  ## 远程查询超时时间
  agent_query_timeout = 3000
}
index rt
{
  type      = rt
  path      = /home/yejianfeng/instance/coreseek/var/data/rt
  ## RT索引内存限制
  # rt_mem_limit   = 512M
  ## 全文字段定义
  rt_field    = title
  rt_field    = content
  ## 无符号整数属性定义
  rt_attr_uint    = gid
  ## 各种属性定义
  # rt_attr_bigint    = guid
  # rt_attr_float   = gpa
  # rt_attr_timestamp = ts_added
  # rt_attr_string    = author
}
indexer
{
  ## 建立索引的时候，索引内存限制
  mem_limit    = 32M
  ## 每秒最大I/O操作次数，用于限制I/O操作
  # max_iops   = 40
  ## 最大允许的I/O操作大小，以字节为单位，用于I/O节流
  # max_iosize    = 1048576
  ## 对于XMLLpipe2数据源允许的最大的字段大小，以字节为单位
  # max_xmlpipe2_field  = 4M
  ## 写缓冲区的大小，单位是字节
  # write_buffer   = 1M
  ## 文件字段可用的最大缓冲区大小，字节为单位
  # max_file_field_buffer = 32M
}
## 搜索服务配置
searchd
{
  # listen      = 127.0.0.1
  # listen      = 192.168.0.1:9312
  # listen      = 9312
  # listen      = /var/run/searchd.sock
  ## 监听端口
  listen     = 9312
  listen     = 9306:mysql41
  ## 监听日志
  log     = /home/yejianfeng/instance/coreseek/var/log/searchd.log
  ## 查询日志
  query_log    = /home/yejianfeng/instance/coreseek/var/log/query.log
  ## 客户端读超时时间 
  read_timeout    = 5
  ## 客户端持久连接超时时间，即客户端读一次以后，持久连接，然后再读一次。中间这个持久连接的时间。
  client_timeout   = 300
  ## 并行执行搜索的数目
  max_children    = 30
  ## 进程id文件
  pid_file    = /home/yejianfeng/instance/coreseek/var/log/searchd.pid
  ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
  max_matches   = 1000
  ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
  ## 当进行索引轮换的时候，可能需要消耗大量的时间在轮换索引上。
  ## 但是启动了无缝轮转，就以消耗内存为代价减少轮转的时间
  seamless_rotate   = 1
  ## 索引预开启，是否强制重新打开所有索引文件
  preopen_indexes   = 1
  ## 索引轮换成功之后，是否删除以.old为扩展名的索引拷贝
  unlink_old   = 1
  ## 属性刷新周期
  ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
  # attr_flush_period = 900
  ## 索引字典存储方式
  # ondisk_dict_default  = 1
  ## 用于多值属性MVA更新的存储空间的内存共享池大小
  mva_updates_pool  = 1M
  ## 网络通讯时允许的最大的包的大小
  max_packet_size   = 8M
  ## 崩溃日志文件
  # crash_log_path    = /home/yejianfeng/instance/coreseek/var/log/crash
  ## 每次查询允许设置的过滤器的最大个数
  max_filters   = 256
  ## 单个过滤器允许的值的最大个数
  max_filter_values  = 4096
  ## TCP监听待处理队列长度
  # listen_backlog    = 5
  ## 每个关键字的读缓冲区的大小
  # read_buffer    = 256K
  ## 无匹配时读操作的大小
  # read_unhinted   = 32K
  ## 每次批量查询的查询数限制
  max_batch_queries  = 32
  ## 每个查询的公共子树文档缓存大小
  # subtree_docs_cache  = 4M
  ## 每个查询的公共子树命中缓存大小
  # subtree_hits_cache  = 8M
  ## 多处理模式（MPM）。 可选项；可用值为none、fork、prefork，以及threads。 默认在Unix类系统为form，Windows系统为threads。
  workers     = threads # for RT to work
  ## 并发查询线程数
  # dist_threads   = 4
  ## 二进制日志路径
  # binlog_path    = # disable logging
  # binlog_path    = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there
  ## 二进制日志刷新
  # binlog_flush   = 2
  ## 二进制日志大小限制
  # binlog_max_log_size  = 256M
  ## 线程堆栈
  # thread_stack     = 128K
  ## 关键字展开限制
  # expansion_limit    = 1000
  ## RT索引刷新周期 
  # rt_flush_period    = 900
  ## 查询日志格式
  ## 可选项，可用值为plain、sphinxql，默认为plain。 
  # query_log_format   = sphinxql
  ## MySQL版本设置
  # mysql_version_string = 5.0.37
  ## 插件目录
  # plugin_dir      = /usr/local/sphinx/lib
  ## 服务端默认字符集
  # collation_server   = utf8_general_ci
  ## 服务端libc字符集
  # collation_libc_locale = ru_RU.UTF-8
  ## 线程服务看守
  # watchdog       = 1
  ## 兼容模式
  # compat_sphinxql_magics  = 1
}

更多关于PHP相关内容感兴趣的读者可查看本站专题：《PHP扩展开发教程》、《PHP网络编程技巧总结》、《php curl用法总结》、《PHP数组(Array)操作技巧大全》、《PHP数据结构与算法教程》、《php程序设计算法总结》及《php字符串(string)用法总结》

希望本文所述对大家PHP程序设计有所帮助。

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

PHP+MySQL+sphinx+scws实现全文检索功能详解

你可能感兴趣的:(PHP+MySQL+sphinx+scws实现全文检索功能详解)