码农老张Zy

【迅搜05】索引配置（二）字段定义与设计

索引配置（二）字段定义与设计

经过上篇文章的学习，我们已经了解到了 XS 中的默认索引配置是在哪里，也了解到了配置文件如何加载以及服务端的一些简单配置。今天，我们要学习的重点就是剩下的内容，也是非常重要的内容，那就是索引字段的配置定义以及字段设计。

字段选项

在 XS 中，每个字段都是使用一个区段配置来表示的。其实就是我们看到的中括号那个，中括号内容的是字段名，下面就是字段的选项。从一个字段到另一个字段之间的区域可以为上一个字段定义多个选项。

[pid]
type = id

[subject]
type = title

比如上面这两个字段，表示的就是 pid 字段和 subject 字段，然后在它们的定义下面都一个字段选项，指定的是这两个字段的类型。那么接下来，我们就来看看类型代表的是什么意思。

type 字段类型

XS 的字段类型其实就和我们在 MySQL 中的字段类型是一样的。表示的是这个字段应该以什么格式来存储。同时，搜索引擎的字段类型还有别的更多的作用。

id 主键类型，确保每条数据具体唯一值，是索引更新和删除的凭据，每个索引配置文件中，只能有一个字段被设置为 id 类型，这个字段的值不区分大小写。注意：XS 中的这个主键类型，并没有唯一约束，只是说逻辑上我们插入的数据应该是唯一的，但是，我们是可以插入两条 id 值相同的数据的；另外，它是以字符串存储的，不是数字，因此，排序的时候会有问题，后面我们会详细说明并测试。
string 字符型，适用于大多数情况，也是默认值，也就是说，如果你在字段下面不写 type 类型，那么默认这个字段就是 string 类型。
numeric 数值型，包含整型和浮点型都是 numeric ，仅当字段需要用于排序或者区间检索时才设为这个类型，否则直接使用 string 类型来表示数字就行了。
date 日期类型，形式为 YYYYmmdd 这样的固定 8 字节字段，如果没有区间检索或排序的需求也不建议使用，直接用 string 类型就行了
title 标题类型，标题或名称字段，每个索引配置文件中也只有一个字段可以设置为 title 类型，本质上还是 string 类型，只不过多了一些其它默认的功能，主要体现在索引方式上，后面我们会说到。
body 内容类型，主内容字段，也就是我们索引配置中需要搜索的内容最长的字段，比如文章的内容，产品的描述等，一个配置文件中也只能有一个，作用和 tilte 类似，也是有特殊的默认索引属性的。

字段类型就是这几种，比起数据库来说还是少了很多了吧。比如我们的操作是以检索数据为主，因此，大部分情况下其实都使用的就是普通的 string 类型就可以了。numeric 和 date 类型通常是有特殊的需要，比如说排序或者区间搜索时会用到，而且这两种类型默认是不会分词的，也就是和 MySQL 中的字段是一样的功能，要索引也是整个字段的内容全部当成一个完整的值来进行索引。

而另外两个 title 和 body ，其实底层都是 string ，只是它们自己默认带了一些其它配置，我们马上就来说。

index 索引方式

索引方式和搜索方式有关。啥意思呢？在 XS 中，索引有 2 种搜索方式。

第一种，就是不标明字段的检索，之前我们的测试基本都是这种，也就是在 PHP 代码中 $xs->search->search('xxxx xxxx') 这样。这种会在混合区进行检索，返回的可能是 title 也可能是 body 中搜索到的内容，也可以是 string 字段配置了 index = both 或 index = mixed 类型的字段。

第二种，标明特定字段的检索。用 PHP 代表表示就是 $xs->search->search('subject:xxxx') 这样，查询语句中有字段名表示。这种方式的检索又是不同的 index 配置。

关于搜索的方式我们后面会进行详细的学习，现在只要知道有这两种方式就好了。接下来我们就看看 index 这个配置具体的一些参数。

none 不做索引，所有的搜索匹配都和配置了这个属性的字段无关，一般作为排序或者搜索展示类型的字段会用到。
self 字段索引，就在是可以在搜索的时候，使用 字段名:xxx 来进行搜索的字段。
mixed 混合区索引，不标明字段，搜索的时候如果没有像上面一样使用字段名的话，就会在所有混合区索引相关的字段里面进行检索。
both 相当于 self + mixed ，这两种一起使用的效果。也就是带字段名，不带字段名都可以在这个字段上检索。

默认情况下，如果你不是 id、tilte 和 body 类型的字段，默认值都是 none 。

id 类型，默认是 self ，只能通过 id:xxx 这样来查询指定 id 的数据。
title 类型，默认是 both ，可以通过 title:xxx 来指定查询，也可以通过 xxx 这样和 body 一起混合查询。
body 类型，默认是 mixed ，不能通过 body:xxx 这样来查询，只能是 xxx 那样的混合查询。

这下明白上面的 type 类型为啥分出了三个特别的 id、title 和 body 类型了吧。上面这三种默认查询方式，其实也好理解。通常如果是针对 id 进行查询，都是想要进行精确匹配的，而且通常 id 这种字段也不应该是可以随便通过混合搜索词就可以查询到的。比如我想搜个 10 ，只要 tilte 和 body 中包含 10 就可以了，别把 id 等于 10 的搜索出来。如果确实是需要 id 为 10 的这条记录，就应该通过 id:10 这样精确地搜索。

剩下的 title 和 body 也是类似的概念，这里就不多解释了。

tokenizer分词器

XS 除了默认的 SCWS 分词之外，还可以在索引配置中为指定的字段设置不同的分词器。自带一些功能性的分词器，也可以指定自定义的分词器，在后面针对分词的学习时我们会进行更深入的学习，这里就先了解一下相关的配置有哪些。分词器配置的格式是可以带一个括号的，括号中可以有传递给分词器的参数，比如 tokenizer = split(,) 表示是使用逗号分隔，具体配置项我们一个一个来看下。

none 表示不进行分词
full 表示当前字段作为一个整体词，大部分的 id 以及数字、日期类型的字段都应该使用这种方式
split(arg) 表示根据参数分割内容，默认参数是空格，也就是默认使用空格来分词，如果以 / 开头并以 / 结尾，那么就会调用 PHP 的 preg_split() 函数来进行正则分词
xlen(arg) 表示根据 arg（数字）指定参数长度来分词，比如 xlen(2) ，就是按两个字的长度来分，ABCDEF 就会被分成 AB + CD + EF
xstep(arg) 表示根据 arg（数字）按步长分段取词，比如 xstep(2)，对 ABCDEF 分词的话就是 AB + ABCD + ABCDEF 这样
scws(arg) 表示采用 arg（数字）参数指定的数量作为复合等级的 SCWS 分词配置（如果没有特殊的复合要求，就不要指定），这个等深入学习分词时再说

还有一个默认值 default ，其实就是 scws 的意思（不带任何参数）。默认情况下 id 会是 full ，而 title 和 body 以及其它类型都是 scws 。

cutlen 搜索结果摘要截取长度

这个配置项主要是针对某些内容特别长的字段，比如文章内容或者商品描述之类的，在返回结果时自动截取包含关键词的一小段文字。默认情况下 body 的配置是 300 ，单位是字节，也就是说按中文来说是 100 个中文字。对于其它类型字段，默认值都是 0 。

cutlen = 0

weight 混合区检索时的概念权重

对于 index 是 mixed 或者 both 类型的字段来说，由于是可以多个字段同时检索的，所以就会带来一个权重问题。关键字出现在哪个字段中更重要呢？一般来说，title 相对 body 会更重要一些，因为，默认情况下，title 的 weight 是 5 ，而 body 是 1 。其它类型字段的默认值都是 1 。

weight = 1

phrase 是否支持精确搜索

在进行搜索时，如果给搜索关键字加上引号，就表示匹配的结果必须严格按照引号中指定的顺序匹配，比如 "算法数据结构"，如果不支持精确搜索，那么这两个词谁在前谁在后都可以直接搜索到，而如果字段是支持精确搜索的，则必须“算法”在“数据结构”之前出现的内容才能匹配到。默认 tilte 和 body 都是 yes ，其它类型的默认值都是 no 。这个功能只支持默认分词器，另外，如无特殊要求，不建议使用，因为它会增加索引数据的大小。

phrase = no

non_bool 强制指定是否为布尔索引

布尔索引是表示当前字段参不参与权重排名计算的，关于权重排名计算的内容我们后面也会详细说，这里也是先了解一下就好了。默认情况下所有的自定义分词器都是布尔索引的。因此，当使用自定义分词器，却又想让当前字段参与权重计算的话，就要将这个选项设置为 yes 。

non_bool = yes

测试各种配置

主要的字段配置就是上面那些了，接下来我们就测试一下。这里使用的数据是我的所有博客文章，有 300 多篇。同时也展示一下如何从 MySQL 中导入数据。MySQL 的数据表结构是这样的。

CREATE TABLE `zy_articles_xs_test` (
  `id` int NOT NULL,
  `title` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '标题',
  `content` text CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci COMMENT '内容',
  `category_name` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '分类名称',
  `tags` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '标签',
  `create_time` datetime DEFAULT NULL COMMENT '创建时间',
  `pub_time` datetime DEFAULT NULL COMMENT '发布时间',
  `status` tinyint DEFAULT NULL COMMENT '状态：1已发布，0未发布',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

不多解释了，根据这个数据库表，我们可以定义下面这样一个索引配置文件。

# 5-zyarticle-test1.ini
project.name = zyarticle
project.default_charset = utf-8

[id]
type = id

# 将默认的 index = both 换成了 mixed , phrase 设置为 no
[title]
type = title
index = mixed
phrase = no

# 将默认的 cutlen 从 300 设置为 30 , phrase 设置为 no
[content]
type = body
cutlen = 30
phrase = no


# 分词器指定为 full
[category_name]
type = string
index = both
tokenizer = full

# 分词器指定为逗号分词
# 支持精确搜索，没效果的
# 权重调到 10 ，默认 title 是 5 ，body 固定是 1
[tags]
type = string
index = both
tokenizer = split(,)
phrase = yes
weight = 10

# 类型是日期，不索引
[pub_time]
type = date
index = none

为什么少了一些字段呢？这个具体的设计问题，我们放到最后再说，这个索引配置文件中，我们主要是用来测试上面学习到的那一堆配置选项用得。具体的内容在注释中都写得很清楚了。

导入测试数据

首先，我们先使用 SDK 提供的工具来导入测试数据。其实和我们之前的方式是一样的，只不过之前我们是使用 csv 类型，然后手动输入测试数据。这回换成 MySQL 配置，然后直接去查询表导入。

> php vendor/hightman/xunsearch/util/Indexer.php --source=mysql://root:@localhost/zyblog ./config/5-zyarticle-test1.ini --sql="select * from zy_articles_xs_test where status = 1" --clean
清空现有索引数据 ...
初始化数据源 ... mysql://root:@localhost/zyblog 
开始批量导入数据 (请直接输入数据) ...
完成索引导入：成功 339 条，失败 0 条
刷新索引提交 ...

很方便吧，数据导入后就可以查询测试了。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "" -------------------- 解析后的 QUERY 语句：Query() -------------------- 在 339 条数据中，大约有 339 条包含，第 1-10 条，用时：0.0203 秒。 1. 【PHP数据结构与算法1】在学数据结构和算法的时候我们究竟学的是啥？ #1# [100%,0.00] 在学数据结构和算法的时候我们究竟学的是啥？

一说到数据结构与... Category_name:PHP Tags:数据结构,算法 Pub_time:20220723 …………………………

官方自带的这个工具，不仅可以导入 MySQL ，还可以像之前一样导入 CSV ，如果指定了文件就可以直接从 CSV 文件中批量读取导入数据。另外，它也可以直接导入 JSON、SQLite 数据。具体用法可以不加参数运行 /util/Indexer.php 来查看帮助信息。

这种方式导入的原始数据有个问题，那就是文章内容我们是带 HTML 标签的，但是在搜索的时候我们是不希望有 HTML 标签干扰的。那么咱们就还是通过 PHP 代码来导入吧，这样比较好过滤数据。

require_once 'vendor/autoload.php';

$dns = 'mysql:host=localhost;dbname=zyblog;port=3306;charset=utf8';
$pdo = new PDO($dns, 'root', '', [PDO::ATTR_ERRMODE => PDO::ERRMODE_EXCEPTION, PDO::ATTR_DEFAULT_FETCH_MODE=>PDO::FETCH_ASSOC]);


$stmt = $pdo->prepare("select * from zy_articles_xs_test");
$stmt->execute();

$list = $stmt->fetchAll();


$xs = new XS("./config/5-zyarticle-test1.ini");
$xs->index->clean();

foreach($list as $v){
    $v['content'] = strip_tags($v['content']);
    $doc = new XSDocument($v);
    $xs->index->add($doc);
}

echo '索引建立完成！';

PHP 添加数据的代码之前就见了，也就不多解释了，主要就是使用 strip_tags() 函数简单过滤了一下 HTML 标签。现在的数据就比较干净了。

> php 5.php 
索引建立完成！%    

## 等一会吧
> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini ""
--------------------
解析后的 QUERY 语句：Query()
--------------------
在 339 条数据中，大约有 339 条包含  ，第 1-10 条，用时：0.0295 秒。

1. 【PHP数据结构与算法1】在学数据结构和算法的时候我们究竟学的是啥？ #1# [100%,0.00]
在学数据结构和算法的时候我们究竟学的是啥？一说到数据结构与算法，大... 
Category_name:PHP  Tags:数据结构,算法  Pub_time:20220723 
…………………………

测试 title 改成 mixed 后的效果

默认情况下，或者你删掉上面配置中的 index = mixed，使用 title:算法 是可以搜索到东西的，但是因为我们设置成只能通过混合区检索了，那么这样指定字段名的搜索就无效啦。

>  php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "title:算法"
--------------------
解析后的 QUERY 语句：Query((Zsubject@1 AND 算法@2))
--------------------
在 339 条数据中，大约有 0 条包含 subject:算法 ，第 0-0 条，用时：0.0371 秒。

不信吗？不信自己试试呗，修改个配置文件，然后使用上面写好的 PHP 代码重建索引。

# 去掉 title 下面的 index = mixed ，然后再次运行 php 5.php
> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "title:算法"
--------------------
解析后的 QUERY 语句：Query(B算法@1)
--------------------
在 339 条数据中，大约有 23 条包含 title:算法 ，第 1-10 条，用时：0.0291 秒。

1. 【PHP数据结构与算法8】PHP数据结构及算法总结 #21# [100%,4.84]
PHP数据结构及算法总结断断续续地把这个系列写完了，就像上一个设计模式... 
Category_name:PHP  Tags:数据结构,算法  Pub_time:20220723  
……………………

后面的测试就不这么啰嗦啦，就看一下实验效果，然后其它的效果大家自己去尝试就好啦。另外在 title 这个字段上，我们还做了一个改变，那就是设置了 phrase = no ，默认情况下，它是 yes 。

包括后面 content 也设置成了 no ，现在，不管用不用精确搜索，都达不到精确搜索的效果了。精确搜索的意思就是，比如我们的文章里有一篇文章的标题是：【PHP数据结构与算法7.2】交换排序：冒泡、快排（有彩蛋）。搜索 “"快排冒泡"”，如果是 phrase 为 yes 的状态，那么是搜不出东西的，分词后，冒泡必须要在快排前面，这就是精确搜索的意思。但是我们设置 title 和 content 的 phrase 为 no 之后，精确搜索就没有效果了，不管前后都可以搜索到。

# 尝试修改 title 和 content 的 phrase ，看看有什么区别
> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini '"快排冒泡"' 
> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini '"冒泡快排"'

测试不索引时间

在配置文件中，我们将 pub_time 字段设置为了 index = none ，也就是不对这个字段的内容进行索引。先来随便查找一条数据。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "算法7.1"
--------------------
解析后的 QUERY 语句：Query((信管@1 AND 1.15@2))
--------------------
在 339 条数据中，大约有 1 条包含 信管1.15 ，第 1-1 条，用时：0.0246 秒。

1. 【PHP数据结构与算法7.1】插入类排序：简单插入、希尔排序 #18# [100%,7.57]
...入我们的排序相关算法的学习了。相信不管是系统学习过的还是没有系统学...
Category_name:PHP  Tags:数据结构,算法  Pub_time:20220723

然后根据返回的 pub_time 时间，再去搜索这个时间值。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "20220723"
--------------------
解析后的 QUERY 语句：Query(20220723@1)
--------------------
在 339 条数据中，大约有 0 条包含 20220723 ，第 0-0 条，用时：0.0119 秒。
> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "pub_time:20220723"
--------------------
解析后的 QUERY 语句：Query(0 * F20221114)
--------------------
在 339 条数据中，大约有 0 条包含 pub_time:20220723 ，第 0-0 条，用时：0.0121 秒。

很明显，不管是字段检索还是混合区检索都查不到数据。

id 字段可以不是唯一的

我们来添加一条数据。

$doc = new XSDocument([
  'id'=>100001,
  'title'=> '测试tags逗号分词和category_name全值索引及字段索引',
  'content'=>'电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中',
  'tags'=>'电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中',
  'category_name'=>'时实时'
]);
$xs->index->add($doc);

因为 id 字段不是唯一的，所以上面的这条可以执行两次，看看效果。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini '逗号分词'       
--------------------
解析后的 QUERY 语句：Query((逗号@1 AND 分词@2))
--------------------
在 341 条数据中，大约有 2 条包含 逗号分词 ，第 1-2 条，用时：0.0137 秒。

1. 测试tags逗号分词和category_name全值索引及字段索引 #100001# [100%,14.39]
电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中 
Category_name:时实时  
Tags:电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中 
Pub_time:  

2. 测试tags逗号分词和category_name全值索引及字段索引 #100001# [100%,14.39]
电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中 
Category_name:时实时  
Tags:电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中 
Pub_time:

查询出来的结果中，第一条两个 ## 号中间的就是 id 字段的内容，可以看到，这是两条一样的 id 的数据。然后排序试试。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "算法" --sort=id       
--------------------
解析后的 QUERY 语句：Query(算法@1)
--------------------
在 341 条数据中，大约有 63 条包含 算法 ，第 1-10 条，用时：0.0193 秒。

1. 【PHP数据结构与算法1】在学数据结构和算法的时候我们究竟学的是啥？ #1# [100%,2.88]
在学数据结构和算法的时候我们究竟学的是啥？一说到数据结构与算法，大... 
Category_name:PHP  Tags:数据结构,算法  Pub_time:20220723  

2. 【PHP数据结构与算法4.2】二叉树的遍历及逻辑操作 #10# [85%,2.45]
二叉树的遍历及逻辑操作上篇文章我们讲了许多理论方面的知识，虽说很枯... 
Category_name:PHP  Tags:数据结构,算法  Pub_time:20220723  
……………………

第二条数据就不对了吧，怎么是 id 10 的数据先出来了呢？其实呀，这就是因为咱们的 id 不是数字类型的，也就是说，这个 id 我们给字符串也可以。字符串在排序的时候会按照字符逐一比对，因此，第一个字符是 1 的全部完了才会到 2 开头的。那么咱们就是想要用 id 来排序呢？其实大家可以冗余一个 id 字段，比如这样。

[sortid]
type=numeric
index=none

也就是指定一个类型为数字的字段，同步样地也存放 id ，然后排序的时候使用这个字段就可以了。另外，时间类型也是经常可以用于排序的。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "算法" --sort=~pub_time
--------------------
解析后的 QUERY 语句：Query(算法@1)
--------------------
在 341 条数据中，大约有 63 条包含 算法 ，第 1-10 条，用时：0.0156 秒。

1. 【信管1.15】安全（二）加解密技术 #843# [94%,2.73]
...义；需要采用加密算法提取信息的特征码（校验码）或特征矢量，并与有关... 
Category_name:项目产品  Tags:信管师  Pub_time:20221114  

2. 【信管1.13】新技术（二）大数据与移动互联网 #841# [66%,1.92]
...些都是大数据和 AI 算法在背后做着各种推荐计算。如果说这些 APP 有一些商... 
Category_name:项目产品  Tags:信管师  Pub_time:20221109  
…………………………

官方 SDK 工具中的 --sort 参数就是可以指定排序字段的，也可以指定多个，在字段前面加上一个 ~ 表示的就是倒序。大家可以试试我们时间倒序的这个结果是不是对的。

body 类型测试

首先来看一下，body 类型默认只有混合区检索的，是没有字段检索的，也就是下面这种用法是查不到数据的。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini 'content:电路' 
--------------------
解析后的 QUERY 语句：Query((Zcontent@1 AND 电路@2))
--------------------
在 341 条数据中，大约有 0 条包含 content:电路 ，第 0-0 条，用时：0.0096 秒。

只能通过不加字段名的混合区检索查询到数据。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini '电路'         
--------------------
解析后的 QUERY 语句：Query(电路@1)
--------------------
在 341 条数据中，大约有 3 条包含 电路 ，第 1-3 条，用时：0.0148 秒。

1. 测试tags逗号分词和category_name全值索引及字段索引 #100001# [100%,6.65]
电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中 
Category_name:时实时  
Tags:电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中 
Pub_time: 
………………

接着就是对于 body 类型的 content 字段，我们设置了 cutlen=30 ，这个需要用 PHP 代码测一下，官方 SDK 的 Quest.php 工具中没有相关的参数配置。

$docs = $xs->search->search('');
var_dump($docs[0]->content);

运行查询后，可以看到返回的内容是：

> php 5.php 
string(33) "在学数据结构和算法的..."

只有十个中文字符。那么如何获取完整的所有 body 字段内容呢？其实只要设置为 cutlen=0 就可以了，大家可以试一下。不过，并不推荐！！

对于 body 类型，本身就是为特别大的字段准备的，因此，它默认给了 300 的截取长度。而其它类型的字段，通常不会有那么大，所以都是完整返回的。对于非常长的字段，其实各个搜索引擎都是更推荐由搜索引擎返回数据库主键 ID ，然后通过 ID 去数据查找。比如 Sphinx 就是完全只返回一个 ID 的。而 XS 在默认情况下会返回搜索词出现的前后 300 字节的内容，这已经很不错啦。太长的内容，最主要的问题就是数据返回的时间会拉长，特别是进行列表搜索时。试想列表中的每个文档都是完整的数据内容，即使是 10 篇文章的列表，也会有非常大的内容，并且占用非常大的传输带宽。

而且，各位在使用 Baidu 或者 Google 时也会发现，在列表上的内容，也就是返回标题和内容中包含关键词的一部分。和我们 XS 返回的内容是完全一样的。如果确实需要完整的内容数据，那么就使用主键 ID 去数据库查询，主键聚集索引在数据库中的查询速度是非常快的。另外还有一种，就是本身 body 类型的字段不会有太多的内容，比如电商中的商品详情，可能图片居多，文字较少，这时是可以考虑直接 cutlen=0 的。

tags逗号分词

对于 tags 这个字段，我们配置了很多东西，type = string 和 index = both 就不多解释了。先来看一下逗号分词的问题。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "tags:地板" 
--------------------
解析后的 QUERY 语句：Query(0 * E地板)
--------------------
在 341 条数据中，大约有 0 条包含 tags:地板 ，第 0-0 条，用时：0.0092 秒。

正常来说，“地板”是可以分成词的，但是我们指定 tags 字段检索时，竟然搜不到？别急，tags 已经按逗号分词了，所以我们就得按那个诡异的词来分了。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini "tags:久地板砖" 
--------------------
解析后的 QUERY 语句：Query(0 * E久地板砖)
--------------------
在 341 条数据中，大约有 2 条包含 tags:久地板砖 ，第 1-2 条，用时：0.0081 秒。

1. 测试tags逗号分词 #100001# [100%,0.00]
电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中 
Category_name:时实时  
Tags:电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中 
Pub_time:  

2. 测试tags逗号分词 #100001# [100%,0.00]
电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中 
Category_name:时实时  
Tags:电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中 
Pub_time:

哈哈，这就是我们定义的按逗号分词的效果。一切以我们指定的分隔符号为基准，进行分隔。正则或者其它符号的测试，大家可以自己试试哦。

对于 phrase 的设置，因为这里的分词使用的不是 SCWS 默认分词，所以，phrase 的配置不会生效，大家可以自己试试哦。

最后，我们把 tags 的权重提高了，前面的介绍中就说过，title 类型的默认权重为 5 ，body 固定为 1 ，现在我们将 tags 提升为 10 ，然后再插入一条数据。

$doc = new XSDocument([
        'id'=>100001,
        'title'=> '252525',
        'content'=>'11223344',
        'tags'=>'逗号分词',
        'category_name'=>'时实时'
    ]);
    $xs->index->add($doc);

暂时可以先理解为，权重高的优先级就高，因此，不出意外，搜索 tags 中包含的词，这条新插入的数据会排到前面来。

php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini '逗号分词' 
--------------------
解析后的 QUERY 语句：Query((逗号@1 AND 分词@2))
--------------------
在 342 条数据中，大约有 3 条包含 逗号分词 ，第 1-3 条，用时：0.0235 秒。

1. 252525 #100001# [100%,14.60]
11223344 
Category_name:时实时  Tags:逗号分词  Pub_time:  

2. 测试tags逗号分词 #100001# [93%,13.65]
电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中 
Category_name:时实时  
Tags:电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中 
Pub_time:  
……………………

你可以自己试试去掉 tags 字段的 weight=10，然后再试试搜索结果是怎样的。

category_name整体分词及字段索引

最后的这个字段，没什么特别的，就是设置了 tokenizer = full 这样一个完整索引的配置，咱们来看看效果。

> php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini category_name:实时   
--------------------
解析后的 QUERY 语句：Query(0 * D实时)
--------------------
在 342 条数据中，大约有 0 条包含 category_name:实时 ，第 0-0 条，用时：0.0080 秒。

针对这个字段，如果只搜索项目这个词，是搜不到东西的。因为对于这个字段来说，我们是将它的值完整地作为一个索引词内容的。因此，我们需要完整的分类名称。

php vendor/hightman/xunsearch/util/Quest.php --show-query ./config/5-zyarticle-test1.ini category_name:时实时
--------------------
解析后的 QUERY 语句：Query(0 * D时实时)
--------------------
在 103 条数据中，大约有 3 条包含 category_name:时实时 ，第 1-3 条，用时：0.0099 秒。

1. 测试tags逗号分词 #100001# [100%,0.00]
电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中
Category_name:时实时
Tags:电路原,理图,时实时,路况多,久地板砖,南昌中专学校晨进棒喝杨万里中
Pub_time:  Sortid:

2. 252525 #100001# [100%,0.00]
11223344
Category_name:时实时  Tags:逗号分词  Pub_time:  Sortid:

3. 电路原理图时实时路况多久地板砖南昌中专学校晨进棒喝杨万里中 #100001# [100%,0.00]
测试tags逗号分词
Category_name:时实时  Tags:123123  Pub_time:  Sortid:
……………………

最终的索引设计

好了好了，搞了半天，其实上面咱们都是在测试各种配置效果。真正的进行业务开发时，肯定不能这么玩呀。那么对于搜索引擎来说，应该怎样进行字段设计呢？

虽说 ES 是可以直接生成 Mapping 的，可以不用预先定义索引结构。但是，就像 Mongodb 一样，即使它们很灵活，但过于灵活的设计会是将来维护的恶梦。因此，一个好的字段及类型设计，就是非常重要的部分。也可以避免我们将来出现问题时需要频繁地重建索引。XS 也是可以在 PHP 的代码中动态定义字段的，这个我们后面会学习到。

对于类似的搜索引擎来说，最佳的字段设计通常是反范式的。也就是说要违反数据库的设计范式，比如我的实际文章表远比上面那个表结构复杂。文章和文章内容、标签和标签关系、分类与文章的关系，都是会开不同的表的。但是，在搜索引擎中，如果这些字段需要被搜索，那么就应该都拿过来。

其次，上面的数据库表中，status 字段其实用处不大，因为我们进入搜索引擎的应该就是已发布的内容，因为，在插入索引时，就直接通过 SQL 语句过滤掉了 status 不为 1 的其它数据，只保存已布的文章。这样的话，status 字段就不需要设计到 XS 的字段中了。

最后，create_time 我也没要，这也是和我的文章设计有关的，因为在前台我只显示发布时间，创建时间没用。因此，这个字段也没加进来。

最后，合理地字段类型也是非常重要的。从 XS 的字段类型就可以看出，XS 对文章类应用真的是非常友好的，自带 title 和 body 两种类型。

好了，将来我们还需要使用这些文章数据进行其它的学习测试，因此，咱们最后就按下面这个配置文件确定我们最终要使用的索引配置文件吧。

project.name = zyarticle
project.default_charset = utf-8

[id]
type = id

[title]
type = title

[content]
type = body

[category_name]
type = string
index = both
tokenizer = full

[tags]
type = string
index = both
tokenizer = split(,)

[pub_time]
type = date
index = none

总结

内容很多，但其实都是贴的代码。主要是咱们进行了很多的测试。其实呀，经过今天的文章，大部分同学已经可以拿 XS 进行日常的业务开发了。索引设计好了，其实就已经解决了很大一部分问题了。毕竟大部分情况下，我们的搜索查询真的就只是把关键字传进去就行了。后面要学习的搜索相关的技巧，大部分只是锦上添花的效果。

好了，索引配置相关的内容就结束了，后面我们还将继续学习的是在 PHP 代码中动态管理索引相关的内容。怎么样，感觉有意思嘛？扩展学习的话就是大家可以再去看一下 ES 中的索引以及 Mapping 相关的内容。

测试代码：

https://github.com/zhangyue0503/dev-blog/blob/master/xunsearch/source/5.php

参考文档：

http://www.xunsearch.com/doc/php/guide/ini.guide

你可能感兴趣的:(【迅搜05】索引配置（二）字段定义与设计)

【设计模式08】桥接器鼠鼠我呀2 设计模式设计模式 java 开发语言
前言适用于同业务域下多个维度，每个维度多个方法的情况。比如点咖啡业务域，咖啡有容量和风味两个维度，容量分为大中小，风味有拿铁，卡布奇诺。普通写法会写大杯拿铁，大杯卡布奇诺，。。。，总共要写nxm个类，类爆炸了桥接器将两个维度解耦，通过关联来桥接，类的数量可以将为n+m个UML类图代码示例取数场景，维度一：对象类型，用户维度、订单维度、稿件维度维度二：指标类型，访问量，点击率packagecom.s
【设计模式09】组合模式鼠鼠我呀2 设计模式设计模式组合模式
前言适用于树形结构，如公司的组织架构，目录和文件夹UML类图代码示例packagecom.sw.learn.pattern.C_structre.c_composite;importorg.springframework.beans.factory.annotation.Autowired;importorg.springframework.stereotype.Component;importj
【设计模式04】单例模式鼠鼠我呀2 设计模式设计模式单例模式
前言整个系统中只会出现要给实例，比如Spring中的Bean基本都是单例的UML类图无代码示例packagecom.sw.learn.pattern.B_create.c_singleton;publicclassMain{publicstaticvoidmain(String[]args){//doublechecklocking线程安全+懒加载⭐️//SingletonDCLinstance=
【RabbitMQ】消息丢失问题排查与解决
RabbitMQ消息丢失是一个常见的问题，可能发生在消息的生产、传输、消费或Broker端等多个环节。消息丢失的常见原因及对应的解决方案：一、消息丢失的常见原因1.生产端（Producer）原因(1)消息未持久化原因：生产者发送消息时未设置持久化（deliveryMode为非持久化模式），且Broker未持久化队列或交换器。场景：Broker宕机或重启时，未持久化的消息会丢失。(2)生产者通道或连
【AI Infra】基础学习汇总篇逆羽飘扬 AI基础知识人工智能学习
系列综述：目的：本系列是个人整理为了学习训练框架优化的，整理期间苛求每个知识点，平衡理解简易度与深入程度。来源：材料主要源于【DeepEP官方介绍】进行的，每个知识点的修正和深入主要参考各平台大佬的文章，其中也可能含有少量的个人实验自证。结语：如果有帮到你的地方，就点个赞和关注一下呗，谢谢！！！请先收藏！！！，后续继续完善和扩充(●’◡’●)文章目录一、分布式与并行基础分布式计算高性能并行GPU硬
【Python基础】13 知识拓展：CPU、GPU与NPU的区别和联系智算菩萨 python 开发语言人工智能
引言：处理器大战背后的技术革命在人工智能蓬勃发展的今天，我们经常听到CPU、GPU、NPU这些术语，但你是否真正理解它们之间的区别和联系？作为Python开发者，我们更关心的是：在什么场景下选择哪种处理器？如何在Python中充分发挥它们的性能优势？这篇文章将从技术原理出发，结合Python实战代码，深入解析这三种处理器的特点、应用场景和发展趋势，帮助你在面对不同计算任务时做出最优选择。第一章：C
【教程4＞第7章＞第26节】基于FPGA的RS(204,188)译码verilog实现10——RS译码模块整体实现与性能仿真评估 fpga和matlab #第7章·通信—信道编译码 fpga开发 RS verilog RS译码教程4
本课程学习成果预览目录1.软件版本2.RS译码模块整体实现介绍2.1伴随式计算（SyndromeCalculation）2.2擦除位置处理（ErasureHandling）2.3多项式乘法（PolynomialMultiplication）2.4欧几里得算法（EuclideanAlgorithm）2.5钱搜索（ChienSearch）3.RS译码模块整体FPGA实现4.RS译码仿真测试5.视频操作
深入理解观察者模式及其JavaScript实现布兰妮甜 javascript 观察者模式网络
Hi，我是布兰妮甜！观察者模式（ObserverPattern）是一种行为设计模式，它定义了对象之间的一对多依赖关系，当一个对象的状态发生改变时，所有依赖于它的对象都会得到通知并自动更新。这种模式在事件处理系统、数据绑定和发布-订阅系统中广泛应用。文章目录一、观察者模式的核心概念二、观察者模式的优点三、JavaScript实现观察者模式1.基本实现2.更实用的例子-天气预报系统3.使用函数作为观察
发布/订阅模式：解耦系统的强大设计模式布兰妮甜 javascript 设计模式发布/订阅模式前端
Hi，我是布兰妮甜！发布/订阅模式（Publish/SubscribePattern，简称Pub/Sub）是一种消息传递模式，它允许发送者（发布者）将消息发送给多个接收者（订阅者），而无需知道这些接收者的具体信息。这种模式在现代软件开发中广泛应用，特别是在需要松耦合组件通信的场景中。文章目录一、发布/订阅模式概述二、发布/订阅模式的实现方式2.1简单的事件发射器实现2.2更复杂的主题订阅实现三、发
MVC与MVVM架构模式详解：原理、区别与JavaScript实现布兰妮甜 javascript mvc mvvm 架构
Hi，我是布兰妮甜！在当今复杂的前端开发领域，如何组织代码结构一直是开发者面临的核心挑战。MVC和MVVM作为两种经典的架构模式，为前端应用提供了清晰的责任划分和可维护的代码组织方案。本文将深入探讨这两种模式的原理、实现差异以及在实际项目中的应用场景，通过JavaScript代码示例展示它们的核心思想，帮助开发者理解如何根据项目需求选择合适的架构模式。文章目录一、架构模式概述二、MVC架构模式2.
八股文——JAVA基础：什么是反射？反射的优点和缺点都有哪些？反射的原理是什么？ Hellyc java 开发语言
简单来说，反射是一种可以让jvm在动态运行时拿到类的信息的一种方法。在编程时可以通过类对象来获取该类中基本信息，包括类方法、继承关系等。反射的优点在于使得代码的编写更加灵活，比如配置文件的加载，只需要在配置文件中进行修改，而不需要修改代码。反射的最大优势就在于反射是框架编写的基石，比如使用的spring框架、AOP面向切面编程等都是使用到了反射。缺点在于安全性不足，因为使用反射可以绕过java的语
JOIN顺序优化：小表驱动大表的执行原则数据狐（DataFox） 2025年爬虫实战项目 sql 性能优化数据库
在数据库查询优化中，特别是在使用SQL语句进行数据查询时，遵循“小表驱动大表”的原则是一种常见且有效的策略。这个原则的核心思想是首先处理小表，然后再与大表进行连接操作，这样可以显著提高查询的效率。下面详细解释这一原则及其背后的原因：为什么“小表驱动大表”有效？减少数据扫描量：当数据库系统执行JOIN操作时，如果先处理小表，那么只需要扫描小表中的每一行与大表中的行进行匹配。这样可以大幅度减少需要扫描
分区表设计：历史数据归档与查询加速
以下从核心原理、归档设计与查询优化三个维度系统阐述分区表技术，结合主流数据库实践提供可落地方案：‌一、分区表核心原理与价值‌‌物理存储与逻辑分离‌‌分区策略‌：通过分区键（如时间戳、ID范围）将单表数据划分为多个物理子表（分区），逻辑上仍视为整体表。‌双重优化机制‌：‌集群级‌：通过DISTRIBUTEBY分布数据到不同节点，实现负载均衡；‌节点级‌：通过PARTITIONBY在节点内细分数据，减
C++中的面向对象编程克斯维尔的明天_ c++开发语言
C++OOP面向对象编程，顾名思义，在编程中使用对象。面向对象编程旨在在编程中实现现实世界的实体，如继承、隐藏、多态性等。OOP的主要目标是将数据和对它们进行作的函数绑定在一起，以便代码的其他部分除了该函数之外，其他任何部分都无法访问这些数据。概述Class类C++中面向对象编程的构建块是Class。它是一种用户定义的数据类型，充当蓝图，表示一组共享一些常见属性和行为的对象。这些属性存储为数据成员
MIT 6.S184 Lec01 Flow and Diffusion Models 克斯维尔的明天_ 机器学习人工智能
MIT6.S184Lec01FlowandDiffusionModels本节中，我们将描述如何通过模拟一个适当构造的微分方程来获得所需的转换。例如，流匹配和扩散模型分别涉及模拟常微分方程（ODE）和随机微分方程（SDE）。因此，本节的目标是定义和构建这些生成模型。具体来说，我们首先定义ODE和SDE，并讨论它们的模拟。其次，我们描述如何使用深度神经网络对ODE/SDE进行参数化。从中推导出流模型和
服务器异常宕机或重启导致 RabbitMQ 启动失败问题分析与解决方案代码怪兽大作战 RabbitMQ 服务器 rabbitmq 宕机启动失败
服务器异常宕机或重启导致RabbitMQ启动失败问题分析与解决方案一、深度故障诊断与解决方案1.权限配置不当故障2.端口占用故障3.数据目录残留故障二、故障类型对比与诊断矩阵三、完整恢复流程（10步法）四、风险规避与最佳实践️数据保护策略预防性配置五、高级故障排除技巧诊断工具集容器特有故障处理容器维护命令速查主机与容器方案对比总结⚡快速恢复决策树六、总结当服务器异常宕机或重启后，RabbitMQ启
【设计模式05】原型模式鼠鼠我呀2 设计模式设计模式原型模式
前言通过clone来实例化对象，适用于复杂大对象的创建，一般用不着UML类图无代码示例packagecom.sw.learn.pattern.B_create.d_prototype;importjava.lang.reflect.Array;importjava.util.*;importjava.util.Scanner;publicclassMain{/***广告主可以在页面上复制已有订单模
【Python基础】14 内存管理与性能优化智算菩萨 python 性能优化开发语言
前言在现代软件开发中，性能优化已经成为每位开发者必须掌握的核心技能。Python作为一门高级编程语言，虽然在语法简洁性和开发效率方面具有显著优势，但其解释型语言的特性也带来了性能上的挑战。深入理解Python的内存管理机制，掌握有效的性能优化策略，不仅能够帮助我们编写出更高效的代码，还能在处理大规模数据和高并发场景时游刃有余。本文将从Python内存管理的底层原理出发，深入探讨垃圾回收机制、内存分
JAVA八股文：异常有哪些种类，可以举几个例子吗？Throwable类有哪些常见方法？ Hellyc java 开发语言
Throwable、Error与Exception所有的异常类型都继承自java.lang.Throwable。其中Error（比如OutOfMemoryError、StackOverflowError、类加载失败等）表示JVM自身或运行环境的问题，不应该也通常无法由应用程序去捕获或恢复，出现Error通常意味着程序无法继续安全运行。Exception则代表应用层“可感知”的问题。CheckedE
BAAI/BGE-VL多模态模型部署、原理、代码详解（实现图像文本混合检索），包含BEG-VL多模态模型的本地部署详细步骤及代码原理解析令令小宁 python 语言模型自然语言处理 nlp 人工智能
本文包含BGE-VL多模态模型的本地部署详细步骤及代码原理解析文章目录前言一、模型下载二、计算流程解析1.BGE-VL-base/Large2.BGE-VL-MLLM-s1/s2三、总结前言提示：这里可以添加本文要记录的大概内容：包含四个模型及数据集，数据集未开源，四个模型可以分别下载：其中，BGE-VL-base/Large是基于CLIP训练的模型，BGE-VL-MLLM-S1/S2是基于LLM
从 TCP/IP 协议栈角度深入分析网络文件系统 (NFS)
一、引言：NFS与TCP/IP的关系概述网络文件系统(NetworkFileSystem,NFS)是一种分布式文件系统协议，允许客户端通过网络访问远程服务器上的文件系统，就像访问本地文件系统一样。NFS是SunMicrosystems在20世纪80年代开发的，旨在提供一种透明的、与平台无关的文件共享机制。从设计理念来看，NFS的核心目标是"消除本地文件和远程文件之间的区别"，使用户能够像操作本地文
mbuf 全面分析：从概念到应用的深度解析
一、mbuf基础概念与原理1.1mbuf的定义与基本原理mbuf（memorybuffer，内存缓冲区）是一种高效的内存管理机制，主要用于存储和处理网络数据包及其他需要临时存储的数据。它最初由BSD（BerkeleySoftwareDistribution）操作系统引入，并在后续的网络处理框架中得到广泛应用，特别是在高性能网络数据处理领域，如DPDK（DataPlaneDevelopmentKit
AutoGen行业应用与典型场景实践
摘要AutoGen作为分布式多智能体AI系统，已在金融、医疗、教育、智能客服等行业落地应用。本文系统梳理AutoGen在各行业的应用模式、业务流程、Python实战、最佳实践与常见问题，助力中国AI开发者高效构建行业级AI解决方案。1.AutoGen行业应用全景与价值支持多智能体协作，适配复杂业务流程易于集成主流大模型与行业工具分布式部署，满足高可用与弹性扩展需求典型行业：金融风控、医疗问答、教育
Deep Global Registration 代码环境配置(rtx3090+python3.8+cuda11.1+pytorch1.7+MinkowskiEngine0.5.1) JPy646 pytorch 深度学习神经网络
前言踩过的坑：因为rtx3090最低算力是8.6，似乎不支持过低版本的cuda。试过pytorch1.7.0+cuda11.0，但会报错，由于cuda11.0支持的最高算力达不到rtx最低的要求。但配置pytorch1.8时DGR的代码运行时会报错。对于没有这个烦恼的还是推荐安装python3.6+cuda10.2+pytorch1.6+MinkowskiEngine0.4.3,这个配置无需改动代
从 Alpha 到 Final：Python 各阶段版本到底该怎么用？三金C_C Python python 版本生命周期
主流的Python是由PythonSoftwareFoundation（PSF，Python软件基金会）主导的：PSF是一个非营利组织负责维护Python官方语言规范、标准库、社区基础设施它主导的实现版本是我们日常使用的：CPythonPython的版本阶段（版本周期）。这些阶段是官方正式定义的，适用于每一个Python主版本（比如3.12、3.13、3.14…）Python版本的四大阶段Pyth
AI 大模型重塑软件开发流程的四点观察：跃迁/重构/变革/挑战敖行客 Allthinker Thinker说人工智能大模型
作为软件开发的从业者，笔者深刻感受到AI大模型对开发流程的颠覆性影响。从最初的代码补全工具到如今能够自主完成复杂任务的智能协作者，AI的角色转变正推动软件开发范式发生系统性变革。基于实际开发经验与行业案例，从四个维度，浅显讲述一下AI大模型重塑软件开发流程的观察。观察一：编码能力突破——从“助手”到“协作者”的技术跃迁核心变化：AI从“补全代码片段”进化为“自主构建完整系统”过去，AI在开发中的角
RTX50系显卡+CUDA+torch+python对应关系
前言本人的显卡是RTX5070，使用时发现它对CUDA、torch和python版本有要求，试图按照老项目的依赖文件进行安装发现安不了，因此记录一下（截至2025年6月）。提示：以下是本篇文章正文内容，下面案例可供参考一、RTX50系显卡只能使用CUDA12.8二、目前只支持torch2.7.0和2.7.11.去pytorch官网的https://download.pytorch.org/whl/
揭开 MCP 的神秘面纱：标准化 AI 上下文管理的未来(上) 愤怒的可乐大模型自然语言处理人工智能 python 开发语言
引言最近MCP大火，本文尝试揭开它神秘的面纱。文章较长，分为上下两篇。架构MCP协议遵循客户端-主机-服务器架构，其中一个主机应用运行多个客户端实例，每个客户端实例维护了和服务器建立的独立的连接。Host：希望通过MCP访问数据的程序，比如一个聊天应用程序。Client：与服务器保持1:1连接(会话)的客户端，Host通过这个Client连接不同的Server提供的功能。Server：通过MCP公
强化学习贝尔曼方程推导愤怒的可乐强化学习人工智能概率论机器学习算法
引言强化学习中贝尔曼方程的重要性就不说了，本文利用高中生都能看懂的数学知识推导贝尔曼方程。回报折扣回报GtG_tGt的定义为：Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1(1)G_t=R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+\cdots=\sum_{k=0}^\infty\gamma^kR_{t+k+1}\tag1Gt=Rt+1+γR
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l