Kuo-Teng

ElasticSearch 之文本搜索

1. 文本搜索简介
2. 倒排索引建立过程
3. 文本的搜索过程
4. 分析器简介
- 4.1. 字符过滤器
- 4.2. 分词器
- 4.3. 分词过滤器
5. 分析器使用
- 5.1. 测试分析API
- 5.2. 内置分析器
- 5.3. 索引时使用分析器
- 5.4. 搜索时使用分析器
- 5.5. 自定义分析器
6. 中文分析器
- 6.1. 中文分词介绍
- 6.2. IK分析器
- 6.3. HanLP分析器
7. 使用同义词
- 7.1. 建立索引时使用同义词
- 7.2. 查询时使用同义词

1. 文本搜索简介

作为一款搜索引擎框架，文本搜索是其核心功能。
ES在文本索引的建立和搜索过程中依赖两大组件，即Lucene和分析器。
Lucene负责进行倒排索引的物理构建，分析器负责在建立倒排索引前和搜索前对文本进行分词和语法处理。

2. 倒排索引建立过程

为了完成对文本的快速搜索，ES使用了一种称为“倒排索引”的数据结构。倒排索引中的所有词语存储在词典中，每个词语又指向包含它的文档信息列表。
假设需要对下面两个酒店的信息进行倒排索引的创建：文档ID为001，酒店名称为“金都嘉怡假日酒店”；文档ID为002，酒店名称为“金都欣欣酒店”。

首先，ES将文档交给分析器进行处理，处理的过程包括字符过滤、分词和分词过滤，最终的处理结果是文档内容被表示为一系列关键词信息的集合。
这里的关键词信息指的是关键词本身以及它在文档中出现的位置信息和词性信息，如图所示为文档001的分析结果示意图。
其次，ES根据分析结果建立文档-词语矩阵，用以表示词语和文档的包含关系，本例中的文档-词语矩阵如图所示。
通过上面的文档-词语矩阵可知，ES从文档001中提取出4个词语，从文档002中提取出3个词语。
文档-词语矩阵建立完成之后，接着需要建立基于词语的倒排索引。
1. ES会遍历文档词语矩阵中的每一个词语，然后将包含该词语的文档信息与该词语建立一种映射关系。
2. 映射关系中的词语集合叫作Term Dictionary，即“词典”。
3. 映射中的文档集合信息不仅包含文档ID，还包含词语在文档中的位置和词频信息，包含这些文档信息的结构叫作Posting List。
4. 对于一个规模很大的文档集合来说，可能包含几十万甚至上百万的词语集合，能否快速定位某个词语，直接影响搜索时的响应速度。因此需要一种高效的数据结构对映射关系中的词语集合进行索引，这种结构叫作TermIndex。
5. 上述3种结构结合在一起就构成了ES的倒排索引结构，倒排索引与三者之间的逻辑关系如图所示。
本例中的倒排索引结构如图所示。

3. 文本的搜索过程

在ES中，一般使用match查询对文本字段进行搜索。match查询过程一般分为如下几步：

ES将查询的字符串传入对应的分析器中，分析器的主要作用是对查询文本进行分词，并把分词后的每个词语变换为对应的底层lucene term查询。
ES用term查询在倒排索引中查找每个term，然后获取一组包含该term的文档集合。
ES根据文本相关度对每个文档进行打分计算，打分完毕后，ES把文档按照相关性进行倒序排序。
ES根据得分高低返回匹配的文档。

4. 分析器简介

分析器一般用在下面两个场景中：
1. 创建或更新文档时（合称索引时），对相应的文本字段进行分词处理；
2. 查询文本字段时，对查询语句进行分词。
ES中的分析器有很多种，但是所有分析器的结构都遵循三段式原则，即字符过滤器、分词器和词语过滤器。
其中，字符过滤器可以有0个或多个，分词器必须只有一个，词语过滤器可以有0个或多个。
从整体上来讲，三个部分的数据流方向为字符过滤器→分词器→分词过滤器。
文本先以字符流的形式流经字符过滤器，字符过滤器处理完字符后将结果传递给分词器，分词器对文本进行分词处理后将结果又传递给分词过滤器。最终，分析器输出分词后每个词的信息，至此，一个分析器的处理流程结束。
对于不同的分析器，上述三部分的工作内容是不同的，为了正确匹配，如果在数据写入时指定了某个分析器，那么在匹配查询时也需要设定相同的分析器对查询语句进行分析。

4.1. 字符过滤器

字符过滤器是分析器处理文本数据的第一道工序，它接收原始的字符流，对原始字符流中的字符进行添加、删除或者转换操作，进而改变原始的字符流。
例如，原始数据中可能包含来自爬虫的结果，字符过滤器可以去除文本中的HTML标签，也可以将原始文本中的一些特殊字符进行转义，如把“＆”转换为and。
总而言之，字符过滤器就是对原始文本做一些粗加工的工作，为后续的分词做准备。
常用的ES内置的字符过滤器：

4.2. 分词器

分词器在分析器中负责非常重要的一环工作——按照规则来切分词语。
对于英文来说，简单的分词器通常是根据空格及标点符号进行切分。
然而对于中文分词来说，字符之间往往没有空格，因此采用英文的切分规则是不可取的。
中文分词有多种切分方案，不同的分词器采用的方案不同，处理后的结果也可能不同。
分词器对文本进行切分后，需要保留词语与原始文本之间的对应关系，因此分词器还负责记录每个Token的位置，以及开始和结束的字符偏移量。
常用的ES内置的分词器：

4.3. 分词过滤器

分词过滤器接收分词器的处理结果，并可以将切分好的词语进行加工和修改，进而对分词结果进行规范化、统一化和优化处理。
例如，它可以将文本中的字母全部转换为小写形式，还可以删除停用词（如的、这、那等），还可以为某个分词增加同义词。
常用的ES内置的分词过滤器：

5. 分析器使用

ES提供了分析器的调用API，使用户可以方便地对比不同分析器的分析结果。
另外，ES提供了一些开箱即用的内置分析器，这些分析器其实就是字符过滤器、分词器和分词过滤器的组合体，可以在索引建立时和搜索时指定使用这些分析器。
当然，如果这些分析器不符合需求，用户还可以自定义分析器。

5.1. 测试分析API

为了更好地理解分析器的运行结果，可以使用ES提供的分析API进行测试。

在DSL中可以直接使用参数analyzer来指定分析器的名称进行测试，分析API的请求形式如下：

POST _analyze 
{ 
 "analyzer": ${analyzer_name}, //指定分析器名称 
 "text":${analyzer_text} //待分析文本 
}

以下示例使用standard分析器分析一段英文：

POST _analyze
{
 "analyzer": "standard",
 "text": "The letter tokenizer is not configurable."
}

使用standard分析器对中文进行分析时，由于中文没有空格，无法根据空格进行切分，因此只能按单字进行切分，并给出了每个单字的词性。在中文里，两个单字的词性和每个单字的词性是不同的，因此使用standard分析器分析中文时给出的词性不具备参考价值。不仅如此，ES内置的其他分析器也不适合分析中文。
除了指定分析器进行请求分析外，用户还可以指定某个索引的字段，使用这个字段对应的分析器对目标文本进行分析。下面使用酒店索引的title字段对应的分析器分析文本。
```
POST /hotel/_analyze
{
 "field": "title",
 "text": "金都嘉怡假日酒店"
} 
```
另外，用户还可以在API中自定义分析器对文本进行分析。在下面的示例中自定义了一个分析器，该分析器的分词器使用standard，分词过滤器使用Lower Case，其将分词后的结果转换为小写形式。
```
GET _analyze
{
 "tokenizer": "standard",
 "filter": [
   "lowercase"
 ],
 "text": "JinDu JiaYi Holiday Hotel"
} 
```

5.2. 内置分析器

ES已经内置了一些分析器供用户使用，在默认情况下，一个索引的字段类型为text时，该字段在索引建立时和查询时的分析器是standard。
standard分析器是由standard分词器、LowerCase分词过滤器和Stop Token分词过滤器构成的。
注意，standard分析器没有字符过滤器。
除了standard分析器之外，ES还提供了simple分析器、language分析器、whitespace分析器及pattern分析器等。
另外，用户也可以自定义分析器，并且可以在索引建立或搜索时指定自定义分析器。

5.3. 索引时使用分析器

文本字段在索引时需要使用分析器进行分析，ES默认使用的是standard分析器。

如果需要指定分析器，

一种方式是在索引的settings参数中设置当前索引的所有文本字段的分析器：

  PUT /hotel 
  { 
    "settings": { 
      "analysis": { 
        "analyzer": { //指定所有text字段索引时使用simple分析器 
          "default": { 
            "type": "simple" 
          } 
        } 
      } 
    }, 
    "mappings": { 
      "properties": {
        … 
      } 
    } 
  }

另一种方式是在索引的mappings参数中设置当前字段的分析器：

  PUT /hotel 
  { 
    "mappings": { 
      "properties": { 
        "title": { 
          "type": "text", //指定索引中的title字段索引时使用whitespace分析器 
          "analyzer": "whitespace" 
        }, 
        … 
      } 
    } 
  }

5.4. 搜索时使用分析器

为了搜索时更加协调，在默认情况下，ES对文本进行搜索时使用的分析器和索引时使用的分析器保持一致。

当然，用户也可以在mappings参数中指定字段在搜索时使用的分析器。如下示例展示了这种用法：

  PUT /hotel 
  { 
    "mappings": { 
      "properties": { 
        "title": { 
          "type": "text", 
          "analyzer": "whitespace", //索引时使用whitespace分析器 
          "search_analyzer": "whitespace" //搜索时使用whitespace分析器 
        }, 
        … 
      } 
    } 
  }

注意，这里指定的搜索分析器和索引时的分析器是一致的，但是在大多数情况下是没有必要指定的，因为在默认情况下二者就是一致的。
如果指定的搜索分析器和索引时的分析器不一致，则ES在搜索时可能出现有不符合预期的匹配情况，因此该设置在使用时需要慎重选择。

5.5. 自定义分析器

当系统内置的分析器不满足需求时，用户可以使用自定义分析器。
在有些场景中，某个文本字段不是自然语言而是在某种规则下的编码。例如，在酒店索引中有个sup_env字段，其值为“APP,H5,WX”，表示当前酒店可以在App、Web端和微信小程序端上显示。假设当前搜索用户使用的是H5或App客户端，则需要过滤掉不支持在这两个客户端上显示的酒店。
1. 首先，需要在索引创建的DSL中定义分析器comma_analyzer，该分析器中只有一个分词组件，该分词组件使用逗号进行词语切分；
2. 然后在mappings中使用analyzer参数指定字段sup_env的分析器为定义好的comma_analyzer分析器。

6. 中文分析器

分词工作是搜索引擎的基础性工作，分词结果的质量高低对后面的搜索结果匹配起着非常关键的作用。
中文相对于英文等西方语言有独有的一些特点，ES内置的分析器一般很难适用于中文搜索，因此针对中文的ES分词器插件应运而生。

6.1. 中文分词介绍

对于英文来说，一个文档很容易被切分成关键词的集合，因为除了标点符号外都是由空格把各个英文单词进行分隔的。
例如I have a red car，用空格进行切分的结果为I/have/a/red/car。
对于中文来说，一般由一个或多个字组合在一起形成一个词语，并且句子中没有词的界限。
根据不同的使用场景，对于词语切分颗粒度的需求也是不一样的，请看如下示例。
1. 例句：我来到北京清华大学。
2. 分词结果1：我/来到/北京/清华/华大/大学/清华大学
3. 分词结果2：我/来到/北京/清华大学
4. 上面的两种分词方式都是正确的，它们可以应用在不同的场景中。
中文分词根据实现原理和特点，分词的切分算法主要有两种，即基于词典的分词算法和基于统计的机器学习算法。
基于词典的分词算法是按照某种策略将提前准备好的词典和待匹配的字符串进行匹配，当匹配到词典中的某个词时，说明该词分词成功。该算法是匹配算法中最简单、速度最快的算法，其分词算法分为3种，即正向最大化匹配法、逆向最大化匹配法和双向最大化匹配法。
基于统计的机器学习算法基于统计的机器学习算法的主要思想是事先构建一个语料库，该语料库中是标记好的分词形式的语料，然后统计每个词出现的频率或者词与词之间共现的频率等，基于统计结果给出某种语境下应该切分出某个词的先验概率。后续进行分词时，使用先验概率给出文本应该切分的结果。这类算法中代表的算法有HMM、CRF、深度学习等，比如结巴分词基于HMM算法、HanLP分词工具基于CRF算法等。
当前，中文分词的难点主要有以下三方面：
1. 分词标准：不同的分词器使用的分词标准不同，分词的结果也不同。例如，在分词的颗粒度方面，对“中华人民共和国”进行切分时，粗粒度的分词就是“中华人民共和国”，细粒度的分词可能是“中华”“人民”“共和国”。
2. 分词歧义：使用分词器对文本进行切分，切分后的结果和原来的字面意义不同。例如，在“郑州天和服装厂”中，“天和”是厂名，是一个专有词，“和服”也是一个词，它们共用了“和”字。如果分词器不够精准，则很容易切分成“郑州、和服、服装、服装厂”，但是原文中并没有与“和服”有关的含义，因此这里就产生了歧义。
3. 新词识别：新词也称未登录词，即该词没有在词典或者训练语料中出现过。在这种情况下，分词器很难识别出该词。目前，新词识别问题的解决依赖于人们对分词技术和中文结构的进一步认识。
ES通过安装插件的方式来支持第三方分析器。比较常用的第三方中文分析器是HanLP和IK分析器。

6.2. IK分析器

IK分析器是一个开源的、基于Java语言开发的轻量级的中文分词工具包，它提供了多种语言的调用库。
在ES中，IK分析器通过第三方插件的方式来使用，其代码托管到了GitHub上，项目地址为https://github.com/medcl/elasticsearch-analysis-ik。
IK分析器实现了词典的冷更新和热更新，用户可以选择适合自己的方式进行词典的更新。
ES中IK分析器的安装过程
1. 新建目录。进入ES的plugins目录，然后新建目录，目录名称为ik-analysis。
2. 下载插件。进入ik-analysis目录，然后运行wget命令下载ES的IK分词插件，下载地址为https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.2/elasticsearch-analysis-ik7.10.2.zip。注意，插件版本要和当前的ES版本保持一致，否则可能会导致ES启动报错。
3. 解压插件。使用unzip命令对下载的插件文件进行解压缩。
4. 重启ES。重新启动ES，观察其运行日志，当打印出类似loadedplugin[analysis-ik]的日志内容时，说明IK插件安装成功。
IK分析器提供了两个子分析器，即ik_smart和ik_max_word，另外它还提供了两个和分析器同名的子分词器。
ik_max_word和ik_smart分析器的主要区别在于切分词语的粒度上，ik_smart的切分粒度比较粗，而ik_max_word将文本进行了最细粒度的拆分，甚至穷尽了各种可能的组合。
有的词没有在IK分析器的词典里，因此被切分成了两个单字，这需要为IK分析器添加词典来解决该问题。
1. 在IK分析器的安装目录下的config子目录中创建文件my.dict，在其中添加“嘉怡”即可。如果有更多的词语需要添加，则每个词语单独一行。
2. 添加完成后修改IK分析器的配置文件，路径为config/IKAnalyzer.cfg.xml，将新建的字典文件加入ext_dict选项中。
3. 配置完成后重启ES，然后使用分析器重新分析即可。

6.3. HanLP分析器

HanLP是由一系列模型与算法组成的Java工具包，它从中文分词开始，覆盖词性标注、命名实体识别、句法分析、文本分类等常用的NLP任务，提供了丰富的API，被广泛用于Lucene、Solr和ES等搜索平台。
就分词算法来说，它支持最短路分词、N-最短路分词和CRF分词等分词算法。
用户可以在ES中安装HanLP分析器插件进行使用。
HanLP分析器插件的安装比较简单，在ES的安装目录下执行bin/elasticsearch-plugin install${URL}命令即可，其中的URL是HanLP的安装文件链接。需要HanLP分析器使用与ES相同的版本，安装时可根据当前的版本进行选择。
HanLP分析器提供了众多的子分析器，如hanlp、hanlp_standard、hanlp_crf和hanlp_n_short等。

7. 使用同义词

在搜索场景中，同义词用来处理不同的查询词，有可能是表达相同搜索目标的场景。
例如，当用户的查询词为“带浴缸的酒店”和“带浴池的酒店”时，其实是想搜索有单独泡澡设施的酒店。
再例如，在电商搜索中，同义词更是应用广泛，如品牌同义词Adidas和“阿迪达斯”，产品同义词“投影仪”和“投影机”，修饰同义词“大码”和“大号”等。
用户在使用这些与同义词相关的关键词进行搜索时，搜索引擎返回的搜索结果应该是一致的。
用户还可以通过ES中的分析器来使用同义词，使用方式分为两种，
1. 一种是在建立索引时指定同义词并构建同义词的倒排索引，
2. 另一种是在搜索时指定字段的search_analyzer查询分析器使用同义词。

7.1. 建立索引时使用同义词

在ES内置的分词过滤器中，有一种分词过滤器叫作synonyms，它是一种支持用户自定义同义词的分词过滤器。

PUT /hotel 
{ 
 "settings": { 
   "analysis": { 
     "filter": { //定义分词过滤器 
       "ik_synonyms_filter": { 
         "type": "synonym", 
         "synonyms": [ //在分词过滤器中定义近义词 
           "北京,首都", 
           "天津,天津卫", 
           "假日,度假" ] 
       } 
     }, 
     "analyzer": { //自定义分析器 
       "ik_analyzer_synonyms": { 
         "tokenizer": "ik_max_word", //指定分词器 
         "filter": [ //指定分词过滤器 
           "lowercase", 
           "ik_synonyms_filter" ] 
       }        
     } 
   } 
 }, 
 "mappings": { 
   "properties": { 
     "title": { 
       "type": "text", 
       "analyzer": "ik_analyzer_synonyms" //指定索引时使用自定义的分析器 
     }, 
     … 
   } 
 } 
}

7.2. 查询时使用同义词

在ES内置的分词过滤器中还有个分词过滤器叫作synonym_graph，它是一种支持查询时用户自定义同义词的分词过滤器。

PUT /hotel 
{ 
 "settings": { 
   "analysis": { 
     "filter": { //定义分词过滤器 
       "ik_synonyms_graph_filter": { 
         "type": "synonym_graph", 
         "synonyms": [ //在分词过滤器中定义近义词 
           "北京,首都", 
           "天津,天津卫", 
           "假日,度假" ] 
       } 
     }, 
     "analyzer": { //自定义分析器 
       "ik_analyzer_synonyms_graph": { 
         "tokenizer": "ik_max_word", //指定分词器 
         "filter": [ //指定分词过滤器 
           "lowercase", 
           "ik_synonyms_graph_filter" ] 
       } 
     } 
   } 
 }, 
 "mappings": { 
   "properties": { 
     "title": { 
       "type": "text", 
       "analyzer": "ik_max_word", //指定查询时使用自定义的分析器 
       "search_analyzer": "ik_analyzer_synonyms_graph" 
     }, 
     … 
   } 
 } 
}

命中的结果集和索引时使用的同义词一致，但是结果的排序却不同。
1. 这是因为在索引时使用同义词会计算全部的同义词的TF/IDF值，在搜索时进行的相关性计算，是将同义词和其他词同等对待，也就是将其TF/IDF值计算在内。
2. 而在搜索时使用同义词，需要ES将同义词转换后再进行相关性计算。
根据explain的结果来看，ES将查询改写为title字段匹配关键字“假日”或者“度假”。
如果有更新同义词的需求，则只能使用查询时使用同义词的这种方式。
1. 首先需要先关闭当前索引：
```
POST /hotel/_close 
```
2. 更改索引的settings信息；
3. 打开索引。
如果同义词比较多，在settings中进行配置时将非常烦琐。
1. ES支持用户将同义词放在文件中，文件的位置必须是在${ES_HOME}/config目录及其子目录下，注意该文件必须存在于ES集群中的每一个节点上。
2. 在${ES_HOME}/config目录下建立一个子目录mydict，然后在该目录下创建一个名称为synonyms.dict的文件。
3. 然后在创建酒店索引时，在settings中指定同义词文件及其路径。
4. 当同义词词典文件内容更新时，例如，在其中添加“酒店，旅店”后，则需要执行如下请求：
```
POST /hotel/_reload_search_analyzers 
```
  执行上述请求后，同义词得到更新，后续就可以在查询中使用新添加的同义词了。

小米手机录音文件位置中少奇智能手机
录音机的文件位置有两个地方，一个地方是\Android\data\com.android.soundrecorder\files另外一个地方\MIUI\sound_recorder
笔记本屏幕亮度忽明忽暗是怎么回事？
当你正在沉浸在写代码、编辑文档或者观看影片的时候，笔记本屏幕突然变暗，或者瞬间又变得刺眼，这不仅打断了你的专注，还可能对眼睛造成伤害。这种屏幕亮度的忽明忽暗，往往令人不悦，也引发了对电脑硬件或软件出现问题的担忧。那么，为什么会出现这种情况呢？更重要的是，我们该如何解决这一问题呢？在本文中，我将与大家分享笔记本屏幕亮度不稳定的可能原因及相应的解决方法，希望能够帮助你迅速恢复屏幕的正常亮度，让你的工作
.NET9 实现 JSON 序列化和反序列化（Newtonsoft.Json & System.Text.Json）性能测试
为了在.NET9平台上对比Newtonsoft.Json和System.Text.Json的序列化与反序列化的性能，我们可以使用BenchmarkDotNet来进行压测。目录1.项目准备2.基准测试环境3.性能对比a.对象级别的序列化（Object-LevelSerialization）b.对象级别的反序列化（Object-LevelDeserialization）c.API响应级别的序列化（Ap
构建未来交互体验：AG-UI 如何赋能智能体与前端通信？ ChaITSimpleLove AG-UI AI Agent 智能体与用户交互协议智能体与用户交互标准化 CopilotKit 开放的轻量的基于事件的协议
目录什么是AG-UI?⚙️AG-UI主要解决什么问题？AG-UI介绍️核心组件1.协议层（ProtocolLayer）2.标准HTTP客户端（StandardHTTPClient）3.消息类型（MessageType）4.运行Agent（RunningAgent）5.状态管理（StateManagement）️6.工具和交接（ToolsandHandoff）事件（Events）MCPvsA2Avs
同花顺复权怎么设置？股价真实走势还原！
同花顺复权怎么设置？股价真实走势还原！复权是什么？为什么炒股必须懂这个？很多新手打开股票软件，看到贵州茅台从几十块涨到上千块，第一反应是"哇，这股票涨了上百倍！"但如果你看的是不复权的价格，这个结论就大错特错了。复权就是把股票历史上的分红、送股、配股等因素考虑进去，还原股价的真实走势。比如一只股票现在价格是10元，去年10送10（每10股送10股），那么去年这个时候的实际股价应该是20元，而不是软
sql更新某个字段的值为两个字段拼接
//name=name+id;字段后拼接：结果为nameidupdatet_tablesetname=concat(name,id);//name=id+name;字段前拼接：结果为idnameupdatet_tablesetname=concat(id,name);
多核CPU如何实现数据共享与通信你一身傲骨怎能输操作系统多核通信机制
文章摘要多核CPU中core1和core2通过共享内存和缓存一致性协议实现数据共享，通过读写同一内存区域交换数据，并使用MESI等协议保证缓存一致性。操作系统提供的同步原语（如锁）和核间中断（IPI）辅助协调核心间的通信与同步。这些机制共同确保了多核之间的高效数据共享和通信。多核CPU中，core1和core2之间间接实现数据共享和通信的主要机制有：1.共享内存（SharedMemory）多个核心
游戏可观测性：如何打造稳定高效的后台服务你一身傲骨怎能输游戏开发技术专栏可观测性
游戏服务可观测性能力建设摘要游戏服务的可观测性建设是保障稳定运营和高效排障的关键。现代游戏采用分布式架构，需要通过指标(Metrics)、日志(Logs)、追踪(Traces)三大支柱实现系统监控。核心能力包括：指标监控：系统资源、服务性能、业务数据日志分析：访问日志、业务日志、异常日志链路追踪：跨服务调用追踪和业务流程跟踪告警与可视化：实时告警、仪表盘、根因分析技术方案建议：指标采集：Prome
附上java下载excel完整实现代码
importcom.alibaba.excel.EasyExcel;importcom.alibaba.excel.ExcelWriter;importcom.alibaba.excel.write.metadata.WriteSheet;importcom.alibaba.excel.write.metadata.fill.FillConfig;importcom.qhsm.airportexp
使用oracle序列
创建序列：CREATESEQUENCEXXXXX_SEQUENCE使用序列：selectXXXXX_SEQUENCE.nextvalfromdual
React——基础贵沫末 react.js 前端前端框架
文章目录React基础一、基础概念二、组件化三、状态四、属性五、项目初始化六、jsx七、创建React组件的两种方式函数式组件（推荐）类组件（不推荐）八、常用的hooks1、useState：用来修改状态值2、useReducer：用来修改状态值，比useState更适合处理复杂逻辑3、useContext：传递数据4、useMemo:缓存计算结果5、useCallback：缓存函数6、useEf
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
LangChain核心组件全解析北辰alk AI langchain
文章目录一、核心架构组件1.模型I/O(ModelI/O)2.检索(Retrieval)3.记忆(Memory)4.链(Chains)5.代理(Agents)二、关键支持组件1.回调系统(Callbacks)2.文档加载器(DocumentLoaders)3.文本分割器(TextSplitters)4.向量存储(VectorStores)三、高级架构组件1.工具集成(Tools)2.工作流(Wor
uniapp、微信小程序使用sm2加密解密，国密sm2
login.js为登录页面js，request.js为公共请求封装js。详细使用方法及文件请前往资源绑定地址下载倒入即可，其中公私要密钥自己生成
Ubuntu磁盘空间清理 BACKLS ubuntu linux 运维
这个错误消息表示你的Ubuntu系统上没有足够的磁盘空间来启动MySQL。你可以按照以下步骤来解决这个问题：检查磁盘使用情况：使用df-h命令检查你的磁盘使用情况，找出哪些分区已经满了。df-h清理不必要的文件：清理一些不必要的文件和目录来释放空间。常见的目录包括/var/log/，/tmp/，以及用户目录下的大文件。sudoapt-getcleansudoapt-getautoremovesud
尝试安装使用无头cms strapi （未完成） skywalk8163 多媒体 web
strapi官网：https://strapi.io/GitHub地址：https://github.com/strapi/strapi中文手册：欢迎来到StrapiCMS文档！|Strapi中文网FreeBSD下使用strapi（未完成）安装npxcreate-strapi-app@latestmy-project--quickstart为了加快速度，可以加上淘宝的npm加速镜像npmconfi
【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
Claude Code 深夜也要加班？这个神器让 AI 自动续命! terryso AI编程 AI编程
你有没有遇到过这种情况？晚上熬夜用ClaudeCode写代码，正写到关键时刻，突然弹出："Claudeusagelimitreached.恢复时间：凌晨3点"这时候你可能已经困得睁不开眼，但又舍不得放弃手头的工作进度…解决方案来了！今天给大家推荐一个开源神器：ClaudeAutoResume，让你的ClaudeCode可以"自动续命"！它是怎么工作的？智能检测：自动监控Claude使用限制倒计时等
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
python爬虫正则表达式使用说明 yuwinter Python python 爬虫正则表达式
Python爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用Python编写爬虫，结合正则表达式提取网页中的数据。一、基础知识点1.安装必要库爬虫通常需要使用库来处理HTTP请求和解析网页，常用库有：requests：用于发送HTTP请求，获取网页内容。re：Python自带的正则表达式库，用于模式匹配和提取数据。BeautifulSoup（可选）：如果你需要更高级的网
根据无人机倾斜摄影osgb做的3dmax模型3dtiles制作，导出.b3dm加载到谷歌地图cesiumlab
根据无人机倾斜摄影osgb做的3dmax模型3dtiles制作，导出.b3dm加载到谷歌地图cesiumlab根据无人机倾斜摄影osgb做的3dmax模型3dtiles制作，导出.b3dm加载到谷歌地图cesiumlab
web与Java代码保护：混淆、压缩及反编译工具详解
本文还有配套的精品资源，点击获取简介：为保障代码的安全性和保密性，IT行业中开发者采用代码混淆和压缩技术。本文将深入探讨web代码混淆压缩工具和Java代码反编译工具，解释它们的工作原理及应用。混淆工具如UglifyJS和Terser用于混淆JavaScript代码，使其难以理解；压缩工具如YUICompressor和GoogleClosureCompiler减小JavaScript和CSS文件的
深入理解 JavaScript/TypeScript 中的展开运算符（...） ttod_qzstudio TypeScript JavaScript javascript typescript 开发语言
在JavaScript和TypeScript中，...运算符（称为展开运算符，英文SpreadOperator）是一个非常强大且常用的语法。它可以让代码更简洁、更灵活，适用于数组、对象、函数参数等多种场景。本文将详细介绍它的用法，并通过示例帮助你彻底掌握它。1.什么是展开运算符（...）？展开运算符...允许将一个可迭代对象（如数组、字符串、Set、Map等）“展开”成独立的元素。它的核心作用是解
聊聊近期三大软件供应链安全威胁墨菲安全软件供应链安全企业安全建设开源组件 AI 投毒攻击
我们对近期（大概近三个月吧）全球范围内发生的软件供应链安全事件进行了一些总结和分析，我们发现被提的次数最多的主要是三大类的风险：1）商业软件供应链攻击：商业软件开发过程不透明，开发商安全水平有限，加上过去企业对商业软件的安全缺乏强制的要求，导致今天商业采购的软件已经成为企业安全木桶的最短板。2）开源组件的投毒攻击：从近期大量曝光的安全事件分析可以发现，开源组件的投毒攻击是目前黑灰产最常用的攻击手段
总结过去三年软件供应链安全一些非共识核心问题
写在前面过去三年，我大概每年平均至少见300个企业的专家和大佬们，这三年下来也快1000人次了吧。虽然有一些人是重复见了很多次的，但每次见也多少会有新的收获。因为工作的原因，我们聊最多的话题其实是跟软件供应链安全相关的，所以我最近就特别想把过去我们这1000次交流过程中，聊到的最核心的问题都提炼出来，然后在今年的产品迭代、公众号、直播、闭门会议、对外技术交流分享中，把这些内容重点放进去。也是希望通
Python：正则表达式慕婉0307 python基础知识点正则表达式
正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文将详细介绍Python正则表达式的使用方法，包括基础语法、高级技巧和re模块API的详细解析。一、正则表达式基础1.1什么是正则表达式正则表达式(RegularExpression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。1.2Python中的re模块Python通过内置的r
探究 Java SPI 原理与实战_打造高扩展性的应用架构随风九天 java java 架构开发语言 Java SPI
1.引言1.1为什么需要模块化与扩展性设计在大型软件系统中，良好的架构设计是至关重要的。模块化和可扩展性设计使得我们能够：将功能划分为独立的模块；在不修改原有代码的前提下引入新功能；实现松耦合、高内聚的设计目标。Java提供了多种机制来支持这种设计，其中SPI（ServiceProviderInterface）是一种轻量级的服务发现机制，广泛用于构建插件化系统。1.2Java中的常见扩展机制概述扩
一键将 SQL 转为 Java 实体类，全面支持 MySQL / PostgreSQL / Oracle！ A__tao sql java mysql
一键将SQL表结构转为Java实体类，全面支持MySQL/PostgreSQL/Oracle！还在手动根据SQL表结构去写Java实体类？字段一个个敲、类型一个个改、注释一个个补，既浪费时间又容易出错！现在，一款强大而简洁的开发神器来了：SQL转Java实体类在线工具（支持MySQL、PostgreSQL、Oracle）适用人群Java后端开发工程师数据库表结构设计者ORM模型搭建者（如Hiber
你懂安全优化SSL嘛? 巴依老爷coder 安全安全 ssl 网络协议
一文带你了解SSL全部内容CIA?SSL概述加密算法对比数字签名与证书RSA加密算法代码实操1.更完善的错误处理2.证书验证3.资源管理改进常见的面试问题CIA?在信息安全领域，CIA（保密性、完整性、可用性）是核心原则，各有其实现方法与面临的威胁：保密性：实现方法：运用加密技术，对称加密（如AES）适合大量数据快速加密，非对称加密（如RSA）用于密钥交换与数字签名；借助访问控制手段，像基于角色的
OpenSSL 与 OpenSSH 离线升级至最新版本 9.9p2
OpenSSL与OpenSSH离线升级至最新版本9.9p2一、前言在网络安全日益重要的今天，保持系统中的OpenSSL和OpenSSH为最新版本是至关重要的。然而，在一些内网环境中，由于网络限制，无法直接从互联网上下载最新的软件包进行升级。本文将详细介绍如何在离线环境下将OpenSSL和OpenSSH升级到最新版本9.9p2。二、准备工作2.1下载所需软件包https://wwyq.lanzouo
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

ElasticSearch 之 文本搜索