wh柒八九

ElasticSearch常用的分词器

本文来说下有关ElasticSearch分词器的几个问题

文章目录

概述
什么是 Analysis
分词器的组成
Analyzer API
ES分词器
- Stamdard Analyzer
- Simple Analyzer
- Whitespace Analyzer
- Stop Analyzer
- Keyword Analyzer
- Pattern Analyzer
- Language Analyzer
- 中文分词
本文小结

概述

这篇文章主要来介绍下什么是 Analysis ，什么是分词器，以及 ElasticSearch 自带的分词器是怎么工作的，最后会介绍下中文分词是怎么做的。

首先来说下什么是 Analysis：

什么是 Analysis

顾名思义，文本分析就是把全文本转换成一系列单词（term/token）的过程，也叫分词。在 ES 中，Analysis 是通过分词器（Analyzer）来实现的，可使用 ES 内置的分析器或者按需定制化分析器。

举一个分词简单的例子：比如你输入 Mastering Elasticsearch，会自动帮你分成两个单词，一个是 mastering，另一个是 elasticsearch，可以看出单词也被转化成了小写的。

再简单了解了 Analysis 与 Analyzer 之后，让我们来看下分词器的组成：

分词器的组成

分词器是专门处理分词的组件，分词器由以下三部分组成：

Character Filters：针对原始文本处理，比如去除 html 标签
Tokenizer：按照规则切分为单词，比如按照空格切分
Token Filters：将切分的单词进行加工，比如大写转小写，删除 stopwords，增加同义语

同时 Analyzer 三个部分也是有顺序的，从图中可以看出，从上到下依次经过 Character Filters，Tokenizer 以及 Token Filters，这个顺序比较好理解，一个文本进来肯定要先对文本数据进行处理，再去分词，最后对分词的结果进行过滤。

其中，ES 内置了许多分词器：

Standard Analyzer - 默认分词器，按词切分，小写处理
Simple Analyzer - 按照非字母切分（符号被过滤），小写处理
Stop Analyzer - 小写处理，停用词过滤（the ，a，is）
Whitespace Analyzer - 按照空格切分，不转小写
Keyword Analyzer - 不分词，直接将输入当做输出
Pattern Analyzer - 正则表达式，默认 \W+
Language - 提供了 30 多种常见语言的分词器
Customer Analyzer - 自定义分词器

接下来会对以上分词器进行讲解，在讲解之前先来看下很有用的 API：_analyzer API：

Analyzer API

它可以通过以下三种方式来查看分词器是怎么样工作的：

直接指定 Analyzer 进行测试

GET _analyze
{
    "analyzer": "standard",
    "text" : "Mastering Elasticsearch , elasticsearch in Action"
}

指定索引的字段进行测试

POST books/_analyze
{
    "field": "title",
    "text": "Mastering Elasticesearch"
}

自定义分词进行测试

POST /_analyze
{
    "tokenizer": "standard", 
    "filter": ["lowercase"],
    "text": "Mastering Elasticesearch"
}

再了解了 Analyzer API 后，让我们一起看下 ES 内置的分词器：

ES分词器

首先来介绍下 Stamdard Analyzer 分词器：

Stamdard Analyzer

它是 ES 默认的分词器，它会对输入的文本按词的方式进行切分，切分好以后会进行转小写处理，默认的 stopwords 是关闭的。

下面使用 Kibana 看一下它是怎么样进行工作的，在 Kibana 的开发工具（Dev Tools）中指定 Analyzer 为 standard，并输入文本 In 2020, Java is the best language in the world.，然后我们运行一下：

GET _analyze
{
  "analyzer": "standard",
  "text": "In 2020, Java is the best language in the world."
}

运行结果如下：

{
  "tokens" : [
    {
      "token" : "in",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "2020",
      "start_offset" : 3,
      "end_offset" : 7,
      "type" : "<NUM>",
      "position" : 1
    },
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "is",
      "start_offset" : 14,
      "end_offset" : 16,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "the",
      "start_offset" : 17,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "in",
      "start_offset" : 35,
      "end_offset" : 37,
      "type" : "<ALPHANUM>",
      "position" : 7
    },
    {
      "token" : "the",
      "start_offset" : 38,
      "end_offset" : 41,
      "type" : "<ALPHANUM>",
      "position" : 8
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "<ALPHANUM>",
      "position" : 9
    }
  ]
}

可以看出是按照空格、非字母的方式对输入的文本进行了转换，比如对 Java 做了转小写，对一些停用词也没有去掉，比如 in。

其中 token 为分词结果；start_offset 为起始偏移；end_offset 为结束偏移；position 为分词位置。

下面来看下 Simple Analyzer 分词器：

Simple Analyzer

它只包括了 Lower Case 的 Tokenizer，它会按照非字母切分，非字母的会被去除，最后对切分好的做转小写处理，然后接着用刚才的输入文本，分词器换成 simple 来进行分词，运行结果如下：

{
  "tokens" : [
    {
      "token" : "in",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "is",
      "start_offset" : 14,
      "end_offset" : 16,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "the",
      "start_offset" : 17,
      "end_offset" : 20,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "in",
      "start_offset" : 35,
      "end_offset" : 37,
      "type" : "word",
      "position" : 6
    },
    {
      "token" : "the",
      "start_offset" : 38,
      "end_offset" : 41,
      "type" : "word",
      "position" : 7
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "word",
      "position" : 8
    }
  ]
}

从结果中可以看出，数字 2020 被去除掉了，说明非字母的的确会被去除，所有的词也都做了小写转换。

现在，我们来看下 Whitespace Analyzer 分词器：

Whitespace Analyzer

它非常简单，根据名称也可以看出是按照空格进行切分的，下面我们来看下它是怎么样工作的：

{
  "tokens" : [
    {
      "token" : "In",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "2020,",
      "start_offset" : 3,
      "end_offset" : 8,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "Java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "is",
      "start_offset" : 14,
      "end_offset" : 16,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "the",
      "start_offset" : 17,
      "end_offset" : 20,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "word",
      "position" : 6
    },
    {
      "token" : "in",
      "start_offset" : 35,
      "end_offset" : 37,
      "type" : "word",
      "position" : 7
    },
    {
      "token" : "the",
      "start_offset" : 38,
      "end_offset" : 41,
      "type" : "word",
      "position" : 8
    },
    {
      "token" : "world.",
      "start_offset" : 42,
      "end_offset" : 48,
      "type" : "word",
      "position" : 9
    }
  ]
}

可以看出，只是按照空格进行切分，2020 数字还是在的，Java 的首字母还是大写的，, 还是保留的。

接下来看 Stop Analyzer 分词器：

Stop Analyzer

它由 Lowe Case 的 Tokenizer 和 Stop 的 Token Filters 组成的，相较于刚才提到的 Simple Analyzer，多了 stop 过滤，stop 就是会把 the，a，is 等修饰词去除，同样让我们看下运行结果：

{
  "tokens" : [
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "word",
      "position" : 8
    }
  ]
}

可以看到 in is the 等词都被 stop filter过滤掉了。

接下来看下 Keyword Analyzer：

Keyword Analyzer

它其实不做分词处理，只是将输入作为 Term 输出，我们来看下运行结果：

{
  "tokens" : [
    {
      "token" : "In 2020, Java is the best language in the world.",
      "start_offset" : 0,
      "end_offset" : 48,
      "type" : "word",
      "position" : 0
    }
  ]
}

我们可以看到，没有对输入文本进行分词，而是直接作为 Term 输出了。

接下来看下 Pattern Analyzer：

Pattern Analyzer

它可以通过正则表达式的方式进行分词，默认是用 \W+ 进行分割的，也就是非字母的符合进行切分的，由于运行结果和 Stamdard Analyzer 一样，就不展示了。

Language Analyzer

ES 为不同国家语言的输入提供了 Language Analyzer 分词器，在里面可以指定不同的语言，我们用 english 进行分词看下：

{
  "tokens" : [
    {
      "token" : "2020",
      "start_offset" : 3,
      "end_offset" : 7,
      "type" : "<NUM>",
      "position" : 1
    },
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "languag",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "<ALPHANUM>",
      "position" : 9
    }
  ]
}

可以看出 language 被改成了 languag，同时它也是有 stop 过滤器的，比如 in,is 等词也被去除了。

最后，让我们看下中文分词：

中文分词

中文分词有特定的难点，不像英文，单词有自然的空格作为分隔，在中文句子中，不能简单地切分成一个个的字，而是需要分成有含义的词，但是在不同的上下文，是有不同的理解的。

比如以下例子：

在这些，企业中，国有，企业，有十个/在这些，企业，中国，有企业，有十个
各国，有，企业，相继，倒闭/各，国有，企业，相继，倒闭
羽毛球，拍卖，完了/羽毛球拍，卖，完了

那么，让我们来看下 ICU Analyzer 分词器，它提供了 Unicode 的支持，更好的支持亚洲语言！

我们先用 standard 来分词，以便于和 ICU 进行对比。

GET _analyze
{
  "analyzer": "standard",
  "text": "各国有企业相继倒闭"
}

运行结果就不展示了，分词是一个字一个字切分的，明显效果不是很好，接下来用 ICU 进行分词，分词结果如下：

{
  "tokens" : [
    {
      "token" : "各国",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "<IDEOGRAPHIC>",
      "position" : 0
    },
    {
      "token" : "有",
      "start_offset" : 2,
      "end_offset" : 3,
      "type" : "<IDEOGRAPHIC>",
      "position" : 1
    },
    {
      "token" : "企业",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "相继",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "倒闭",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    }
  ]
}

可以看到分成了各国，有，企业，相继，倒闭，显然比刚才的效果好了很多。

还有许多中文分词器，在这里列举几个：

IK：

支持自定义词库，支持热更新分词字典
https://github.com/medcl/elasticsearch-analysis-ik

jieba：

Python 中最流行的分词系统，支持分词和词性标注
支持繁体分词、自定义词典、并行分词等
https://github.com/sing1ee/elasticsearch-jieba-plugin

THULAC：

THU Lexucal Analyzer for Chinese, 清华大学自然语言处理和社会人文计算实验室的一套中文分词器
https://github.com/thunlp/THULAC-Java

大家可以自己安装下，看下它中文分词效果。

本文小结

本文主要介绍了 ElasticSearch 自带的分词器，学习了使用 _analyzer API 去查看它的分词情况，最后还介绍下中文分词是怎么做的。

ARM-Cortex学习（一）小白不想画工图 arm开发学习嵌入式硬件
一、ARMARM（全称AdvancedRISCMachines）既可以认为是一个公司的名字，也可以认为是对一类微处理器的通称，还可以认为是一种技术的名字。ARM处理器（AdvancedRISCMachines）是英国Acorn（ARM公司最初是其一个部门，后独立成为一个公司）有限公司设计的低功耗成本的第一款RISC微处理器。ARM处理器本身是32位设计，但也配备16位指令集，一般来讲比等价32位代
Python中如何获取HTTP请求的Response Body 傻啦嘿哟关于python那些事儿 python http 开发语言
目录一、引言二、使用urllib库获取ResponseBody1.基本用法2.发送POST请求三、使用requests库获取ResponseBody1.安装requests库2.基本用法3.发送POST请求4.处理JSON响应四、高级用法1.处理请求头2.设置超时3.处理Cookies五、案例：爬取网页内容六、总结在Python中进行网络编程和Web开发时，经常需要发送HTTP请求并处理服务器返回
Python pip更换国内源王阿菜 python
1.Pycharm内更换File-->Settings-->Project:*****-->PythonInterpreter点击加号-->MangeRepositories选择PIP的地址，修改成国内源-->保存2.Windows上修改在本机的user目录下新建一个pip目录，新建文件pip.ini，代码如下：[global]index-url=https://pypi.tuna.tsinghu
webview加载页面有2秒白屏_iOS App秒开H5实战总结 weixin_39875419
作者|肖亚东，目前就职于南京有货，主要从事iOS和小程序端的开发，伪前端，喜爱RN、flutter等跨平台技术。热爱电影，美食，篮球，偶像科比，朋友都称他曼巴来源|https://juejin.im/user/593a775561ff4b006c76346a在《iOSapp秒开H5优化探索》一文中简单介绍了优化的方案以及一些知识点，本文继续介绍使用WKURLSchemeHandler拦截加载离线包
重修设计模式-行为型-责任链模式丶白泽重修设计模式设计模式 okhttp 责任链模式
重修设计模式-行为型-责任链模式将请求的发送和接收解耦，让多个接收对象都有机会处理这个请求。将这些接收对象串成一条链，并沿着这条链传递这个请求，直到链上的某个接收对象能够处理它为止。责任链模式（ChainofResponsibilityPattern）也叫职责链模式，通过将请求的处理分配给一系列的处理对象，这些处理对象通过链式结构组织起来，以实现对请求的灵活处理。比如，一个请求先经过A处理器处理，
flutter 解析html文件,Flutter WebView加载本地html的问题佛念法苏法念你 flutter 解析html文件
最近项目中，用到了flutter中的webview加载带有echarts控件的html文件，但是发现图表一直无法显示，通过查询相关资料，分析apk包文件，知道了是由于flutter项目中的文件打包后的路径发生变化，造成找不到相关依赖，特此记录一下，使用下面这个方法便可以解析出Android和IOS打包后的apk中资源文件的实际位置。///获取打包后的资源文件实际路径///如assets/files
ESP8266开发环境搭建 D_kity ESP8266 iot 物联网 c语言
1、工具安装sudoapt-getinstallgccgitwgetmakelibncurses-devflexbisongperfpythonpython-serial2、下载编译工具or64-bitLinux:https://dl.espressif.com/dl/xtensa-lx106-elf-gcc8_4_0-esp-2020r3-linux-amd64.tar.gzfor32-bitL
集群部署时的分布式 Session 如何实现？码农小旋风后端
面试题集群部署时的分布式Session如何实现？面试官心理分析面试官问了你一堆Dubbo是怎么玩儿的，你会玩儿Dubbo就可以把单块系统弄成分布式系统，然后分布式之后接踵而来的就是一堆问题，最大的问题就是分布式事务、接口幂等性、分布式锁，还有最后一个就是分布式Session。当然了，分布式系统中的问题何止这么一点，非常之多，复杂度很高，这里只是说一下常见的几个问题，也是面试的时候常问的几个。面试题
新的Python库、项目管理工具——uv CS创新实验室 Python python uv 开发语言
uv是一个由Astral团队开发的高性能Python包和项目管理工具。Astral团队也是广受欢迎的Ruff（一个极速的Pythonlinter）的开发者。uv的目标是成为Python生态中的“一站式”工具，取代传统的工具链（如pip、pip-tools、virtualenv、poetry等），同时提供更快的速度和更强大的功能。uv的核心优势在于其极快的速度和多功能性。它基于Rust编写，充分利用
电机系统技术架构解析~小米汽车电机系统及智能门极驱动技术解析清风明月自在愁汽车总结架构
先解释什么是小米智能门极电机驱动技术:小米汽车的智能门极驱动技术是一种用于优化电动汽车电驱系统性能的先进技术，以下是对其的总结：核心概念•智能门极驱动：通过动态调节功率半导体器件的门极驱动强度，优化开关速度和电路稳定性，从而降低开关损耗、提高系统效率和续航里程。技术原理•动态调节门极电阻：•根据电动汽车的运行工况（如电流、电压、温度等），智能门极驱动技术可以动态调节门极电阻的大小。•在高电流工况下
蓝桥杯——入门训练 Luvsic
.Fibonacci数列if(n==1){return1;}if(n==2){return2;}intvalue[]=newint[4];value[1]=1;value[2]=1;for(inti=3;im?result-m:result);}returnvalue[n&3];}在这里插入代码片实现求第n个斐波那契数列数并模m2.求圆的面积java中Π的为Math.PI，并且结果保留n位小数，S
GPU架构（1.2）--GPU SoC 中的 CPU 架构小蘑菇二号手把手教你学 GPU SoC 芯片智能电视
目录详细介绍GPUSoC中的CPU架构1.CPU核心概述ARMCortex-A72ARMCortex-A762.多线程处理多核架构多线程支持3.任务调度任务调度器动态调度4.内存管理内存层次结构内存管理技术5.接口和通信总线接口I/O接口6.功耗和热管理功耗优化热管理7.应用实例边缘计算图形处理深度学习结语详细介绍GPUSoC中的CPU架构GPUSoC不仅集成了高性能的GPU，还集成了高性能的CP
flutter组件分类明致成 flutter航旅记录 flutter 前端
flutter组件分类一、基础组件文本样式Text：用于显示简单样式文本textAlign：文本的对齐方式maxLines：指定文本显示的最大行数overflow：指定文本截断方式textScaleFactor：文本缩放因子，主要是用于系统字体大小设置改变时对Flutter应用字体进行全局调整TextStyle：指定文本显示的样式height：行高因子，具体的行高=fontSize*heightf
面试官问：为什么 Java 线程没有 Running 状态？我懵了字节全栈_rJF java 开发语言
更具体点，javadoc中是这样说的：处于runnable状态下的线程正在Java虚拟机中执行，但它可能正在等待来自于操作系统的其它资源，比如处理器。AthreadintherunnablestateisexecutingintheJavavirtualmachinebutitmaybewaitingforotherresourcesfromtheoperatingsystemsuchasproc
自定义Bean Validation异常处理器实现与应用 t0_54program python 开发语言个人开发
在Java的JAX-RS框架中，BeanValidation是一个非常强大的功能，它可以用于验证输入数据是否符合预期的规则。然而，默认情况下，当验证失败时，Jersey会抛出ConstraintViolationException，并返回一个“BadRequest”（400）错误。虽然这已经足够用于基本的验证，但有时候我们可能需要更详细的错误信息来帮助用户理解问题所在。本文将通过一个完整的示例，展
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
flume系列之：消费Kafka集群Topic报错java.io.IOException: Can‘t resolve address: data03:9092 快乐骑行^_^ flume flume系列消费Kafka集群Topic OException resolve address
flume系列之：消费Kafka集群Topic报错java.io.IOException:Can'tresolveaddress:data03:9092Causedby:java.nio.channels.UnresolvedAddressException一、flume消费Kafka集群Topic报错二、报错原因三、解决方法一、flume消费Kafka集群Topic报错21Sep202214:5
安卓通过网络获取位置的方法爱学习的大牛123 开发语言 android 网络定位
一方法介绍1.基本权限设置首先需要在AndroidManifest.xml中添加必要权限：```xml```2.使用NetworkLocationProvider```javaLocationManagerlocationManager=(LocationManager)getSystemService(Context.LOCATION_SERVICE);//检查是否启用了网络定位booleani
MacOS电源管理驱动优化指南金融先生-Frank
本文还有配套的精品资源，点击获取简介：苹果电脑的电源管理驱动是确保系统高效运行和电池寿命的关键组件。该驱动允许MacOS智能调整性能设置，适应如电池模式下节能或接通电源时的高性能需求。本文介绍的驱动版本可能经过第三方优化，以提供更精细的电源控制和电池效率提升。内容涵盖电源管理策略、休眠睡眠模式、USB充电管理、电池健康监测、性能与功耗平衡以及热管理等关键知识点，并强调了安装或更新时的注意事项。1.
matlab神经网络遥感反演,基于BP神经网络的盐渍土盐分遥感反演模型研究老许的花开 matlab神经网络遥感反演
采用遥感技术和BP神经网络技术,结合野外实测的盐渍土光谱特征和实验室化验的土壤含盐数据,对盐渍土盐分的遥感反演进行了模型的设计与编程实现。BP神经网络模型的预测精度在62.5%,明显高于传统统计模型的预测精度,表明BP神经网络能较好地模拟土壤含盐量与光谱数据之间的关系,可用于建立土壤盐分遥感反演模型。更多还原【Abstract】Theresearchonsalinityinversionfromr
elasticsearch文档 Compound queries songtaiwu elasticsearch 大数据搜索引擎
Booleanquery|ElasticsearchGuide[8.15]|ElasticBooleanquery布尔查询是用于匹配出和组合中的其他查询匹配的文档。bool查询映射到LuceneBooleanQuery。它由一个或更多的布尔子句组成，每个子句是一个类型化的事件。事件如下：must子句（查询）必须出现在匹配的文档中，并将有助于得分。filter子句（查询）必须出现在匹配的文档中。但和
[C++]DirectX 12 3D游戏开发实战—第12章学习笔记02 2019.5.8 卡酷酷 C++DirectX12
个人学习使用，请勿转载12.3纹理数组12.3.1概述纹理数组即为存放纹理的数组。C++代码中纹理数组也由ID3D12Resource接口表示，创建ID3D12Resource对象时，可以通过设置DepthArraySize属性指定纹理数组所存储的元素个数。在d3dApp文件中创建深度/纹理模板时总是将该值设为1。CreateD3DResource12函数。Texture2DArraygTreeM
Aligner：自动修正AI的生成结果，北大推出残差修正模型对齐技术蚝油菜花每日 AI 项目与应用实例人工智能人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发非常感兴趣，我会每日分享大模型与AI领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读技术背景：Aligner是北京大学团队提出的大语言模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。核心优势：作为即插即用的模块，可以直接应用于各种开源和基于API的模型
2025 AI行业变革：从DeepSeek V3到o3-mini的技术演进 Light60 AI应用产业篇人工智能 DeepSeek-V3 o3-mini
【核心要点】DeepSeekV3引领算力革命，成本降至1/20o3-mini以精准优化回应市场挑战AI技术迈向真正意义的民主化行业生态正在深刻重构一、市场格局演变发展脉络2025年初，AI行业迎来重要转折。DeepSeek率先发布V3模型，通过革命性的架构创新和算力优化，将AI应用成本降至历史新低。这一突破引发广泛关注，推动AI技术加速走向普及。随后，OpenAI推出o3-mini作为战略性回应，
Kubernetes监控，查看日志稚辉君.MCA_P8_Java Kubernetes Cluster kubernetes 云原生运维容器
Kubernetes监控与日志1、查看集群资源状态在Kubernetes集群中，查看集群资源状态和组件状态是非常重要的操作。以下是一些常用的命令和解释，帮助你更好地管理和监控Kubernetes集群。1.1查看master组件状态Kubernetes的Master组件包括APIServer、ControllerManager和Scheduler。可以使用kubectlgetcs（cs：compon
ElasticSearch view 稚辉君.MCA_P8_Java CentOS7.6 Kubernetes Cluster 高可用Kubernetes集群 elasticsearch linux 全文检索搜索引擎大数据
基础知识类elasticsearch和数据库之间区别？elasticsearch：面向文档，数据以文档的形式存储，即JSON格式的对象。更强调数据的搜索、索引和分析。数据库：更侧重于事务处理、数据的严格结构化和完整性，适用于关系复杂、数据一致性要求高的业务场景。elasticsearch和核心组件包含哪些？节点（Node）：elasticsearch集群中一个服务器实例，负责存储数据、处理请求等，
cruise软件模型，混动仿真模型，IMMD架构混联混动仿真模型，Cruise混动仿真模型 fguynpx 程序人生
cruise软件模型，混动仿真模型，IMMD架构混联混动仿真模型，Cruise混动仿真模型，混联混动汽车动力性经济性仿真。关于模型1.本模型是基于IMMD架构搭载的混联混动仿真模型，关于IMMD架构详细信息请自行查询。模型是基于cruisesimulink搭建的base模型，策略模型基于MATLABSimulink平台搭建完成，通过C++编译器编译成dll文件给CRUISE引用，实现联合仿真。2.
【系统架构设计师】专业英语90题（附答案详解）数据知道系统架构设计师(软考高级)系统架构架构软考高级系统架构设计师经典习题专业英语
更多内容请见：备考系统架构设计师-核心总结索引文章目录【第1~5题】【第6~10题】【第11~15题】【第16~20题】【第21~25题】【第26~30题】【第31~35题】【第36~40题】【第41~45题】【第46~50题】【第51~55题】【第56~60题】【第61~65题】【第66~70题】【第71~75题】【第76~80题】【第81~85题】【第86~90题】【第1~5题】Anappli
ArcGIS土地利用数据制备、分析及基于FLUS模型土地利用预测（数据采集、处理、分析、制图）赵钰老师 ArcGIS 生态系统遥感 arcgis 数据分析
FLUS（FlexibleLandUseSimulation）模型是一个用于模拟土地利用变化的模型，它结合了经济理论、土地利用和土地覆盖变化的动态过程。FLUS模型由美国农业部农业经济研究服务局（ERS）开发，旨在提供对美国及全球土地利用变化的预测。以下是FLUS模型的一些关键特点：土地利用变化：模拟不同土地利用类型之间的转换，如从农田到城市用地或森林。经济驱动：模型基于经济原则，模拟土地所有者如
基于IMMD架构的Cruise混动仿真模型及策略详解 ExhNGUa 程序人生
cruise软件模型，混动仿真模型，IMMD架构混联混动仿真模型，Cruise混动仿真模型，混联混动汽车动力性经济性仿真。关于模型1.本模型是基于IMMD架构搭载的混联混动仿真模型，关于IMMD架构详细信息请自行查询。模型是基于cruisesimulink搭建的base模型，策略模型基于MATLABSimulink平台搭建完成，通过C++编译器编译成dll文件给CRUISE引用，实现联合仿真。2.
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后