kuangxiang_panpan

aws Opensearch 拼音插件

一、背景

OpenSearch 是一款开源的分布式搜索和分析套件。Amazon OpenSearch Service 是一项托管服务，可让您轻松部署、操作和扩展 OpenSearch 集群，并安全地实时搜索、监控和分析业务和运营数据，适合应用程序监控、日志分析、可观察性和网站搜索等使用场景。

OpenSearch 的拼音插件，可以将中文字符转换为拼音，使得 OpenSearch 能够更好地处理和搜索中文数据。在处理中文数据时，我们经常需要进行拼音搜索。例如，用户可能会用拼音来搜索中文关键词，或者在输入时使用拼音自动补全。此外，拼音搜索还可以作为一种备选的搜索方式，当直接的中文搜索没有返回满意结果时，用户可以尝试拼音搜索。

二、拼音插件配置

目前使用 Amazon OpenSearch Service 创建 v1.3 及以上版本的 OpenSearch 集群时，都提供了对拼音插件的支持。接下来，我们演示安装配置拼音插件的步骤。

首先，进入到域管理页面，创建一个 OpenSearch 域（OpenSearch 域是 OpenSearch 集群的同义词）。本示例中，选择 v2.11 版本的 OpenSearch 域，如下图所示。

接下来，进入“程序包”菜单，打开“插件”页面，并选择“OpenSearch 2.11”。在列表中找到“analysis-pinyin”链接，点击它进入拼音插件配置页面，如下图所示。

在拼音插件的配置页面中，点击“关联到域”按钮，在弹出的页面中选择此前创建的 OpenSearch 域，确认后点击“关联”按钮，如下面两图所示。

待关联状态显示为“有效”时，就可以在 OpenSearch 中使用拼音插件了。

三、拼音插件应用

插件生效验证

在 Amazon OpenSearch Service 域详情页面中，找到 Dashboards URL，打开 Dashboard 页面（本文出于简化演示过程的目的，在网络设置中配置 OpenSearch 为公有访问权限）。

在 Dashboard 中可以对索引中的数据进行搜索、查看、交互和可视化。接下来，进入“Dev Tools” 页面，以便使用 Restful 接口与 OpenSearch 进行交互，执行命令。

在 Console 中输入如下命令，验证拼音插件是否生效。若能返回如下截图中的内容，则说明拼音插件生效。

POST /_analyze
{
  "text": ["亚马逊云科技"],
  "analyzer": "pinyin"
}

插件简单使用

OpenSearch 中，一个完整的文本分析过程（analyzer）包含三部分：

字符串过滤器（character-filter）：用于对原始文本做简单字符过滤与映射，例如剔除文本中的 HTML 标签。
分词器（tokenizer）：把原始的文本按照一定的规则切分一个个单词。对于中文文本而言，分词效果取决于所选分词器。
分词过滤器（token-filter）：用于对分词器切换后的单词进一步的过滤与转换。例如停用词。

本文介绍的 OpenSearch 拼音插件，默认包含了分析器 pinyin，分词器 pinyin 与分词过滤器 pinyin。

在上文验证插件生效时，就是使用了默认的分析器 pinyin。接下来我们继续使用默认的拼音分析器，来创建索引、插入数据和搜索数据。首先，我们创建了一个名为 test 的索引，该索引只有一个字段：city，并设置拼音分析器；然后向该索引插入了“北京”、“成都”、“哈尔滨”、“西安”等四条记录；最后使用“北京”的拼音首字母“bj”，成功搜索出来“北京”。

输入命令：

PUT /test
{
  "mappings": {
    "properties": {
      "city": {
        "type": "text",
        "analyzer": "pinyin"
      }
    }
  }
}

POST /test/_doc
{
  "city": "北京"
}

POST /test/_doc
{
  "city": "成都"
}

POST /test/_doc
{
  "city": "哈尔滨"
}

POST /test/_doc
{
  "city": "西安"
}



GET /test/_search
{
  "query": {
    "match": {
      "city": "bj"
    }
  }
}

输出结果：

{
  "took": 927,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 0.3331056,
    "hits": [
      {
        "_index": "test",
        "_id": "7IIuDIwBkL3QXh08v51F",
        "_score": 0.3331056,
        "_source": {
          "city": "北京"
        }
      }
    ]
  }
}

自定义分析器

我们再来观察一下默认拼音分析器的分词结果。

输入如下命令：

POST /_analyze
{
  "text": ["亚马逊云科技"],
  "analyzer": "pinyin"
}

输出如下结果：

{
  "tokens": [
    {
      "token": "ya",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 0
    },
    {
      "token": "ymxykj",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 0
    },
    {
      "token": "ma",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 1
    },
    {
      "token": "xun",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 2
    },
    {
      "token": "yun",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 3
    },
    {
      "token": "ke",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 4
    },
    {
      "token": "ji",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 5
    }
  ]
}

通过如上的返回结果可以看出，拼音分析器默认的分词结果，是分别按照文本的拼音首字母以及文本中每个汉字的拼音进行了分词。然而，在有的场景中，可能还需要文本的拼音全拼组合，或者需要在索引中保留文本的中文原文，此时就需要自定义分本分析器。接下来，演示如何创建自定义分析器。如下面命令所示，在自定义分析器中设置要求保留文本的原文（”keep_original” : true），取消基于每个汉字拼音的分词（”keep_full_pinyin” : false），但保留所有汉字拼音全拼的字符串拼接（”keep_joined_full_pinyin” : true）、以及所有汉字拼音首字母的字符串拼接（”keep_first_letter” : true）。

输入命令：

PUT /test2/
{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "my_pinyin_analyzer" : {
                    "tokenizer" : "my_pinyin"
                    }
            },
            "tokenizer" : {
                "my_pinyin" : {
                    "type" : "pinyin",
                    "keep_first_letter" : true,
                    "keep_joined_full_pinyin" : true, 
                    "keep_full_pinyin" : false,
                    "keep_original" : true
                }
            }
        }
    }
}

POST /test2/_analyze
{
  "text": ["亚马逊云科技"],
  "analyzer": "my_pinyin_analyzer"
}

输出结果：

{
  "tokens": [
    {
      "token": "亚马逊云科技",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 0
    },
    {
      "token": "yamaxunyunkeji",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 0
    },
    {
      "token": "ymxykj",
      "start_offset": 0,
      "end_offset": 0,
      "type": "word",
      "position": 0
    }
  ]
}

上面示例仅展示了部分参数，拼音插件的全部可选参数及其默认值，如下所示。大家可以根据自己的场景，设置所需参数，灵活自定义自己的拼音分析器。

keep_first_letter : 当此选项启用时，例如：亚马逊云科技>ymzykt，默认值：true
keep_separate_first_letter : 当此选项启用时，将保持首字母分开，例如：亚马逊云科技>y,m,z,y,k,t，默认值：false，注意：由于词项过于频繁，查询结果可能过于模糊
limit_first_letter_length : 设置first_letter结果的最大长度，默认值：16
keep_full_pinyin : 当此选项启用时，例如：亚马逊云科技> [ya,ma,xun,yun,ke,ji]，默认值：true
keep_joined_full_pinyin : 当此选项启用时，例如：亚马逊云科技> [yamaxunyunkeji]，默认值：false
keep_none_chinese : 在结果中保留非中文字母或数字，默认值：true
keep_none_chinese_together : 保持非中文字母在一起，默认值：true，例如：DJ音乐家 -> DJ,yin,yue,jia，当设置为false时，例如：DJ音乐家 -> D,J,yin,yue,jia，注意：首先应启用keep_none_chinese
keep_none_chinese_in_first_letter : 在first letter中保留非中文字母，例如：亚马逊云科技AT2016->ymzyktat2016，默认值：true
keep_none_chinese_in_joined_full_pinyin : 在joined full pinyin中保留非中文字母，例如：亚马逊云科技2016->yamaxunyunkeji2016，默认值：false
none_chinese_pinyin_tokenize : 如果它们是拼音，将非中文字母分解为单独的拼音词项，默认值：true，例如：yamaxunyunkeji13zhuanhuan -> ya,ma,xun,yun,ke,ji,13,zhuan,huan，注意：首先应启用keep_none_chinese和keep_none_chinese_together
keep_original : 当此选项启用时，将同时保留原始输入，默认值：false
lowercase : 小写非中文字母，默认值：true
trim_whitespace : 移除前后空格，默认值：true
remove_duplicated_term : 当此选项启用时，重复的词项将被删除以节省索引，例如：de的>de，默认值：false，注意：位置相关的查询可能会受到影响

拓展应用

在实际应用中，存入索引字段的内容可能是一大段中文文本，若直接使用拼音插件，无论将整段文本转换为拼音、还是逐字分词再转换为拼音，可能最终的搜索效果都不理想。此时，就需要将拼音插件与 IK 中文插件一起使用（IK 中文插件从 Amazon OpenSearch 1.0 版本开始默认安装，无需额外配置）。

上文提到，一个完整的文本分析过程（analyzer）包含三部分：字符串过滤器（character-filter）、分词器（tokenizer）、分词过滤器（token-filter）。比较常见的一种拼音分词策略是在 tokenizer 上使用 ik 分词器进行正常的中文分词，然后在 token-filter 使用 pinyin 分词过滤器，对于 ik 分词器输出的每个 token，都应用拼音分词过滤器进行转换。接下来，我们通过示例索引 test3 进行演示。

输入命令：

PUT /test3/
{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "my_cn_analyzer" : {
                    "tokenizer" : "ik_max_word",
                    "filter" : ["my_pinyin", "my_stop"]
                }
            },
            "filter": {
                "my_pinyin" : {
                    "type" : "pinyin",
                    "keep_first_letter" : true,
                    "keep_joined_full_pinyin" : true, 
                    "keep_full_pinyin" : false,
                    "keep_original" : true,
                    "none_chinese_pinyin_tokenize" : false,
                    "keep_none_chinese_together" : true
                },
                "my_stop": {
                    "type": "stop",
                    "stopwords": ["的", "是", "在","与"]
                }
            }
        }
    }
}

POST /test3/_analyze
{
  "text": ["亚马逊云科技提供安全、广泛且可靠的全球云基础设施"],
  "analyzer": "my_cn_analyzer"
}

输出结果：

{
  "tokens": [
    {
      "token": "亚马逊",
      "start_offset": 0,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "yamaxun",
      "start_offset": 0,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "ymx",
      "start_offset": 0,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "云",
      "start_offset": 3,
      "end_offset": 4,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "yun",
      "start_offset": 3,
      "end_offset": 4,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "y",
      "start_offset": 3,
      "end_offset": 4,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "科技",
      "start_offset": 4,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 2
    },
    {
      "token": "keji",
      "start_offset": 4,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 2
    },
    {
      "token": "kj",
      "start_offset": 4,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 2
    },
    {
      "token": "提供",
      "start_offset": 6,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "tigong",
      "start_offset": 6,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "tg",
      "start_offset": 6,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "安全",
      "start_offset": 8,
      "end_offset": 10,
      "type": "CN_WORD",
      "position": 4
    },
    {
      "token": "anquan",
      "start_offset": 8,
      "end_offset": 10,
      "type": "CN_WORD",
      "position": 4
    },
    {
      "token": "aq",
      "start_offset": 8,
      "end_offset": 10,
      "type": "CN_WORD",
      "position": 4
    },
    {
      "token": "广泛",
      "start_offset": 11,
      "end_offset": 13,
      "type": "CN_WORD",
      "position": 5
    },
    {
      "token": "guangfan",
      "start_offset": 11,
      "end_offset": 13,
      "type": "CN_WORD",
      "position": 5
    },
    {
      "token": "gf",
      "start_offset": 11,
      "end_offset": 13,
      "type": "CN_WORD",
      "position": 5
    },
    {
      "token": "且",
      "start_offset": 13,
      "end_offset": 14,
      "type": "CN_CHAR",
      "position": 6
    },
    {
      "token": "qie",
      "start_offset": 13,
      "end_offset": 14,
      "type": "CN_CHAR",
      "position": 6
    },
    {
      "token": "q",
      "start_offset": 13,
      "end_offset": 14,
      "type": "CN_CHAR",
      "position": 6
    },
    {
      "token": "可靠",
      "start_offset": 14,
      "end_offset": 16,
      "type": "CN_WORD",
      "position": 7
    },
    {
      "token": "kekao",
      "start_offset": 14,
      "end_offset": 16,
      "type": "CN_WORD",
      "position": 7
    },
    {
      "token": "kk",
      "start_offset": 14,
      "end_offset": 16,
      "type": "CN_WORD",
      "position": 7
    },
    {
      "token": "de",
      "start_offset": 16,
      "end_offset": 17,
      "type": "CN_CHAR",
      "position": 8
    },
    {
      "token": "d",
      "start_offset": 16,
      "end_offset": 17,
      "type": "CN_CHAR",
      "position": 8
    },
    {
      "token": "全球",
      "start_offset": 17,
      "end_offset": 19,
      "type": "CN_WORD",
      "position": 9
    },
    {
      "token": "quanqiu",
      "start_offset": 17,
      "end_offset": 19,
      "type": "CN_WORD",
      "position": 9
    },
    {
      "token": "qq",
      "start_offset": 17,
      "end_offset": 19,
      "type": "CN_WORD",
      "position": 9
    },
    {
      "token": "云",
      "start_offset": 19,
      "end_offset": 20,
      "type": "CN_CHAR",
      "position": 10
    },
    {
      "token": "yun",
      "start_offset": 19,
      "end_offset": 20,
      "type": "CN_CHAR",
      "position": 10
    },
    {
      "token": "y",
      "start_offset": 19,
      "end_offset": 20,
      "type": "CN_CHAR",
      "position": 10
    },
    {
      "token": "基础设施",
      "start_offset": 20,
      "end_offset": 24,
      "type": "CN_WORD",
      "position": 11
    },
    {
      "token": "jichusheshi",
      "start_offset": 20,
      "end_offset": 24,
      "type": "CN_WORD",
      "position": 11
    },
    {
      "token": "jcss",
      "start_offset": 20,
      "end_offset": 24,
      "type": "CN_WORD",
      "position": 11
    },
    {
      "token": "基础",
      "start_offset": 20,
      "end_offset": 22,
      "type": "CN_WORD",
      "position": 12
    },
    {
      "token": "jichu",
      "start_offset": 20,
      "end_offset": 22,
      "type": "CN_WORD",
      "position": 12
    },
    {
      "token": "jc",
      "start_offset": 20,
      "end_offset": 22,
      "type": "CN_WORD",
      "position": 12
    },
    {
      "token": "设施",
      "start_offset": 22,
      "end_offset": 24,
      "type": "CN_WORD",
      "position": 13
    },
    {
      "token": "sheshi",
      "start_offset": 22,
      "end_offset": 24,
      "type": "CN_WORD",
      "position": 13
    },
    {
      "token": "ss",
      "start_offset": 22,
      "end_offset": 24,
      "type": "CN_WORD",
      "position": 13
    }
  ]
}

接下来，我们再设置索引 test3 的 mapping 信息，演示如何在字段级别设置自定义分析器，然后进行数据插入与搜索演示。

输入命令：

PUT /test3/_mapping
{

  "properties" : {
      "name" : {
          "type" : "text"
      },
      "description" : {
          "type" : "text",
          "analyzer" : "my_cn_analyzer"
      }
  }
    
}

POST /test3/_doc
{
  "name": "亚马逊云科技",
  "description": "亚马逊云科技提供安全、广泛且可靠的全球云基础设施"
}

POST /test3/_doc
{
  "name": "Amazon Opensearch",
  "description": "Amazon Opensearch对PB级文本与非结构化数据提供搜索、可视化与分析"
}

GET /test3/_search
{
  "query": {
    "match": {
      "description": "ymx"
    }
  }
}

输出结果：

{
  "took": 8,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 0.39376214,
    "hits": [
      {
        "_index": "test3",
        "_id": "8ILtEIwBkL3QXh08jp1h",
        "_score": 0.39376214,
        "_source": {
          "name": "亚马逊云科技",
          "description": "亚马逊云科技提供安全、广泛且可靠的全球云基础设施"
        }
      }
    ]
  }
}

四、总结

本文作为拼音插件的入门指南，介绍了如何在 Amazon OpenSearch Service 中安装配置拼音插件，并通过简单示例演示了如何在索引中设置默认的拼音分析器，随后通过插入数据以及搜索数据进行效果验证。接着，演示了如何设置拼音插件的相关参数来创建自定义分析器，以实现更加灵活的场景。最后，拓展了拼音插件的用法，将拼音插件与 IK 中文插件相结合，针对中文文本实现了更理想的拼音分词效果。总的来说，拼音插件可以极大地提高 OpenSearch 处理中文数据的能力，使其能够满足更多复杂的搜索需求。

本篇作者

张盼富

AWS 解决方案架构师，从业十三年，先后经过历云计算、供应链金融、电商等多个行业，担任过高级开发、架构师、产品经理、开发总监等多种角色，有丰富的大数据应用与数据治理经验。加入亚马逊云科技后，致力于通过大数据+AI 技术，帮助企业加速数字化转型。

2025AI智能体平台，10个Agent智能体开发平台推荐 cczixun 人工智能智能体大数据安全
1、扣子（Coze）开发平台字节跳动推出的AI智能体开发平台，用户无需编程基础，通过拖拽和配置即可快速创建聊天机器人，并部署到豆包、飞书、抖音、微信等多个平台。平台提供超过1万+的插件，内置豆包・Functioncall32k、通义千问-Max8k等多个大模型，还具备知识库、数据库、图像流等功能。2、通义千问Agent平台阿里巴巴基于通义千问大模型打造的智能体开发框架，以强大的多模态能力和工具集成
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
2018-03-19新零售是未来的商业模式吗？马云对新零售到底什么看法? 拼自己想要的梦想
马云对新零售到底什么不雅观不雅观点?其实，在此之前，新零售一词就已经在业界出现过，而马云此次的提出，使其作为一个正式的名词传布开来。马云认为互联网时代，传统零售行业受到了电商互联网的打击。将来，线下与线上零售将深度连系，再加当代物流，办事商把持大数据、云计较等立异手艺，构成将来新零售的概念。纯电商的时代很快将竣事，纯零售的情势也将被冲破，新零售将引领将来全新的商业形式。新零售是从哪里来的?新零售是
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
cm3d2 & com3d2 HECUgauss Kiss 经验分享游戏程序
新增一个分类，因为旧做cm3d2有些插件是可以通用的，标注CM3D2的就是理论上旧做也能用的（但我手上没有cm3d2所以只是理论上）网站Hgamewikicom3d2分区CustomMaid3D2-HgamesWiki(anime-sharing.com)https://wiki.anime-sharing.com/hgames/index.php?title=Custom_Maid_3D2中文資
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
推客系统”小程序全链路开发指南：从技术架构到爆发增长的核心方法论
一、行业背景与产品定位1.1社交电商的3大趋势流量去中心化：微信生态贡献超60%的社交电商GMV（2023年数据）推客经济崛起：头部平台超30%订单来自用户分享（如拼多多、京东芬香）小程序技术成熟：微信官方插件（如物流助手、分账系统）降低开发门槛1.2为什么选择小程序？天然裂变场景：微信社交关系链+即用即走体验成本优势：对比APP开发成本降低70%，迭代周期缩短50%商业化闭环：从获客→支付→售后
【python】向AWS Dynamodb中插入数据
一、背景AWSDynamodb数据库在架构中起到的作用是配置数据库，s3上buckect_a-->bucket_b-->bucket_c对应着层与层之间的关系，总所周知，Dynamobd是非关系型数据库，数据插入的格式是键值对形式的二、代码importboto3importjsonimportpandasaspdAWS_ACCESS_KEY_ID=''AWS_SECRET_ACCESS_KEY='
在Python中对嵌套对象(DynamoDB和表)使用模拟潮易 python 开发语言
在Python中，我们可以使用boto3库来模拟AWSDynamoDB的行为。以下是一个简单的例子，说明如何使用boto3来模拟DynamoDB的表，然后插入和查询数据：首先，你需要安装boto3库。你可以使用pip来安装：```bashpipinstallboto3```然后，你可以创建一个模拟器，并添加一些模拟的数据：```pythonimportboto3frombotocore.stubi
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
全球化短剧平台全栈技术架构白皮书：多区域部署、智能分发与沉浸式体验的完整解决方案 ywyy6798 推客系统短剧小程序海外短剧短剧分销海外短剧系统开发短剧系统开发
一、全球化基础架构深度设计全球网络基础设施构建采用多活数据中心部署模式，在北美（弗吉尼亚）、欧洲（法兰克福）、亚太（新加坡）建立三大核心枢纽节点构建混合CDN网络，整合AWSCloudFront、Akamai、Fastly等主流CDN服务商，同时接入当地优质运营商CDN部署边缘计算节点网络，在全球200+边缘位置部署轻量级计算单元，实现用户请求的就近处理建立智能流量调度系统，基于实时网络状况监测数
用ELK日志分析平台分析常见的系统登录问题
通过ELK（Elasticsearch、Logstash、Kibana）日志分析平台，除了登录超时问题，还可深入分析以下常见的系统登录问题，并结合实际场景提供解决方案：一、认证失败分析1.问题定位场景：用户输入错误密码、账户锁定、服务端认证模块故障等。ELK实现：日志解析：通过Logstash的Grok插件提取关键字段（如用户名、IP、错误类型），例如解析/var/log/auth.log中的Fa
C4D全套插件一键安装包Pro v2.3 无需注册码首条
插件版权归原作者，本程序仅供测试学习使用不得用于其他用途。合集中常用插件已经汉化，汉化指的是汉化插件特效面板。这只是针对PC版Cinema4D的插件安装包合集。安装的AE将被识别到可选择面板,未出现的版本只能表明您未安装。安装前建议卸载以前安装的插件，避免插件重复。插件版权归其开发者所有,仅供测试插件和学习使用，对使用此插件的商业行为造成的—切法律纠纷完全由购买者个人承担。如果您喜欢请购买正版插件
Springdoc OpenAPI Gradle 插件使用教程
SpringdocOpenAPIGradle插件使用教程1.项目的目录结构及介绍springdoc-openapi-gradle-plugin/├──config/│└──detekt/├──gradle/│└──wrapper/├──src/├──.gitignore├──CHANGELOG.md├──CODE_OF_CONDUCT.adoc├──CONTRIBUTING.adoc├──LICE
摩根士丹利：到2028年，AI投资将推动科技巨头新增1.5万亿美元债务——信贷市场如何填补这一缺口？在美的苦命程序员人工智能科技
在AI技术快速发展与全球数字化转型的推动下，AI基础设施建设正成为一项巨大的资本需求。摩根士丹利最新的报告指出，到2028年，全球数据中心建设的投资将需要接近2.9万亿美元，其中大部分资金将集中在AI计算与云基础设施的建设上。而最引人注目的是，尽管超大规模云服务商（如亚马逊AWS、微软Azure等）已将大部分资金投入到AI技术基础设施中，但依然存在1.5万亿美元的融资缺口。1️⃣全球AI基础设施的
开发一个 vscode 图片悬停预览插件 weixin_40203158
在前端项目中，往往会使用到图片，可能是直接放在项目中，也可能是使用cdn地址，但它们都需要点击才能查看到图片具体是什么内容，显得繁琐，能否和代码提示一样直接鼠标悬停时就展示呢？目前使用量最多的是ImagePreview这款插件，但我自己在使用时发现并没有在悬停时看到图片，自然想着自己实现一个。简单三步即可实现代码完成后发现异常地简单，指定某个语言增加额外hover内容获取鼠标悬停时当前行是否有图片
从宿主机到虚拟机，云环境下主机端IO路径的变化数据存储张存储技术从入门到精通 php 开发语言
前文我们对云计算的整体架构进行了介绍，并且了解到云计算的核心是虚拟化技术。这里的虚拟化技术包括计算虚拟化、网络虚拟化和存储虚拟化等技术。以基于Linux操作系统的虚拟化为例，通常在物理机上安装Linux操作系统和虚拟化软件，然后基于虚拟化软件创建虚拟机，并在虚拟机中按照操作系统。简而言之，虚拟化可以认为是通过软件虚拟出CPU、内存和硬盘等硬件，并在其上运行操作系统，具体如下图所示。添加图片注释，不
新一轮黑产打击：上亿简历大数据公司被警方一锅端大数据的时代
近日，中国的简历大数据公司、曾获李开复旗下创新工场投资的“巧达科技”被警方一锅端，所有员工都被带走。随后，有部分员工被陆续放出。据悉，该公司被查可能缘起在没有获得授权下抓取用户简历。该公司此前曾获得天使轮、A轮和B轮融资，资方包括李开复的创新工场、中信产业基金等。有迹象显示，监管部门正在掀起对大数据灰产和黑产的新一轮打击。传公司被警方一锅端，网站已无法打开。3月23日，有网友在工商信息查询网站“天
2023年春秋杯网络安全联赛春季赛writup 渗透测试中心数学建模
ReEmojiConnect是Excel的插件，开始玩之后会初始化一个4848的矩阵，每个格子里有一个emoji，然后每次点击两个格子，如果两个格子里的emoji相同，就会消除这两个格子。一开始以为是消星星一类的三个格子的消除，但看game的逻辑每次只替换两个，所以确实是连连看。然后flag的逻辑就是每次消除的时候减去格子的行列，下标是用神奇的方法从unicode转过去的，我这里直接用矩阵里emo
Python Preview 插件使用教程汤涌双
PythonPreview插件使用教程1.项目介绍PythonPreview是一个适用于VisualStudioCode(VSCode)的扩展插件，旨在为Python代码提供调试预览支持。该插件允许用户在编辑器中直接预览Python代码的执行结果，从而提高开发效率和代码可读性。PythonPreview插件由dongli开发，当前版本为0.0.4。2.项目快速启动安装步骤打开VSCode。进入扩展
【前端必备】VSCode实用图片预览插件 Guang_how927 前端 vscode 编辑器前端插件图像处理
ImagepreviewImagePreview插件功能概述ImagePreview插件通常用于在网页或应用程序中提供图片的预览功能，允许用户快速查看缩略图或放大后的图像，而无需打开单独的页面或下载文件。核心功能缩略图生成自动将上传的大尺寸图片转换为缩略图，便于在列表或画廊中展示。支持自定义缩略图尺寸和质量。鼠标悬停预览当用户将鼠标悬停在缩略图上时，显示放大版的图像。通常支持调整预览窗口的位置和大
贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

aws Opensearch 拼音插件

一、背景

二、拼音插件配置

三、拼音插件应用

插件生效验证

插件简单使用

自定义分析器

拓展应用

四、总结

本篇作者

张盼富

你可能感兴趣的:(aws,云计算,大数据,拼音插件,opensearch)