象牙酥

ElasticSearch 自定义分词器Analyzer示例

一、前提概述

接下来定义一个index，并在该index中使用自定义分词器。

假设在ES中有这么一个index，用来存储用户在什么时间调用了哪个接口，调用的入参是什么的这么一个信息（即服务网关日志），要存储的数据示例如下所示（已脱敏）：

[
  {
    "authSignId" : "75",
    "interfaceName" : "/vehicle/interface1",
    "requestData" : """{"head":{"sign":"86006c91a07f88aaaaaaaaaaaa","systemSign":"dkgc","timeStamp":"1646848500981","version":"20191213"},"body":{"endTime":1646848500795,"page":-1,"pageSize":-1,"radius":0,"startTime":1646805300795,"tplType":-1,"vehiclePlateNoAndColor":"鲁Q050EV@黄色"}}""",
    "log_time" : "2022-03-10 01:55:00"
  },
  {
    "authSignId" : "5",
    "interfaceName" : "/vehicle/interface2",
    "requestData" : """{"head":{"sign":"6d1bee5f0971bbbbbbbbbbbbbb","systemSign":"kfpt","timeStamp":"1646848500232","version":"20181023"},"body":{"endTime":-1,"page":-1,"pageSize":-1,"radius":0,"startTime":-1,"tplType":-1,"vehiclePlateNoAndColorList":["津C28933@黄色"]}}""",
    "log_time" : "2022-03-10 01:55:00"
  
  },
  {
    "authSignId" : "5",
    "interfaceName" : "/vehicle/interface3",
    "requestData" : """{"head":{"sign":"6f0514f860cccccccccccccccc","systemSign":"kfpt","timeStamp":"1646848499342","version":"20181023"},"body":{"endTime":-1,"maxOfflineTime":"172800000","page":-1,"pageSize":-1,"radius":0,"startTime":-1,"tplType":-1,"vehiclePlateNoAndColorList":["冀A96243@黄色"]}}""",
    "log_time" : "2022-03-10 01:54:59.562"
  },
  {
    "authSignId" : "14",
    "interfaceName" : "/vehicle/interface4",
    "requestData" : """{"head":{"sign":"069d352985e2dddddddddddddd","systemSign":"clwsjzx","timeStamp":"1646848502122","version":"20190109"},"body":{"vid":"3367053073233333","startTime":1646845465000,"endTime":1646849065000}}""",
    "log_time" : "2022-03-10 01:55:02.335"
  },
  {
    "authSignId" : "85",
    "interfaceName" : "/vehicle/interface5",
    "requestData" : """{"head":{"sign":"1a0a24e62ac506eeeeeeeeeeee","systemSign":"yljj","timeStamp":"1646848499744","version":"20200420"},"body":{"vehiclePlateNoAndColor":"陕KD5260@黄色","tplId":"2168053781999934883","message":"{\"城市区域名称\":\"榆林\",\"危险路段描述\":\"道路弯急\"}"}}""",
    "log_time" : "2022-03-10 01:54:59.989"
  }
]

在本例子中，我们只关心requestData字段，将该字段的内容格式化一下方便看清它的内容：

{
    "head": {
        "sign": "1da02bc2e0945187bbbbbbbbbbbbbb",
        "systemSign": "kfpt",
        "timeStamp": "1646830874618",
        "version": "20181023"
    },
    "body": {
        "endTime": 1646830771000,
        "page": -1,
        "pageSize": -1,
        "radius": 0,
        "startTime": 1646830721000,
        "tplType": -1,
        "vehiclePlateNoAndColor": "车牌号在末尾津B2M937@黄绿色"
    }
}

结合示例数据，以及该字段格式化之后的格式，不难看出该字段的值其实就是调用一个POST接口时的body入参。

二、分词器的选择

此时就需要使用一个合适的分词器，来对该字段进行分词处理。

先说一下处理的相关要求：
1）首先，我们是不关心json串中的key值的
2）其次，也不关心json串中的head部分，而只关心body中的中文的部分

基于以上要求，首先ES的内置的分词器肯定是不满足需求了，然后也无法直接使用IK分词器，因为直接使用IK分词器对requestData字段进行分词之后，key的值依然存在，如下图：

这就使得：
1）类似head、sign这样的毫无业务意义的key也被切分为了token，从而放入到倒排索引中，凭白占用了ES空间；
2）由于类似head、sign这样的key也被放入到了倒排索引中，就会使得通过这些key来进行检索时，也同样能够查询到数据，这就不符合我们的查询时候的期望值了（这里我们假设用户想查询的是value值中，包含了某些关键词的数据）。

基于上述需求，这里将自定义两个分词器，名字分别是dmp_custom_json_ik_analyzer和custom_car_number_analyzer。
其中：

dmp_custom_json_ik_analyzer
功能是先剔除掉json串中的key值，接着再对value值使用IK分词器进行切分
custom_car_number_analyzer
功能是将json串中的车牌号提取出来。之所以要自定义这个分词器，是因为最开始只定义了上面那个分词器时，用户在使用车牌号去进行查询时，根本查询不到数据，详情可查看该博客《全文检索问题：根据车牌号查询，检索结果跟预期不一致的问题的排查与解决方法》。
因此，在这里需要再定义这个分词器。并且在本例中，也是着重对这个分词器进行的解释。

三、自定义分词器的使用

定义一个索引，并在索引中引用我们自定义分词器

# 为防止index已存在，可先进行删除
DELETE idx-susu-test-car-number

# 设置index的settings和mappings配置
PUT idx-susu-test-car-number
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0,
    "analysis" : {
          "char_filter" : {
            "del_header_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """("head":)(.*)(,"body":)""",
              "replacement" : ""
            },
            "del_digit_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """(:(-)?\d+,)""",
              "replacement" : " "
            },
            "json_key_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """("\w*")(\s*)(:)""",
              "replacement" : "$3"
            },
            "symbol_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """\{|\}|,""",
              "replacement" : " "
            },
            "not_car_number_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """([^(([京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[警京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼]{0,1}[A-Z0-9]{4}[A-Z0-9挂学警港澳]{1})(@(白|蓝|黄|黑|绿|黄绿|渐变绿)色)?)]+)""",
              "replacement" : " "
            }
          },
          
          "filter" : {
            "car_number" : {
               "type" : "pattern_capture",
               "preserve_original" : true,
               "patterns" : [
                  "([京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[警京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼]{0,1}[A-Z0-9]{4}[A-Z0-9挂学警港澳]{1})",
                  "(白色|蓝色|黄色|黑色|绿色|黄绿色|渐变绿色)"
               ]
            }
         },
          
          "analyzer" : {
            "dmp_custom_json_ik_analyzer": {
              "char_filter": [
                "json_key_char_filter"
              ],
              "tokenizer": "ik_max_word"
          },
            "custom_car_number_analyzer" : {
              "char_filter" : [
                "del_header_char_filter",
                "json_key_char_filter",
                "del_digit_char_filter",
                "symbol_char_filter",
                "not_car_number_char_filter"
              ],
              "tokenizer" : "whitespace",
              "filter": ["car_number"]
            }
          }
        }
  },
  "mappings": {
    "properties": {
      "requestData": {
        "analyzer": "dmp_custom_json_ik_analyzer",
        "type": "text",
        "fields": {
          "carNumber": {
              "analyzer": "custom_car_number_analyzer",
              "type": "text"
          }
        }
      }
    }
  }
}

注：
在requestData字段上，使用的是dmp_custom_json_ik_analyzer分词器，同时给这个字段添加了一个名为carNumber的子字段，并将子字段设置的分词器是custom_car_number_analyzer。

接着往索引中插入数据：

PUT idx-susu-test-car-number/_bulk?refresh=true
{ "index": { "_id": "1" }}
{ "requestData": """{"head":{"sign":"0b02feea339667e96c649dc7a9063d75","systemSign":"dkgc","timeStamp":"1646780548613","version":"20191213"},"body":{"queryDate":"20220307","vehiclePlateNoAndColorList":["津C36267@白色","津C36285@黑色","津C36580@蓝色","津C36605@黄绿色","津C36633@黄色","津C37178@渐变绿色]}}"""}
{ "index": { "_id": "2" }}
{ "requestData": """{"head":{"sign":"1da02bc2e0945187612b3268437b9901","systemSign":"kfpt","timeStamp":"1646830874618","version":"20181023"},"body":{"endTime":1646830771000,"page":-1,"pageSize":-1,"radius":0,"startTime":1646830721000,"tplType":-1,"vehiclePlateNoAndColor":"津B2M936"}}"""}
{ "index": { "_id": "3" }}
{ "requestData": """{"head":{"sign":"1da02bc2e0945187612b3268437b9901","systemSign":"kfpt","timeStamp":"1646830874618","version":"20181023"},"body":{"endTime":1646830771000,"page":-1,"pageSize":-1,"radius":0,"startTime":1646830721000,"tplType":-1,"vehiclePlateNoAndColor":"车牌号在末尾津B2M937@黄绿色"}}"""}
{ "index": { "_id": "4" }}
{ "requestData": """{"head":{"sign":"1da02bc2e0945187612b3268437b9901","systemSign":"kfpt","timeStamp":"1646830874618","version":"20181023"},"body":{"endTime":1646830771000,"page":-1,"pageSize":-1,"radius":0,"startTime":1646830721000,"tplType":-1,"vehiclePlateNoAndColor":"津B2M938车牌号在开头"}}"""}
{ "index": { "_id": "5" }}
{ "requestData": """{"head":{"sign":"1da02bc2e0945187612b3268437b9901","systemSign":"kfpt","timeStamp":"1646830874618","version":"20181023"},"body":{"endTime":1646830771000,"page":-1,"pageSize":-1,"radius":0,"startTime":1646830721000,"tplType":-1,"vehiclePlateNoAndColor":"车牌号在中间津B2M938@蓝色车牌号在中间"}}"""}
{ "index": { "_id": "6" }}
{ "requestData": """{"head":{"sign":"026900c830464b5ce1743e690fd74c35","systemSign":"kfpt","timeStamp":"1646761070268","version":"20181023"},"body":{"endTime":0,"page":-1,"pageSize":-1,"startTime":0,"vehicleNoAndcolors":["鄂R21081@黄色"]}}"""}

然后在requestData.carNumber字段上，对指定车牌号进行查询

# 在requestData.carNumber字段上查询关键字“津B2M938”
GET idx-susu-test-car-number/_search
{
  "query": {
    "match": {
      "requestData.carNumber": {
        "query": "津B2M938"
      }
    }
  }
}

查询结果如下，可以看到，已经能正确的根据车牌号查询出来结果

四、自定义分词器详解

接下来对自定义的分词器进行详解
观察该分词器的组成：

"custom_car_number_analyzer" : {
              "char_filter" : [
                "del_header_char_filter",
                "json_key_char_filter",
                "del_digit_char_filter",
                "symbol_char_filter",
                "not_car_number_char_filter"
              ],
              "tokenizer" : "whitespace",
              "filter": ["car_number"]
            }

组成如下：
1）5个自定义的character filter
2）1一个ES内置的名为whitespace的tokenizer
3）1个自定义的token filter

一个analyzer中不同角色的应用顺序

1.character filter

1）del_header_char_filter

基于pattern_replace规则自定义的character filter，功能是将requestData字段输入的json串中的head部分给剔除掉。定义如下：

 "del_header_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """("head":)(.*)(,"body":)""",
              "replacement" : ""
            }

假设数据的requestData内容：

{
    "head": {
        "sign": "1da02bc2e0945187612b3268437b9901",
        "systemSign": "kfpt",
        "timeStamp": "1646830874618",
        "version": "20181023"
    },
    "body": {
        "endTime": 1646830771000,
        "page": -1,
        "pageSize": -1,
        "radius": 0,
        "startTime": 1646830721000,
        "tplType": -1,
        "vehiclePlateNoAndColor": "津B2M937中间内容津B2M938@蓝色车牌号"
    }
}

则在经过该character filter处理之后，得到的结果如下,可以看到，head部分已经被剔除掉了

{ {
        "endTime": 1646830771000,
        "page": -1,
        "pageSize": -1,
        "radius": 0,
        "startTime": 1646830721000,
        "tplType": -1,
        "vehiclePlateNoAndColor": "津B2M937中间内容津B2M938@蓝色车牌号"
    }
}

2）json_key_char_filter

基于pattern_replace规则自定义的character filter，功能是将输入的json串中的key剔除出去。定义如下

"json_key_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """("\w*")(\s*)(:)""",
              "replacement" : "$3"
            }

那么上一步的结果，在经过当前的character filter 处理之后，输出如下：

{ {
        : 1646830771000,
        : -1,
        : -1,
        : 0,
        : 1646830721000,
        : -1,
        : "津B2M937中间内容津B2M938@蓝色车牌号"
    }
}

3) del_digit_char_filter

这同样是基于pattern_replace规则自定义的character filter，功能是将内容是纯数值的value值给剔除掉。定义如下

"del_digit_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """(:(-)?\d+,)""",
              "replacement" : " "
            }

上一步的结果，在经过当前character filter处理之后，得到的结果如下：

{ {
        : "津B2M937中间内容津B2M938@蓝色车牌号"
    }
}

4）symbol_char_filter

基于pattern_replace规则自定义的character filter，功能是将输入中的大括号和逗号，给替换为空格" "。定义如下：

"symbol_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """\{|\}|,""",
              "replacement" : " "
            }

上一步的结果，在经过当前character filter处理之后，得到的结果如下：

"津B2M937中间内容津B2M938@蓝色车牌号"

5) not_car_number_char_filter

这是最核心的一个character filter，它同样基于pattern_replace规则进行构建。主要功能是将不是车牌号的内容，替换成空格。定义如下：

"not_car_number_char_filter" : {
              "type" : "pattern_replace",
              "pattern" : """([^(([京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[警京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼]{0,1}[A-Z0-9]{4}[A-Z0-9挂学警港澳]{1})(@(白|蓝|黄|黑|绿|黄绿|渐变绿)色)?)]+)""",
              "replacement" : " "
            }

上一步的结果，在经过当前character filter处理之后，得到的结果如下：

津B2M937 津B2M938@蓝色

综上，这5个character filter结合起来，完成的功能是，将输入中除了车牌号（或车牌号@颜色）的部分都剔除掉，只留下车牌号（或车牌号@颜色）

2.tokenizer

这里使用的tokenizer是ES内置的whitespace。由于前面的几个character filter已经将输出处理的只剩下车牌号了（并且若有多个车牌号，则多个车牌号之间是空格作为分隔符），因此这里使用whitespace这个tokenizer来进行切分。
依旧使用上面的示例，则经过切分之后，将得到如下的2个token：

["津B2M937", "津B2M938@蓝色"]

3.token filter

这里使用的是一个名为car_number的自定义的token filter，它是基于pattern_capture的token filter规则来构建的，该规则的更多详情可参考ES官网。

自定义的car_number 的token filter 具体定义如下：

"car_number" : {
               "type" : "pattern_capture",
               "preserve_original" : true,
               "patterns" : [
                  "([京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[警京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼]{0,1}[A-Z0-9]{4}[A-Z0-9挂学警港澳]{1})",
                  "(白色|蓝色|黄色|黑色|绿色|黄绿色|渐变绿色)"
               ]
            }

该token filter的功能是，对于从tokenizer接收过来的类似津B2M938@蓝色这样的token，再次进行处理，将其切分如下：

["津B2M938", "蓝色", "津B2M938@蓝色"]

最后看下该分词器的分词效果：

五、参考

自定义analyzer：https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-custom-analyzer.html#_configuration
自定义character filter：https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-charfilters.html
自定义tokenizer：https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenizers.html
自定义token filter：https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenfilters.html

MySQL实战教程：从小白到大神的进阶之路！奔跑吧邓邓子项目实战 mysql 数据库
目录一、MySQL概述1、MySQL简介1.1MySQL的历史背景1.2MySQL的特点1.3MySQL的应用场景1.4MySQL的版本2、MySQL发展历程2.1MySQL的起源2.2MySQL的早期发展2.3MySQL的成熟与普及2.4MySQL的商业化与收购2.5MySQL的持续创新3、MySQL应用场景3.1Web应用程序3.2企业级应用3.3大数据分析3.4移动应用3.5云计算3.6物联
【详细讲解】hive优化 songqq27 大数据 hive
1、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值
大规模分布式存储（1）-- 概念、挑战和分类叹了口丶气 HDFS全方位实战分布式分类数据库
随着数据的激增，我们已经进入到了一个数据时代，无论是云计算，大数据还是互联网公司的各种应用，其后台存储平台的目标都是要构建低成本、高性能、可扩展、易用的分布式存储系统。相比传统的分布式存储系统，互联网公司的分布式存储系统具有两个特点：规模大和成本低。本文主要介绍一下什么是大规模分布式存储系统，以及分布式存储系统有哪些类别。一、分布式存储的概念1.1大规模分布式存储系统的定义大规模分布式存储系统的定
logstash（自动拉取，过滤，推送日志的应用，也是elk架构中的l）长东737 elk 架构
elk是指elasticsearch，logstash，kibana三款软件搭配组成的架构logstash是一个数据采集加工处理以及传输的工具logstash类似于流水线，有三个模块，分辨是input>filter>output，input模块负责收集数据，filter负责处理数据，output负责输出数据logstash需要先保证web集群和ela集群运行正常才能搭建，运行logstash需要先
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
linux命令行elasticsearch查询工具es2unix m0_66557301 java elasticsearch linux 大数据面试运维
当想在linux的命令行中查看elasticsearch的状态时，可以用es2unix这个工具，插件地址：https://github.com/elasticsearch/es2unix。它是elasticsearch官方推出的，可以通过命令来查看es的各种状态，安装方法curl-sdownload.elasticsearch.org/es2unix/es>/bin/eschmod+x/bin/e
move移动语义详解 Say-hai C++c++面试
move移动语义移动语义是C++11引入的一种机制，用于提高程序的性能和资源管理效率，特别是在涉及大数据对象的场景下。移动语义通过转移资源所有权，而不是复制资源，减少了不必要的拷贝操作。一、为什么需要移动语义？当对象需要被复制时（如函数返回值或传参），通常会调用复制构造函数（copyconstructor）。复制操作往往意味着需要分配新资源并将原资源的数据拷贝到新资源中；而如果不需要保留原对象的内
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
【Elasticsearch 】自定义分词器程风破～ Elasticsearch elasticsearch 大数据搜索引擎
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
cmd命令行把bat或exe执行为windows服务产品媛Gloria Deng
cmd命令行把bat或exe执行为windows服务：在bin目录下执行以下命令sccreate[服务名]binPath=[bin目录下的.bat/.exe]start=auto createelasticsearchbinPath=elasticsearch.batstart=auto
企业数字化规划蓝图、企业数字化运营分析管理大数据平台建设方案公众号：优享智库数字化转型数据治理主数据数据仓库大数据
**企业数字化规划蓝图及运营分析管理大数据平台建设方案****一、企业数字化规划蓝图**1.**数字化目标设定**企业在规划数字化进程时，首先需要明确数字化目标。这些目标应当与企业的整体战略和发展规划相一致，包括但不限于提高运营效率、优化客户体验、创新业务模式等。同时，目标应具体、可衡量，以便于后续的实施和评估。2.**技术平台规划**技术平台是支撑企业数字化的基础。在规划阶段，需要确定所需的技术
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
第5节课：HTML5 新标签——构建更智能的网页结构学问小小谢 HTML学习 html5 前端学习
目录语义化标记的重要性新标签详解````````````实践：使用HTML5新标签构建网页结语随着HTML5的推出，网页开发者们获得了一套新的强大工具——语义标签。这些标签不仅帮助我们更好地组织内容，还使得网页更易于搜索引擎优化（SEO）和辅助技术访问。本节课将深入探讨HTML5中的新语义标签，包括、、、、和，并强调使用这些标签进行语义化标记的重要性。语义化标记的重要性在HTML5之前，我们通常使
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
实习成长之路：关于ElasticSearch深度分页带来的思考，如何解决深度分页和跳页会写代码的花城实习踩坑之路 reids 并发 elasticsearch 搜索引擎分布式
问题引入我们在平常使用ElasticSearch构建查询条件的时候一般用的都是from+size的方式进行分页查询，但是如果我们的页数太深/页面大小太大(from*size)>10000就会引发一个错误，我们将会得到一个错误这是为什么呢？因为ES的分页查询其实是这样来的因为ElasticSeach的天生分布式的原因，我们的数据是分散在几个分片中的，而我们设置了from+size需要对全部数据进行查
Elasticsearch from+size与scroll混合使用实现深度分页搜索爱喝咖啡的程序员 #分布式搜索引擎
目录一.需求二.思考三.实现方案一.需求环境准备:JDK1.8Elasticsearch7.3.1RestHighLevelClient客户端对Elasticsearch做深度分页，比如第1500页，每页20条记录，且需要支持前后翻页。二.思考由于index.max_result_window的限制，直接使用from+size无法搜索满足条件10000条以上的记录。如果贸然增大index.max_
MongoDB 大俗大雅，上来问分片真三俗 -- 4 分什么分 Austindatabases mongodb 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2710人左右1+2+3+4+5+6+7+8+9）(123456群均已爆满，7群400+，开8群9群)这是MongoDB宣传周的第五篇，这周真漫长，
大数据技术在数据安全治理中的应用罗思付之技术屋综合技术探讨及方案专栏大数据
摘要面对新形势下的数据安全治理挑战，顺应数据安全领域的技术发展趋势，针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题，提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素，并可从多个角度衡量不同含义的权重影响力，识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题，提出一种基于生成对抗网络的用户与实体行为异常检测方法，实验结果表明，所提方法
利用长尾关键词优化SEO策略提升网站流量的实用建议老陈头聊SEO 其他
内容概要在当今数字营销的环境中，网站流量的获取是一项至关重要的任务。随着搜索引擎优化（SEO）技术的发展，长尾关键词逐渐被越来越多的网站管理员和内容创作者所重视。长尾关键词一般指的是那些较长且具体的搜索词组，虽然搜索量相对较少，但通常具有更高的转化率和更低的竞争度。因此，理解和利用长尾关键词，将为提升网站流量提供了有效手段。“要想在竞争激烈的网络环境中脱颖而出，主动挖掘和应用长尾关键词，将为您带来
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
新站如何快速获得搜索引擎收录？百度网站快速收录搜索引擎
本文来自：百万收录网原文链接：https://www.baiwanshoulu.com/8.html新站想要快速获得搜索引擎收录，需要采取一系列有针对性的策略。以下是一些具体的建议：一、网站内容优化高质量原创内容：确保网站内容原创、独特且有价值，满足搜索引擎和用户的需求。定期更新内容，保持网站的活跃度和吸引力。关键词布局：在标题、正文、图片alt标签等位置合理分布关键词，提高网页的相关性。避免关键
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
全面信息收集指南：渗透测试中的关键步骤与技巧 Clockwiseee 信息收集安全 web安全渗透测试漏洞挖掘
文章目录一、什么是信息收集二、信息收集的分类1.服务器相关信息2.网站指纹识别3.Whois及目标背景信息4.子域名及关联资产5.GoogleHacking（搜索引擎利用）6.网站目录和敏感文件7.传输协议与漏洞利用8.第三方依赖与拓展信息三、信息收集的方式1.whois在线查询使用技巧2.在线网站备案查询3.收集子域名3.1网络空间绘测绘测的目的和意义3.2子域名爆破工具四、端口五、查找真实IP
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
Adobe软件隐藏功能大揭秘：5个冷门小技巧助你效率倍增 shelby_loo adobe
作为设计师和创意工作者，我们对Adobe系列软件的强大功能一定不陌生。但你是否知道，通过申请Edu教育邮箱，学生和教师可以免费或以极低的价格订阅这些软件，享受专业的创作体验呢？这不仅能让你远离破解软件带来的不稳定和安全隐患，还能让你合法地使用正版软件，充分发挥创意。如果你还没有Edu邮箱，也不用担心。网上有很多关于如何申请Edu邮箱的教程和经验分享。你可以通过搜索引擎查找相关信息，或者参考一些知识
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

ElasticSearch 自定义分词器Analyzer示例

一、前提概述

二、分词器的选择

三、自定义分词器的使用

四、自定义分词器详解

1.character filter

1）del_header_char_filter

2）json_key_char_filter

3) del_digit_char_filter

4）symbol_char_filter

5) not_car_number_char_filter

2.tokenizer

3.token filter

五、参考

你可能感兴趣的:(ElasticSearch,elasticsearch,搜索引擎,大数据)