大叶子不小

Elasticsearch：painless script 语法基础和实战

摘要：Elasticsearch，Java

script的作用

script是Elasticsearch的拓展功能，通过定制的表达式实现已经预设好的API无法完成的个性化需求，比如完成以下操作

字段再加工/统计输出
字段之间逻辑运算
定义查询得分的计算公式
定义特殊过滤条件完成搜索
类似于pandas的个性化增删改操作

内容概述

（1）script格式说明，inline和stored脚本的调用方法
（2）在无新增文档的情况下，对现有文档的字段个性化字段更新（update， _update_by_query，ctx._source，Math，数组add/remove）
（3）在不修改文档的情况下，在搜索返回中添加个性化统计字段（_search，doc，script_fields，return）
（4）在无新增文档的情况下，对现有文档的字段进行新增和删除（ctx._source，ctx._source.remove，条件判断）
（5）在无新增文档的情况下，基于现有的多个字段生成新字段（加权求和，大小比较）
（6）搜索文档时使用script脚本
（7）其他painless语法（循环，null判断）

script格式

语法都遵循相同的模式

"script": {
    "lang":   "...",  
    "source" | "id": "...", 
    "params": { ... } 
  }

其中三要素功能如下

lang：指定编程语言，默认是painless，还有其他编程语言选项如expression等
source | id: source，id二者选其一，source后面接inline脚本（就是将脚本逻辑直接放在DSL里面），id对应一个stored脚本（就是预先设置类似UDF，使用的时候根据UDF的id进行调用和传参）
params：在脚本中任何有名字的参数，用params传参

inline和stored脚本快速开始

使用script脚本修改某文档的某个字段，先插入一条文档

POST /hotel/_doc/100
{
    "name": "苏州木棉花酒店",
    "city": "苏州",
    "price": 399,
    "start_date": "2023-01-01"
}

（1）使用inline的方式将脚本写在DSL里面

POST /hotel/_doc/100/_update
{
    "script": {
        "source": "ctx._source.price=333"
    }
}

注意在kibiban客户端带上_update，否则相当于覆盖整个文档，新建了一个含有script字段的文档。本例中将price字段修改为333，如果是带有单引号的'333'则修改为字符串数据，字符串还可以使用\转义

POST /hotel/_doc/100/_update
{
    "script": {
        "source": "ctx._source.price=\"333\""
    }
}

获取字段的方式除了使用ctx._source.字段之外，还可以ctx._source['字段']

POST /hotel/_doc/100/_update
{
    "script": {
        "source": "ctx._source['price']=333"
    }
}

只要inline脚本中的内容出现些许不一样就需要重新编译，因此推荐的方法是把inline中固定的部分编译一次，变量命名放在params中传参使用，这样只需要编译一次，下次使用调用缓存

POST /hotel/_doc/100/_update
{
    "script": {
        "source": "ctx._source.price=params.price",
        "params": {
            "price": 334
        }
    }
}

（2）使用stored预先设置脚本的方式

这种类似于先注册UDF函数，使用PUT对_scripts传入脚本

PUT /_scripts/my_script_1
{
     "script": {
        "lang": "painless", 
        "source": "ctx._source.price=params.price"
    }
}

在插入之后使用GET可以查看到对应的脚本内容

GET /_scripts/my_script_1
{
  "_id" : "my_script_1",
  "found" : true,
  "script" : {
    "lang" : "painless",
    "source" : "ctx._source.price=params.price"
  }
}

脚本中并没有指定params，params在调用的是有进行设置，调用的时候使用id指定my_script_1这个id即可，不再使用source

POST /hotel/_doc/100/_update
{
    "script": {
        "id": "my_script_1",
        "params": {
            "price": 335
        }
    }
}

script脚本更新字段

所有update/update_by_query 脚本使用 ctx._source

（1）普通字段更新

除了上面快速开始的直接使用=赋值修改的情况，还可以对字段做数值运算，比如加减乘除开方等等

POST /hotel/_doc/100/_update
{
    "script": {
        "source": "ctx._source.price += 100"
    }
}

使用Math.pow对数值进行开方

POST /hotel/_doc/100/_update
{
    "script": {
        "source": "ctx._source.price=Math.pow(ctx._source.price, 2)"
    }
}

Math下的方法还有sqrt，log等

（2）集合字段更新

主要说明下数组类型字段的更新，使用ctx._source.字段.add/remove，先新建一个带有数组字段的文档

POST /hotel/_doc/101
{
    "name": "苏州大酒店",
    "city": "苏州",
    "tag": ["贵"]
}

使用script将tag数组字段增加元素，使用add

POST /hotel/_doc/101/_update
{
    "script": {
        "source": "ctx._source.tag.add('偏')"
    }
}

插入新元素后看下数据，已经成功

      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "101",
        "_score" : 1.0,
        "_source" : {
          "name" : "苏州大酒店",
          "city" : "苏州",
          "tag" : [
            "贵",
            "偏"
          ]
        }

删除数组元素使用remove指定对应的索引位置即可

POST /hotel/_doc/101/_update
{
    "script": {
        "source": "ctx._source.tag.remove(0)"
    }
}

如果位数不足会报错类似数组越界

script脚本对字段再加工返回

此功能使用search脚本，配合script中的doc实现，整体效果类似于map操作，对所选定的文档操作返回

（1）提取日期类型的元素并返回一个自定义字段

先设置一个字段schema

POST /hotel/_doc/_mapping
{
    "properties": {
        "dt": {
            "type": "date", 
            "format":  "yyyy-MM-dd HH:mm:ss"
        }
    }
}

插入一条日期数据

POST  /hotel/_doc/301
{
    "dt": "2021-01-01 13:13:13"
}

插入效果如下

      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "301",
        "_score" : 1.0,
        "_source" : {
          "dt" : "2021-01-01 13:13:13"
        }

下面检索所有文档，提取日期的年份，使用GET+_search请求，DSL中指定script_fields的自定义字段year，给year设置script脚本

GET /hotel/_doc/_search
{
    "script_fields": {
        "year": {
            "script": {"source": "if (doc.dt.length != 0) {doc.dt.value.year}"}
        }
    }
}

doc的取值方式
假设有一个字段："a": 1，那么：

doc['a']返回的是[1]，是一个数组，如果文档没有该字段，返回空数组及doc['a'].length=0

doc['a'].value返回的是1，也就是取第一个元素。

doc['a'].values与doc['a']表现一致，返回整个数组[1]

script_fields脚本字段
每个_search 请求的匹配（hit）可以使用 script_fields定制一些属性，一个 _search 请求能定义多于一个以上的 script field这些定制的属性通常是：

针对原有值的修改（比如，价钱的转换，不同的排序方法等）

一个崭新的及算出来的属性（比如，总和，加权，指数运算，距离测量等）

script_fields在结果中的返回是{fileds: 字段名:[]}的json格式和_source同一级

doc.dt.value获取第一个数组元素，存储数据类型为amic getter [org.elasticsearch.script.JodaComp，该类型通过year属性获得年份。查看以下返回结果，由于没有筛选条件所有文档都被返回，存在dt字段的提取年份，不存在dt字段的也会有返回值为null，由此可见_search + doc操作实际上是完成了原始文档的一个映射转换操作，并产生了一个自定义的临时字段，不会对原始索引做任何更改操作

    {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "301",
        "_score" : 1.0,
        "fields" : {
          "year" : [
            2021
          ]
        }
      },
      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "002",
        "_score" : 1.0,
        "fields" : {
          "year" : [
            null
          ]
        }
      },
...

如果只返回存在dt字段的，需要在DSL中增加query逻辑

GET /hotel/_doc/_search
{
    "query": {
        "exists": {
            "field": "dt"
        }
    },
    "script_fields": {
        "year": {
            "script": {"source": "doc.dt.value.year"}
        }
    }
}

（2）统计一个数组字段数组的和并且返回

插入一个数值数组字段，搜索统计返回数组的和

POST /hotel/_doc/_mapping
{
    "properties": {
        "goals" : {"type": "keyword"}
    }
}

插入数据

POST /_bulk
{"index": {"_index": "hotel", "_type": "_doc", "_id": "123"}}
{"name": "a酒店","city": "扬州", "goals": [1, 5, 3] }
{"index": {"_index": "hotel", "_type": "_doc", "_id": "124"}}
{"name": "b酒店","city": "杭州", "goals": [9, 5, 1] }
{"index": {"_index": "hotel", "_type": "_doc", "_id": "125"}}
{"name": "c酒店","city": "云州", "goals": [2, 7, 9] }

下面计算有goals字段的求goals的和到一个临时字段

GET /hotel/_doc/_search
{
    "query": {
        "exists": {
            "field": "goals"
        }
    },
    "script_fields": {
        "goals_sum": {
            "script": {"source": """
                               int total =0;
                              for (int i=0; i < doc.goals.length; i++) {
                                     total += Integer.parseInt(doc.goals[i])
                               }
                               return total
                               """
            }
        }
    }
}

在script中每一行结束要加分号;，使用Java语法的循环求得数组的和，每个数组元素需要使用Java语法中的Integer.parseInt解析，否则报错String类型无法转Num，查看返回

    "hits" : [
      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "123",
        "_score" : 1.0,
        "fields" : {
          "goals_sum" : [
            9
          ]
        }
      },
      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "124",
        "_score" : 1.0,
        "fields" : {
          "goals_sum" : [
            15
          ]
        }
      },
      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "125",
        "_score" : 1.0,
        "fields" : {
          "goals_sum" : [
            18
          ]
        }
      }

script脚本新建/删除字段

新建字段和删除字段都是update操作，使用ctx._source

（1）新建字段

对于存在dt字段的文档，新增一个字段dt_year，值为dt的年份

POST /hotel/_doc/_update_by_query
{
    "query": {
        "exists": {
            "field": "dt"
        }
    }, 
    "script": {
        "source": "ctx._source.dt_year = ctx._source.dt.year"
    }
}

以上直接在source中使用ctx._source.dt_year引入一个新列，可惜直接报错

   "reason": "dynamic getter [java.lang.String, year] not found

此处并没有向doc一样数据为日期类型而是字符串，因此需要引入Java解析

POST /hotel/_doc/_update_by_query
{
    "query": {
        "exists": {
            "field": "dt"
        }
    }, 
    "script": {
        "source": """
                            LocalDateTime time2Parse = LocalDateTime.parse(ctx._source.dt, DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss"));
                            ctx._source.dt_year = time2Parse.getYear()
                            """
    }
}

查看结果

      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "301",
        "_score" : 1.0,
        "_source" : {
          "dt" : "2021-01-01 13:13:13",
          "dt_year" : 2021
     }
}

也可以做其他操作比如获得LocalDateTime类型之后再做格式化输出

POST /hotel/_doc/_update_by_query
{
    "query": {
        "exists": {
            "field": "dt"
        }
    }, 
    "script": {
        "source": """
                            LocalDateTime time2Parse = LocalDateTime.parse(ctx._source.dt, DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss"));
                            ctx._source.dt_year = time2Parse.format(DateTimeFormatter.ofPattern("yyyy-MM-dd"))
                            """
    }
}

（2）删除字段

删除字段直接使用ctx._source.remove(\"字段名\")，可以删除单个文档，也可以update_by_query批量删除

POST /hotel/_doc/123
{
    "script": {
        "source": "ctx._source.remove(\"goals\")"
    }
}

POST /hotel/_doc/_update_by_query
{
    "query": {
        "exists": {
            "field": "goals"
        }
    },
    "script": {
        "source": "ctx._source.remove(\"goals\")"
    }
}

script脚本条件判断

支持if，else if，else，比如根据某值进行二值判断生成新字段

POST /hotel/_doc/_update_by_query
{
    "query": {
        "exists": {
            "field": "price"
        }
    },
    "script": {
        "source": """
                          double price = ctx._source.price;
                          if (price >= 10) {
                                ctx._source.expensive = 1
                           } else {
                               ctx._source.expensive = 0
                           }
                          """
    }
}

POST /hotel/_doc/_update_by_query
{
    "query": {
        "exists": {
            "field": "price"
        }
    },
    "script": {
        "source": """
                          double price = ctx._source.price;
                          if (price >= 10) {
                                ctx._source.expensive = 1
                           } else if (price == 0) {
                               ctx._source.expensive = -1
                           } else {
                               ctx._source.expensive = 0
                           }
                          """
    }
}

注意：经过多轮测试如果source中有多轮if判断语法会报错，貌似只能支持一个if，解决方案是使用Java的三元表达式?;，三元表达式写多少个判断都行

script使用return

return用在_search操作中，配合script_fields使用，例如在搜索结果中新增一个字段area为china，此字段不更新到索引只是在搜索时返回

GET /hotel/_doc/_search
{
    "_source": true,
    "script_fields": {
        "area": {
            "script": {
                "source": "return \"china\""
            }
        }
    }
}

以上指定"_source": true防止被script_fields覆盖，一条输出结果如下

    {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "123",
        "_score" : 1.0,
        "_source" : {
          "city" : "扬州",
          "name" : "a酒店"
        },
        "fields" : {
          "area" : [
            "china"
          ]
        }

script多个字段组合/逻辑判断

（1）多个字段加权求和

先插入3个子模型分，在生成一个总分，权重是0.6,0.2,0.2

POST /_bulk
{"index": {"_index": "hotel", "_type": "_doc", "_id": "333"}}
{"name": "K酒店","city": "扬州", "model_1": 0.79, "model_2": 0.39, "model_3": 0.72}
{"index": {"_index": "hotel", "_type": "_doc", "_id": "334"}}
{"name": "L酒店","city": "江州", "model_1": 0.62, "model_2": 0.55, "model_3": 0.89}
{"index": {"_index": "hotel", "_type": "_doc", "_id": "335"}}
{"name": "S酒店","city": "兖州", "model_1": 0.83, "model_2": 0.45, "model_3": 0.58}

现在计算总分给到score字段

POST /hotel/_doc/_update_by_query
{
      "query": {
              "bool": {
                   "must":  [
                           {"exists": {
                                 "field": "model_1"
                                  }},
                             {"exists": {
                                   "field": "model_2"
                                 }},
                            {"exists": {
                                   "field": "model_3"
                                 }}
                    ]
            }
      },
    "script": {
           "source": "ctx._source.score = 0.6 * ctx._source.model_1 + 0.2 * ctx._source.model_2 + 0.2 * ctx._source.model_3"  
    }
}

看一下运行结果

GET /hotel/_doc/_search
{
    "query": {
        "exists": {
            "field": "score"
        }
    }
}

   "hits" : [
      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "335",
        "_score" : 1.0,
        "_source" : {
          "score" : 0.704,
          "city" : "兖州",
          "name" : "S酒店",
          "model_1" : 0.83,
          "model_3" : 0.58,
          "model_2" : 0.45
        }
      },
      {
        "_index" : "hotel",
        "_type" : "_doc",
        "_id" : "333",
        "_score" : 1.0,
        "_source" : {
          "score" : 0.6960000000000001,
          "city" : "扬州",
          "name" : "K酒店",
          "model_1" : 0.79,
          "model_3" : 0.72,
          "model_2" : 0.39
        }
      },
    ...

（2）两个字段大小比较

直接取ctx._source对应字段进行比较，使用Java三元表达式?:赋值给新字段

POST /hotel/_doc/_update_by_query
{
      "query": {
              "bool": {
                   "must":  [
                           {"exists": {
                                 "field": "model_1"
                                  }},
                             {"exists": {
                                   "field": "model_2"
                                 }}
                    ]
            }
      },
    "script": {
           "source": "ctx._source.max_score = ctx._source.model_1 > ctx._source.model_2 ? ctx._source.model_1 : ctx._source.model_2"  
    }
}

script脚本null判断

有两种情况字段为null和params为null

（1）字段为null

如果某字段为空，文档不存在该字段，则填充为0

POST /hotel/_doc/_update_by_query
{
    "script": {
        "source": "if (ctx._source.score == null) ctx._source.score = 0.0"
    }
}

（2）params传参为null

如果传入params不存在某个key，则删除该字段

POST /hotel/_doc/_update_by_query
{
    "script": {
        "source": """
                            String[] cols = new String[3];
                            cols[0] = "name";
                            cols[1] = "city";
                            cols[2] = "price";
                            for (String c : cols) {
                                    if (params[c] == null) {
                                           ctx._source.remove(c)
                                   } else {
                                       ctx._source[c] = params[c]
                                   }
                            }
                            """,
        "params": {
               "name": "test",
               "city": "test_loc"
          }
    }
}

注意：在循环中拿到局部变量c传递给params，params[c]不能用点.或者带有双引号params["c"]，否则是判断params中是否有c这个名字的字段

在本例中使用String[] cols = new String[3];创建了一个静态变量，对于这种集合类的变量painless的语法和Java略有不同，写几个例子如下

ArrayList l = new ArrayList();  // Declare an ArrayList variable l and set it to a newly allocated ArrayList
Map m = new HashMap();          // Declare a Map variable m and set it   to a newly allocated HashMap

List l = new ArrayList(); // Declare List variable l and set it a newly allocated ArrayList
List m;                   // Declare List variable m and set it the default value null
int[] ia1;                      //Declare int[] ia1; store default null to ia1    
int[] ia2 = new int[2];               //Allocate 1-d int array instance with length [2] → 1-d int array reference; store 1-d int array reference to ia1        
ia2[0] = 1;                     //Load from ia1 → 1-d int array reference; store int 1 to index [0] of 1-d int array reference 
int[][] ic2 = new int[2][5];    //Declare int[][] ic2; allocate 2-d int array instance with length [2, 5] → 2-d int array reference; store 2-d int array reference to ic2
ic2[1][3] = 2;                  //Load from ic2 → 2-d int array reference; store int 2 to index [1, 3] of 2-d int array reference
ic2[0] = ia1;                   //Load from ia1 → 1-d int array reference; load from ic2 → 2-d int array reference; store 1-d int array reference to index [0] of 2-d int array reference; (note ia1, ib1, and index [0] of ia2 refer to the same instance)

List，Map这些集合都没有泛型，并且集合的值貌似不能直接初始化，需要add，put进来

script作为查询过滤条件

查看某列的值大于某列，在query下可以使用script，注意格式script下还套着一个script，search请求使用doc获取值

GET /hotel/_doc/_search
{
    "query": {
                "script" : {
                    "script" : {
                        "source": "doc.score.value < doc.model_3.value"
                     }
                }
            }
    }

以上语句会报warn，doc选取字段如果字段为空会填充默认值，因此再限制一下字段不为空

GET /hotel/_doc/_search
{
    "query": {
        "bool" : {
            "must" : [{
                "script" : {
                    "script" : {
                        "source": "doc.score.value < doc.model_3.value"
                     }
                }
            },
            {"exists": {"field": "score"}}, 
            {"exists": {"field": "model_3"}}
          ]
        }
    }
}

作者：xiaogp
链接：https://www.jianshu.com/p/66a72d7ba3da
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可能感兴趣的:(elasticsearch,大数据)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
SkyWalking + Logstash全链路追踪系统详细实施方案 @淡定 skywalking
SkyWalking+Logstash全链路追踪系统详细实施方案一、系统架构与数据流向核心流程：数据采集：SkyWalkingAgent埋点收集调用链路数据日志增强：应用程序通过MDC注入TraceID日志收集：Logstash采集应用日志并发送至Elasticsearch数据存储：SkyWalking指标数据与日志数据分别存储可视化分析：SkyWalkingUI展示链路追踪，Kibana分析日志
自建ELK vs 云商日志服务：成本对比分析亲爱的非洲野猪 elk
在当今数据驱动的时代，日志管理已成为企业IT基础设施中不可或缺的一部分。面对日益增长的日志数据，许多团队都在纠结：是自建ELK（Elasticsearch、Logstash、Kibana）堆栈，还是直接使用云服务商提供的日志服务？本文将从成本角度对这两种方案进行详细对比分析。自建ELK方案成本分析1.硬件/基础设施成本服务器成本：至少需要3个节点（生产环境推荐）实现高可用中等规模部署：3台16核6
【spring boot】三种日志系统对比：ELK、Loki+Grafana、Docker API ladymorgana 日常工作总结 spring boot elk grafana
文章目录**方案1：使用ELK（Elasticsearch+Logstash+Kibana）****适用场景****搭建步骤****1.修改SpringBoot日志输出****2.创建DockerCompose文件****3.配置Logstash****4.启动服务****方案2：使用Loki+Grafana****适用场景****搭建步骤****1.修改SpringBoot日志驱动****2.配
Semantic text 就是那么强大，还附带一包（ BBQ ）薯片！配有可配置的分块设置和索引选项。 Elastic 中国社区官方博客 Elasticsearch AI 大数据 elasticsearch 搜索引擎全文检索人工智能 ai 图搜索
作者：来自ElasticKathleenDeRusso语义文本搜索现在可以自定义，支持可配置的分块设置和索引选项，用于自定义向量量化，使semantic_text在专业用例中更强大。Elasticsearch拥有大量新功能，帮助你为你的用例构建最佳搜索解决方案。深入查看我们的示例笔记本以了解更多信息，开始免费云试用，或者立即在本地机器上体验Elastic。随着Elasticsearch8.18和9
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
Elasticsearch RESTful API入门：基础搜索与查询DSL 辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful 大数据搜索引擎全文检索 spring boot
ElasticsearchRESTfulAPI入门：基础搜索与查询DSL本文为Elasticsearch初学者详细解析RESTfulAPI的核心操作与查询DSL语法，包含大量实战示例及最佳实践。一、Elasticsearch与RESTfulAPI简介Elasticsearch（ES）作为分布式搜索分析引擎，其RESTfulAPI是与集群交互的核心方式。通过HTTP协议实现：✅索引文档的CRUD操作
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那