Z-Order加速Hudi大规模数据集方案分析

1. 背景

多维分析是大数据分析的一个典型场景，这种分析一般带有过滤条件。对于此类查询，尤其是在高基字段的过滤查询，理论上只我们对原始数据做合理的布局，结合相关过滤条件，查询引擎可以过滤掉大量不相关数据，只需读取很少部分需要的数据。例如我们在入库之前对相关字段做排序，这样生成的每个文件相关字段的min－max值是不存在交叉的，查询引擎下推过滤条件给数据源结合每个文件的min－max统计信息，即可过滤掉大量不相干数据。上述技术即我们通常所说的data clustering 和 data skip。直接排序可以在单个字段上产生很好的效果，如果多字段直接排序那么效果会大大折扣的，Z-Order可以较好的解决多字段排序问题。

本文基于Apache Spark 以及 Apache Hudi 结合Z－order技术介绍如何更好的对原始数据做布局，减少不必要的I/O，进而提升查询速度。具体提案可参考Hudi RFC-28：Support Z-order curve

2. Z-Order介绍

Z-Order是一种可以将多维数据压缩到一维的技术，在时空索引以及图像方面使用较广。Z曲线可以以一条无限长的一维曲线填充任意维度的空间，对于数据库的一条数据来说，我们可以将其多个要排序的字段看作是数据的多个维度，z曲线可以通过一定的规则将多维数据映射到一维数据上，构建z-value 进而可以基于该一维数据进行排序。z-value的映射规则保证了排序后那些在多维维度临近的数据在一维曲线上仍然可以彼此临近。

wiki定义：假设存在一个二维坐标对(x, y)，这些坐标对于于一个二维平面上，使用Z排序，我们可以将这些坐标对压缩到一维。

当前在delta lake的商业版本实现了基于Z-Order的data Clustering技术，开源方面Spark/Hive/Presto 均未有对Z-Order的支持。

3. 具体实现

我们接下来分2部分介绍如何在Hudi中使用Z-Order：

z-value的生成和排序
与Hudi结合

3.1 z-value的生成和排序

这部分是Z-Order策略的核心，这部分逻辑是公用的，同样适用其他框架。

Z-Order的关键在于z-value的映射规则。wiki上给出了基于位交叉的技术，每个维度值的比特位交叉出现在最终的z-value里。例如假设我们想计算二维坐标（x=97, y=214）的z-value，我们可以按如下步骤进行

第一步：将每一维数据用bits表示

x value：01100001
y value：11010110

第二步：从y的最左侧bit开始，我们将x和y按位做交叉，即可得到z 值，如下所示

z-value： 1011011000101001

对于多维数据，我们可以采用同样的方法对每个维度的bit位做按位交叉形成 z-value，一旦我们生成z-values 我们即可用该值做排序，基于z值的排序自然形成z阶曲线对多个参与生成z值的维度都有良好的聚合效果。

上述生成z-value的方法看起来非常好，但在实际生产环境上我们要使用位交叉技术产生z-value 还需解决如下问题：

上述介绍是基于多个unsigned int类型的递增数据，通过位交叉生成z-value的。实际上的数据类型多种多样，如何处理其他类型数据
不同类型的维度值转成bit位表示，长度不一致如何处理
如何选择数据类型合理的保存z-value，以及相应的z值排序策略

针对上述问题，我们采用两种策略生成z值。

3.1.1 基于映射策略的z值生成方法

第一个问题：对不同的数据类型采用不同的转换策略

无符号类型整数：直接转换成bits位表示
Int类型的数据：直接转成二进制表示会有问题，因为java里面负数的二进制表示最高位（符号位）为1，而正整数的二进制表示最高位为0（如下图所示），直接转换后会出现负数大于正数的现象。

十进制	二进制
0	0000 0000
1	0000 0001
2	0000 0010
126	0111 1110
127	0111 1111
-128	1000 0000
-127	1000 0001
-126	1000 0010
-2	1111 1110
-1	1111 1111

对于这个问题，我们可以直接将二进制的最高位反转，就可以保证转换后的词典顺序和原值相同。如下图

十进制	二进制	最高位反转	最高位反转后十进制
0	0000 0000	1000 0000	128
1	0000 0001	1000 0001	129
2	0000 0010	1000 0010	130
126	0111 1110	1111 1110	254
127	0111 1111	1111 1111	255
-128	1000 0000	0000 0000	0
-127	1000 0001	0000 0001	1
-126	1000 0010	0000 0010	2
-2	1111 1110	0111 1110	126
-1	1111 1111	0111 1111	127

Long类型的数据：转换方式和Int类型一样，转成二进制形式并将最高位反转
Double、Float类型的数据：转成Long类型，之后转成二进制形式并将最高位反转
Decimal/Date/TimeStamp类型数据：转换成long类型，然后直接用二进制表示。
UTF-8 String类型的数据：String类型的数据直接用二进制表示即可保持原来的自然序，但是字符串是不定长的无法直接用来做位交叉。我们采用如下策略处理string类型大于8bytes的字符串截断成8bytes，不足8bytes的string 填充成8bytes。
null值处理：
- 数值类型的null直接变成该数值类型的最大值，之后按上述步骤转换；
- String类型null 直接变成空字符串之后再做转换；

第二个问题：生成的二进制值统一按64位对齐即可

第三个问题：可以用Array[Byte]来保存z值（参考Amazon的DynamoDB 可以限制该数组的长度位1024）。对于 Array[Byte]类型的数据排序，hbase的rowkey 排序器可以直接拿来解决这个问题

基于映射策略的z值生成方法，方便快捷很容易理解，但是有一定缺陷：

参与生成z-value的字段理论上需要是从0开始的正整数，这样才能生成很好的z曲线。真实的数据集中是不可能有这么完美的情况出现的， zorder的效果将会打折扣。比如x 字段取值(0, 1, 2)， y字段取值(100, 200, 300)，用x, y生成的z-value只是完整z曲线的一部分，对其做z值排序的效果和直接用x排序的效果是一样的；再比如x的基数值远远低于y的基数值时采用上述策略排序效果基本和按y值排序是一样的，真实效果还不如先按x排序再按y排序。

String类型的处理，上述策略对string类型是取前8个字节的参与z值计算, 这将导致精度丢失。当出现字符串都是相同字符串前缀的情况就无法处理了，比如"https://www.baidu.com" , "https://www.google.com" 这两个字符串前8个字节完全一样，对这样的数据截取前8个字节参与z值计算没有任何意义。

上述策略出现缺陷的主要原因是数据的分布并不总是那么好导致。有一种简单的方案可以解决上述问题：对参与z值计算的所有维度值做全局Rank，用Rank值代替其原始值参与到z值计算中，由于Rank值一定是从0开始的正整数，完全符合z值构建条件，较好的解决上述问题。在实验中我们发现这种用Rank值的方法确实很有效，但是z值生成效率极低，计算引擎做全局Rank的代价是非常高的，基于Rank的方法效率瓶颈在于要做全局Rank计算，那么我们可不可以对原始数据做采样减少数据量，用采样后的数据计算z值呢，答案是肯定的。

/** Generates z-value*/
val newRDD = df.rdd.map { row =>
  val values = zFields.map { case (index, field) =>
    field.dataType match {
      case LongType =>
        ZOrderingUtil.longTo8Byte(row.getLong(index))
      case DoubleType =>
        ZOrderingUtil.doubleTo8Byte(row.getDouble(index))
      case IntegerType =>
        ZOrderingUtil.intTo8Byte(row.getInt(index))
      case FloatType =>
        ZOrderingUtil.doubleTo8Byte(row.getFloat(index).toDouble)
      case StringType =>
        ZOrderingUtil.utf8To8Byte(row.getString(index))
      case DateType =>
        ZOrderingUtil.longTo8Byte(row.getDate(index).getTime)
      case TimestampType =>
        ZOrderingUtil.longTo8Byte(row.getTimestamp(index).getTime)
      case ByteType =>
        ZOrderingUtil.byteTo8Byte(row.getByte(index))
      case ShortType =>
        ZOrderingUtil.intTo8Byte(row.getShort(index).toInt)
      case d: DecimalType =>
        ZOrderingUtil.longTo8Byte(row.getDecimal(index).longValue())
      case _ =>
        null
    }
  }.filter(v => v != null).toArray
  val zValues = ZOrderingUtil.interleaveMulti8Byte(values)
  Row.fromSeq(row.toSeq ++ Seq(zValues))
}.sortBy(x => ZorderingBinarySort(x.getAs[Array[Byte]](fieldNum)))

3.1.2 基于RangeBounds的z-value生成策略

在介绍基于RangeBounds的z-value生成策略之前先看看Spark的排序过程，Spark排序大致分为2步

对输入数据的key做sampling来估计key的分布，按指定的分区数切分成range并排序。计算出来的rangeBounds是一个长度为numPartition - 1 的数组，该数组里面每个元素表示一个分区内key值的上界/下界。
shuffle write 过程中，每个输入的key应该分到哪个分区内，由第一步计算出来的rangeBounds来确定。每个分区内的数据虽然没有排序，但是注意rangeBounds是有序的因此分区之间宏观上看是有序的，故只需对每个分区内数据做好排序即可保证数据全局有序。

参考Spark的排序过程，我们可以这样做

对每个参与Z-Order的字段筛选规定个数（类比分区数）的Range并对进行排序，并计算出每个字段的RangeBounds；
实际映射过程中每个字段映射为该数据所在rangeBounds的中的下标，然后参与z-value的计算。可以看出由于区间下标是从0开始递增的正整数，完全满足z值生成条件；并且String类型的字段映射问题也被一并解决了。基于RangeBounds的z值生成方法，很好的解决了第一种方法所面临的缺陷。由于多了一步采样生成RangeBounds的过程，其效率显然不如第一种方案，我们实现了上述两种z值生成方法以供选择。

/** Generates z-value */
val indexRdd = internalRdd.mapPartitionsInternal { iter =>
  val bounds = boundBroadCast.value
  val origin_Projections = sortingExpressions.map { se =>
    UnsafeProjection.create(Seq(se), outputAttributes)
  }
  iter.map { unsafeRow =>
    val interleaveValues = origin_Projections.zip(origin_lazyGeneratedOrderings).zipWithIndex.map { case ((rowProject, lazyOrdering), index) =>
      val row = rowProject(unsafeRow)
      val decisionBound = new DecisionBound(sampleRdd, lazyOrdering)
      if (row.isNullAt(0)) {
        bounds(index).length + 1
      } else {
        decisionBound.getBound(row, bounds(index).asInstanceOf[Array[InternalRow]])
      }
    }.toArray.map(ZOrderingUtil.toBytes(_))
    val zValues = ZOrderingUtil.interleaveMulti4Byte(interleaveValues)
    val mutablePair = new MutablePair[InternalRow, Array[Byte]]()
    mutablePair.update(unsafeRow, zValues)
  }
}.sortBy(x => ZorderingBinarySort(x._2), numPartitions = fileNum).map(_._1)

3.2 与Hudi结合

与Hudi的结合大致分为两部分

3.2.1 表数据的Z排序重组

这块相对比较简单，借助Hudi内部的Clustering机制结合上述z值的生成排序策略我们可以直接完成Hudi表数据的数据重组，这里不再详细介绍。

3.2.2 收集保存统计信息

这块其实RFC27已经在做了，感觉有点重复工作我们简单介绍下我们的实现，数据完成z重组后，我们需要对重组后的每个文件都收集参与z值计算的各个字段的min/max/nullCount 的统计信息。对于统计信息收集，可以通过读取Parquet文件或者通过SparkSQL收集

读取Parquet文件收集统计信息

/** collect statistic info*/
val sc = df.sparkSession.sparkContext
val serializableConfiguration = new SerializableConfiguration(conf)
val numParallelism = inputFiles.size/3
val previousJobDescription = sc.getLocalProperty(SparkContext.SPARK_JOB_DESCRIPTION)
try {
  val description = s"Listing parquet column statistics"
  sc.setJobDescription(description)
  sc.parallelize(inputFiles, numParallelism).mapPartitions { paths =>
    val hadoopConf = serializableConfiguration.value
    paths.map(new Path(_)).flatMap { filePath =>
      val blocks = ParquetFileReader.readFooter(hadoopConf, filePath).getBlocks().asScala
      blocks.flatMap(b => b.getColumns().asScala.
        map(col => (col.getPath().toDotString(),
          FileStats(col.getStatistics().minAsString(), col.getStatistics().maxAsString(), col.getStatistics.getNumNulls.toInt))))
        .groupBy(x => x._1).mapValues(v => v.map(vv => vv._2)).
        mapValues(value => FileStats(value.map(_.minVal).min, value.map(_.maxVal).max, value.map(_.num_nulls).max)).toSeq.
        map(x => ColumnFileStats(filePath.getName(), x._1, x._2.minVal, x._2.maxVal, x._2.num_nulls))
    }.filter(p => cols.contains(p.colName))
  }.collect()
} finally {
  sc.setJobDescription(previousJobDescription)
}

通过SparkSQL方式收集统计信息

/** collect statistic info*/
val inputFiles = df.inputFiles
val conf = df.sparkSession.sparkContext.hadoopConfiguration
val values = cols.flatMap(c => Seq( min(col(c)).as(c + "_minValue"), max(col(c)).as(c + "_maxValue"), count(c).as(c + "_noNullCount")))
val valueCounts = count("*").as("totalNum")
val projectValues = Seq(col("file")) ++ cols.flatMap(c =>
  Seq(col(c + "_minValue"), col(c + "_maxValue"), expr(s"totalNum - ${c + "_noNullCount"}").as(c + "_num_nulls")))
val result = df.select(input_file_name() as "file", col("*"))
  .groupBy($"file")
  .agg(valueCounts,  values: _*).select(projectValues:_*)
result

之后将这些信息保存在Hudi表里面的hoodie目录下的index目录下，然后供Spark查询使用。

3.2.3 应用到Spark查询

为将统计信息应用Spark查询，需修改HudiIndex的文件过滤逻辑，将DataFilter转成对Index表的过滤，选出候选要读取的文件，返回给查询引擎，具体步骤如下。

将索引表加载到 IndexDataFrame
使用原始查询过滤器为 IndexDataFrame 构建数据过滤器
查询 IndexDataFrame 选择候选文件
使用这些候选文件来重建 HudiMemoryIndex

通过min/max值和null计数信息为 IndexDataFrame 构建数据过滤器，由于z排序后参与z值计算的各个字段在每个文件里面的min/max值很大概率不交叉，因此对Index表的过滤可以过滤掉大量的文件。

/** convert filter */
def createZindexFilter(condition: Expression): Expression = {
  val minValue = (colName: Seq[String]) =>
    col(UnresolvedAttribute(colName) + "_minValue").expr
  val maxValue = (colName: Seq[String]) =>
    col(UnresolvedAttribute(colName) + "_maxValue").expr
  val num_nulls = (colName: Seq[String]) =>
    col(UnresolvedAttribute(colName) + "_num_nulls").expr
  condition match {
    case EqualTo(attribute: AttributeReference, value: Literal) =>
      val colName = HudiMergeIntoUtils.getTargetColNameParts(attribute)
      And(LessThanOrEqual(minValue(colName), value), GreaterThanOrEqual(maxValue(colName), value))
    case EqualTo(value: Literal, attribute: AttributeReference) =>
      val colName = HudiMergeIntoUtils.getTargetColNameParts(attribute)
      And(LessThanOrEqual(minValue(colName), value), GreaterThanOrEqual(maxValue(colName), value))
    case equalNullSafe @ EqualNullSafe(_: AttributeReference, _ @ Literal(null, _)) =>
      val colName = HudiMergeIntoUtils.getTargetColNameParts(equalNullSafe.left)
      EqualTo(num_nulls(colName), equalNullSafe.right)
.......

4. 测试结果

我们采用databrick的测试样例https://help.aliyun.com/document_detail/168137.html?spm=a2c4g.11186623.6.563.53c258ccmqvYfy 进行了测试

测试数据量和资源使用大小和databrick保持一致。唯一区别是我们只生成了10000个文件，原文是100w个文件。测试结果表明zorder加速比还说很可观的，另外Z-Order的效果随着文件数的增加会越来越好，我们后续也会在100w文件级别测试。

表名称	时间（s）
conn_random_parquet	89.3
conn_zorder	19.4
conn_zorder_only_ip	18.2

以上就是Z-Order加速Hudi大规模数据集方案分析的详细内容，更多关于Z-Order加速Hudi大规模数据集的资料请关注脚本之家其它相关文章！

C++——命名空间
一、命名空间的基本概念1.命名空间的定义命名空间（Namespace）是C++提供的一种机制，用于将全局作用域划分为不同的命名区域，解决名称冲突问题。它是C++对C语言中全局命名空间污染问题的解决方案。2.命名空间的作用解决命名冲突当不同库或模块使用相同名称时，命名空间提供隔离环境：namespaceLibA{intvalue=10;}namespaceLibB{intvalue=20;//不会与
【家政平台开发(93)】解锁家政新视界：VR/AR在家政平台的奇妙旅程奔跑吧邓邓子家政平台开发家政平台开发 VR AR 虚拟现实增强现实应用实践
本【家政平台开发】专栏聚焦家政平台从0到1的全流程打造。从前期需求分析，剖析家政行业现状、挖掘用户需求与梳理功能要点，到系统设计阶段的架构选型、数据库构建，再到开发阶段各模块逐一实现。涵盖移动与PC端设计、接口开发及性能优化，测试阶段多维度保障平台质量，部署发布阶段确保平稳上线。还深入探讨运营策略、技术创新应用及未来发展方向，为家政平台开发提供全面且实用的知识体系与实践指南。目录一、VR/AR在家
基于Matplotlib，在个人电脑上实现无代码、易于使用的绘图体验 wh3933 matplotlib 信息可视化
在科学研究、商业分析和学术出版等领域，数据可视化是沟通洞见、展示成果的关键环节。强大的Python绘图库Matplotlib为此提供了无限可能，但其陡峭的学习曲线和对编程能力的硬性要求，将大量非程序员的领域专家拒之门外。这些专家——包括科学家、分析师、学者和学生——虽然在各自领域具备深厚的知识，却常常因不熟悉编程而难以高效地创建高质量、可定制的图表。他们目前或受限于Excel等功能有限的软件，或需
我是如何搭建了一个企业级PDF处理平台的 wh3933 pdf 架构
第一部分：执行摘要与架构愿景1.1.拟议解决方案概述本文旨在为构建一个模块化、高鲁棒性、可扩展的企业级PDF处理平台提供全面的架构设计与技术实现蓝图。该平台的核心功能集成了虚拟打印、PDF创建、光学字符识别（OCR）以及高级加密，以满足现代企业对文档工作流自动化和安全性的严苛要求。为了实现这一目标，我们提出一个清晰的、关注点分离的系统架构。该架构将整个解决方案解耦为两个核心部分：一个部署在用户工作
车载以太网-TC8测试-UT(Upper Tester) 天赐好车车载以太网车载以太网 TC8 UT
目录一、技术原理：指令体系与协议适配1.**指令格式与传输机制**2.**协议栈交互逻辑**3.**规范遵循与版本演进**二、测试应用：TC8测试场景与案例1.**TCP协议栈深度验证**2.**ARP协议健壮性测试**3.**SOME/IP服务动态管理**三、实现挑战与解决方案1.**实时性要求**2.**安全性风险**3.**协议栈适配差异**四、集成流程与工具链1.**UT开发与部署**2.
Nuxt.js 静态生成中的跨域问题解决方案 m0_73882020 javascript 开发语言 ecmascript
当您运行npmrungenerate生成静态页面时，Vite的代理服务器确实无法使用，因为生成阶段是在Node.js环境中执行的构建过程。但别担心，我将为您提供一套完整的解决方案来处理构建阶段的跨域问题。核心解决方案1.构建阶段：使用服务端中转API（推荐）在构建阶段通过Nuxt的server路由中转请求，避开跨域限制：//server/api/products.tsexportdefaultde
MySQL数据库进阶(八)———查询优化与执行计划深度解析【本人】数据库数据库 mysql
前言在掌握了索引原理后，我们将深入MySQL最核心的性能优化领域——查询优化与执行计划分析。本文将从优化器工作原理到实战调优技巧，全方位提升你的SQL性能优化能力。一、查询优化的本质：从分钟级到毫秒级的蜕变查询优化是数据库系统的核心能力，MySQL通过优化器将SQL转换为高效执行计划。优化前后的性能差异可能达到千倍级：--优化前（执行时间12.8秒）SELECT*FROMordersoJOINus
Kotlin Flow 冷流和热流麦田里的守望者-Jiang Kotlin android kotlin rxjava android
本文主要分析了冷流和热流的相关实现原理，原理逻辑长而复杂。特别是涉及热流SharedFlow相关实现原理时，逻辑更是抽象，理解比较困难。本文比较长，建议根据目录选择分段阅读，可以先看基础概念和冷流，再分别看热流SharedFlow和StateFlow。阅读本文时，可以带着以下问题去思考：冷流和热流指的是什么？在业务开发中，冷流和热流可以用来做什么或者解决什么问题？冷流和热流的区别是什么？冷流的执行
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
【数据空间】数据空间基本理论及公司建设方法暴躁小师兄数据学院数据治理大数据人工智能安全网络区块链
数据空间基本理论及公司建设方法数据空间是一种数据管理框架，旨在帮助组织高效存储、访问、集成和分析数据。它强调数据作为战略资产，通过结构化方法提升数据价值。以下我将从基本理论入手，逐步解释公司如何完成建设，确保内容结构清晰、真实可靠。一、数据空间基本理论数据空间理论源于数据管理领域，核心是解决数据孤岛、不一致性和安全风险等问题。其理论基础包括：数据抽象与建模：数据空间将数据视为独立于应用的资源，使用
【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？ 985小水博一枚呀人工智能 pytorch 语言模型大模型
【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？文章目录【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？前言思维链（CoT）在大模型中的应用示例示例任务：应用思维链提示：模型输出：分析：思维
LiDAR360 5.2.2：如梦令般的体验与感悟 VXHAruanjian888 航测软件信息可视化数据分析数据挖掘 arcgis
初识LiDAR360忆昔年，初识LiDAR360，心中波澜起伏，恰如陆游笔下的江南春色，绚丽多姿。那时，我怀着满腔热情，踏入了这片未知的领域。LiDAR3605.2.2，如同一位睿智的导师，引领我在点云数据的海洋中遨游。功能强大，细节精致LiDAR3605.2.2的功能之强大，令人叹为观止。它不仅支持多种点云数据格式，还能进行高效的点云处理与分析。每当我使用它进行地形建模、植被分析或是城市三维建模
雪豹速清：智能清理，释放手机空间非凡ghost 智能手机软件需求 android 生活
在智能手机的日常使用中，随着时间的推移，手机内存往往会逐渐被各种垃圾文件占据，导致手机运行缓慢、存储空间不足。为了解决这一问题，南宁酷比网络科技有限公司推出了雪豹速清这款功能强大的手机清理软件。它通过智能筛选垃圾文件、保护重要数据、查找卸载残留等功能，为用户提供了一个高效、安全的手机清理解决方案，让手机内存空间更加清洁，运行更加流畅。雪豹速清为用户带来轻松的文件管理功能，你可以对手机的内存进行清理
CORS（跨域资源共享）：跨域请求的解决方案阿珊和她的猫 javascript 前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录一、CORS的基本概念1.简单请求2.预检请求二、设置CORS使用Nod
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
FastAPI 与 OpenIddict 的微服务鉴权整合方案 NetX行者 python fastapi 微服务架构开源 python
架构概述基于微服务的身份认证架构采用OAuth2.0/OpenIDConnect协议，OpenIddict作为认证服务器，FastAPI作为资源服务器。系统包含三个核心组件：认证服务、API网关和业务微服务。OpenIddict负责颁发令牌，FastAPI通过JWT验证访问权限。技术栈选型认证服务器:OpenIddict4.8（基于ASP.NETCore）资源服务器:FastAPI0.95+（Py
Android性能实战——Systrace分析实例（十二） c小旭 Android性能优化 android 性能优化
上一篇文章我们得到了一个html文件，这里我们来通过拿到的trace.html文件来分析一些耗时场景。一、简单场景分析1、快捷键使用在开始分析案例之前我们先来看一下快捷键的使用，可以加快查看Systrace的速度，下面是一些常用的快捷键。W：放大Systrace,放大可以更好地看清局部细节S：缩小Systrace,缩小以查看整体A：左移D：右移M：高亮选中当前鼠标点击的段（可以快速标识出这个方法的
C++11 算法详解：std::copy_if 与 std::copy_n 码事漫谈 c++11 c++算法开发语言
文章目录引言std::copy_if：条件筛选复制函数原型核心功能参数解析返回值实现逻辑示例：筛选容器中的偶数注意事项std::copy_n：固定数量复制函数原型核心功能参数解析返回值实现逻辑示例：复制前N个元素注意事项对比分析与应用场景功能差异性能对比典型应用场景`std::copy_if`适用场景`std::copy_n`适用场景最佳实践与常见陷阱1.避免目标容器空间不足2.谓词函数的设计3.
数据标注问题【附解决方案】【持久更新】
视频转化错误对抽烟检测的数据准备标注，首先将视频进行转化，但是报错，尝试视频修复。1️⃣MP4Repair0.9.0FreeDownloadforWindowsDownloadMP4Repair0.9.0:ThisisawrapperorGUIarounduntrunc-w,theWindowsversionofuntrunc.UntruncisautilityforMP4videorepair.
Sider多模型AI助手平台深度评测：开发者高效编程的秘密武器梦玄海人工智能 copilot 自动化运维开源
一、为什么开发者需要多模型平台？当技术决策面临关键选择时：核心价值：避免被单一模型局限思维，通过横向对比获得最佳解决方案二、Sider核心功能全景图模块支持能力开发场景示例模型库GPT-4/Claude/Gemini/本地模型等`gitdiff智能编程实时补全/调试/注释生成VSCode中自动生成JSDoc文档处理PDF/Word/网页解析技术白皮书关键信息提取自动化定时任务+API集成每日自动生
家装宝典《水路通·水管工智能宝典》—— 零基础到大师的全流程水管工程解决方案
《水路通·水管工智能宝典》是一款为水管工及家居维修爱好者打造的零门槛专业工具，堪称行业从业者的"掌上工艺图书馆"。软件构建了覆盖水管工程全生命周期的知识体系分享了「水管工手册」链接：https://pan.quark.cn/s/1cd0bf17b7b8
React 组件间传值的问题及解决方案 JJCTO袁龙 react.js 前端前端框架
React组件间传值的问题及解决方案在React开发中，组件间传值是构建复杂用户界面的基础。然而，开发者在实现组件间传值时可能会遇到各种问题，如数据传递不正确、状态更新延迟或嵌套组件传值复杂等。本文将探讨React组件间传值的常见问题，并提供解决方案。一、React组件间传值的常见问题（一）数据传递不正确父组件传递给子组件的props可能未正确接收或使用，导致子组件无法正确显示数据。错误示例：//
React.js 组件间数据传递的常见问题及解决方案 JJCTO袁龙 react react.js 前端前端框架
React.js组件间数据传递的常见问题及解决方案在React.js开发中，组件间的数据传递是构建复杂用户界面的基础。然而，开发者在实现组件间数据传递时可能会遇到各种问题，导致数据无法正确传递或更新。本文将探讨这些问题的常见原因，并提供相应的解决方案。一、React.js组件间数据传递的常见问题（一）数据传递不正确父组件传递给子组件的props可能未正确接收或使用，导致子组件无法正确显示数据。（二
React-Ts项目中配置路径别名@ wisuky 前端项目相关配置 react.js 前端前端框架
方案一：配置webpack.config.js在react脚手架搭建的项目中，webpack.config.js配置文件是隐藏的，需要通过npmruneject打开，并且该操作是不可逆的，所以不建议使用该方案。方案二：使用craco库1.安装cracoyarnadd-D@craco/cracoORnpmi-D@craco/craco2.在项目根目录中创建craco.config.js配置文件，并添
react-ts项目使用地图
react-amap使用教程参考链接地理/逆地理编码REACT-AMAP问题描述boss直聘移动端页面展示的是一个地图图片我们决定展示地图，可以缩放，中心坐标为职位工作地点方案管理员发布职位时填写工作地址：省份＋城市＋区县＋城镇＋乡村＋街道＋门牌号码根据结构化地址信息请求高德地图接口，返回地理编码例如：结构化地址举例：北京市朝阳区阜通东大街6号转换后经纬度：116.480881,39.989410
【Docker基础】Docker网络模式：Host模式深度解析 IT成长日记容器技术深度解析与实践 docker 网络容器网络模式 Host
目录1Docker网络模式概述1.1Docker网络模式对比2Host模式核心技术解析2.1网络命名空间共享机制2.2架构原理2.3核心配置参数3Host模式深度剖析3.1网络接口共享机制3.2端口空间共享特性3.3网络性能优势分析4与其他网络模式的对比分析4.1与Bridge模式对比4.2与Container模式对比5典型应用场景5.1高性能网络服务部署5.2网络代理与负载均衡5.3系统级监控与
AntDesignPro动态路由配置全攻略 bemyrunningdog 前后端
目录AntDesignPro前后端动态路由配置指南(TypeScript+Java)一、整体架构二、Java后端实现1.数据库设计(MySQL)2.实体类定义3.DTO对象4.服务层实现5.控制器三、前端实现(TypeScript)1.定义路由类型2.路由转换器3.应用配置(app.tsx)4.路由加载优化四、权限控制整合1.Java端权限检查2.前端权限整合五、部署优化方案六、生产环境建议七、完
煤炭传送带YOLOv8异物检测系统介绍 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测人工智能深度学习计算机视觉传送带识别异物识别
传送带YOLOv8异物检测系统介绍随着工业自动化水平的不断提高，传送带系统在矿山、食品加工、制造业等领域的应用日益广泛。然而，传送带在运行过程中常常会混入各种异物，如金属零件、石块、木块等，这些异物不仅会影响产品质量，还可能损坏设备甚至危及人员安全。基于YOLOv8算法的传送带异物检测系统应运而生，为解决这一问题提供了智能化解决方案。系统概述YOLOv8(YouOnlyLookOnceversio
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
Itheum 借助 Walrus 实现音乐人和 AI 的大规模数据资产化 Sui_Network Sui Walrus 合作伙伴人工智能大数据去中心化区块链 web3
Itheum是一个赋予人类和AI智能体真正数据所有权的协议，目标是在AI时代成为所有数据的去中心化存储、资产化、知识产权透明和变现基础设施。Itheum初期专注于为音乐行业提供技术支持，可将真实世界的数据资产化为可交易的数字资产，用于控制和交易大型文件，如母带音频、WAV音轨文件、高清视频，以及定制AI模型，推动自主数字数据经济的发展。Itheum的初期重点是通过为音乐家和AI代理提供技术来颠覆音
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他