小米技术

干货 | 小米A/B实验场景查询提速：数据预聚合方案

“

本期技术干货，我们邀请到了小米集团大数据工程师乐涛，和大家分享基于Apache Doris的小米A/B实验场景查询提速实践。

”

一、业务背景

A/B实验是互联网场景中对比策略优劣的重要手段。为了验证一个新策略的效果，需要准备原策略A和新策略B两种方案。随后在总体用户中取出一小部分，将这部分用户完全随机地分在两个组中，使两组用户在统计角度无差别。

将原策略A和新策略B分别展示给不同的用户组，一段时间后，结合统计方法分析数据，得到两种策略生效后指标的变化结果，并以此判断新策略B是否符合预期。

小米A/B实验平台是一款通过A/B实验的方式，借助实验分组、流量拆分与科学评估来辅助完成科学的业务决策，最终实现业务增长的一款运营工具产品。其广泛的应用于产品研发生命周期中各个环节：

角色	场景
产品	产品功能迭代、用户路径设计、UI&交互优化
运营	运营活动优化：落地页、素材... 推送方案择优：推送时机、文案...
研发	推荐算法优化、排序算法优化...

本文主要从数据的角度分析A/B实验场景查询的性能现状，探讨一下性能优化的解决方案。

二、数据平台架构

A/B实验平台的架构如下图所示：

平台使用的数据主要包含平台自用的实验配置数据、元数据，以及业务方上报的日志数据。

由于业务方引入SDK，并与分流服务进行交互，日志数据中包含其参与的实验组ID信息。

用户在实验平台上配置、分析、查询，以获得报告结论满足业务诉求。

鉴于AB实验报告各个业务方上报数据的链路都大体类似，我们就拿头部业务方广告业务举例，数据流程如下图所示：

整个数据链路并不复杂，日志数据传入后，经过必要的数据处理和清洗工作进入Talos（小米自研消息队列），通过Flink任务以明细数据的形式实时写入到Doris表中，同时Talos数据也会同步到Hive表进行备份，以便问题排查和数据修复。

出于对高效写入以及字段增减需求的考虑，Doris明细表以Duplicate模型来建模：

CREATE TABLE `dwd_xxxxxx` (
  `olap_date` int(11) NULL COMMENT "分区日期",
  `user_id` varchar(256) NULL COMMENT "用户id",
  `exp_id` varchar(512) NULL COMMENT "实验组ID",
  `dimension1` varchar(256) NULL COMMENT "",
  `dimension2` varchar(256) NULL COMMENT "",
  ......
  `dimensionN` bigint(20) NULL COMMENT "",
  `index1` decimal(20, 3) NULL COMMENT "",
  ......
  `indexN` int(11) NULL COMMENT "",


) ENGINE=OLAP
DUPLICATE KEY(`olap_date`, `user_id`)
COMMENT "OLAP"
PARTITION BY RANGE(`olap_date`)
(
PARTITION p20221101 VALUES [("20221101"), ("20221102")),
PARTITION p20221102 VALUES [("20221102"), ("20221103")),
PARTITION p20221103 VALUES [("20221103"), ("20221104"))
)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 300
；

三、数据现状分析

在提速之前，小米A/B实验平台完成实验报告查询的P95时间为小时级，实验报告使用数据的方式存在诸多的性能问题，直接影响业务部门做运营和决策的效率。

>>>> 3.1 报告查询基于明细

当前报告查询的数据来源为明细表，而明细表的数据量巨大：

单日记录数量级	单日存储量级(Doris replication_num=3)	字段数量
十亿级	TB级别	百余个

而且，实验报告的查询条件中时间范围常常横跨多天。基于历史查询报告统计，查询条件中时间范围大于一天的报告占比69.1%，具体的时间跨度占比分布如下：

明细数据的巨大扫描量给集群带来了不小的压力，且由于报告查询存在并发以及SQL的拆分，如果一个SQL请求不能快速的返回结果释放资源，也会影响到请求的排队状况。

因此在工作时间段内Doris集群BE节点CPU负载状况基本是持续满载，磁盘IO也持续处于高负荷状态，如下图所示：

BE节点CPU使用率

BE节点磁盘IO

个人思考：

当前报告所有查询基于明细数据，且平均查询时间跨度为4天，查询扫描数据量上百亿。由于扫描数据量级大，计算成本高，给集群造成较大压力，导致数据查询效率不高。
如果通过对数据进行预聚合处理，控制Scan Rows和Scan Bytes，减小集群的压力，查询性能会大幅提升。

>>>> 3.2 字段查询热度分层分布

由于之前流程管控机制相对宽松，用户添加的埋点字段都会进入到明细表中，导致字段冗余较多。统计历史查询报告发现，明细表中常用的维度和指标只集中在部分字段，且查询热度分层分布：

维度字段名	使用次数
exp_id	4000+
维度1
维度2
维度3
维度4
维度5
维度6
维度7	1000-4000
维度8
维度9‍
维度10‍
维度11
维度12	小于1000
维度13
其余11个维度字段

参与计算的指标也集中在部分字段，且大部分都是聚合计算(sum)或可以转化为聚合计算(avg)：

字段名	算子‍	使用次数
指标1	sum‍	1000+
指标2	sum
指标3	sum
指标4	sum
指标5	avg(sum/cnt)
指标6	sum
指标7	sum
指标8	avg(sum/cnt)
指标9	sum
指标10	sum
指标11	sum
指标12	avg(sum/cnt)
指标13	uniq_user_avg(sum/count(distinct user_id))

个人思考：

明细表中参与使用的维度只占54.3%，高频使用的维度只占15.2%，维度查询频次分层分布。
数据聚合需要对明细表中维度字段做取舍，选择部分维度进行上卷从而达到合并的目的，但舍弃部分字段必然会影响聚合数据对查询请求的覆盖情况。而维度查询频次分层分布的场景非常适合根据维度字段的热度做不同层次的数据聚合，同时兼顾聚合表的聚合程度和覆盖率。

>>>> 3.3 实验组ID匹配效率低

当前明细数据的格式为：

明细数据中的实验组ID以逗号分隔的字符串形式聚拢在一个字段中，而实验报告的每条查询语句都会使用到exp_id过滤，查询数据时使用LIKE方式匹配，查询效率低下。

个人思考：

将实验组ID建模成一个单独的维度，可使用完全匹配代替LIKE查询，且可利用到Doris索引，提高数据查询效率。
将逗号分隔的实验组ID直接打平会引起数据量的急剧膨胀，因此需要设计合理的方案，同时兼顾到数据量和查询效率。

>>>> 3.4 进组人数计算有待改进

进组人数查询是实验报告的必查指标，因此其查询速度很大程度上影响实验报告的整体查询效率，当前主要问题如下：

当进组人数作为独立指标计算时，使用近似计算函数APPROX_COUNT_DISTINCT处理，是通过牺牲准确性的方式提升查询效率。
当进组人数作为复合指标的分母进行计算时，使用COUNT DISTINCT处理，此方式在大数据量计算场景效率较低。

个人思考：

AB实验报告的数据结论会影响到用户决策，牺牲准确性的方式提升查询效率是不可取的，特别是广告这类涉及金钱和业绩的业务场合，用户不可能接受近似结果。
进组人数使用的COUNT DISTINCT计算需要依赖明细信息，这也是之前查询基于明细数据的重要因素。必须为此类场景设计新的方案，使进组人数的计算在保证数据准确的前提下提高效率。

四、数据优化方案

基于以上的数据现状，我们优化的核心点是将明细数据预聚合处理，通过压缩数据来控制Doris查询的Scan Rows和Scan Bytes。与此同时，使聚合数据尽可能多的覆盖报告查询。从而达到，减小集群的压力，提高查询效率的目的。

新的数据流程如下图所示：

整个流程在明细链路的基础上增加聚合链路，Talos数据一方面写入Doris明细表，另一方面增量落盘到Iceberg表中，Iceberg表同时用作回溯明细数据以及生成聚合数据。我们通过工场Alpha（小米自研数据开发平台）的实时集成和离线集成保证任务的稳定运行和数据的一致性。

>>>> 4.1 选取高频使用维度聚合

在生成数据聚合的过程中，聚合程度与请求覆盖率是负相关的。使用的维度越少，能覆盖的请求就越少，但数据聚合程度越高；使用的维度越多，覆盖的请求也越多，但数据粒度就越细，聚合程度也越低。因此需要在聚合表建模的过程中取得一个平衡。

我们的具体做法是：拉取历史（近半年）查询日志进行分析，根据维度字段的使用频次排序确认进入聚合表的优先级。在此基础上得出聚合表的覆盖率和数据量随着建模字段增加而变化的曲线，如下图所示：

其中覆盖率根据历史请求日志代入聚合表计算得出。

我们的原则是：针对OLAP查询，聚合表的数据量应尽可能的控制在单日1亿条以内，请求覆盖率尽可能达到80%以上。因此不难得出结论：选择14个维度字段对聚合表建模比较理想，数据量能控制到单日8千万条左右，且请求覆盖率约为83%。

>>>> 4.2 使用物化视图

在分析报告历史查询日志时，我们发现不同的维度字段查询频次有明显的分层：

聚合表维度	使用此维度的报告占比
exp_id	100%
维度1	100%
维度2	99.29%
维度3	99.29%
维度4	99.12%
维度5	98.98%
维度6	98.67%
维度7	35.63%
维度8	35.63%
维度9	26.78%
维度10	23.66%
维度11	15.23%
维度12	2.31%
维度13	2.19%

Top7维度字段几乎出现在所有报告的查询条件之中，对于如此高频的查询，值得做进一步的投入，使查询效率尽可能的提升到最佳。

Doris的物化视图能够很好的服务于此类场景。

▍什么是物化视图？

物化视图是一种特殊的物理表，其中保存基于基表(base table)部分字段进一步上卷聚合的结果。

虽然在物理上独立存储，但它是对用户透明的。为一张基表配置好物化视图之后，不需要为其写入和查询做任何额外的工作：

当向基表写入和更新数据时，集群会自动同步到物化视图，并通过事务方式保证数据一致性。

当对基表进行查询时，集群会自动判断是否路由到物化视图获取结果。当查询字段能被物化视图完全覆盖时，会优先使用物化视图。

因此我们的查询路由如下图所示：

用户的查询请求会尽可能的路由到聚合表物化视图，然后是聚合表基表，最后才是明细表。如此使用多梯度的聚合模型的配合来应对热度分层的查询请求，使聚合数据的效能尽可能的发挥到最大。

>>>> 4.3 精确匹配取代LIKE查询

既然物化视图这么好用，为什么我们不是基于Doris明细表配置物化视图，而是单独开发聚合表呢？

是因为明细数据中的实验组ID字段存储和查询方式并不合理，聚合数据并不适合通过明细数据直接上卷来得到。3.3节已经提到，exp_id（实验组ID）在明细表中以逗号分隔的字符串进行存储，查询数据时使用LIKE方式匹配。作为AB实验报告查询的必查条件，这种查询方式无疑是低效的。

我们希望的聚合方式如下图所示：

我们需要将exp_id字段拆开，把数据打平，使用精确匹配来取代LIKE查询，提高查询的效率。

▍控制聚合表数据量

如果只做拆分打平的处理必然会导致数据量的激增，未必能达到正向优化的效果，因此我们还需要想办法来压缩exp_id打平后的数据量：

聚合表选取维度字段建模的时候，除了4.1节提到的，以字段的使用频次热度作为依据之外，也要关注字段的取值基数，进行综合取舍。如果取值基数过高的维度字段进入聚合表，必然会对控制聚合表的数据量造成阻碍。因此，我们在保证聚合表请求覆盖量的前提下，酌情舍弃部分高基数（取值有十万种以上）的维度。
从业务的角度尽可能过滤无效数据（比如一个实验组的流量为0%或者100%，业务上就没有对照的意义，用户也不会去查，这样的数据就不需要进入聚合表）。

经过这一系列步骤，最终聚合表的数据量被控制在单日约8000万条，并没有因为exp_id打平而膨胀。

值得一提的是，exp_id字段拆分后，除了查询从LIKE匹配变为精确匹配，还额外带来了两项收益：

字段从String类型变为Int类型，作为查询条件时的比对效率变高。

能利用Doris的前缀索引和布隆过滤器等能力，进一步提高查询效率。

>>>> 4.4 使用BITMAP去重代替COUNT DISTINCT

要提速实验报告查询，针对进组人数（去重用户数）的优化是非常重要的一个部分。作为一个对明细数据强依赖的指标，我们如何在不丢失明细信息的前提下，实现像Sum,Min,Max等指标一样高效的预聚合计算呢？

BITMAP去重计算可以很好的满足我们的需求。

▍什么是BITMAP去重？

BITMAP去重简单来说就是建立一种数据结构，表现形式为内存中连续的二进制位(bit)，参与去重计算的每个元素（必须为整型）都可以映射成这个数据结构的一个bit位的下标，如下图所示：

计算去重用户数时，数据以bit_or的方式进行合并，以bit_count的方式得到结果。更重要的是，如此能实现去重用户数的预聚合。BITMAP性能优势主要体现在两个方面：

空间紧凑：通过一个bit位是否置位表示一个数字是否存在，能节省大量空间。以Int32为例，传统的存储空间为4个字节，而在BITMAP计算时只需为其分配1/8字节（1个bit位）的空间。
计算高效：BITMAP去重计算包括对给定下标的bit置位，统计BITMAP的置位个数，分别为O(1)和O(n)的操作，并且后者可使用CLZ，CTZ等指令高效计算。此外，BITMAP去重在Doris等MPP执行引擎中还可以并行加速处理，每个节点各自计算本地子BITMAP，而后进行合并。

当然，以上只是一个简化的介绍，这项技术发展至今已经做了很多优化实现，比如RoaringBitmap，感兴趣的同学可以看看：

https://github.com/RoaringBitmap/RoaringBitmap

全局字典

要实现BITMAP去重计算，必须保证参与计算的元素为UInt32 / UInt64，而我们的user_id为String类型，因此我们还需设计维护一个全局字典，将user_id映射为数字，从而实现BITMAP去重计算。

由于聚合数据目前只服务于离线查询，我们选择基于Hive表实现全局字典，其流程如下：

指标聚合

生成Doris聚合表时，将user_id作为查询指标以BITMAP类型来存储，其他常规查询指标则通过COUNT / SUM / MAX / MIN等方式聚合：

如此明细表和聚合表的指标计算对应关系如下：

指标计算	明细表	聚合表
[总数]	COUNT(*)	SUM(cnt)
[总和]	SUM($col)	SUM($col_sum)
[最大值]	MAX($col)	MAX($col_max)
[最小值]	MIN($col)	MIN($col_min)
[去重用户数]	SELECT COUNT(DISTINCT user_id) 或 SELECT COUNT(*) FROM ( SELECT user_id FROM table GROUP BY user_id )	BITMAP_UNION_COUNT($bitmap_user_id)

五、优化效果

5.1. SQL视角

查询请求转换成SQL之后，在明细表和聚合表的表现对比如下：

[总数]

-优化前

select count(*)
from doris_xxx 
where olap_date = 20221105
and event_name='VIEW'
and exp_id like '%154556%';

[总数]

-优化后

select sum(cnt)
from doris_xxx_agg
where olap_date = 20221105
and event_name='VIEW'
and exp_id = 154556;

[常规聚合]

-优化前

select sum(totalFee)
from doris_xxx
where olap_date = 20221105
and event_name='VIEW'
and exp_id like '%154556%';

[常规聚合]

-优化后

select sum(totalFee)
from doris_xxx_agg
where olap_date = 20221105
and event_name='VIEW'
and exp_id = 154556;

[进组人数]

-优化前

select count(distinct user_id)
from doris_xxx
where olap_date = 20221105
and event_name='VIEW'
and exp_id like '%154556%';

[进组人数]

-优化前

select bitmap_union_count(bitmap_user_id)
from doris_xxx_agg
where olap_date = 20221105
and event_name='VIEW'
and exp_id = 154556;

常规聚合指标查询的性能提升自不必说（速度提升50~60倍）
进组人数查询性能的提升也非常可观（速度提升10倍左右）

5.2. 集群视角

SQL查询的快进快出，使查询占用的资源能快速释放，对集群压力的缓解也有正向的作用。Doris集群BE节点CPU使用情况和磁盘IO状况的改变效果显著：

CPU使用率 -优化前
CPU使用率 -优化后
磁盘IO -优化前
磁盘IO -优化后

需要说明的是，集群状况的改善（包括实验报告查询P95提升）并不全归功于数据预聚合优化工作，这是各方合力协作（如产品业务形态调整，后端查询引擎排队优化，缓存调优，Doris集群调优等）的综合结果。

六、小技巧

由于业务查询需求的多样，在查询明细表时，会出现一个字段既作为维度又作为指标来使用的情况。

如广告业务表中的targetConvNum(目标转化个数)字段，此字段的取值为0和1，查询场景如下：

--作为维度
select targetConvNum,count(distinct user_id)
from doris_xxx_event 
where olap_date = 20221105
and event_name='CONVERSION'
and exp_id like '%154556%'
group by targetConvNum;


--作为指标
select sum(targetConvNum)
from doris_xxx_event 
where olap_date = 20221105
and event_name='CONVERSION'
and exp_id like '%154556%';

如果这个字段被选取进入聚合表，应该如何处理呢？

我们的处理方式是：

在聚合表中把这类字段建模成维度

聚合表中需要一个计数指标cnt，表示聚合表中一条数据由明细表多少条数据聚合得到
当这类字段被作为指标查询时，可将其与cnt指标配合计算得到正确结果

明细表查询

select sum(targetConvNum)
from doris_xxx_event 
where olap_date = 20221105
and event_name='CONVERSION'
and exp_id like '%154556%';

对应的聚合表查询

select sum(targetConvNum * cnt)
from doris_xxx_event_agg
where olap_date = 20221105
and event_name = 'CONVERSION'
and exp_id = 154556;

七、结束语

经过这一系列基于Doris的性能优化和测试，A/B实验场景查询性能的提升超过了我们的预期。值得一提的是，Doris较高的稳定性和完备的监控、分析工具也为我们的优化工作提效不少。希望本次分享可以给有需要的朋友提供一些参考。

你可能感兴趣的:(干货 | 小米A/B实验场景查询提速：数据预聚合方案)

一篇文章掌握整个JVM，JVM超详细解析！！！（持续更新中）阿杰同学 JVM java面试宝典 jvm java虚拟机
一篇文章掌握整个JVM，JVM超详细解析！！！（持续更新中）JVM内存模型JVM内存模型包括：虚拟机栈、堆、方法区、程序计数器、本地方法栈堆(Heap)是计算机科学中一类特殊的数据结构的统称。堆通常是一个可以被看做一棵完全二叉树的数组对象。栈（stack）又名堆栈，它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶，相对地，把另一端称为栈底。向一个栈插入新元素又称作
数据结构与算法——二叉树，多叉树的递归遍历、层序遍历，DFS与BFS Book_熬夜！数据结构与算法深度优先宽度优先算法数据结构广度优先
文章目录二叉树1.递归遍历2.层序遍历3.多叉树遍历二叉树【子节点】：每个节点下方相连的节点【父节点】：每个节点上方相连的节点【根节点】：最上方没有父节点的节点【叶子节点】：最下方没有子节点的节点【最大深度】：树的最大层数【高度】：节点数减一，即枝数。【满二叉树(PerfectBinaryTree)】：深度为h，则总节点数：2^h-1FullBinaryTree是指一棵二叉树的所有节点要么没有孩子
数据结构——环形数组 Book_熬夜！数据结构与算法数据结构 javascript 算法
环形数组start指向第一个有效元素的索引，end指向最后一个有效元素的下一个位置索引。注意：start是闭区间，先左移后赋值，先赋值(null)后右移；end是开区间，先赋值再右移，先左移再赋值(null)。左移减一加size再取模，右移加一再取模。【JS代码实现：】classCycleArray{constructor(size=1){this.size=size;this.arr=newAr
Spring Boot整合SA-Token的使用详解陈辰学长 spring boot 数据库后端
SpringBoot整合SA-Token的使用详解，涉及到SA-Token的基本介绍、整合步骤、配置、常用API以及实际使用场景等多个方面。以下将详细阐述这一过程，确保内容不少于2000字。一、SA-Token简介SA-Token是一个轻量级的Java权限认证框架，由国人开发，主要解决登录认证、权限认证、单点登录、OAuth2.0、分布式Session会话、微服务网关鉴权等一系列权限相关问题。SA
nginx中proxy_pass和root的区别 LeonNo11 nginx nginx 运维
在location配置中，proxy_pass和root是完全不同的指令，它们的作用和适用场景不同。1.proxy_pass：代理请求到后端服务器location/api/{proxy_passhttp://http_backend;}作用把请求转发到后端服务器http_backend，即Nginx作为反向代理。适用于Nginx作为API网关或负载均衡的情况。示例如果http_backend是ht
Go语言的数据结构 2401_90032081 包罗万象 golang 开发语言后端
Go语言的数据结构Go语言（也称为Golang）是一种由谷歌开发的开源编程语言，以其简单性、高效性和并发性而受到欢迎。作为一门现代语言，Go语言在处理数据时提供了丰富的数据结构，这些数据结构不仅可以帮助开发者管理复杂的数据关系，还能提高程序的性能和可读性。本文将详细探讨Go语言中的各种数据结构，包括数组、切片、映射、链表、树以及它们的使用场景与实现细节。一、数组1.1数组的定义在Go语言中，数组是
美团Leaf分布式ID生成器：使用详解与核心原理解析 Cloud_. 分布式
引言在分布式系统中，全局唯一ID是贯穿整个业务链路的关键标识，无论是订单号、用户ID、支付流水号，还是日志追踪，都需要唯一且有序的ID来保证数据的一致性。然而，传统的自增ID方案（如数据库自增主键）在分布式场景下面临单点故障、性能瓶颈、分库分表冲突等问题。美团开源的Leaf分布式ID生成器通过创新的设计解决了这些难题，成为业界广泛使用的解决方案之一。本文将深入解析Leaf的两种核心模式（号段模式与
Spring Boot 集成高德地图电子围栏 Cloud_. spring boot 后端 java
摘要：本文手把手教你通过SpringBoot调用高德地图API实现电子围栏功能，涵盖云端围栏创建、设备位置监控与本地算法校验，附带完整代码和避坑经验！一、电子围栏核心原理1.1什么是电子围栏？虚拟地理边界：在地图上划定区域（圆形/多边形），触发进出事件应用场景：员工考勤、物流围栏、儿童安全区域监控技术核心：基于GPS/北斗坐标的位置判断（射线法或API调用）1.2高德地图API能力云端围栏管理：创
Vue 路由 (vue-router) 详细总结遇见~未来 Vue.js vue.js 前端 javascript
一、传统web应用与单页面web应用1.1传统web应用传统web应用由多个HTML页面组成，页面切换时会重新加载整个页面，导致用户体验不够流畅，对服务器压力较大。1.2单页面web应用(SPA)单页面应用只有一个HTML页面，通过JavaScript动态更新页面内容，实现局部刷新，具有以下特点：用户体验好：响应性强，类似桌面应用的即时性。服务器压力小：服务器只需提供数据，不负责页面渲染。前后端分
利用pprof对golang进行性能分析忍界英雄 go学习笔记 golang
利用pprof进行性能分析pprof性能分析的5个方面一、性能分析的五个核心维度CPU分析-剖析程序的CPU使用情况，定位高耗时函数内存分析-追踪内存分配与泄露，优化内存使用模式IO分析-监控文件/网络IO操作，发现瓶颈资源Goroutine分析-检测协程泄露与异常堆栈并发问题分析-诊断死锁及通过racedetector检测数据竞争数据采集时间生产环境采集：选择业务低峰期进行采样（凌晨2-4点）测
Java面试系列-ElasticSearch面试题20道，文档，索引，搜索，聚合，分词器，集群管理，索引模版，数据备份和恢复，安全机制，集群扩展，实时搜索，索引生命周期，节点发现，批量操作，基本架构图苑 java 面试 elasticsearch
文章目录1.Elasticsearch的基本架构是什么？2.Elasticsearch中的Shard和Replica是如何工作的？3.Elasticsearch中的文档是如何存储的？4.Elasticsearch中的索引是如何创建的？5.Elasticsearch中的搜索是如何工作的？6.Elasticsearch中的聚合是如何工作的？7.Elasticsearch中的分词器是如何工作的？8.El
数据结构与算法——二叉搜索树，使用TreeMap将键值对存储在一棵二叉搜索树的节点 Book_熬夜！数据结构与算法算法 javascript 数据结构
二叉搜索树【二叉搜索树（BST）】：对于树中的每个节点，其左子树的每个节点的值都要小于这个节点的值，右子树的每个节点的值都要大于这个节点的值。左小右大。中序遍历结果是有序的，会从小到大排序。7/\49/\\1810（不符合）可以使用TreeMap把键值对存储在一棵二叉搜索树的节点里通过遍历这棵二叉搜索树，比遍历普通的二叉树能更快实现增删查改classTreeNode{constructor(key
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
C# WPF面试题：WPF中一些常见的设计模式令狐掌门 WPF面试题 wpf WPF中的设计模式
C#WPF(WindowsPresentationFoundation)是一个用于创建桌面应用程序的框架，它广泛使用了多种设计模式。以下是一些常见的设计模式：MVVM（Model-View-ViewModel）：这是WPF最常用的设计模式。它将数据模型（Model）、视图（View）和视图模型（ViewModel）分离，使得各部分可以独立进行开发和测试。视图模型是视图的抽象，它包含了视图的状态和行
K8S学习之基础三十五：k8s之Prometheus部署模式云上艺旅 K8S学习 kubernetes 学习 prometheus 云原生容器
Prometheus有多种部署模式，适用于不同的场景和需求。以下是几种常见的部署模式：1.单节点部署这是最简单的部署模式，适用于小型环境或测试环境。特点：单个Prometheus实例负责所有的数据采集、存储和查询。配置简单，易于维护。不具备高可用性和扩展性。适用场景：小型项目或测试环境。对高可用性要求不高的场景。部署步骤：下载并解压Prometheus。配置prometheus.yml。启动Pro
Linux----网络tcp编程 weixin_51790712 linux 网络 tcp/ip
网络编程编程linux操作系统[用户空间]应用层//程序员实现------------------------------------------------------[内核空间]传输层[网络协议栈]//内核已经实现好的属于网络功能网络层数据链路层物理层程序发送数据系统调用---通过系统调用来使用操作系统提供的网络功能函数接口---socketsocket:1.操作系统提供的函数接口//通过这个
解决 HTTP 请求中的编码问题：从乱码到正确传输和烨 Java进阶学习专栏 http 网络协议网络
文章目录解决HTTP请求中的编码问题：从乱码到正确传输1.**问题背景**2.**乱码问题的原因**2.1**客户端编码问题**2.2**请求头缺失**2.3**服务器编码问题**3.**解决方案**3.1**明确指定请求体编码**3.2**确保请求头正确**3.3**动态获取响应编码**4.**调试与验证**4.1**打印请求数据**4.2**使用抓包工具**4.3**查看服务器日志**5.**
java实现大文件传输 M_Snow java 开发语言
简介在现代互联网中，我们经常需要传输大文件，例如视频、音频或者大型数据文件。传输大文件需要考虑诸多因素，例如网络延迟、带宽限制和传输安全性。在本文中，我们将介绍如何使用Java实现大文件传输，并提供相应的代码示例。文件传输协议在进行大文件传输之前，我们需要选择合适的传输协议。目前常用的文件传输协议有FTP（FileTransferProtocol）、SFTP（SecureFileTransferP
基于ViT+milvus的以图搜图服务国防科技苏东坡分类算法 pytorch milvus
以图搜图服务简介服务流程介绍：将图片特征经过vit模型提取特征，保存到milvus库中，并存入对应的唯一id和身份标签，用于相似图片搜索；使用相似图片进行搜索，返回搜索到图片的身份标签和置信度。服务包括图片数据插入和图片相似搜索两部分。ViT(VisionTransformer)模型使用huggingface的ViT模型权重。https://huggingface.co/tttarun/visio
spring-data-jpa 动态条件分页查询小小小小小小小小小小码农 springboot
pom.xml配置org.springframework.bootspring-boot-starter-data-jpa数据库连接配置##############################################################数据源配置#############################################################spri
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
Redis的IO多路复用机制：高效的网络通信设计菜就多练少说 Redis redis 数据库缓存
在高并发、高性能的应用中，如何有效地管理和处理大量的客户端请求是一个至关重要的问题。Redis作为一个高性能的内存数据存储系统，面对大量并发客户端请求时，需要具备良好的网络通信能力。在Redis的设计中，IO多路复用机制是其核心技术之一。它能高效地处理多个客户端的请求，避免了多线程和多进程带来的复杂性和性能开销。本文将深入讲解Redis的IO多路复用机制，包括其原理、实现方式以及为什么它能使Red
数据可视化：python画散点图scatter 西红柿爱吃小番茄 python python 数据可视化 matplotlib
数据可视化：python画散点图scatter我想遍历一幅图的所有像素的h分量的值，然后用散点图表示出来。观察这幅图的h分量的值得变化范围。scatter函数的原型matplotlib.pyplot.scatter(x,y,s=20,c='b',marker='o',cmap=None,norm=None,vmin=None,vmax=None,linewidths=None,vert=None,
TK矩阵系统的软件服务 m0_74891046 矩阵
TikTok矩阵系统的技术服务概述随着TikTok平台的发展，越来越多的内容创作者和企业选择通过矩阵系统来优化他们的内容管理和推广。TikTok矩阵系统是一种旨在高效管理多个账户、提升内容曝光、增强互动和加速推广的技术工具。以下是该系统提供的主要功能和技术服务：1.多账户集中管理TikTok矩阵系统允许用户集中管理多个账户。通过统一的操作界面，用户可以高效发布内容、分析互动数据，并实时跟踪多个账号
如何将excel以文本形式储存的数字一键转换为数字办公小百知 excel操作技巧 excel
有时候一些软件给出的数据格式很恶心，为了方便计算常常以数字粘贴到新表，但随之而来新问题，以文本储存的公式无法用公式计算，怎么办啊方法一：使用“转换为数字”功能(对数字少时用）当Excel检测到某个单元格中的数字为文本格式时，通常会在单元格左上角显示一个绿色的小三角。此时，你可以：选中需要转换的单元格。点击该单元格旁边的下拉箭头。从下拉菜单中选择“转换为数字”。这样，选中的文本数字就会被自动转换为数
Ajax原理笔记小鱼ccd 前端
1.后端如何把数据传给前端？后端通常通过HTTP接口（API）把数据传给前端，一般流程如下：（1）后端提供API接口后端使用SpringBoot开发API，通常返回JSON数据。例如，在Controller层定义一个接口，返回商品列表：@RestController@RequestMapping("/api/products")publicclassProductController{@GetMa
Spark sql 中row的用法闯闯桑 spark sql 大数据开发语言
在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。每一行数据都由一个Row对象表示，而Row对象中的每个字段对应数据的一个列。Row的用法Row对象通常用于以下场景：创建数据：当你手动创建数据时，可以使用Row对象来表示每一行数据。访问数据：当你从DataFrame或Dataset中提取数据时，每一行数据都是一个Row
封神台SQL注入-基础靶场1-布尔盲注原味瓜子、 SQL注入布尔盲注封神台 SQL注入
文章目录布尔盲注（一）布尔盲注（二）布尔盲注（三）布尔盲注（一）1、判断注入类型id=1and1=1//有数据id=1and1=2//noresultsfound判断为数字型布尔盲注2、判断数据库长度，获取数据库名andlength(database())=1数据库名长12抓包，爆破，获取andascii(substr(database(),1
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l