weixin_45906054

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

作者：周克勇，花名一锤，阿里巴巴计算平台事业部EMR团队技术专家，大数据领域技术爱好者，对Spark有浓厚兴趣和一定的了解，目前主要专注于EMR产品中开源计算引擎的优化工作。

背景和动机

SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划，后者的目的是针对既定的计划尽可能执行的更快。

相比于Runtime，Optimizer是更加通用的、跟实现无关的优化。无论是Java世界(Spark, Hive)还是C++世界(Impala, MaxCompute)，无论是Batch-Based(Spark, Hive)还是MPP-Based(Impala, Presto)，甚至无论是大数据领域还是传统数据库领域亦或HTAP领域(HyPer, ADB)，在Optimizer层面考虑的都是非常类似的问题: Stats收集，Cost评估以及计划选择；采用的优化技术也比较类似，如JoinReorder, CTE, GroupKey Elimination等。尽管因为上下文不同(如是否有索引)在Cost Model的构造上会有不同，或者特定场景下采用不同的空间搜索策略(如遗传算法 vs. 动态规划)，但方法大体是相同的。

长期以来，Runtime的优化工作基本聚焦在解决当时的硬件瓶颈。如MapReduce刚出来时网络带宽是瓶颈，所以Google做了很多Locality方面的优化；Spark刚出来时解决的问题是磁盘IO，内存缓存的设计使得性能相比MapReduce有了数量级的提升；后来CPU成为了新的瓶颈[1]，因此提升CPU性能成了近年来Runtime领域重要的优化方向。

提升CPU性能的两个主流技术是以MonetDB/X100[2](如今演化为VectorWise[3])为代表的向量化(Vectorized Processing)技术和以HyPer[5][6]为代表的代码生成(CodeGen)技术(其中Spark跟进的是CodeGen[9])。简单来说，向量化技术沿用了火山模型，但与其让SQL算子每次计算一条Record，向量化技术会积攒一批数据后再执行。逐批计算相比于逐条计算有了更大的优化空间，例如虚函数的开销分摊，SIMD优化，更加Cache友好等。这个技术的劣势在于算子之间传递的数据从条变成了批，因此增大了中间数据的物化开销。CodeGen技术从另外一个角度解决虚函数开销和中间数据物化问题：算子融合。简单来说，CodeGen框架通过打破算子之间的界限把火山模型“压平”了，把原来迭代器链压缩成了大的for循环，同时生成语义相同的代码(Java/C++/LLVM)，紧接着用对应的工具链编译生成的代码，最后用编译后的class(Java)或so(C++,LLVM)去执行，从而把解释执行转变成了编译执行。此外，尽管还是逐条执行，由于抹去了函数调用，一条Record从(Stage内的)初始算子一直执行到结束算子都基本处于寄存器中，不会物化到内存。CodeGen技术的劣势在于难以应用SIMD等优化。

两个门派相爱相杀，在经历了互相发论文验证自家优于对方后[4][8]两家走向了合作，合作产出了一系列项目和论文，而目前学界的主流看法也是两者融合是最优解，一些采用融合做法的项目也应运而生，如进化版HyPer[6], Pelonton[7]等。

尽管学界已走到了融合，业界主流却没有很强的动力往融合的路子走，探究其主要原因一是目前融合的做法相比单独的优化并没有质的提升；二是融合技术目前没有一个广为接受的最优做法，还在探索阶段；三是业界在单一的技术上还没有发挥出最大潜力。以SparkSQL为例，从2015年SparkSQL首次露面自带的Expression级别的Codegen，到后来参考HyPer实现的WholeStage Codegen，再经过多年的打磨，SparkSQL的Codegen技术已趋成熟，性能也获得了两次数量级的跃升。然而，也许是出于可维护性或开发者接受度的考虑，SparkSQL的Codegen一直限制在生成Java代码，并没有尝试过NativeCode(C/C++, LLVM)。尽管Java的性能已经很优，但相比于Native Code还是有一定的Overhead，并缺乏SIMD(Java在做这方面feature)，Prefetch等语义，更重要的是，Native Code直接操作裸金属，易于极致压榨硬件性能，对一些加速器(如GPU)或新硬件(如AEP)的支持也更方便。

基于以上动机，EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来20%左右的性能提升，为EMR再次获取世界第一立下汗马功劳，本文将详细介绍Native Codegen框架。

核心问题

做Native Codegen，核心问题有三个：
1.生成什么？
2.怎么生成？
3.如何集成到Spark?

生成什么

针对生成什么代码，结合调研的结果以及开发同学的技术栈，有三个候选项：C/C++, LLVM, Weld IR。C/C++的优势是实现相对简单，只需对照Spark生成的Java代码逻辑改写即可，劣势是编译时间过长，下图是HyPer的测评数据，C++的编译时间比LLVM高了一个数量级。
编译时间过长对小query很不友好，极端case编译时间比运行时间还要长。基于这个考虑，我们排除了C/C++选项。上图看上去LLVM的编译时间非常友好，而且很多Native CodeGen的引擎，如HyPer, Impala, 以及阿里云自研大数据引擎MaxCompute，ADB等，均采用了LLVM作为目标代码。LLVM对我们来说(对你们则不一定:D)最大的劣势就是过于底层，语法接近于汇编，试想用汇编重写SparkSQL算子的工作量会有多酸爽。大多数引擎也不会用LLVM写全量代码，如HyPer仅把算子核心逻辑用LLVM生成，其他通用功能(如spill，复杂数据结构管理等)用C++编写并提前编译好。即使LLVM+C++节省了不少工作量，对我们来说依然不可接受，因此我们把目光转向了第三个选项: Weld IR(Intermediate Representation)。

首先简短介绍以下Weld。Weld的作者Shoumik Palkar是 Matei Zaharia的学生，后者大家一定很熟悉，Spark的作者。Weld最初想解决的问题是不同lib之间互相调用时数据传输的开销，例如要在pandas里调用numpy的接口，首先pandas把数据写入内存，然后numpy读取内存进行计算，对于极度优化的lib来说，内存的写入和读取的时间可能会远超计算本身。针对这个问题，Weld开发了Common Runtime并配套提供了一组IR，再加上惰性求值的特性，只需(简单)修改lib使其符合Weld的规范，便可以做到不同lib共用Weld Runtime，Weld Runtime利用惰性求值实现跨lib的Pipeline，从而省去数据物化的开销。Weld Runtime还做了若干优化，如循环融合，循环展开，向量化，自适应执行等。此外，Weld支持调用C代码，可以方便调用三方库。

我们感兴趣的是Weld提供的IR和对应的Runtime。Weld IR面向数据分析进行设计，因此语义上跟SQL非常接近，能较好的表达算子。数据结构层面，Weld IR最核心的数据结构是vec和struct，能较好地表达SparkSQL的UnsafeRow Batch；基于struct和vec可以构造dict，能较好的表达SQL里重度使用的Hash结构。操作层面，Weld IR提供了类函数式语言的语义，如map, filter, iterator等，配合builder语义，能方便的表达Project, Filter, Agg, BroadCastJoin等算子语义。例如，以下IR表达了Filter + Project语义，具体含义是若第二列大于10，则返回第一列:

|v: vec[{i32,i32}]| for(v,appender,|b,i,n| if(n.$1 > 10, merge(b,n.$0), b))

以下IR表达了groupBy的语义，具体含义是按照第一列做groupBy来计算第二列的sum:

|v: vec[{i32,i32}]| for(v,dictmerger[i32,i32,+],|b,i,n| merge(b,{n.$0,n.$1}))

具体的语法定义请参考Weld文档(https://github.com/weld-project/weld/blob/master/docs/language.md)。
Weld 开发者API提供了两个核型接口:

weld_module_compile, 把Weld IR编译成可执行模块(module)。
weld_module_run, 执行编译好的模块。

基本流程如下图所示，最终也是生成LLVM代码。

由此，Weld IR的优势就显然易见了，既兼顾了性能(最终生成LLVM代码)，又兼顾了易用性(CodeGen Weld IR相比LLVM, C++方便很多)。基于这些考虑，我们最终选择Weld IR作为目标代码。

怎么生成

SparkSQL原有的CodeGen框架之前简单介绍过了，详见https://developer.aliyun.com/article/727277。我们参考了Spark原有的做法，支持了表达式级别，算子级别，以及WholeStage级别的Codegen。复用Producer-Consumer框架，每个算子负责生成自己的代码，最后由WholeStageCodeGenExec负责组装。

这个过程有两个关键问题:

1.算子之间传输的介质是什么？
2.如何处理Weld不支持的算子?

传输介质

不同于Java，Weld IR不提供循环结构，取而代之的是vec结构和其上的泛迭代器操作，因此Weld IR难以借鉴Java Codegen在Stage外层套个大循环，然后每个算子处理一条Record的模式，取而代之的做法是每个算子处理一批数据，IR层面做假物化，然后依赖Weld的Loop-Fusion优化去消除物化。例如前面提到的Filter后接Project，Filter算子生成的IR如下，过滤掉第二列<=10的数据:

|v:vec[{i32,i32}]| let res_fil = for(v,appender,|b,i,n| if(n.$1>10, merge(b,n), b)

Project算子生成的IR如下，返回第一列数据：

let res_proj = for(res_fil,appender,|b,i,n| merge(b,n.$0))

表面上看上去Filter算子会把中间结果做物化，实际上Weld的Loop-Fusion优化器会消除此次物化，优化后代码如下:

|v: vec[{i32,i32}]| for(v,appender,|b,i,n| if(n.$1 > 10, merge(b,n.$0), b))

尽管依赖Weld的Loop-Fusion优化可以极大简化CodeGen的逻辑，但开发中我们发现Loop-Fusion过程非常耗时，对于复杂SQL(嵌套3层以上)甚至无法在有限时间给出结果。当时面临两个选择：修改Weld的实现，或者修改CodeGen直接生成Loop-Fusion之后的代码，我们选择了后者。重构后生成的代码如下，其中1,2,11行由Scan算子生成，3,4,5,6,8,9,10行由Filter算子生成，7行由Project算子生成。

|v: vec[{i32,i32}]|
    for(v,appender,|b,i,n|
        if(
            n.$1 > 10,
            merge(
            b,
            n.$0
            ),
            b
        )
    )

这个优化使得编译时间重回亚秒级别。

Fallback机制

受限于Weld当前的表达能力，一些算子无法用Weld实现，例如SortMergeJoin，Rollup等。即使是原版的Java CodeGen，一些算子如Outter Join也不支持CodeGen，因此如何做好Fallback是保证正确性的前提。我们采用的策略很直观：若当前算子不支持Native CodeGen，则由Java CodeGen接管。这里涉及的关键问题是Fallback的粒度：是算子级别还是Stage级别？

抛去实现难度不谈，虽然直观上算子粒度的Fallback更加合理，但实际上却会导致更严重的问题：Stage内部Pipeline的断裂。如上文所述，CodeGen的一个优势是把整个Stage的逻辑Pipeline化，打破算子之间的界限，单条Record从初始算子执行到结束算子，整个过程不存在物化。而算子粒度的Fallback则会导致Stage内部一部分走Native Runtime，另一部分走Java Runtime，则两者连接处无可避免存在中间数据物化，这个开销通常会大于Native Runtime带来的收益。

基于以上考虑，我们选择了Stage级别的Fallback，在CodeGen阶段一旦遇到不支持的算子，则整个Stage都Fallback到Java CodeGen。统计显示，整个TPCDS Benchmark，命中Native CodeGen的Stage达到80%。

Spark集成

完成了代码生成和Fallback机制，最后的问题就是如何跟Spark集成了。Spark的WholeStageCodegenExec的执行可以理解为一个黑盒，无论上游是Table Scan，Shuffle Read，还是BroadCast，给到黑盒的输入类型只有两种: RowBatch(上游是Table Scan)或Row Iterator(上游非Table Scan)，而黑盒的输出固定为Row Iterator，如下图所示:

上文介绍我们选择了Stage级别的Fallback，也就决定了黑盒要么是Java Runtime，要么是Native Runtime，不存在混合的情况，因此我们只需要关心如何把Row Batch/Row Iterator转化为Weld认识的内存布局，以及如何把Weld的输出转化成Row Iterator即可。为了进一步简化问题，我们注意到，尽管Shuffle Reader/BroadCast的输入是Row Iterator，但本质上远端序列化的数据结构是Row Batch，只不过Spark反序列化后转换成Row Iterator后再喂给CodeGen Module，RowBatch包装成Row Iterator非常简易。因此Native Runtime的输入输出可以统一成RowBatch。

解决办法呼之欲出了：把RowBatch转换成Weld vec！但我们更进了一步，何不直接把Row Batch喂给Weld从而省去内存转换呢？本质上Row Batch也是满足某种规范的字节流而已，Spark也提供了OffHeap模式把内存直接存堆外(仅针对Scan Stage。Shuffle数据和Broadcast数据需要读到堆外)，Weld可以直接访问。Spark UnsafeRow的内存布局大致如下:

针对确定的schema，null bitmap和fixed-length data的结构是固定的，可以映射成struct，而针对var-length data我们的做法是把这些数据copy到连续的内存地址中。如此一来，针对无变长数据的RowBatch，我们直接把内存块喂给Weld；针对有变长部分的数据，我们也只需做大粒度的内存拷贝(把定长部分和变长部分分别拷出来)，而无需做列级别的细粒度拷贝转换。

继续举前文的Filter+Project的例子，一条Record包含两个int列，其UnsafeRow的内存布局如下(为了对齐，Spark里定长部分最少使用8字节)。

显而易见，这个结构可以很方便映射成Weld struct:

{i64,i64,i64}

而整个Row Batch便映射成Weld vec:

vec[{i64,i64,i64}]

如此便解决了Input的问题。而Weld Output转RowBatch本质是以上过程的逆向操作，不再赘述。

解决了Java和Native之间的数据转换问题，剩下的就是如何执行了。首先我们根据当前Stage的Mode来决定走Java Runtime还是Native Runtime。在Native分支，首先会执行StageInit做Stage级别的初始化工作，包括初始化Weld，加载编译好的Weld Module，拉取Broadcast数据(若有)等；接着是一个循环，每个循环读取一个RowBatch(来自Scan或Shuffle Reader)喂给Native Runtime执行，Output转换并喂给Shuffle Writer。如下图所示:

总结

本文介绍了EMR团队在Spark Native Codegen方向的探索实践，限于篇幅若干技术点和优化没有展开，后续可另开文详解，例如:

1.极致Native算子优化
2.数据转换详解
3.Weld Dict优化

大家感兴趣的任何内容欢迎沟通: )

[1] Making Sense of Performance in Data Analytics Frameworks. Kay Ousterhout
[2] MonetDB/X100: Hyper-Pipelining Query Execution. Peter Boncz
[3] Vectorwise: a Vectorized Analytical DBMS. Marcin Zukowski
[4] Efficiently Compiling Efficient Query Plans for Modern Hardware. Thomas Neumann
[5] HyPer: A Hybrid OLTP&OLAP Main Memory Database System Based on Virtual Memory Snapshots. Alfons Kemper
[6] Data Blocks: Hybrid OLTP and OLAP on Compressed Storage using both Vectorization and Compilation. Harald Lang
[7] Relaxed Operator Fusion for In-Memory Databases: Making Compilation, Vectorization, and Prefetching Work Together At Last. Prashanth Menon
[8] Vectorization vs. Compilation in Query Execution. Juliusz Sompolski
[9] https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html

相关阅读推荐：
EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus
EMR Spark-SQL性能极致优化揭秘概览篇

近期Spark社区活动

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区近万人Spark技术同学在线提问答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！

对开源大数据和感兴趣的同学可以加小编微信（下图二维码，备注“进群”）进入技术交流微信群。

Apache Spark技术交流社区公众号，微信扫一扫关注

PCIe信号传输的幕后：HCSL与LP-HCSL深度解析赛卡单片机嵌入式硬件服务器人工智能硬件架构 fpga开发
在数字化浪潮席卷的当下，PCIe（PeripheralComponentInterconnectExpress）作为高速串行计算机扩展总线标准，已然成为计算机内部硬件设备连接领域的中流砥柱。其信号传输的质量与完整性，恰似计算机系统运行的“命门”，对系统整体性能起着决定性作用。在PCIe体系架构里，HCSL（High-speedCurrentSteeringLogic）与LP-HCSL（Low-Po
半导体可靠性测试解析：HTOL、LTOL与Burn-In 赛卡硬件架构汽车车载系统
引言在半导体器件复杂度与可靠性要求同步提升的今天，高温工作寿命测试（HTOL）、低温寿命测试（LTOL）和老化筛选测试（Burn-In）构成了芯片可靠性验证的三大支柱。这些测试通过模拟极端环境下的失效机制，帮助制造商提前发现潜在缺陷，优化设计并满足汽车、工业等领域的严苛标准。本文将从测试原理、标准要求及报告解读维度展开深度解析。一、核心测试方法的技术边界与协同逻辑1.HTOL（高温工作寿命测试）测
设计空间探索：乘法器设计的面积、延时、功耗优化赛卡人工智能前端算法
复杂压缩器可压缩更多高度,减少层数(外层while循环次数),但延迟较高。使用哪些压缩器以何种方案进行压缩,是一个设计空间探索问题。1.压缩器种类的选择4-2压缩器：由两个全加器（FA）组成，能够将4个输入压缩为2个输出（和与进位）。适用于中等规模的压缩需求，可以有效减少部分积的位宽。6-2压缩器：能够将6个输入压缩为2个输出，适用于较大规模的压缩需求，尤其在多列压缩时可以减少层次数量。9-2压缩
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
Java集合进阶 27xixi java 开发语言
在Java中，集合框架（CollectionsFramework）是用于存储和操作一组对象的强大工具。它提供了多种接口和类，用于处理不同类型的集合（如列表、集合、队列、映射等）。1.Java集合框架概述Java集合框架主要包括以下接口和类：核心接口Collection:所有集合类的根接口。List:有序集合，允许重复元素（如ArrayList,LinkedList）。Set:无序集合，不允许重复元
【PCDN】2020架构: 提高穿透和分享、BGP协议等风来不如迎风去传输探索实践架构服务器运维
小溪流科技自研海外PCDN系统技术架构与演进转载自腾讯云文/张道远整理/核心组网我们自己的P2P组网模型。我们采用了树形组网，但是我们规避优化了传统树形模型的缺点。为防止延时过高，我们在调度时会严格控制树形高度。为弥补父节点掉线造成孤儿状态的不足，我们使系统中每个节点都首先从CDN拉流。如果出现父节点掉线的情况，它立即向服务器补片，同时触发新的组网。对于纯粹的消费者模型，我们目前有两种方案，其中一
Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
MySQL 深度分页如何优化？司徒阿宝 mysql 数据库
例如select*fromt1orderby10000,10查询10000-10010页数据，mysql会先查询出100010页，再抛弃100000。这个操作会产生大量的无用IO/CPU消耗范围查询1.当ID能保证连续无空缺时，可以使用范围查询。select*fromt1whereid>{seed_id}andid{seed_id}limit10子查询我们先查询出limit第一个参数对应的主键值，
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
树莓派3B+刷了Pi OS 12(Debian12 bookworm)后软件源更换清华（备忘） RockyCoder windows
每次折腾树莓派重刷系统，都要面临一次更新国内软件源的过程。所以从清华那边贴过来备份以下过程。树莓派软件源的官方帮助网址raspbian|镜像站使用帮助|清华大学开源软件镜像站|TsinghuaOpenSourceMirrorRaspbian简介Raspbian是专门用于ARM卡片式计算机RaspberryPi®“树莓派”的操作系统，其基于Debian开发，针对RaspberryPi硬件优化。Ras
什么是Mybatis？最全的Mybatis知识点整合！ Tyloo_wdnmd 数据库 mybatis java python mysql
什么是Mybatis？最全的Mybatis知识点整合！一、什么是Mybatis？MyBatis是一个半ORM（对象关系映射）框架，它内部封装了JDBC，开发时只需要关注SQL语句本身，不需要花费精力去加载驱动、创建连接、创建Statement等繁杂过程。程序员直接编写原生态sql，可以严格控制sql执行性能，灵活度高。Mybatis可以使用XML或注解来配置和映射原生信息，将POJO映射成数据库中
提速 Java性能优化实战：6大技巧解锁丝滑体验墨瑾轩一起学学Java【一】java 性能优化开发语言
在Java应用程序性能优化的领域，有多种策略可以帮助提升程序运行效率和响应速度。以下是一些实用的技巧，涵盖代码层面、JVM调优、以及设计模式等方面，旨在全面优化应用性能。1.代码层面优化避免不必要的对象创建频繁的对象创建和销毁会占用大量的CPU时间和内存资源。尽量重用对象，特别是在循环中。Java//优化前for(inti=0;i
前端开发：Web蜜罐详解三掌柜666 前端网络安全
前言在当今数字化时代，网络安全威胁日益复杂，攻击手段层出不穷。对于前端开发人员来说，不仅要关注代码的性能和用户体验，还需要具备应对安全威胁的能力。在网络安全领域，Web蜜罐作为一种主动防御技术，正逐渐受到关注，它通过模拟真实的Web应用程序，吸引攻击者并记录其行为，为安全专家提供了宝贵的情报。对于前端开发人员来说，了解Web蜜罐的工作原理、特点和应用场景具有重要意义。那么本文就来探讨Web蜜罐的工
【奇点时刻】通义千问开源QwQ-32B技术洞察报告（扫盲帖）碣石潇湘无限路开源人工智能
以下报告将基于今天各大社区对Qwen/QwQ-32B（下文简称「QwQ-32B」）模型的讨论、测评与实测体验进行综合性分析与洞察。本报告将从模型背景与定位、核心技术、性能表现与对比、部署与使用方式，以及未来潜力与可能的影响五个维度，帮助读者更好地了解这一新兴且备受瞩目的开源推理模型。一、模型背景与定位1.发布方与家族概览QwQ-32B模型由阿里巴巴（Alibaba）旗下的Qwen团队推出，属于Qw
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
自立自强的江铃集团新能源，用科技创新实力圈粉微视资讯汽车
汽车行业正在经历从价格竞争和配置堆砌，向技术回归的深刻转型。消费者对“冰箱、彩电、大沙发”式的噱头已经逐渐失去兴趣，取而代之的是对核心技术和安全性能的理性关注。在这样的背景下，江铃集团新能源凭借深厚的技术积累和创新能力迅速赢得市场认可。作为拥有56年造车经验的企业，江铃集团新能源在整车研发、智能制造、智能网联、三电技术和车身轻量化等领域全面突破，不仅成功定位于纯电市场，还通过前瞻性的创新战略实现了
从零开始探索C++游戏开发：性能、控制与无限可能南玖yy C++游戏开发 c
一、为何选择C++开发游戏？在虚幻引擎5渲染的次世代画面背后，在《巫师3》的庞大开放世界中，在《毁灭战士》的丝滑60帧战斗里，C++始终扮演着核心技术角色。这门诞生于1983年的语言，至今仍占据着游戏引擎开发语言使用率榜首（根据2023年GameDev调查数据）。其核心竞争力体现在：硬件级控制：手动内存管理允许精确控制资源分配，这对需要管理数百万多边形和4K纹理的3A游戏至关重要零成本抽象：模板元
论单调队列优化DP VU-zFaith870 c++动态规划推荐算法
前情提要，参考资料：单调队列优化DP（超详细！！！）-endl\n-博客园【动态规划】选择数字（单调队列优化dp）_哔哩哔哩_bilibili背景：最近作者快被DP逼疯了，写篇博客做记录。以下是对各DP的原理阐释：单调队列通过队列元素的吸入与弹出，形成单调性的结构，使算法能够进行线性处理，大大优化了时间复杂度。接下来讲解单调队列在区间DP、背包DP、树形DP还有数位DP中的应用：1.单调队列优化区
Hive MR & Spark & Yarn参数优化总结大数据侠客 hive相关问题汇总及解决 hive spark mr yarn 参数优化
一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri
前端面试：axios 是否可以取消请求？ returnShitBoy 前端
在实际工作中，取消请求的场景通常出现在以下几种情况中：用户导航离开页面：如果用户在请求数据的过程中快速切换到另一个页面，可以通过取消未完成的请求来优化性能。输入框的搜索提示：当用户在输入框中输入内容时，可以结合防抖的方式取消之前的请求，从而只保留最新的请求，避免发送过多的请求。取消请求的实现方式Axios提供了CancelToken的功能来实现请求的取消。以下是具体的代码示例：importaxio
hive 中优化性能的一些方法闯闯桑 hive hadoop 数据仓库
在ApacheHive中，性能优化是一个重要的课题，尤其是在处理大规模数据时。通过合理的优化方法，可以显著提升查询速度和资源利用率。以下是一些常见的Hive性能优化方法：1.数据存储优化1.1使用列式存储格式推荐格式:ORC和Parquet。优点:列式存储格式具有更高的压缩率和查询性能。支持谓词下推（PredicatePushdown）和列裁剪（ColumnPruning）。示例:CREATETA
AI与SDN结合：智能网络的未来之路不想加班的码小牛人工智能网络 ai
一、引言“网络正在从‘被动响应’走向‘主动思考’。”随着云计算、5G和物联网的爆发式增长，传统网络架构面临灵活性不足、运维成本高等挑战。SDN（软件定义网络）通过控制与转发分离革新了网络管理方式，而AI的引入让SDN从“自动化”迈向“智能化”。二、AI+SDN的技术背景1.1为什么需要AI赋能SDN？传统SDN痛点AI的解决能力流量策略依赖人工规则动态学习流量模式，实时优化策略故障定位耗时（如网络
DeepSeek：技术创作者的内容革命，从代码到爆文的AI全栈攻略不想加班的码小牛人工智能 ai chatgpt
一、为什么技术创作者需要关注DeepSeek？作为CSDN的资深用户，你是否经历过这些痛点？选题焦虑：技术热点日新月异，如何抓住「大模型优化」或「量子计算落地」等前沿方向？写作卡顿：明明代码跑通了，却在技术原理描述环节反复修改效率瓶颈：既要写技术文档又要运营专栏，时间永远不够用DeepSeek的多模态理解能力（支持代码+自然语言混合输入）和领域自适应特性（自动识别技术文档/教程/测评等文体），让它
DPU的未来：技术趋势与挑战绿算技术 DPU架构介绍科技 gpu算力硬件工程缓存架构
随着数据中心的不断发展，DPU技术也在快速演进。以下是DPU未来的技术趋势与挑战：1.更高性能·支持更高的网络带宽（如400GbE、800GbE）和更低的延迟。2.更广泛的应用·在AI、5G、物联网等领域，DPU的应用将进一步扩展。3.软件生态的完善·开源工具和开发框架的普及，将降低DPU的开发门槛。4.能效优化·在提升性能的同时，进一步降低功耗，满足绿色计算的需求。总结DPU作为一种新兴的数据处
数据处理的革命性引擎绿算技术 DPU架构介绍硬件工程科技缓存
随着数据量的爆炸式增长和计算需求的多样化，传统的CPU和GPU已经无法完全满足现代数据中心和高性能计算的需求。在这样的背景下，DPU（DataProcessingUnit，数据处理单元）应运而生。DPU是一种专为数据处理和网络加速设计的处理器，正在成为数据中心和云计算架构中的重要组成部分。接下来，由绿算技术与大家一起学习DPU有哪些功能、技术、原理等等内容。DPU的功能：数据处理的“全能选手”DP
计算机体系结构的五大流派，你知道几个？绿算技术计算机五大流派 https 信息与通信硬件工程缓存
在计算机的世界里，架构设计是决定性能和应用场景的关键。从经典的冯·诺依曼结构到现代的并行处理结构，每一种体系结构都有其独特的优势和适用场景。今天，我们绿算与大家一起聊聊计算机体系结构的五大流派，以及它们背后的厂商和应用领域。1.冯·诺依曼结构：现代计算机的基石冯·诺依曼结构是现代计算机的基础，几乎所有通用计算机系统都基于这一结构或其变体。它的核心特点是程序和数据共享同一存储空间，通过一条总线进行传
应用场景下的芯片分类绿算技术芯片类型科普探索 html 人工智能科技
从数据中心级别的高性能芯片，到消费类产品级别的日常应用芯片；从工业类产品级别的稳定可靠芯片，到汽车电子级别的高要求芯片；再到军工和国防级别的专用芯片，不同类型的芯片正以其独特的功能和应用场景，满足着多样化的需求。电路类型下的芯片分类·数字电路芯片：处理数字信号，广泛应用于计算机、通信设备等领域。·模拟电路芯片：处理模拟信号，常用于音频、视频处理等场景。·数模混合电路芯片：兼具数字和模拟信号处理功能
JVM性能调优实战：从理论到线上问题排查 SuperMale-zxq 项目实战 java python c++jvm java-ee
JVM性能调优实战：从理论到线上问题排查线上系统突然变慢，CPU飙升，内存告警，业务超时……面对这些危机时刻，你是束手无策还是胸有成竹？本文将带你掌握JVM性能调优的核心方法，从理论到实战，解决真实环境中的性能难题。为什么大多数JVM调优都失败了？某电商平台的"双11"大促活动，系统突然响应缓慢，交易量锐减。运维团队紧急扩容，开发团队调整GC参数，架构师建议重启服务……一系列"标准操作"后，系统性
约克VRF中央空调如何？品质和性能如何？消息快传其他
不少别墅选的都是约克VRF中央空调，全屋舒适空气体验，不仅是制冷制热控温，还可以调节室内湿度、空气洁净度、空气新鲜度等等，属于高品质家电。
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交