ZVAyIVqt0UFji

DeepSeek开源库DeepGEMM 性能测评

1.背景

DeepGEMM 是一个为高效 FP8 通用矩阵乘法（GEMMs）设计的库，其特点如提出于 DeepSeek--V3 的精细粒度缩放，支持普通和专家混合（MoE）分组 GEMMs。用 CUDA 编写，安装时无需编译，通过轻量级即时（JIT）模块在运行时编译所有内核。目前仅支持 NVIDIA Hopper 张量核心，采用 CUDA 核心两级积累（提升）解决 FP8 张量核心积累不精确问题。它避免过度依赖 CUTLASS 和 CuTe 的模板或代数，以简洁为设计理念，只有一个约 300 行代码的核心内核函数，是学习 Hopper FP8 矩阵乘法和优化技术的干净且易获取的资源。尽管设计轻量，但在各种矩阵形状下性能可匹配或超越专家调优的库。

2.验证运行

我们分别在H20和H800上测试了 DeepSeek-V3/R1 推理中可能使用的所有形状的稠密矩阵乘法性能。并对deepgemm、vllm triton ，以及vllm cutlass 进行对比

2.1 H20 表现

分别就不同维度的稠密矩阵乘法，对比在三个架构下乘法性能，

2.1.1 指标数据

TFLOPS

GB/s

Latency

2.1.2 性能对比分析

DeepGEMM vs Cutlass

总体对比：Cutlass 的性能相较于 DeepGEMM 波动较大，加速比介于 0.77x ~ 3.31x 之间。
小规模计算（m ≤ 128）：
- 在 m=64, k=2048 的情况下，Cutlass 性能达到 3.31x DeepGEMM，表明 Cutlass 在小批量计算中的优化较好。
- 但在 m=64, k=16384 和 m=128, k=16384 这类大 k 值情况下，Cutlass 低于 DeepGEMM，仅 0.49x ~ 0.78x，可能由于 Cutlass 在大 k 处理上的局限性。
中等规模计算（256 ≤ m ≤ 1024）：
- Cutlass 在大多数情况下接近 1.0x ~ 1.78x DeepGEMM，例如 m=512, k=2048 达到 1.21x，但 m=512, k=7168 下降至 0.90x。
大规模计算（m = 4096）：
- 在 m=4096, k=16384 的情况下，Cutlass 性能与 DeepGEMM 基本持平（1.01x）。
- 但在 m=4096, k=7168，Cutlass 低于 DeepGEMM，仅 1.02x，说明 Cutlass 在大规模 m 下仍有优化空间。

DeepGEMM vs Triton

总体对比：DeepGEMM 全面优于 Triton，加速比范围在 1.38x ~ 1.95x 之间。
小规模计算（m ≤ 128）：
- DeepGEMM 在 m=64, k=16384 领先 1.55x，在 m=128, k=16384 领先 1.95x，说明 DeepGEMM 在处理大 k 时表现优异。
中等规模计算（256 ≤ m ≤ 1024）：
- 在 m=512, k=16384，DeepGEMM 领先 1.80x，但 m=512, k=4096 时 Triton 仍能保持较高的竞争力（1.75x）。
大规模计算（m = 4096）：
- 在 m=4096, k=16384，DeepGEMM 仍然领先 1.74x，但对 m=4096, k=2048，领先幅度减少至 1.66x，说明 Triton 在处理小 k 值的大 m 时相对较优化。

结论

DeepGEMM vs Cutlass：
- Cutlass 在小批量计算 (m 小，k 适中) 时比 DeepGEMM 快 3.31x，但在大 k 值时性能下降，整体表现不如 DeepGEMM 稳定。
- 在大规模计算（m ≥ 1024）时，Cutlass 基本与 DeepGEMM 持平（1.01x ~ 1.07x），但部分情况下略有下降（0.89x）。
DeepGEMM vs Triton：
- DeepGEMM 全面优于 Triton，尤其在 k 较大（如 16384）的情况下，DeepGEMM 最高 1.95x Triton，展现出强大的优化能力。
- 在小 k 值（如 2048）的大 m 计算时，Triton 能维持一定的竞争力（1.66x ~ 1.74x），但仍落后于 DeepGEMM。

2.1.3 详细数据

Cutlass 与 DeepGEMM和Triton对比

m	n	k	Time	TFLOPS	GB/s	vs DeepGEMM	vs Triton
64	24576	1536	49.2	98.1	832.5	1.47x	1.14x
64	32768	512	27.1	79.2	774.2	2.66x	1.18x
64	7168	16384	152.5	98.6	783	0.49x	1.55x
64	4096	7168	68.1	55.2	445.3	1.09x	1.22x
64	7168	2048	23	81.6	683	3.25x	1.38x
128	24576	1536	49.4	195.5	894.8	1.48x	1.74x
128	32768	512	26.9	159.4	936.6	2.72x	1.38x
128	7168	16384	152.8	196.7	794.2	0.78x	1.95x
128	4096	7168	68.2	110.1	459	1.10x	1.30x
128	7168	2048	22.8	164.6	734.8	3.31x	1.50x
256	24576	1536	80.4	240.3	630.6	1.07x	1.72x
256	32768	512	45	190.9	748.8	1.63x	1.53x
256	7168	16384	300.2	200.3	417.5	0.77x	1.82x
256	4096	7168	69.4	216.7	479.9	1.08x	1.73x
256	7168	2048	42.6	176.5	443.3	1.78x	1.56x
512	24576	1536	155.8	248.1	408.9	1.06x	1.66x
512	32768	512	87	197.5	581.5	1.09x	1.50x
512	7168	16384	448.3	268.3	297.1	1.01x	1.80x
512	4096	7168	135.6	221.7	274.5	0.90x	1.75x
512	7168	2048	62.2	241.8	371.1	1.21x	1.57x
1024	24576	1536	306.3	252.4	292.7	1.06x	1.64x
1024	32768	512	163.3	210.4	517	1.09x	1.54x
1024	7168	16384	891.9	269.7	167	1.01x	1.73x
1024	4096	7168	266.4	225.7	169.2	0.89x	1.69x
1024	7168	2048	122.2	246	257.4	1.07x	1.62x
1024	24576	1536	306.3	252.4	292.7	1.06x	1.64x
1024	32768	512	163	210.8	517.9	1.09x	1.54x
1024	7168	16384	892	269.6	166.9	1.01x	1.73x
1024	4096	7168	266.3	225.8	169.3	0.89x	1.69x
1024	7168	2048	122.2	246.1	257.5	1.07x	1.62x
4096	24576	1536	1190.1	259.8	206.2	1.06x	1.65x
4096	32768	512	620.7	221.4	462.9	1.07x	1.57x
4096	7168	16384	3395.3	283.4	71.6	1.01x	1.74x
4096	4096	7168	920.4	261.3	100.3	1.02x	1.65x
4096	7168	2048	455.1	264.3	179.7	1.07x	1.66x

AVERAGE PERFORMANCE

Implementation	Avg TFLOPS	TFLOPS	Avg GB/s
DeepGEMM	188.49	384.46	0.36
vLLM Triton	126.01	297.19	0.58
vLLM CUTLASS	204	451.96	0.35

AVERAGE SPEEDUPS

Comparison	Speedup
DeepGEMM vs vLLM Triton	1.46x faster
DeepGEMM vs vLLM CUTLASS	0.90x slower
vLLM CUTLASS vs vLLM Triton	1.59x faster

2.2 H800表现

2.2.1 指标数据

TFLOPS

GB/s

Latency

2.2.2 性能对比分析

Cutlass vs DeepGEMM

小规模矩阵 (m, n, k ≤ 256): Cutlass 明显优于 DeepGEMM，通常快 2-5 倍，说明 Cutlass 在小矩阵优化更好。
中等规模矩阵 (512 ≤ m, n, k ≤ 2048): Cutlass 仍然比 DeepGEMM 快 1.0x-3.5x，但随着矩阵增大，优势缩小。
大规模矩阵 (m, n, k ≥ 4096): DeepGEMM 逐渐追平甚至略超 Cutlass，特别是在 (4096, 7168, 16384) 这种大矩阵情况下，Cutlass 仅为 DeepGEMM 的 0.73x-0.98x，说明 DeepGEMM 在超大规模 GEMM 计算上更优。

Triton vs DeepGEMM

Triton 在所有情况下都明显慢于 DeepGEMM，一般慢 2-3 倍，个别情况甚至慢 3 倍以上（如 7168×16384 计算）。
即便是 Cutlass 相对 DeepGEMM 性能下降的情况（大矩阵），DeepGEMM 仍然远超 Triton，说明 Triton 的矩阵计算优化远不及 DeepGEMM。

结论

DeepGEMM 在大规模 GEMM 计算上比 Cutlass 和 Triton 更高效，特别是 4096 及以上的矩阵。
Cutlass 在小矩阵上最优，但在超大矩阵上被 DeepGEMM 赶超。
Triton 在所有情况下最慢，DeepGEMM 远超 Triton，适合更高效的 GEMM 计算。

2.2.3 详细数据

Cutlass 与 DeepGEMM和Triton对比

m	n	k	Time	TFLOPS	GB/s	vs DeepGEMM	vs Triton
64	24576	1536	49.2	98.1	832.5	1.47x	1.14x
64	32768	512	27.1	79.2	774.2	2.66x	1.18x
64	7168	16384	152.5	98.6	783	0.49x	1.55x
64	4096	7168	68.1	55.2	445.3	1.09x	1.22x
64	7168	2048	23	81.6	683	3.25x	1.38x
128	24576	1536	49.4	195.5	894.8	1.48x	1.74x
128	32768	512	26.9	159.4	936.6	2.72x	1.38x
128	7168	16384	152.8	196.7	794.2	0.78x	1.95x
128	4096	7168	68.2	110.1	459	1.10x	1.30x
128	7168	2048	22.8	164.6	734.8	3.31x	1.50x
256	24576	1536	80.4	240.3	630.6	1.07x	1.72x
256	32768	512	45	190.9	748.8	1.63x	1.53x
256	7168	16384	300.2	200.3	417.5	0.77x	1.82x
256	4096	7168	69.4	216.7	479.9	1.08x	1.73x
256	7168	2048	42.6	176.5	443.3	1.78x	1.56x
512	24576	1536	155.8	248.1	408.9	1.06x	1.66x
512	32768	512	87	197.5	581.5	1.09x	1.50x
512	7168	16384	448.3	268.3	297.1	1.01x	1.80x
512	4096	7168	135.6	221.7	274.5	0.90x	1.75x
512	7168	2048	62.2	241.8	371.1	1.21x	1.57x
1024	24576	1536	306.3	252.4	292.7	1.06x	1.64x
1024	32768	512	163.3	210.4	517	1.09x	1.54x
1024	7168	16384	891.9	269.7	167	1.01x	1.73x
1024	4096	7168	266.4	225.7	169.2	0.89x	1.69x
1024	7168	2048	122.2	246	257.4	1.07x	1.62x
1024	24576	1536	306.3	252.4	292.7	1.06x	1.64x
1024	32768	512	163	210.8	517.9	1.09x	1.54x
1024	7168	16384	892	269.6	166.9	1.01x	1.73x
1024	4096	7168	266.3	225.8	169.3	0.89x	1.69x
1024	7168	2048	122.2	246.1	257.5	1.07x	1.62x
4096	24576	1536	1190.1	259.8	206.2	1.06x	1.65x
4096	32768	512	620.7	221.4	462.9	1.07x	1.57x
4096	7168	16384	3395.3	283.4	71.6	1.01x	1.74x
4096	4096	7168	920.4	261.3	100.3	1.02x	1.65x
4096	7168	2048	455.1	264.3	179.7	1.07x	1.66x

AVERAGE PERFORMANCE

Implementation	Avg TFLOPS	Avg GB/s	Avg Time (ms)
DeepGEMM	378.44	632.26	0.17
vLLM Triton	180.53	546.70	0.42
vLLM CUTLASS	450.88	1273.15	0.16

AVERAGE SPEEDUPS

Comparison	Speedup
DeepGEMM vs vLLM Triton	1.61x faster
DeepGEMM vs vLLM CUTLASS	0.62x slower
vLLM CUTLASS vs vLLM Triton	2.45x faster

3. 算法优劣分析

根据测试数据，我们从 计算性能（TFLOPS）、带宽利用率（GB/s）、执行时间（Time/ms）、相对加速比 等维度对 DeepGEMM、vLLM Triton、vLLM CUTLASS 进行深入分析，并最终给出适合不同应用场景的建议。

3.1 DeepGEMM

优点

✅ 计算性能较高，优于 vLLM Triton

在 H20 上，DeepGEMM 比 vLLM Triton 快 1.46x（188.49 vs 126.01 TFLOPS）。
在 H800 上，DeepGEMM 比 vLLM Triton 快 1.61x（378.44 vs 180.53 TFLOPS）。
说明 DeepGEMM 在 核心计算效率 方面比 Triton 版本更强。

✅ 适用于多种 GPU，兼容性较好

在 两款 GPU 上的性能表现均衡，虽然 CUTLASS 在 H800 上更强，但 DeepGEMM 保持较好性能。
适合用于不同的 GPU 硬件环境，不依赖特定优化。

缺点

❌ 在 H800 上比 CUTLASS 慢

H800 上 DeepGEMM 的 TFLOPS 低于 CUTLASS（378.44 vs 450.88），意味着 CUTLASS 的矩阵计算优化更好。
带宽利用率也不如 CUTLASS（632.26 vs 1273.15 GB/s），表明 CUTLASS 可能更适合高效数据传输的任务。
如果使用 H800 并追求极致性能，CUTLASS 更值得选择。

3.2 vLLM Triton

优点

✅ Triton 内核易于优化，支持自定义 Kernel

Triton 适用于优化 LLM 计算，能在不同硬件上通过 kernel-level 代码调整性能。

✅ 计算方式较灵活，适用于动态 workload

Triton 允许动态 shape 计算，比 CUDA kernel 更适合处理 动态 batch size 任务，例如 在线推理。

缺点

❌ 计算效率最低，远逊于 DeepGEMM 和 CUTLASS

在 H20 GPU 上，TFLOPS 仅 126.01，比 DeepGEMM 低 32%。
在 H800 上，TFLOPS 仅 180.53，带宽 546.7 GB/s，相比 CUTLASS（450.88 TFLOPS，1273.15 GB/s）差距很大。
DeepGEMM 比 vLLM Triton 快 1.61x，CUTLASS 比 vLLM Triton 快 2.45x！

❌ H800 上表现尤为不佳

执行时间更长（0.42ms vs DeepGEMM 0.17ms vs CUTLASS 0.16ms），表明 vLLM Triton 在大规模矩阵运算上表现不理想。
说明 Triton 版本的 kernel 可能在 算子融合 和 数据流优化 方面仍有较大优化空间。

3.3 vLLM CUTLASS

优点

✅ H800 上性能最佳，TFLOPS 和带宽最高

在 H800 上的 TFLOPS 高达 450.88（比 DeepGEMM 高 19%），说明 CUTLASS 内核优化出色。
带宽利用率远超 DeepGEMM（1273.15 vs 632.26 GB/s），意味着 CUTLASS 能更有效地管理 内存带宽。
执行时间最短（0.16ms vs DeepGEMM 0.17ms vs Triton 0.42ms），在低延迟推理场景下表现优异。

✅ 高度优化的 CUDA kernel，适合高吞吐量任务

CUTLASS 主要优化了 GEMM 计算，能最大限度发挥 GPU Tensor Core 的性能。
适合大规模 LLM 推理，尤其是 batch size 较大的情况。

缺点

❌ 在部分 GPU 上，CUTLASS 的提升有限

在 H20 上，CUTLASS 仅比 DeepGEMM 快 1.08x（204 vs 188.49 TFLOPS），提升不明显。
可能表明 CUTLASS 的优化主要针对 H100/H800 这种高端 GPU，对 H20 等架构的提升不大。

❌ 可能对动态 workload 兼容性较差

CUTLASS 适用于 大 batch size，静态 shape 计算，但可能 不如 Triton 适用于动态 shape 任务。

4. 总结

方案	优点	缺点	适用场景
DeepGEMM	适用于多种 GPU，计算性能较好，优于 Triton	H800 上比 CUTLASS 慢	通用计算场景，适用于不同 GPU
vLLM Triton	Kernel 易优化，适合动态 shape	计算效率最低，H800 上表现尤差	需要 Triton 兼容性，需要优化 kernel
vLLM CUTLASS	H800 上最高 TFLOPS & 带宽，最短执行时间	可能对老 GPU 提升有限，动态 workload 兼容性较差	大规模推理任务，H800 等高端 GPU

天纪大模型开发平台TLM使用地址：https://zyun.360.cn/product/tlm

你可能感兴趣的:(DeepSeek开源库DeepGEMM 性能测评)

Java 中 LinkedList 的排序方法与性能比较 Java大师兄学大数据AI应用开发 AI人工智能与大数据应用开发 AI实战 java 开发语言 ai
Java中LinkedList的排序方法与性能比较关键词：JavaLinkedList、排序方法、性能比较、双向链表、时间复杂度、Collections.sort、Stream.sorted摘要：LinkedList是Java集合框架中常用的双向链表结构，适合频繁插入/删除操作，但排序时却常因特性限制导致性能问题。本文将从“火车车厢”的生活类比出发，逐步拆解LinkedList的排序原理，对比Co
DTO、VO、POJO转换性能测试 ZuuuuYao Java 开发语言 java
PO、DTO、VO、BO对象转换性能测试一、Java对象转换性能测试（一）测试对象mapstruct（二）测试对象modelmapper二测试代码(1)准备UserEntity(2)准备UserVO(3)编写mapstruct的映射器UserStructMapper(4)准备测试类(5)输出结果三、测试报告四、结论一、Java对象转换性能测试（一）测试对象mapstructMapstruct是一个
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
鸿蒙线程池全揭秘：让你的应用快、稳、省资源 harmonyos
摘要在现代应用开发中，多线程已经成为提升程序性能、优化用户体验的关键手段。尤其是在HarmonyOS（鸿蒙系统）这种强调分布式、并发处理的系统架构中，合理使用多线程不仅可以让程序运行更高效，还能帮助我们处理复杂的后台任务，比如文件下载、数据库操作、网络请求等。引言鸿蒙系统作为面向多设备融合的新一代操作系统，其支持的多线程模型与传统Android十分类似。很多Java的线程操作方法在鸿蒙中依然适用。
鸿蒙关系型数据库实战：高效数据存储与管理数据库harmonyos
在鸿蒙应用开发中，关系型数据库（RDB）是结构化数据存储的核心方案。通过深度实践，其基于SQLite的轻量级实现不仅性能出色，更提供了强大的事务支持和类型安全。以下是关键经验总结：三大核心优势：SQL兼容：完整支持SQL92标准语法线程安全：内置多线程读写锁机制加密存储：支持AES-256加密敏感数据关系型数据库实战封装及使用：在Utils目录下新建一个RdbUtils文件//./src/main
如何在 Windows 11 或 10 任务管理器中查看后台运行的应用程序或服务山岚的运维笔记 windows 使用技巧 windows
监控在Windows中后台运行的应用程序并非难事，也无需任何第三方应用程序。无论是Windows10还是11，两者都内置了一个名为【任务管理器】的应用程序。它的作用是允许用户识别和查看后台运行的应用程序以及服务。它有助于用户排查性能问题或确保高效分配资源。然而，如果你不知道如何操作，那么本文将帮助你了解如何访问和使用Windows任务管理器。打开任务管理器第一步是访问【任务管理器应用程序】，打开它
Cadence Design Systems EDA介绍（五）--Innovus 小蘑菇二号笔记
目录Innovus的主要功能1.初始布局规划（Floorplanning）2.详细布局（Placement）3.布线（Routing）4.时序分析与优化（TimingAnalysisandOptimization）5.功耗分析与优化（PowerAnalysisandOptimization）6.面积优化（AreaOptimization）7.签核（Sign-off）Innovus的特点1.高性能2
FPGA和嵌入式系统的核心区别 2301_82243800 fpga开发
灵活性：FPGA具有高度的灵活性，可以根据需要重新编程以实现不同的功能。嵌入式系统的硬件功能通常是固定的，无法进行大规模的硬件级别的修改。开发周期：FPGA的开发周期相对较短，因为它可以通过重新编程来实现新功能，快速原型设计和迭代能力可以缩短开发周期。嵌入式系统的开发周期相对较长，因为它需要进行硬件设计、芯片制造和软件开发等多个环节。性能：FPGA芯片具有并行处理的能力，可以实现高性能计算和数据处
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
specpu2017安装/编译/运行测试总结 So_shine linux调试工具和性能量化 linux
目录前言一、源码镜像获取二、安装三、配置修改四、编译五、运行测试六、结果查看七、遇到的问题前言SPEC是标准性能评估公司（StandardPerformanceEvaluationCorporation）的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织，这个组织的目标是建立、维护一套用于评估计算机系统的标准。SPECCPU测试中，测试系统的处理器、内存子
specpu2017在arm64环境下的部署/测试 So_shine specpu 性能测试 arm64 环境部署
目录前言一、源码镜像获取二、安装三、配置修改四、编译五、运行测试六、结果查看七、遇到的问题前言SPEC是标准性能评估公司（StandardPerformanceEvaluationCorporation）的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织，这个组织的目标是建立、维护一套用于评估计算机系统的标准。SPECCPU测试中，测试系统的处理器、内存子
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
鸿蒙线程池全揭秘：让你的应用快、稳、省资源前端世界 harmonyos harmonyos 华为
摘要在现代应用开发中，多线程已经成为提升程序性能、优化用户体验的关键手段。尤其是在HarmonyOS（鸿蒙系统）这种强调分布式、并发处理的系统架构中，合理使用多线程不仅可以让程序运行更高效，还能帮助我们处理复杂的后台任务，比如文件下载、数据库操作、网络请求等。引言鸿蒙系统作为面向多设备融合的新一代操作系统，其支持的多线程模型与传统Android十分类似。很多Java的线程操作方法在鸿蒙中依然适用。
AI原生应用性能优化：混合推理的7个最佳实践 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 性能优化 ai
AI原生应用性能优化：混合推理的7个最佳实践关键词：AI原生应用、性能优化、混合推理、最佳实践、推理效率摘要：本文主要探讨了AI原生应用性能优化中混合推理的相关内容。首先介绍了文章的背景、目的、预期读者和文档结构等信息，接着对混合推理的核心概念进行了通俗易懂的解释，并阐述了各核心概念之间的关系，给出了核心概念原理和架构的文本示意图以及Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，用数
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
C++中对象传参的几种方式递归书房 c++
在C++中传递对象作为函数参数有多种方式，每种方式都有不同的语义、性能特点和适用场景。以下是全面的分析和最佳实践指南：1.按值传递(PassbyValue)voidprocessObject(MyClassobj){//操作obj的副本}MyClassoriginal;processObject(original);//复制构造新对象特点：创建对象的完整副本函数内修改不影响原始对象调用时发生复制构
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
干货！大模型时代一定要收藏的 20 个LLM 中文数据集 OpenBayes 资源上新人工智能语言模型数据库机器学习
自ChatGPT重磅推出以来，大语言模型(largelanguageModel,LLM)以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑，精心构建的数据集不仅为大模型提供了充分的燃料，还为大模型在垂直领域的应用和性能提升提供了可能。本文整理了一些适用于大模型训练调优的热门中文公开数据集（按照首字母A-Z顺序排列），以供大家了解和使用。温馨提示：本文列举的所有数据集，
Mysql回表查询：深入解析与实战应用需要重新演唱 mysql mysql 数据库
Mysql回表查询：深入解析与实战应用今天，我们将深入探讨Mysql中的回表查询。回表查询是Mysql索引机制中的一个重要概念，理解它的工作原理和优化方法，对于提升数据库查询性能至关重要。让我们一起揭开回表查询的神秘面纱。1.什么是回表查询？回表查询（LookupQuery）是指在使用非聚集索引（Non-ClusteredIndex）进行查询时，如果需要获取的数据不在索引页中，就需要根据索引页中的
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
php flush实时输出线上环境好使，本地环境等待一段时间后一次性输出结果的原因落落鱼2013 php 开发语言
近期对接deepseek接口时为了拥有较好的用户体验，等待答案返回时采用了flush分布输出，但是线上环境下可以正常分布输出，同样代码在本地总是等待许久后一次性出结果，排查许久，发现竟然是本地和线上不同的php加载模式导致。1、线上环境与本地环境区别：1）线上环境：ServerAPIFPM/FastCGI2）本地环境：ServerAPICGI/FastCGI2.PHP-FPM与mod_fcgid差
什么是DPoS（Delegated Proof of Stake，委托权益证明） MonkeyKing.sun DPoS
DPoS（DelegatedProofofStake，委托权益证明）是一种基于PoS（权益证明）演进而来的共识算法，设计初衷是提高性能、增强治理效率、实现社区自治。一、什么是DPoS（委托权益证明）？DPoS是一种将记账权“委托给投票选出的代表节点”的共识机制。普通用户不直接参与出块，而是通过投票选出“代表人”代为记账和验证交易。可以理解为：“股东大会投票选董事会代表他们管理公司”。二、DPoS的
小米YU7智能座舱的技术栈推演分析 Alex艾力的IT数字空间微服务知识图谱图像处理数据分析聚类 AudioLM nlp
小米YU7的智能座舱以“人车家全生态”战略为核心，深度融合小米在消费电子领域的优势与汽车智能化需求，构建了从硬件到软件、从交互到生态的完整技术体系。技术栈解析如下：一、硬件架构：高性能芯片与多屏交互旗舰级芯片组合高通骁龙8Gen3座舱SoC：采用4nm工艺，支持1.35秒极速启动应用、15分钟整车OTA升级，提供流畅的车机交互体验。英伟达DRIVEAGXThor平台：算力达700TOPS，基于Bl
探索Java性能优化的利器：Java Microbenchmark Harness（JMH）柯茵沙
探索Java性能优化的利器：JavaMicrobenchmarkHarness（JMH）jmhhttps://openjdk.org/projects/code-tools/jmh项目地址:https://gitcode.com/gh_mirrors/jm/jmhJavaMicrobenchmarkHarness（简称JMH）是一个用于构建、运行和分析Java以及其他在JVM上运行的语言的微基准测
JMH(Java Microbenchmark Harness) Java微基准测试半路出家的码农小王 JMH
官网：OpenJDK:jmh什么是JMH？微基准测试，他是测的某一个方法的性能到底是好或者不好，换了方法的实现之后他的性能到底好还是不好创建JMH测试创建Maven项目，添加依赖，我们需要添加两个依赖：1.1：jmh-core（jmh的核心)1.2：jmh-generator-annprocess（注解处理包）4.0.0UTF-8UTF-81.81.81.8xw.comHelloJMH21.0-S
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
电子价签ESL蓝牙芯片OM6626/OM6628支持超低功耗应用性能对标NORDIC Kandiy18025398187 物联网阿里云代理模式 risc-v 硬件架构射频工程 iot
**电子价签ESL蓝牙芯片OM6626/OM6628支持超低功耗应用性能对标NORDICOM6626是一款超低功耗的蓝牙soc**主要特性：支持BLE5.3支持SIGMesh支持2.4G长包主频64Mhz，80KBRAM主要应用在esl电子价签，IoT模组、CGM、高报告率HID设备PUM特点1.71~3.6v供电电压1秒间隔广播平均电流：9uA；1秒间隔连接平均电流：7uA峰值电流：TX@0dB
国产化芯片ZCC3790--同步升降压控制器的全新选择, 替代LT3790 2501_92222359 嵌入式硬件
ZCC3790：同步升降压控制器的全新选择,替代LT3790在电源管理领域，高效、可靠的电压调节器至关重要。ZCC3790，一款同步4开关升降压电压/电流调节器控制器，凭借卓越性能，成为LT3790的理想替代品。一、产品概述ZCC3790能在输入电压高于、低于或等于输出电压时，精准调节输出电压、输出电流或输入电流。其恒定频率、电流模式架构，可使工作频率在200kHz至700kHz间调整或同步，无需
ZCC5050是一款高性能的高侧 OR-ing FET 控制器替代LM5050 2501_92222359 嵌入式硬件
一产品概述ZCC5050-1是一款高性能的高侧OR-ingFET控制器，适用于冗余电源系统。它通过外部N沟道MOSFET实现理想的二极管整流功能，可显著降低传统二极管整流器带来的功率损耗和电压降。ZCC5050-1提供了快速的电流反转响应能力，能够在50ns内关闭MOSFET，确保系统的稳定性和可靠性。ZCC5050-1isahigh-performancehighsideORingFETcont
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟