图波列夫

Applying the Roofline Model for Deep Learning performance optimizations

Applying the Roofline Model for Deep Learning performance optimizations 以 Intel Xeon 为例，介绍了一种为非统一内存访问（ NonUnified Memory Access，NUMA[8]）自动创建 Roofline 模型的方法，并对 Intel oneDNN 库中实现的高效深度学习原语进行了评估。

2 Description of methodology

所有实验均在禁用 Intel Turbo Boost 技术的 Intel Xeon Scalable 处理器上进行，正如 Applying the roofline model 中所建议的那样。

本工作中的单核 Roofline 只是对使用单线程可用的峰值计算和带宽进行了基准测试。对于峰值计算是合适的，因为这将随着使用的核心数量而扩展。但是检查带宽的情况有所不同，因为内存预取器在后台工作。无论使用了单插槽上多少核心，我们总是拥有相同数量的内存预取器流。因此内存带宽不会随着使用的核数的增加而线性扩大。或许，对每个核心独立地并行运行基准测试程序，并将平均值报告为单个核心可用的带宽更有意义。

2.1 Measuring peak computational performance

我们选择实现自己的基准来检查峰值计算能力，以便更好地控制测试资源的使用（线程、插槽）。此外，我们希望我们的基准测试与编译器优化无关，但要达到最高性能。

我们的峰值性能检查例程由在每个可用的处理器线程上独立执行运行时生成的汇编代码组成。在实现基准测试时，编译器删除死（无用）代码通常是一个问题，但是当在运行时使用 Xbyak 生成基准测试代码时，我们不会遇到该问题，并且整体性能与编译器无关。

  vfmadd132ps zmm0,zmm1,zmm2
  vfmadd132ps zmm3,zmm1,zmm2
  vfmadd132ps zmm4,zmm1,zmm2
  vfmadd132ps zmm5,zmm1,zmm2
  vfmadd132ps zmm6,zmm1,zmm2
  vfmadd132ps zmm7,zmm1,zmm2

汇编代码是 Intel 高级向量扩展指令集（Advanced Vector Extensions: AVX, AVX2, AVX512）提供的 FMA 指令序列，旨在避免链式依赖（写后读），从而可以接近最高性能。使用此基准测试，我们测量了以下处理器场景的峰值计算能力：

单线程执行
单路执行
双路执行

2.2 Measuring peak memory throughput

测量峰值内存带宽很复杂，因为结果可能会因我们测量的操作而异[13]。为此，我们决定通过独立检查确定最大吞吐量值：

来自 C 标准库的memset函数
来自 C 标准库的memcpy 函数
使用非暂时指令在汇编语言中手动实现的 memset

两种类型的基准测试都以单线程和多线程运行，并处理0.5GB 的内存。在针对单路和双路场景进行实验时，我们自己使用非暂时指令的实现是最快的方法。另一方面，memcpy和memset在单线程场景中报告了更高的内存吞吐量，我们将其归结为内存预取机制。

我们在单线程情况下的内存带宽测试中遇到了一个问题——如果我们更好地利用内存预取器来对内存带宽进行基准测试，我们可能会获得更高的带宽。这个问题存在于一些带有内存限制内核的 Roofline 图中。在单线程环境中执行的高度优化的内存瓶颈内核，其实际运行时间可能会过于接近（乃至超过）实际屋顶。对于基于单插槽或双插槽的执行，这不是一个重要因素，因为内存传输的最高值是使用流指令（非临时存储）获得的。

值得一提的是，在 Intel Xeon 处理器上运行带宽检查时，我们将单线程和单插槽实验的内存分配和线程绑定到一个选定的插槽。这是需要的，因为当使用全集线程时，一个插槽上没有足够的可用内存带宽。我们观察到线程和内存分配都在向第二个插槽迁移，以便利用该插槽的内存通道。这通常是高效的实践，但在我们的实验中这是不需要的行为，因为我们希望将执行限制在单个插槽上。

另一个重要因素是，为了在使用两个插槽（我们目标平台的所有可用插槽）时最大化吞吐量，我们通过并行运行基准测试程序的两个副本来检查内存带宽。一个运行基准测试的线程和内存分配绑定到一个节点，第二个基准测试绑定到第二个节点。报告两个吞吐量之和为平台内存吞吐量的峰值。我们采用这种方法的理由是，当线程分配在一个节点上而内存分配在另一个节点上时，访问内存所需的时间要比在同一节点上分配两种资源所需的时间要长。

2.3 Counting Work

计数 FLOPS 的方法与 Applying the roofline model 中所述类似。下面，perf 工具用于读取 PMU 计数器：

FP_ARITH_INST_RETIRED:SCALAR_SINGLE
FP_ARITH_INST_RETIRED:128B_PACKED_SINGLE
FP_ARITH_INST_RETIRED:256B_PACKED_SINGLE
FP_ARITH_INST_RETIRED:512B_PACKED_SINGLE

我们在外部使用 perf 来对 work 计数，这使得我们对每个评估的内核进行两次测量：

运行我们的测试程序来执行内核的单次执行(整体计数)
运行测试程序初始化所有数据，但不实际执行(计算框架开销)

使用上述运行中的 PMU 计数器值，我们可以从整体测量中减去框架开销，以获得内核实际执行的计数器值。接下来，我们将计数器值相应地乘以8（对于 AVX2）和16（对于 AVX-512）以获得实际的 FLOPS。

在此过程中，我们曾担心是否精确地统计出 FMA 指令的 FLOPS，因为 Intel AVX2 的单个 FMA 指令实际上执行 16 FLOPS，而 Intel AVX-512 则执行 32 FLOPS。因此，我们实现了vfma132ps FMA 指令和vfaddps向量加法指令的汇编代码并观测了 PMU 计数器的值。我们发现 FMA 指令的单次写回使计数器加2，而常规向量指令使计数器加1。这证明 FLOPS 计算是精确的。此外，我们还实现了一个更复杂的汇编代码——汇编实现的代码很容易计数执行的 FLOPS，并将其实际的 FLOPS 与基于 PMU 计数器方法得出的 FLOPS 进行了比较。两个结果都匹配，因此我们得出结论，这种计算 work 的方法是准确的。

2.4 Counting memory traffic

确定内存流量 (Q) 是 Roofline 模型中最具挑战性的部分。与 Applying the roofline model 类似，我们首先计算从最后一级缓存到内存的内存传输。由于预取器机制，这种方法产生的值远低于预期。接下来，我们禁用了硬件内存预取器，如下所述。对于简单的评估内核——我们实现的归约求和内核，它提供了准确的结果，但对于更复杂的算法，例如在英特尔 oneDNN 库中实现的算法，结果仍然远低于预期。这是因为 Intel oneDNN 库在 GEMM 和 Winograd 实现中显式使用软件内存预取器指令，而 [13] 中描述的方法无法禁用这些指令。因此，我们最终以类似于 Applying the roofline model 中所描述的方法，通过 IMC（Internal memory controller，内部内存控制器）来检查原始内存传输。由于现代 Linux 分析器 perf 配备支持 IMC 的 PMU 计数器[3]，我们不必自己添加 PMU 计数器。

由于 IMC 的 PMU 是对整个平台的内存传输进行计数，而不仅是执行被评估算法的 CPU 核，因此计数的流量不仅仅与测试算法的执行有关。可以从 perf 的命令行界面检查 IMC uncore 计数器，因此为了将流量的测量限制为我们评估的内核的执行，我们检查了 perf 工具的源代码，以获取 perf 与 Linux 内核通信的系统调用的参数值。有了这些知识，我们可以在代码中调用相同的系统调用。

对于大于1M 字节的已处理数据，此方法可提供令人满意的结果。本文中的分析仅限于处理较大数据（吞吐量）而不是单个数据块（延迟）的算法。

2.5 Measuring runtime performance

我们测量了进行多次执行的时间，并将其平均值报告为 runtime。我们感兴趣的是在三种使用情况下测量性能：

单线程执行
单路执行
双路执行

我们发现对于单路执行场景，需要使用 numactl 实用程序来控制线程和内存分配。事实证明，这是一个关键因素，因为当来自插槽的所有线程大量访问内存时，内存带宽就会不足。然后，操作系统可以将线程和分配迁移到另一个插槽，以使用另一个插槽的一些内存带宽。这与2.2节中描述的情况相同。没有此限制（例如，使用 NUMA 工具控制资源的放置）将导致运行时性能高于所分析内核算术强度的实际上限。

2.5.1 Cold caches measurements

在测量内核的执行时间之前，我们决定为每次迭代清除缓存。据 Applying the roofline model 报告在数据大小较小时会使测量失效，但对于我们的实验，缓冲区大小相当大——基于深度学习工作负载中实际使用的大小，因此我们没有发现测量不稳定的问题。唯一的问题是，重写缓存是耗时的，这是我们实验的运行时间。

2.5.2 Warm caches measurements

在进行实际测量之前，我们执行实际内核若干次以预热缓存，然后运行要测量的执行。现代体系结构内置了先进的内存预取机制，因此从这个角度来看，冷缓存和热缓存的差异可能并不总是明显的，特别是在一些使用软件预取指令的 oneDNN 内核中。

3 Analysis of Deep Learning Kernels

3.1 Analysis of Convolution

我们在本工作中运行分析的目标处理器是 Intel Xeon Gold 6248 CPU。该处理器有44个核心，均匀分布在两个插槽之间，属于 NUMA 架构，因此每个核心对同一内存位置的访问时间可能不同。我们针对三种情景进行了分析：

单线程执行（图 3）
单路执行（图 4）
双路执行（图 5）

3.1.1 Single-threaded execution analysis

我们开始分析只使用单线程执行的卷积操作。这是一个适用于 PaddlePaddle 深度学习框架的用例，该框架针对单线程执行进行了优化。图 3 显示了屋顶线图——出于本文的目的，绝对基准值已转换为相对百分比度量。我们绘制了卷积运算的 Roofline 模型，使用固定大小的数据在三个子情况下处理（图 4 中从左到右的垂直虚线）：

使用冷缓存下的 Winograd[9] 算法执行卷积
使用冷缓存下的 NCHW 数据排列执行卷积
使用冷缓存下的 NCHW16C（分块）数据排列执行卷积

首先，我们在 Roofline 图上有三个不同的卷积核。除了计算能力（运行时计算）的相对利用率，我们还测量了相对执行时间（ET）。NCHW 卷积是最慢的，因此我们将其 ET 表示为 $100\%$ 。我们可以看到 NCHW16C 卷积内核的实现效率稍高一些，因为它利用了峰值计算的 $86\%$ ，而 NCHW 卷积内核仅使用了 $48\%$ 的可用计算资源。这是相当直观的；我们比较了两种不同的实现，从概念上讲，同一种算法使用大致相同数量的 FLOPS 执行相同的数学运算。另一方面，Winograd 卷积是一种完全不同的算法，它使用根本上不同的计算方法产生相同的结果。因此，在实现完全不同的算法时，比较内核的意义非常有限。更多的是关于给定内核将如何更好地利用计算平台资源。我们可以看到 Winograd 卷积利用率要低得多（ $31\%$ ），但它是三个中最快的一个。我们可以看到，Winograd 的实现还有改进的余地，因为它的运行时计算距离屋顶还很远。虽然 Winograd 是最快的，但它的应用仅限于特定大小的卷积核，因此直接卷积算法的应用范围更广。

接下来我们比较了直接卷积的两种实现： NCHW 与缓存和向量化友好的 NCHW16C。Intel oneDNN 库正在实施布局传播[4]的思想，将卷积模型输入从其原始数据排列转换为块数据排列（例如 NCHW8C 或 NCHW16C）。然后所有后续的深度学习操作（卷积、归一化、非线性）都在这个数据排列上工作。分块数据排列有助于保证向量指令（AVX、AVX2、AVX512等），使用的所有数据都来自同一个高速缓存块，从而减少内存延迟，并有助于实现更高的计算利用率。

可以看出，NCHW16C 数据排列的总计算利用率的百分比远高于 NCHW。大多数计算友好的场景，例如使用 NCHW16C 数据布局执行的卷积，在处理器上实现了超过 $86.0\%$ 的可用最大 FLOPS。如此高的计算利用率表明，进一步优化此实现（不进行概念性重新设计或更改卷积算法）将十分困难。如果存在一种算法，则将其更改为更高效的算法可能更容易。一种选择可能是用 Winograd 卷积（如果适用）替换直接卷积，如本节开头所述。

3.1.2 Single socket execution analysis

在图 4 中，与单核执行（上一节）相比可以看出各自的计算资源利用率略低：

Winograd 卷积：从 $31.54\%$ 到 $29.30\%$
直接 NCHW 卷积：从 $48.73\%$ 到 $45.68\%$
直接 NCHW16C 卷积：从 $86.72\%$ 到 $78.01\%$

我们将其归因于多线程处理以及内存预取器（缓存）限制。如果没有更深入的分析，除了实现一个高效的单线程内核比多线程内核更容易以外，很难得出不同的结论。

从提出的 Roofline 模型中得出的另一个观察结果是，当我们将评估卷积的执行从单个线程迁移到单路或双路执行时，我们可以看到效率较低的实现开始受到内存限制。对此的解释与算法无关，是 Roofline 模型的刚性点向右移动了。这是因为当使用所有可用硬件线程时，每个线程的可用内存带宽低于单线程执行时的可用内存带宽。

3.1.3 Two socket execution analysis

如前所述，Intel Xeon Gold 6248 具有 NUMA 架构。在本实验中我们对所有可用的计算和内存资源进行了分析，以检查利用率并将其与单路执行（3.1.2节）进行比较。

图 5 展示了我们使用评估处理器的全部能力的结果。我们可以看到，在缓存友好用例（NCHW16C）中，总计算利用率的百分比（ $48\%$ ）相对于单路执行（ $78\%$ ）相对较低，对于其他两个内核的执行也是如此。我们核实两种执行场景中执行了相同的实现，因此我们研究了 Intel oneDNN 的卷积执行从单路扩展到双路的效果。双路场景下计算资源利用率较低的原因是单内核执行难以利用 NUMA 架构的全部计算资源。

3.2 Analysis of Inner Product

在本节中，我们将了解内积，它是神经网络的基础。特别是在诸如基于 transformer 的模型 [15]等现代自然语言处理 (NLP) 解决方案中，内积占用了大部分执行时间。内积处理的数据大小如图 6 所示，可装进所使用的处理器——Intel Xeon 6248的 L3缓存。因此，应该可以观察到使用冷缓存执行与使用热缓存执行之间的差异。

观察 Roofline 模型，我们可以得出结论，在热缓存的情况下，内存流量比缓存冷时要小得多。我们执行相同的代码，所以 work 是相同的，但在热缓存执行的情况下，算术强度要高得多，因此在这种情况下内存流量必定小得多。现代处理器使用内存预取器来读取数据，这使得预测内存流量变得困难[10]。

我们可以得出的另一个结论是，Intel oneDNN 库的内积针对特定的输入信号形状进行了优化，因为对于单线程执行，运行时效率达到可用峰值计算能力的 $71\%$ 以上。其他场景的 Roofline 图（例如，使用单路和双路执行）见附录。

3.3 Analysis of Pooling

我们尝试使用 Roofline 模型分析两种最流行的池化算法：

最大池化
平均池化

对于最大池化，本工作中使用的方法不适用于此操作，因为最大池化由数据移动和 max 操作组成，这些操作不被识别为 FLOPS，也未被相关的 FLOPS PMU 计数器跟踪。因此，将计数的 work 值将不具有代表性和有用性。在本文中，我们只给出平均池化的 Roofline 图。

图 7 显示在冷缓存情况下，NCHW 和分块布局数据排列（NCHW16C）的算术强度几乎相同。相同的观察结果适用于热缓存场景。这本身并不奇怪，但有趣的是，CPU 计算利用率的百分比存在巨大差异。使用 NCHW 数据排列的实现实现了 $0.35\%$ 的计算利用率，而 NCHW16C 实现利用率在 $14.8\%$ 左右，利用率提高了 42 倍以上。我们发现这很有趣，并寻求解释。

Intel oneDNN 库可以工作在verbose模式，以提供内部执行的详细信息，如下所示：

NCHW:
dnnl_verbose,exec,cpu,pooling,simple_nchw:any,forward_inference,…
NCHW16C:
dnnl_verbose,exec,cpu,pooling,jit:avx512_common,forward_inference,…

根据这些输出，我们可以看到 NCHW 使用的是一个名为：simple_nchw的平均池化实现，而分块数据排列正在使用 jit::avx512_common实现。前者是基于 C++ 的简单实现，后者是使用 Xbyak 项目实现的运行时生成的汇编代码。NCHW 池化需要在 simd 寄存器中进行操作（因为空间的步长为 1），而 NHWC 和 NCHW16C 池化可以直接在寄存器上进行操作。这是 NCHW 计算利用率低的主要原因。

3.4 Analysis of GELU activation

我们分析的另一个 oneDNN 原语是最近引入的高斯误差线性单元[5]（Gaussian Error Linear Units，GELU）激活。我们选择分析它的原因是 GELU 是一种元素操作，因此数据排列不应该对执行性能产生影响。此外，与卷积相比，激活的算术强度较小，因为它们受内存限制，我们想检查我们的工作是否也适用于受内存限制的原语。

图 8 显示了通过 Intel oneDNN 库执行的 GELU 操作的屋顶线模型。令我们惊讶的是，我们观察到使用块数据排列（NCHW16C）执行的算术强度低于 NCHW 实现。我们预计两种数据排列的性能相同。但是当查看 work 和 traffic 的实际值时，我们发现 NCHW16C 消耗的内存是 NCHW 实现的四倍，FLOPS 是 NCHW 实现的两倍。我们的屋顶线模型图没有显示 W 和 T 值，看到 NCHW16C 的操作强度较低，我们检查了收集的数据。

对消耗两倍资源的原因的解释是，输入信号的维度[256,3,227,227]的第二维（通道）等于3。oneDNN 提供的 NCHW16C、NCHW8C 的高效实现要求通道值是8的倍数。因此 oneDNN 当强制使用分块数据排列并因此将输入张量扩展为具有 [256,8,227,227]的形状。在这种情况下，使用 NCHW 数据排列的效率较低。
这是否意味着用户必须了解 oneDNN 内核的实现细节才能有效地使用它们？答案是否定的，因为 Intel oneDNN 库的使用模式是计算原语自行选择要使用的实现。出于分析的目的，我们选择了对分块处理不利的维度和强制 GELU 进行分块处理。换句话说，oneDNN 内部逻辑将触发高效的实现，在这种情况下，GELU 不会在分块布局上工作。如附录所示，GELU 屋顶线图更经常遇到的维度（对 oneDNN 更有利）证实了分块和 NCHW 数据排列的算术强度在所有效率方面都非常相似。

3.5 Applicability of methodology

Work(W) 是通过 FLOPS PMU 事件测量的，该事件对减法、加法和乘法等浮点运算进行计数，但它不统计数据移动以及获取最大值操作（可以使用 AVX 指令集的vmaxps指令实现）。这意味着分析深度学习算法时，使用 PMU 事件（如本文中使用的）测量 Work 不是合适如校正线性单元（Rectified Linear Units，ReLU）、最大池、重排序以及其他大多数工作是由计数 FLOPS 时未考虑的操作（如 $\min$ 、 $\max$ 和数据移动）执行的原语。

参考资料：

Applying the Roofline Model for Deep Learning performance optimizations
Applying the Roofline Model
Inter PMU架构
Perf monitor unit 的几个术语解释
Linux性能分析工具Perf简介
系统级性能分析工具perf的介绍与使用
双路服务器和单路服务器有什么区别？
你猜为什么A64为什么没有LDM和STM指令了，而是用LDP跟STP呢？
Non-temporal load and store pair
What is the meaning of “non temporal” memory accesses in x86
聊聊原子变量、锁、内存屏障那点事
Memory 内存知识-2601-实战技巧之绕过缓存
ARMv8 架构与指令集.学习笔记
cpumemory.zh-cn/06.what-programmers-can-do.md
火爆业界的明星，下一代存储技术的先行: NVDIMM 你了解吗?
examon_cineca
andikleen/pmu-tools
Linux 效能分析工具: Perf
FLOP measurement
CPU体系结构
Instructions Retired Event
What does Intel mean by “retired”?
Intel Core Microarchitecture Pipeline
Measure memory bandwidth using uncore counters
System-wide Performance Counter Measurements: Offcore, Uncore, and Northbridge Performance Events in Modern Processors
perf工作原理简析
Linux Perf 性能分析工具及火焰图浅析
A.13. numactl
Linux工具之numactl

讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式墨顿 transformer 架构深度学习
HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。这一理论框架试图解决当前深度学习模型在效率、动态系统建模和长期依赖处理等方面的核心挑战。本文将系统梳理HamiltonianTransformer的理论基础、关键创新点、实现方法以及应用前景，并分析其相对于传统Transformer架构的优势与潜在限制。哈密顿力学与T
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践大模型之路 RAG rag
一、引言：混合RAG技术的发展与挑战在人工智能领域，检索增强生成（RAG）技术正成为构建智能问答系统的核心方案。传统RAG通过向量数据库存储文档嵌入并检索相关内容，结合大语言模型（LLM）生成回答，有效缓解了LLM的“幻觉”问题。然而，单一的稠密向量检索（如基于Transformer的嵌入模型）在处理关键词匹配和多义词歧义时存在局限性，而稀疏向量检索（如BM25）虽擅长精确关键词匹配，却缺乏语义理
军事，本身就是智能人机与认知实验室人工智能大数据
军事智能后面两个字不重要，军事本身就是智能。军事活动中的许多决策和操作本质上都离不开“智能”，不论是指人类的智慧，还是现代技术和人工智能的应用。军事行动本质上是一种复杂的决策过程，涉及到战略、战术、资源配置、情报分析等多个方面。每一个决策都需要充分的智慧和智能的支持，考虑的因素包括敌我态势、地理环境、气候、技术优势等。人类指挥官的战略智慧和经验在军事行动中至关重要，但随着现代技术的发展，智能化技术
2025年智能计算与人机交互国际会议（ICHCI 2025）
2025InternationalConferenceonIntelligentComputingandHumanComputerInteraction【一】、大会信息会议简称：ICHCI2025大会地点：中国·温州收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等【二】、会议简介2025年智能计算与人机交互国际会议将在中国温州隆重召开。旨在为全球从事大数据、人
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
通义灵码+DeepSeek：国产代码生成王炸组合，带你飞！
引言在人工智能飞速发展的当下，AI代码生成工具如雨后春笋般涌现，为开发者们带来了前所未有的编程体验。其中，国产的通义灵码结合DeepSeek模型异军突起，成为众多开发者关注的焦点。它们凭借强大的功能和出色的表现，在代码生成领域崭露头角，不仅提升了开发效率，还为编程工作流注入了新的活力。然而，如同任何新兴技术一样，在使用过程中也会遇到各种问题和挑战。本文将通过实测，深入剖析通义灵码与DeepSeek
uni-app 多端开发中 AI 的集成与适配：一次开发，智能多端运行欧阳天羲大前端与 AI 的深度融合 #AI 与大前端框架结合篇 uni-app 人工智能前端
一、引言：uni-app与AI多端集成的背景在当今跨平台开发趋势下，uni-app凭借"一次编写，多端运行"的特性成为企业级应用开发的首选框架之一。随着人工智能技术的普及，将AI能力集成到多端应用中已成为提升用户体验的关键需求。然而，小程序、APP、Web等不同端的运行环境差异显著，如何实现AI功能的统一集成与高效适配成为开发难点。本文将系统讲解在uni-app框架中集成AI能力的完整方案，涵盖跨
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
免费学中医，这些优质资源不容错过少林659 零基础学中医免费学中医
零基础学中医，学中医如何入门免费学中医！问止精一书院链接：https://tool.nineya.com/qrcode/1iv54b4ts想入门中医却担心成本太高？其实有不少免费又优质的学习资源，问止中医的系列免费课程就是其中的佼佼者，涵盖理论与实操，满足不同学习者的需求。问止中医旗下的精一书院，是免费学中医的绝佳平台。由问止中医联合创始人林大栋博士主讲，课程聚焦中医结构分析、人工智能中医大脑技术
思维树(Tree of Thoughts): 超越链式思维的AI推理新范式司南锤 LLM 人工智能
引言在人工智能快速发展的今天，大语言模型(LLM)的推理能力一直是研究的热点。从最初的直接问答，到链式思维(ChainofThoughts,CoT)的出现，再到如今的思维树(TreeofThoughts,TOT)，AI的推理方式正在变得越来越接近人类的思维过程。思维树作为一种全新的推理框架，不仅继承了链式思维的优势，更通过树状结构的探索和回溯机制，实现了更加复杂和深入的推理过程。本文将深入探讨TO
【深度学习-Day 33】从零到一：亲手构建你的第一个卷积神经网络（CNN）吴师兄大模型深度学习入门到精通深度学习 cnn 人工智能 python 大模型卷积神经网络（CNN）机器学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
AttributeError: module ‘openai‘ has no attribute ‘ChatCompletion‘解决方案爱编程的喵喵 Python基础课程 python AttributeError openai ChatCompletion 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了AttributeError:mod
RAG技术全面对比研究：探索最优检索增强生成策略
检索增强生成（RAG）技术全景解析：从基础到前沿在当今信息爆炸的时代，如何从海量数据中快速准确地获取所需信息，是人工智能领域的一大挑战。Retrieval-AugmentedGeneration（RAG，检索增强生成）技术应运而生，它结合了检索和生成的优势，通过从大量文档中检索相关信息，再利用这些信息生成高质量的回答。本文将系统性地介绍18种RAG技术，通过概念解析、代码示例和实际应用场景分析，帮
基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人矩阵源码--基于深度学习的数字人面部表情合成我~18339948121 数字人源码数字人矩阵源码 123数字人源码矩阵深度学习线性代数人工智能 flask tornado python
AI正在席卷全球，数字人市场需求增长，用AI数字分身一天就能生产出几十条高质量短视频，你只需要上传一段视频，甚至都不用开口说话，直接复制粘贴文案，就能得到一个属于你的数字分身。深度学习数字人面部表情合成的关键技术3D面部建模与参数化建立高精度3D面部模型是表情合成的基础，常用Blendshape或面部动作编码系统（FACS）作为参数化控制方法。Blendshape通过线性组合基础表情形状生成新表情
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
探秘AI的秘密：leaked-system-prompts 人工智能我来了人工智能 AI 人工智能
揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。而作为核心组成部分，系统提示（systemprompts）的设计和应用直接影响了LLM的表现和功能。今天，我们将为大家揭示一个神秘而又充满吸引力的项目——“leaked-system-prompts”。这个项目为我们打开了一扇窥探这些大型语言模型系统提
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
以智能楼宇自动化控制系统为基石，构筑绿色建筑节能增效新标杆 ctrlworks 楼宇自控康沃思物联楼宇自控系统厂家 ba系统厂商建筑管理系统厂家 ibms系统厂家
在全球“双碳”目标加速推进与能源危机日益凸显的背景下，建筑行业作为能源消耗与碳排放的重点领域，正面临从传统建造向绿色智能化转型的迫切需求。数据显示，我国建筑运行阶段能耗占全社会总能耗超30%，碳排放占比达21.9%，而传统建筑管理模式下设备低效运行、能源浪费等问题普遍存在。智能楼宇自动化控制系统（BACS）凭借物联网、大数据、人工智能等技术，通过对建筑设备的精准监控、智能调度与协同管理，成为破解绿
探索生成式 AI Agent：12类，40+个AI Agent实例应用场景的宝藏库和老莫一起学AI 人工智能产品经理职场和发展面试自然语言处理 ai 大模型
在人工智能的璀璨星空中，生成式AI智能体（GenAIAgents）无疑是最耀眼的星辰之一，正以前所未有的速度改变着我们与技术互动的方式。今天，我将分享GitHub上一个宝藏级的项目——“NirDiamant/GenAI_Agents”，这里汇聚了从基础到高级的各种GenAI智能体技术教程与实现案例，堪称一座智能体开发的知识宝库。1.适合初学者的智能体简单会话智能体概览通过集成语言模型、提示模板和历
VSCode-Copilot的系统提示词 youngqqcn AI vscode copilot ide
title:VSCode-Copilot系统提示词date:2025-07-0211:05categories:技术tags:AI人工智能LLM大语言模型提示词Microsoft开源了VSCodeCopilotChat,以下是其系统提示词的摘录。https://github.com/microsoft/vscode-copilot-chat/blob/main/src/extension/prom
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl