图波列夫

Roofline Model Toolkit: A Practical Tool for Architectural and Program Analysis

Roofline Model Toolkit: A Practical Tool for Architectural and Program Analysis 描述了 Roofline Toolkit 的原型架构表征引擎。该引擎由一组使用消息传递接口（Message Passing Interface，MPI ）以及用于表示线程级并行性的 OpenMP 实现的便携式设备化微基准组成，可量化多核、众核和加速系统的带宽和计算特性。这些微观测试侧重于在编译器和运行时环境以及线程级并行、指令级并行和显式 SIMD 并行中捕获内存层次结构的每个级别的性能。

文章构建了三个基准测试：前两个展现 Roofline 的常规内存层次带宽和浮点计算特性。第三个基准测试用于分析局部性对 GPU 等加速架构的重要性，其量化了 GPU 上显式和隐式管理的空间和时间局部性之间的性能关系。

为了验证自动化策略的实用性，作者评估了四种完全不同的体系结构上的性能：

传统的超标量乱序 Intel Xeon 多核处理器（Edison）;
低功耗双发射顺序 IBM Blue Gene/Q 多核处理器（Mira）；
高性能顺序 Intel Xeon Phi 多核处理器（Babbage) ；
高性能 NVIDIA Kepler K20x GPU 加速系统 (Titan)。

相应代码为 berkeleylab/cs-roofline-toolkit，然而其中仅包含参考 C 代码。

2 Related Work

如今，数据移动往往主导计算。通常，这种数据移动在 DRAM 和缓存层次结构之间进行，并且通常是结构化流（阵列）访问。因此，STREAM 基准测试已成为对多核处理器的极限 DRAM 带宽基准测试的事实解决方案。STREAM 是 OpenMP 线程化的，将执行一系列基准测试，这些基准测试旨在将内存子系统的性能量化为常见数组操作的函数。不幸的是，所有这些操作都写入目标数组而没有读取它。因此，写分配操作所必需的隐藏数据移动实际上阻碍了带宽。今天的指令集体系结构（ISA）通常提供一种绕过这种写分配操作的手段。遗憾的是，编译器很少会在实际应用程序中正确生成此操作。因此，我们有动机使用只读（求和或内积）或读-改-写（增量）基准来扩充流，以便清晰地量化这种隐藏的数据移动。

现代微处理器使用硬件流预取器通过推测加载缓存行来隐藏内存延迟。遗憾的是，这些预取器的性能高度依赖于体系结构，并且已经观察到带宽与连续访问的元素数量高度相关[15]。内存访问的短“节”导致性能大幅下降。创建 Stanza Triad 是为了量化这种影响 [9]。不幸的是，它没有线程化，因此无法识别在多核处理器上运行时何时从并发限制状态过渡到吞吐量限制状态。

当 DRAM 带宽不是节点上应用程序性能的瓶颈时，缓存带宽通常是。CacheBench（LLCbench 的一部分）可以用来理解缓存层次结构的容量和带宽。不幸的是，CacheBench 没有用 OpenMP 线程化或 MPI 并行化。因此，它无法在缓存层次结构的任何级别（包括像 STREAM 这样的 DRAM）上测量争用。与其采用这种纯粹的经验方法，不如在有足够文档的情况下，使用 Execution Cache Memory 模型创建缓存层次结构的分析模型。

也许与我们最相似的工作封装在用于驱动 Energy Roofline Model 的基准中。在这项工作中，构建了一系列不同算术强度的实验，以了解架构在性能和功耗方面的响应。当与缓存基准相结合时，可以推断出各种计算和数据移动操作的能量需求。他们的目标主要集中在功率和能源上，而我们则专注于性能。

3 Experimental Setup

3.1 Architectural Platforms

表 1 总结了这些平台的关键架构特征。请注意，所示峰值 GFlop/s 和带宽是理论值。

Edison：即 Cray XC30，是 NERSC 的 MPP。每个节点包括两个标称主频为2.4GHz 的12核 Xeon E5 2695-V2处理器（TurboBoost 可以大幅提高这一频率）。每个核都是超标量、乱序的2路超线程核心，除了加载和存储外，每个周期还能够执行两条 4 路 AVX SIMD 指令（加法和乘法）。每个核心都有一个私有的32KB L1数据缓存和一个私有的256KB L2缓存。芯片上的12个核心共享一个30MB 三级缓存和一个连接到四个 DDR3-1600 DIMM 的内存控制器。大量的流预取器旨在使缓存层次结构的每个级别的带宽饱和。从理论上讲，该处理器的超标量和无序特性应该会减少对优化软件和编译器优化的需求。

Mira：是安装在阿贡国家实验室的 IBM Blue Gene/Q 系统。每个节点包括一个16核 BGQ SOC。16个 A2核中的每一个都是4路 SMT 双发射有序核心，每个周期能够执行一条 ALU/加载/存储指令和一条四路 FMA。然而，为了达到这个吞吐率，每个核心必须至少运行两个线程。每个核心都有一个私有的16KB 数据缓存，16个核心共享一个32MB 的 L2缓存，通过纵横开关连接。理想情况下，这种体系结构的 SMT 特性应该隐藏大量指令和缓存延迟的大部分影响。然而，当整数指令在动态指令组合中占很大比例时，处理器的双发射特性可能会影响性能。

Babbage：是 NERSC 的 Knights Corner (KNC) 众核集成核心 (MIC) 测试平台。KNC 处理器包括 60 个双发有序4路超线程核心。每个核心包括一个32KB L1数据缓存、一个512KB L2缓存和一个8路向量单元。虽然 L2缓存是一致的，但是环形 NoC 拓扑加上一致性机制可能会影响性能。与前述多核处理器不同，这款众核处理器使用超高速 GDDR 内存，提供超过 350GB/s 的理论引脚带宽。为了代理未来将构成 NERSC8 超级计算机 Cori 核心的 Knights Landing (KNL) MIC 处理器，我们以“本地”模式进行所有实验。因此，不运用主机处理器、主机内存和 PCIe 连接。

Titan：是橡树岭国家实验室的 Cray 加速 MPP 系统。每个节点包括一个16核 AMD Interlagos CPU 处理器和一个 NVIDIA K20x GPU。每个 GPU 包括14个流式多处理器（SMX），每个处理器可以调度256个32线程束，并一次向其192个 CUDA 内核发射4个指令。每个 SMX 有一个256KB 的寄存器文件、一个64KB 的 SRAM，其可以划分为 L1缓存和共享内存（暂存器）段。每颗芯片都包含一个所有 SMX 共享的1.5MB L2缓存，并连接到引脚带宽为 232GB/s 的高速 GDDR5内存。不幸的是，Titan 生产系统上的软件往往落后于 NVIDIA 版本。因此，我们在 NERSC[10]的 Dirac 测试台中使用了类似的 K20xm 来评估 CUDA 统一虚拟地址和统一（托管）内存。就我们的目的而言，K20x 和 K20xm GPU 是相同的。

4 Memory and Cache Bandwidth

今天，带宽和数据移动也许是科学应用性能的首要方面。遗憾的是，正如相关工作中所讨论的，大多数现有的基准无法代表与实际应用程序相关的争用、局部性或执行环境。为了解决这个问题，我们创建了一个使用混合 MPI+OpenMP 模型的 Roofline 带宽基准测试。因此，希望代理平面 MPI 代码的程序员在平面 MPI 模型中运行 Roofline 基准测试。那些希望了解 NUMA 架构性能的人可以在混合模式下运行。

4.1 Bandwidth Code

与 CacheBench 一样，我们的 Roofline 带宽基准测试旨在使用简单的单位步长流式内存访问模式量化内存层次结构中每个级别的可用带宽。然而，与 CacheBench 不同的是，它包括由线程并行和有限 NoC 带宽引起的争用效应。在该机制中，它类似于 STREAM 代码，后者使用 OpenMP 工作共享结构在多个线程之间拆分循环迭代（图 1）。我们的 Roofline 带宽代码没有使用工作共享结构，而是创建了一个并行区域，并将线程静态分配到数组索引范围。所有初始化、同步和计算都在此并行区域内进行。计算表示为有限几何级数的总和，因为希望没有编译器可以自动消除此嵌套循环。本质上，几何级数中的每一项都是 STREAM 基准测试中的一次试验。

因此，基准可以用于量化内存层次结构的每个级别的容量以及级别之间的带宽。此外，通过调整参数，可以估计 MPI 或 OpenMP 屏障的开销。由于基准是 MPI+OpenMP，因此可以在所有规模上探索这些带宽和开销。

4.2 Bandwidth Result

图 2 显示了在四个平台上运行的 Roofline 带宽基准测试的结果。在 Edison 上，我们每个节点运行两个进程，而其他所有机器以单个进程运行。请注意，x 轴表示所有线程的总工作集。蓝线标记了内存层次结构每个级别的理论带宽和容量。在 CPU 架构上，红线表示生成的 Roofline 带宽。

Edison：在 Edison 上，硬件非常接近理论性能，并且在预期的缓存容量下发生了转换。缓存容量带宽的平滑过渡表明缓存替换策略可能不是真正的 LRU 或 FIFO，而是伪变体（Pseudo-LRU）。值得注意的例外是 Edison 未能接近 DRAM 引脚带宽。这并不一定令人意外，因为很少有机器具有如此高的带宽，而且很少有机器能够达到引脚带宽。此外，简单的读-修改-写内存访问模式对于这种架构来说可能是次优的。未来的工作将探索改变读取和写入之间平衡的替代内核。

Mira：在 Mira 上，性能始终低于理论带宽限制，并且这些转换似乎表明有效缓存容量降低。低 L1带宽尤其令人惊讶，可能表明存在直写或直通存储 L1 架构。需要进一步调查。

Babbage：在高度多线程的 MIC（Babbage）上，我们发现为了获得良好的性能，需要对超过1MB（每个线程超过 4KB）的工作集进行操作。由于该架构每个周期可以加载64个字节，因此认为需要64个加载来分摊基准测试中的任何循环开销并非不合理。对于较小的工作集，性能下降，表明资源利用率不足。总的来说，该基准正确地识别了 L1和 L2缓存容量，但获得的带宽远小于理论值。低 L2带宽可归因于缺乏像 Edison 和 Mira 那样的 L2流预取器。如果编译器未能理想地插入软件预取，则会暴露内存延迟。相反，低 DRAM 带宽是这台机器上的一个已知问题，需要硬件解决方案来纠正。

Titan：在 Titan 上，使用 GPU，我们发现运行三个略有不同的内核能够直观地量化 GPU 内存层次结构中显式和隐式重用的影响。内核 A（图 2 (d) 上的“global tInside”图例）和内核 B（“global tOnside”）都使用全局内存，但分别在内部和外部进行试验循环。内核 C（“sharemem”）将全局内存数据复制到共享内存，在内核内部执行试验循环，然后复制回全局内存。

“Kernel B”可能与 CPU 实现最为相似。整个工作集跨线程块并行化，求和（重用）发生在 CUDA 内核级别。也就是说，几何和的每次迭代都有一个内核调用。我们将性能作为线程块大小（32或64）的函数进行探讨，并使用恒定的224个线程块。与 Babbage 一样，我们看到，在小的工作集规模下，CUDA 内核开销过大导致了利用率严重不足，但性能最终在 DRAM 限制下饱和，尽管这远低于理论引脚带宽。“Kernel A”重构求和循环以增加线程块内的局部性，并以此为基础，为每个线程块工作集（注意，总共有 7168 或 14336 个线程）运用 L1 缓存我们发现在小规模（较少的 CUDA 内核调用）下的性能要好得多，并且在达到 DRAM 限制之前，性能可以达到 L1和 L2极限。最后，“Kernel C”再次重构循环并以阻塞方式利用共享内存。因此，它可以达到共享内存约 1.3TB/s 的理论性能极限。

总体而言，众核和加速器的带宽性能趋势有点令人不安。也就是说，获得高性能的唯一方法是在大型工作集上实现大规模并行。对于实际应用，这种观察将使借助加速器或众核处理器更快地解决现有问题变得困难。相反，人们将能够在可比的时间内解决更大的问题。尽管如此，这个基准可以用来指导程序员何时能够迁移到多核或加速架构。

5 Floating-Point Compute Capability

尽管很多应用受到内存带宽的限制，但仍有一些应用受限于片上计算并最终受限于核心性能。当性能处于临界点时，适当地利用指令级、数据级和线程级的并行性可以确保代码不受人为限制。遗憾的是，在现代众核和加速架构中，准确衡量这些并行方面重要性的基准相对较少。为了解决这个不足，我们构造了一个 Roofline 浮点基准。

5.1 Reference Roofline Floating-point Benchmark

我们修改了 Roofline 带宽基准，为每个元素实现一个多项式。通过改变多项式的阶数（预处理器宏），可以改变每个元素的 FLOPs。这样做可以将加载（存储）和浮点运算之间的平衡从 L1 限制更改为 FLOP 限制。图 3 展示了该基准测试的一个示例。

可以看出，这个例程中每个线程的并行度是 $O(\mathrm{nsize})$ 。有序处理器将提供受浮点延迟而不是峰值性能限制的性能。编译器可以展开此循环（至少通过浮点延迟）并表达指令级并行性和（或） SIMD 化展开的代码以利用数据级并行性。或者，具有足够深的重新排序缓冲区的无序处理器可以找到内在的指令级并行性，从而获得高性能。尽管无序并行可以对指令流进行重新排序，但它永远无法自动对指令流进行 SIMD。因此，如果没有编译器对 SIMD 的支持，它永远无法达到最佳性能。

5.2 Performance as a Function of Implicit and Explicit Parallelism

在当今的处理器上，线程级和数据级并行性在编译器生成的代码中必须是显式的。由于自动并行化和自动向量化编译器很少是绝对可靠的，因此这些形式的并行性通常也必须在源代码中明确显示。为了量化体系结构在编译代码上可以获得的性能与体系结构的真实性能之间的差异，我们实现了三个显式展开和 SIMD 化（通过内蕴函数）的 Roofline 浮点基准：AVX、QPX 和 AVX-512版。作为线程级并行性和展开（显式指令级并行性）的函数，图 4 展示了这些实现在 Edison、Mira 和 Babbage 上的性能。请注意，每个实现使用不同数量的单位元素 flops (FPE)。

Edison：Edison 用编译的 C 代码实现的峰值略低于宣称峰值的一半。但是，当使用优化的实现时，性能显着提高，实际上可以超过460 GFlop/s 的标称峰值性能。比光速快的效果是由于在这台机器上启用了 TurboBoost。12核最高频率2.8GHz，其真实峰值性能约为537 GFlop/s——非常接近观察到的性能。为了验证这一点，我们使用aprun --p-state选项将频率固定在宣传的2.4GHz 处，性能与预期一致。尽管机器对指令级并行（展开）很敏感，但通常不需要超线程来获得令人满意的性能。

Mira：在 Mira (BGQ) 上运行一组类似的实验，我们看到了截然不同的结果。首先，编译后的代码提供了非常好的性能。这表明 XL/C 编译器能够有效地 SIMD 化并充分展开代码以隐藏浮点延迟。通过使用显式展开的代码，我们观察到需要大量展开（每个线程 2-4 条 SIMD 指令）才能达到峰值性能。与 Edison 不同，Mira 显然需要两个线程才能达到峰值性能。

Babbage：Babbage 呈现出类似于 Edison 和 Mira 混合的特征。即使在这个简单的内核上，编译器显然也未能充分利用体系结构。随着充分的展开（每线程4个 SIMD 指令），性能在两个线程后开始饱和。只有极高的强度（每个元素256个 flop）才使性能接近峰值。

5.3 Performance as a function of L1 Arithmetic Intensity

即使可以在 L1 中维护工作集，性能也将取决于动态指令组合和核心的发射能力。在本节中，我们利用 Roofline 浮点基准将性能量化为 L1 算术强度的函数，表示为单位元素的 Flops（FPE）——本质上是多项式的次数。对于每种架构，我们都运行了量化架构能力的参考 C 代码以及性能最佳的 SIMD 化和展开实现。图 5 显示了每种架构的组合性能。作为参考，我们包含一个微体系结构性能模型（蓝色），该模型考虑了在内核要求的混合情况下，加载/存储相对于浮点指令的发射速率。

Edison：图 5 表明 Edison 可以快速达到其峰值性能，并且该性能与理论模型十分吻合。一般来说，低 FPE 下性能会下降，因为内核可以每周期执行8个 flop，但只能支持每周期加载和存储2个元素。有趣的是，参考 C 代码的性能在高 FPE 时下降。这可能是重新排序缓冲区的一个限制，要求持续寻找5条独立浮点指令。

Mira：Mira 在编译代码和优化代码上的性能都向右偏移。通常，这表明附加指令在消耗与加载或存储相同的发射槽。在双发射 A2架构上，这很可能是整数或分支指令。这种影响在 Edison 上并不存在，因为它是一个超标准处理器，可以从浮点或加载（存储）端口以外的端口发射整数或分支指令。有了足够的 FPE，性能就可以达到峰值。

Babbage：Babbage 表现出第三种行为——逐渐接近峰值性能。这种行为表明附加指令（例如整数或分支）与浮点指令消耗相同的发射槽。因此，性能表现为 $\mathrm{FPE}=(\mathrm{FPE} + k)$ ，其中 $k$ 是影响性能的额外指令的数量。

Titan：最后，我们构建了一个类似的 CUDA C 基准测试以在 GPU 上运行。理论界限基于以下假设：每个加载（存储）单元支持从内存中每个周期加载 4 个字节（每个 SMX 128 个字节）。我们观察到 GPU 的性能似乎同时体现了 BGQ 和 MIC 的特性。也就是说，没有足够的分发带宽来完全驱动内核，SMX 无法支持每个周期从内存加载（存储）128字节。

6 Beyond the Roofline — CUDA’s Unified Memory

迄今为止，加速架构通常被用作一个加速器，专用内存通过 PCIe 或类似总线连接到常规系统上。这种专用内存不仅拥有独立的地址空间，而且程序员必须通过库接口显式地向设备拷入拷出数据。这样做不仅低效，而且暴露了 PCIe 带宽和设备带宽之间的性能差距。

最近，CUDA 引入了两个内存概念——Unified Virtual Address（UVA）空间和 Unified Memory（即托管内存）。顾名思义，UVA 统一了 CPU 和 GPU 地址空间，并确保（在程序层面）程序可以透明地加载和存储内存，而不必担心数据的位置（为了正确性）。由于数据仍然固定在主机或设备上，因此存在强烈的 NUMA 效应。统一（托管）内存通过在主机和设备之间迁移数据来扩展此过程。因此，可以将设备内存视为 CPU 内存上的缓存。理想情况下，这将解决许多生产力和性能挑战。在本节中，我们将这些方法的性能作为空间和时间局部性的函数进行评估。

6.1 CUDA Managed Memory Benchmark

我们测试 CUDA 内存最初方法的是创建一个在主机和设备之间来回传输数据的基准测试。为此，我们通过让 GPU 执行 $k - 1$ 次求和迭代并让 CPU 执行 $1$ 次来重用 Roofline 带宽基准。随着净复用 $k$ 的增加，我们预计将摊销在主机和设备之间移动数据的成本。

请注意，这个基准在实际中并不是一个不合理的场景，因为很多应用可能会将一些数据打包给GPU，复制到设备上，在其上运行几次，然后返回给主机。如果使用统一内存写入，数据将在主机和设备之间来回摆动。

在本文中，我们使用四种不同的方法来控制设备上数据的局部性来评估性能。

首先，我们使用分配在主机上的分页数组或页锁定数组来评估传统的显式复制 (cudaMemCpy) 方法。
接下来，我们评估零拷贝内存的性能。在这种情况下，数据被分配并固定在主机上，CUDA 运行时负责将加载和存储请求映射到 PCIe 传输。
最后，我们评估了统一（托管）内存结构的性能，其中 CUDA 运行时可以迁移数据。

图 6 给出了这些实现。可以看出，多次 CUDA 内核调用能够增加局部性。宏_CUDA_ZEROCPY和_CUDA_UM分别选择使用页锁定主机零拷贝和统一内存管理。页锁定主机内存使用普通的malloc()函数在主机上分配内存，然后使用cudaHostRegister()在主机内存地址空间上注册设备指针。对于统一内存，使用cudaMallocManaged来分配主机和设备内存。

6.2 Results

由于 Titan 尚不支持 CUDA 6，我们所有的实验都是在 Dirac 集群中的类似 K20xm 上运行的。图 7 显示了四种技术的最终“有效带宽”随工作集大小和临时复用的变化关系。对于较小的工作集规模，CUDA 内核启动时间占主导地位，有效带宽很低。这只是强化了不使用 GPU 进行小数据量操作的传统认知。比较图 7(a) 和 (b)，我们看到仅在大型工作集重用50-100次时才有可能接近设备带宽限制。因此，如果预计需要数百次迭代才能收敛，将迭代求解器负载分流到 GPU 是一个可行的选择。相反，对于复用最少的大型工作集，我们看到锁页内存提供了更好的 PCIe 带宽。

由于 Zero Copy 内存没有提供缓存效益，我们在图 7(c) 中没有看到局部性增加带来的性能优势。相反，图 7(d) 展示了使用统一内存自动管理设备上数据局部性所带来的性能收益。从广义上讲，性能与显式管理局部性的性能在性质上是相似的。不幸的是，原始性能要低得多。对于能够保证设备上1000路复用的应用程序，统一内存将提供高效且高性能的解决方案。人们只能希望硬件和运行时的进步可以弥合较低时间局部性的性能差距。

未来的工作将扩展这项技术以跟踪 NVIDIA 实现的任何软件缓存一致性协议的发展。也就是说，没有理由 CPU 和 GPU 都必须读取-修改-写入数组。任何一个都可以执行只读操作。

7 Empirical Roofline Models and Their Use

现在，我们已经对四个平台的带宽和计算特性进行了基准测试，我们可以为每个平台构建经验 Roofline 模型。图 8 显示了每个平台使用 DRAM 和 L1 带宽以及理论或“教科书”Roofline 的结果模型。理想的架构是能够充分利用其构建技术的架构。我们看到，总的来说，Edison 的经验性能非常接近其理论极限。相反，在 Mira 和 Babbage 上，我们看到理论与现实之间存在巨大差异。极端的多线程范式允许 GPU 在设备上运行时提供较高的理论带宽占比。

参考资料：

Roofline Model Toolkit: A Practical Tool for Architectural and Program Analysis
berkeleylab/cs-roofline-toolkit
ebugger/Empirical-Roofline-Toolkit
CacheBench
STREAM Benchmark及其操作性能分析
jeffhammond/STREAM
2.8 Worksharing Constructs
Cache replacement policies
Cache replacement policies（缓存替换策略）/ LRU 和 LFU等算法
【体系结构】缓存替换策略，用O(n)位实现的近似 LRU算法【Cache replacement: Pseudo LRU】
How to Optimize Data Transfers in CUDA C/C++
Page-Locked Host Memory for Data Transfer
重排序缓冲区
Duke Compsci 220 / ECE 252Advanced Computer Architecture I
Cache Write Policies
When use write-through cache policy for pages
Write-back vs Write-Through caching?
Cache写机制：Write-through与Write-back
Performance Tuning of Scientific Applications
RRZE-HPC/TheBandwidthBenchmark
使用llcbench测试缓存性能
jeewhanchoi/a-roofline-model-of-energy-ubenchmarks

【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
2021-06-07 Do What You Are Meant To Do 春生阁
Don’tgiveupontryingtofindbalanceinyourlife.Sticktoyourpriorities.Rememberwhat’smostimportanttoyouanddoeverythingyoucantoputyourselfinapositionwhereyoucanfocusonthosepriorities,ratherthanbeingpulledbyt
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【大模型】triton inference server idiotyi 大模型自然语言处理语言模型人工智能
前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。本文主要是使用tritoninferenceserver部署大模型的简单流程示例。目录1.整体流程2.搭建本地仓库3.服务端代码4.启动服务5.客户端调用1.整体流程搭建模型仓库模型配置服务端调用代码docker启动服务客户端调用
什么是埋点测试，app埋点测试怎么做？自动化测试老司机自动化测试软件测试测试工程师功能测试 appium 测试工具单元测试 postman 软件测试自动化测试
前言埋点测试是指在应用程序或网站中预设检查点，收集程序运行时的数据，以便于后续对程序进行性能分析或故障排查。埋点测试通常用于监控和追踪用户在软件产品中的行为，以收集有关用户体验、功能使用情况和潜在问题的数据。这些数据对于软件产品的优化和改进至关重要，有助于开发人员了解用户需求和产品存在的问题，从而制定针对性的改进方案。App埋点测试是一种基于数据采集的增长分析方法，旨在通过在App代码中埋点来记录
实时监控或查看系统资源使用情况的工具——TOP summer@彤妈 linux
top命令可以显示当前系统正在执行的进程的相关信息，包括进程ID、内存占用率(MEM)、CPU占用率等。默认进程以CPU的占用率进行排序。输入大写M可以切换成使用内存占用率排序；输入大写P可以切换为使用CPU占用率排序。top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器.下面详细介绍它的使用方法:（实时监控系统资源使用情况图）统计
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
Upstage 将发布新一代 LLM “Solar Pro “预览版吴脑的键客人工智能人工智能
SolarPro是最智能的LLM，经过优化可在单GPU上运行，性能超过微软、Meta和谷歌等科技巨头的模型。加州圣何塞2024年9月11日电/美通社/–Upstage今天宣布发布其下一代大型语言模型(LLM)SolarPro的预览版。加州圣何塞2024年9月11日电/美通社/–Upstage今天宣布发布其下一代大型语言模型(LLM)SolarPro的预览版。该预览版作为开源模型免费提供API访问，
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
大模型框架：vLLM m0_37559973 大模型大模型通义千问 Qwen
目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
Unity3D GPUDriven渲染详解 Thomas_YXQ 开发语言 Unity3D 架构游戏 Unity
前言Unity3D中的GPUDriven渲染技术是一种通过最大化GPU的利用，减少CPU负担，从而提高渲染效率和帧率的方法。其核心思想是将更多的渲染任务转移到GPU上，充分利用现代图形硬件（显卡）的性能。以下是该技术的几个关键组件和它们的作用：对惹，这里有一个游戏开发交流小组，大家可以点击进来一起交流一下开发经验呀！1.BatchRendererGroup(BRG)BRG是Unity中用于批处理渲
1. 下载安装RKNN的docker镜像 jcfszxc RKNN系列 c++Rockchip
安装好docker：1.Docker的安装进入网盘，下载镜像文件：网盘链接：https://console.zbox.filez.com/l/I00fc3密码：rknn下载最新的版本，当前最新版本2.1.0，（[[2024-09-01]]）：下载路径：GPU-Group01的分享/RKNPU2SDK/2.1.0/release/rknn-toolkit2-2.1.0-cp38-docker.tar
旅游网站设计与实现：SpringBoot框架案例分析 2401_85763803 旅游 spring boot 后端
目录摘要2Abstract31.1课题开发的背景41.2课题研究的意义41.3研究内容5第二章系统开发关键技术62.1JSP技术介绍62.2JAVA简介62.3MyEclipse开发环境72.4Tomcat服务器72.5SpringBoot框架72.6MySQL数据库8第三章系统分析93.1系统可行性研究93.2性能分析103.3业务流程分析10第四章系统的总体设计134.1系统功能结构设计134
应用Visual Studio Profiler分析CPU使用情况 Rverdoser windows
使用VisualStudioProfiler分析CPU使用情况‌的步骤如下：1.‌启动CPU分析：‌在VisualStudio中打开你要分析的项目。在菜单栏中选择Debug>PerformanceProfiler，或者使用快捷键Alt+F2。在性能分析工具窗口中，选择CPUUsage选项，这将帮助你分析应用程序的CPU使用情况。2.‌运行CPU分析‌选择CPUUsage后，点击Start按钮。Vi
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
项目实战 ---- 商用落地视频搜索系统（10）---后台搜索Cache优化 PhoenixAI8 AI Python 商用视频搜索系统 vector db milvus redis cache
目录背景技术实现策略视频预处理阶段的cache技术视频搜索阶段的cache技术技术实现预处理阶段cache策略实现逻辑代码运行结果问题及注意点搜索阶段cache策略实现系统配置层面逻辑低版本GPUCPU本项目的配置高版本描述goahead策略cache加载策略本项目配置应用层搜索参数的配置配置项本项目的实际配置背景但目前为止，视频搜索系统已经可以正常使用和运转。并且他是基于多策略搜索算法的，能够在
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
RTX 4090深度学习性能实测奉上！模型训练可提升60~80% 赋创小助手服务器深度学习人工智能图像处理自动驾驶
近期，我们对RTX4090涡轮版进行了完整的整机测试，本篇文章将分别围绕单卡，4卡，8卡RTX4090性能测试结果展开分享，以全面评估其相比上代RTX30系列的性能优势。首先让我们一起看看本次测试的硬件配置。测试硬件配置简单介绍一下本次使用的平台为超微SYS-420GP-TNR，这款GPU系统针对AI和图形密集型工作负载的灵活设计，4U双处理器（第三代英特尔®至强®），双根GPU系统，最多10个P
深度学习的零碎知识点 csdn_now 深度学习人工智能
显卡内存什么是显卡内存简单来说就是，Windows会在物理显存/「专用GPU内存」不够用或只有集成显卡的情况下，将物理内存RAM当作GPU的虚拟显存/「共享GPU内存」来使用。什么是Windows「共享GPU内存」，它与VRAM有什么不同(sysgeek.cn)平常说的显卡内存就是【专用GPU内存】。如何查看内存大小Win10任务管理器中的"专用GPU内存"是怎么回事？“共享GPU内存”又是什么?
15-HDMI TVS管SPICE仿真及性能分析芯片SIPI设计单片机嵌入式硬件
TVS二极管参数选取1)确定被保护电路最大直流或连续工作电压、电路的额定标准电压和高端容限。2)TVS额定反向关断Vwm应大于或等于被保护电路的最大工作电压。若选用的Vwm太低，器件可能进入雪崩或因反向漏电流太大影响电路的正常工作。串行连接分电压，并行连接分电流。3)TVS的最大筘位电压咋应小于被保护电路的损坏电压。4)在规定的脉冲持续时间内，TvS的最大峰值脉冲功耗R必须大于被保护电路内可能出现
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
人工智能-GPU版本机器学习、深度学习模型安装 bw876720687 人工智能机器学习深度学习
背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU或者GPU的调整？解决方案问题一：安装GPU版本的LightGBMLightGBM默认不会安装GPU支持版，需要手动编译以启用GPU。以下是在Linux和Windows上编译GPU版本LightG
入门篇，带你了解CPU, GPU, TPU, NPU, DPU 今夕是何年，视觉算法部署深度学习算法人工智能
目录CPU(中央处理器)GPU(图形处理器)TPU(张量处理单元)NPU(神经网络处理器)DPU(数据处理器)CPU(中央处理器)专业介绍：CPU是计算机系统的核心，负责执行操作系统和应用程序的指令。它由多个核心组成，每个核心可以独立执行任务。CPU的设计重点是处理复杂的逻辑运算和顺序任务，如分支预测、指令调度等。现代CPU通常包含多个层级的缓存（如L1、L2和L3缓存），以减少访问主存储器的延迟
LLM大模型学习：LLM大模型推理加速七七Seven～学习人工智能 transformer 深度学习 llama
文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一，今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。目录一、模型优化技术二、模型压缩技术三、硬件加速四、GPU加速五、模型并行化和分布式计算技术一、模型优化学习常见的模型优化技术，如模型剪枝、量化、分片、蒸馏等，掌握相应的实现方法。1.1剪枝
鸿蒙（API 12 Beta6版）GPU加速引擎服务【自适应VRS】移动开发技术栈鸿蒙开发 harmonyos 华为 openharmony 鸿蒙鸿蒙系统 VRS 引擎
XEngineKit提供自适应VRS功能，其通过合理分配画面的计算资源，视觉无损降低渲染频次，使不同的渲染图像使用不同的渲染速率，能够有效提高渲染性能。接口说明以下接口为自适应VRS设置接口，如要使用更丰富的设置和查询接口。接口名描述constGLubyte*HMS_XEG_GetString(GLenumname)XEngineGLES扩展特性查询接口。GL_APICALLvoidGL_APIE
黄仁勋最新演讲全文：我忍受的一切挫折、痛苦和磨难淬炼了超能力｜钛媒体AGI | 最新快讯... 深夜冒泡媒体 agi 人工智能
“我们彻底改变了公司。我们也彻底改变了计算。”英伟达创始人、CEO黄仁勋（JensenHuang）钛媒体App获悉，当地时间6月15日，英伟达创始人、CEO黄仁勋（JensenHuang）参加美国加州理工学院第130届毕业典礼，并发表了一段题为“迎难而上抓住机会“（EmbraceChallengesandSeizeOpportunities）的主题演讲。黄仁勋畅谈了英伟达（NVIDIA）自1993
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&