sherlock-wang

Hixxxx PCIe + SMMU bad performance debug

Hixxxx PCIe + SMMU bad performance debug

-v0.1 2017.3.6 Sherlock init
-v0.2 2017.5.12 Sherlock delete some information

Then we enabled SMMU in Dxx board, we found that the performance of 82599 pluged
in PCIe slot is very bad. xxx and I spent some to debug this problem. This
document just shares the related results and information.

1. test scenarios and results

     +----------------+        +---------------+
     |   Dxx   82599  |<------>|  82599   Dxx  |
     +----------------+        +---------------+

           +-----+         +-----+
           | cpu |         | ddr |
           +--+--+         +--+--+
              |               |
      --------+-----+---------+------- bus
                    |
                 +--+---+
                 | smmu |
                 +--+---+
                    |                   
                 +--+---+
                 |  rp  |
                 +--+---+
                    |
                 +--+---+
                 | 82599|
                 +------+

Hardware topology as showed above. In order to use SMMU to translate data from
82599 to DDR, we need enable SMMU node in ACPI table.[1]

Then boot up two Dxx boards connected by two 82599 networking cards. When using
iperf to test the performance between two 82599 networking cards, it is very bad,
nearly 100Mbps.[2]

2. analysis

The only difference is disable SMMU and enable SMMU. So the difference is we use
diffferent DMA callbacks.

We can see arch/arm64/mm/dma-mapping.c, when configuring CONFIG_IOMMU_DMA,
callbacks in struct dma_map_ops iommu_dma_ops will be used.

And we also know when 82599 sending/receiving packages, its driver will call
ixgbe_tx_map/ixgbe_alloc_mapped_page to allocate DMA memory function which will
finally call map_page in iommu_dma_ops when SMMU is enable. So we guess there
is something wrong with the map_page here.

So we should analyze related function to find the hot point. Here we firstly use
ftrace to confirm our idea, then use perf to locate the hot point explicitly.

ftrace

We can use function profiling in ftrace to see durations of related function.
please refer[3] to know how to use ftrace function profiling.

Here we get:

10)<...>-4313   |               |   ixgbe_xmit_frame_ring() {
10)<...>-4313   |               |     __iommu_map_page() {
10)<...>-4313   |   0.080 us    |       dma_direction_to_prot();
10)<...>-4313   |               |       iommu_dma_map_page() {
10)<...>-4313   |               |         __iommu_dma_map() {
10)<...>-4313   |   0.480 us    |           iommu_get_domain_for_dev();
10)<...>-4313   |               |           __alloc_iova() {
10)<...>-4313   |               |             alloc_iova() {
10)<...>-4313   |               |               kmem_cache_alloc() {
10)<...>-4313   |               |                 __slab_alloc.isra.21()
10)<...>-4313   |   0.040 us    |                 memcg_kmem_put_cache();
10)<...>-4313   | + 16.160 us   |               }
[...]
10)<...>-4313   |   0.120 us    |               _raw_spin_lock_irqsave();
10)<...>-4313   |               |               _raw_spin_unlock_irqrestore() {
10)<...>-4313   |   ==========> |
10)<...>-4313   |               |                 gic_handle_irq()
10)<...>-4313   |   <========== |
10)<...>-4313   | + 88.620 us   |               }
10)<...>-4313   | ! 679.760 us  |             }
10)<...>-4313   | ! 680.480 us  |           }

Most time has been spent in alloc_iova.

perf

Sadly, there was no perf(PMU hardware event) support in ACPI in plinth
kernel :( So we directly set PMU related registers to get how many CPU cycles
each function has spent.

    /* Firstly call this init function to init PMU */
    static void pm_cycle_init(void)
    {
        u64 val;

        asm volatile("mrs %0, pmccfiltr_el0" : "=r" (val));
        if (val & ((u64)1 << 31)) {
            val &= ~((u64)1 << 31);
            asm volatile("msr pmccfiltr_el0, %0" :: "r" (val));
            dsb(sy);
            asm volatile("mrs %0, pmccfiltr_el0" : "=r" (val));
        }

        asm volatile("mrs %0, pmcntenset_el0" : "=r" (val));
        if (!(val & ((u64)1 << 31))) {
            val |= ((u64)1 << 31);
            asm volatile("msr pmcntenset_el0, %0" :: "r" (val));
            dsb(sy);
            asm volatile("mrs %0, pmcntenset_el0" : "=r" (val));
        }

        asm volatile("mrs %0, pmcr_el0" : "=r" (val));
        if (!(val & ((u64)1 << 6))) {
            val |= ((u64)1 << 6) | 0x1;
            asm volatile("msr pmcr_el0, %0" :: "r" (val));
            dsb(sy);
            asm volatile("mrs %0, pmcr_el0" : "=r" (val));
        }
    }

    /* Get the CPU cycles in PMU counter */
    u64 pm_cycle_get(void)
    {
        u64 val;

        asm volatile("mrs %0, pmccntr_el0" : "=r" (val));

        return val;
    }
    EXPORT_SYMBOL(pm_cycle_get);

Using above debug functions, we found almost 600000 CPU cycles will happen in
a while loop in function __alloc_and_insert_iova_range. If CPU frequency is
2G Hz, then 600000 CPU cycles is 300us! This is the hot point.

We found it will loop almost 10000 times in above while loop!

Code analysis

Firstly, this DMA software modules is like this:

   VA = kmalloc();
   IOVA = dma_map_function(PA = fun(VA));

Firstly, allocate memory for DMA memory and map a VA which can be used by CPU,
Then, build map between IOVA and PA in dma map function. In the case of SMMU
enable, .map_page(__iommu_map_page) in iommu_dma_ops will be call to build
above map.

Then common function iommu_dma_map_page in drivers/iommu/dma-iommu.c will be
called. There are two steps in above function: 1. allocate iova, this is a
common function; 2. build map between IOVA and PA, this is SMMU specific
function.

The hot point is in the point 1 above, so we need understand the module of
how to allocate iova. A red black tree in iova_domain is used to store all iova
range in system, after allocating or freeing an iova range, an iova range
should be inserted or remove from above red black tree. Now we allocate the
iova range from the end of the iova domain, for 32 DMA mask, it is 0xffffffff,
for 64bit DMA mask it is 0xffffffff_ffffffff. There is a cache for 32bit DMA
mask to store the iova range in last time, but for 64bit DMA MASK, there is
no such cache. so for 64bit DMA, when we want to allocate a DMA range in
iova domain, we have to search from the 0xffffffff_ffffffff. If we already allocate
a lot iova range, then we have to search all iova range allocated before.

3. solution

So we can fix this bug like this:

diff --git a/drivers/iommu/iova.c b/drivers/iommu/iova.c
index 080beca..1e582d8 100644
--- a/drivers/iommu/iova.c
+++ b/drivers/iommu/iova.c
@@ -46,6 +46,7 @@ init_iova_domain(struct iova_domain *iovad, unsigned long granule,
    spin_lock_init(&iovad->iova_rbtree_lock);
    iovad->rbroot = RB_ROOT;
    iovad->cached32_node = NULL;
+   iovad->cached64_node = NULL;
    iovad->granule = granule;
    iovad->start_pfn = start_pfn;
    iovad->dma_32bit_pfn = pfn_32bit;
@@ -56,13 +57,19 @@ EXPORT_SYMBOL_GPL(init_iova_domain);
 static struct rb_node *
 __get_cached_rbnode(struct iova_domain *iovad, unsigned long *limit_pfn)
 {
-   if ((*limit_pfn > iovad->dma_32bit_pfn) ||
-       (iovad->cached32_node == NULL))
+   struct rb_node *cached_node;
+
+   if (*limit_pfn < iovad->dma_32bit_pfn)
+       cached_node = iovad->cached32_node;
+   else
+       cached_node = iovad->cached64_node;
+
+   if (cached_node == NULL)
        return rb_last(&iovad->rbroot);
    else {
-       struct rb_node *prev_node = rb_prev(iovad->cached32_node);
+       struct rb_node *prev_node = rb_prev(cached_node);
        struct iova *curr_iova =
-           container_of(iovad->cached32_node, struct iova, node);
+           container_of(cached_node, struct iova, node);
        *limit_pfn = curr_iova->pfn_lo - 1;
        return prev_node;
    }
@@ -72,9 +79,10 @@ static void
 __cached_rbnode_insert_update(struct iova_domain *iovad,
    unsigned long limit_pfn, struct iova *new)
 {
-   if (limit_pfn != iovad->dma_32bit_pfn)
-       return;
-   iovad->cached32_node = &new->node;
+   if (limit_pfn <= iovad->dma_32bit_pfn)
+       iovad->cached32_node = &new->node;
+   else
+       iovad->cached64_node = &new->node;
 }

 static void
@@ -82,21 +90,26 @@ __cached_rbnode_delete_update(struct iova_domain *iovad, struct iova *free)
 {
    struct iova *cached_iova;
    struct rb_node *curr;
+   struct rb_node **cached_node;
+
+   if (free->pfn_hi <= iovad->dma_32bit_pfn)
+       cached_node = &iovad->cached32_node;
+   else
+       cached_node = &iovad->cached64_node;

-   if (!iovad->cached32_node)
+   curr = *cached_node;
+   if(!curr)
        return;
-   curr = iovad->cached32_node;
    cached_iova = container_of(curr, struct iova, node);

    if (free->pfn_lo >= cached_iova->pfn_lo) {
        struct rb_node *node = rb_next(&free->node);
        struct iova *iova = container_of(node, struct iova, node);

-       /* only cache if it's below 32bit pfn */
-       if (node && iova->pfn_lo < iovad->dma_32bit_pfn)
-           iovad->cached32_node = node;
+       if (node)
+           *cached_node = node;
        else
-           iovad->cached32_node = NULL;
+           *cached_node = NULL;
    }
 }

diff --git a/include/linux/iova.h b/include/linux/iova.h
index f27bb2c..d4670c1 100644
--- a/include/linux/iova.h
+++ b/include/linux/iova.h
@@ -41,6 +41,7 @@ struct iova_domain {
    spinlock_t  iova_rbtree_lock; /* Lock to protect update of rbtree */
    struct rb_root  rbroot;     /* iova domain rbtree root */
    struct rb_node  *cached32_node; /* Save last alloced node */
+   struct rb_node  *cached64_node; /* Save last 64bit alloced node */
    unsigned long   granule;    /* pfn granularity for this domain */
    unsigned long   start_pfn;  /* Lower limit for this domain */
    unsigned long   dma_32bit_pfn;

above solution just adds another cache for 64bit DMA Mask.

But now Linux kernel community just merged a PATCH:
iommu/dma: Implement PCI allocation optimisation
into mainline kernel.

This patch just castes 64bit DMA mask to 32bit DMA mask, so we can still use
32bit DMA cache to improve the performance.

NOTE: but if this we can not allocate a 64bit iova to a PCIe device’s DMA target
address. This is a problem :(

4. problem

Performance

After SMMU enable and applying above patch, 82599 performance is 7.5Gbps,
only 80% performance comparing SMMU disable. We need check if this is correct
considering both hardware and software limitation.
NIC panic

After SMMU enable and applying above patch, xxx net will panic :( should fix this.
(p.s. already find where the problem is, xxx net dma map once, but unmap multiple
times)

reference

[1] xxx
[2] JIRA bug
[3] https://lwn.net/Articles/370423/

cd /sys/kernel/debug/tracing
echo ixgbe_* > set_graph_function
echo function_graph > current_tracer
cat trace > ~/smmu_test

你可能感兴趣的:(linux内核,性能,linux,smmu,pci)

数据并表技术全面指南：从基础JOIN到分布式数据融合熊猫钓鱼>_> 分布式
引言在现代数据处理和分析领域，数据并表（TableJoin）技术是连接不同数据源、整合分散信息的核心技术。随着企业数据规模的爆炸式增长和数据源的日益多样化，传统的数据并表方法面临着前所未有的挑战：性能瓶颈、内存限制、数据倾斜、一致性问题等。如何高效、准确地进行大规模数据并表，已成为数据工程师和架构师必须掌握的关键技能。数据并表不仅仅是简单的SQLJOIN操作，它涉及数据建模、算法优化、分布式计算、
猎板分享：印制线路板制造工艺的创新与质量管控新策略猎板PCB黄浩人工智能
在电子制造行业快速发展的背景下，印制线路板（PCB）的制造工艺与质量管控水平直接决定下游产品性能。猎板PCB深耕行业技术创新，针对高密度、高频化、高可靠性的PCB需求，在制造工艺上持续突破，同时构建全流程质量管控新体系，为不同领域客户提供高品质PCB产品，在消费电子、工业控制、医疗设备等场景得到广泛验证。一、制造工艺的多维创新实践（一）高密度线路加工技术升级随着电子设备集成度提升，PCB线路密度要
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
基于单片机的电子时钟设计 2301_79312104 单片机单片机嵌入式硬件
收藏和点赞，您的关注是我创作的动力文章目录概要一、设计目标二、系统电路设计2.1硬件电路的设计方案三、系统软件设计3.1主程序设计3.2仿真调试四、总结五、文章目录概要电子时钟具有长远的发展历史，它的出现使得人们对时间的概念有了进一步的认知和了解，可以说意义十分的重大。在时代的推动，以及市场的需求下，电子时钟的功能以及性能都有着质的突破，而且应用的范围也越来越广，到处都有着电子时钟的影子。电子
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
《精雕细琢 Python 对象：深入理解 __slots__ 的性能魔法与实战应用》
《精雕细琢Python对象：深入理解slots的性能魔法与实战应用》引言：探索Python的对象管理机制在Python中，一切皆对象。然而，每一个对象背后都隐藏着复杂的运行机制。尤其在类设计中，我们往往忽略了对象属性的存储方式。今天，我们将深入剖析一个常被高级开发者使用的“利器”——__slots__，它能有效减少内存占用、提升性能，但也伴随着一些权衡和陷阱。本文旨在回答三个核心问题：__slot
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解文章目录基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解1.RELM原理2.分类问题求解3.基于探路者算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN
LeetCode第337题_打家劫舍III @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习
LeetCode第337题：打家劫舍III文章摘要本文详细解析LeetCode第337题"打家劫舍III"，这是一道中等难度的二叉树动态规划问题。文章提供了基于深度优先搜索和动态规划的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升二叉树和动态规划能力的程序员。核心知识点：二叉树、动态规划、深度优先搜索难度等级：中等推荐人群：具有基础数据结构知识，想要提
如何进行MySQL配置性能优化 anpeng2025 技术爽文大集合架构师 mysql 性能优化数据库 oracle 华为学习 Oracle ERP
MySQL的性能优化是一个系统工程，涉及配置调整、查询优化、架构设计等多个层面。下面我作为架构师，将重点讲解关键的配置参数优化，这些是提升MySQL性能最常见且效果显著的基础步骤：核心原则：基于硬件和工作负载：没有放之四海而皆准的配置。优化必须考虑你的服务器硬件（内存大小、CPU核数、磁盘类型-SSD还是HDD）以及你的应用负载特点（读多写少？写多读少？事务型还是分析型？）。循序渐进，监控验证：每
动态分析软件：DYNA3D_（12）.优化与校准
优化与校准在动态分析软件的二次开发中，优化与校准是提高模型准确性和效率的关键步骤。通过优化，可以减少计算时间、提高计算精度，而校准则确保模型的预测结果与实际试验数据相匹配。本节将详细探讨优化与校准的原理和方法，并提供具体的代码示例和数据样例。优化原理优化是指在有限的计算资源和时间内，通过调整模型参数或结构，使模型达到最佳性能的过程。在动态分析软件中，优化通常涉及以下几个方面：模型参数优化：调整材料
C++ | 玩转点云：CloudCompare & PCL原生开发核心指南与示例分享河工点云智绘WangG 点云深处 CloudCompare &PCL开发 c++开发语言
还在为点云处理的效率瓶颈和功能限制发愁吗？面对点云处理个性需求，是否让你感到束手束脚？调试困难、性能受限、定制化需求难以满足...本次分享将带你深入核心，走进点云深处，揭秘如何直接运用C++进行CloudCompare&PCL的原生集成开发。掌握核心步骤，规避常见陷阱，并附实用开发示例源码。助你：效率飙升：直达底层，性能最大化！灵活无限：自由定制算法流程，深度集成业务逻辑！掌控全局：彻底理解框架机
零基础学习性能测试第一章-为什么会有性能问题试着性能测试学习性能测试零基础
目录零基础性能测试：第一章-为什么会有性能问题？一、性能问题本质分析（黄金三角模型）1.资源不足的典型表现2.设计缺陷的灾难案例3.使用不当的五大雷区二、性能问题排查工具箱（即学即用）1.快速诊断命令表2.性能问题自检流程图3.真实工作场景解决方案三、性能优化的核心原则1.优化优先级法则2.必须避免的优化误区3.优化效果验证公式四、工作应用：性能问题排查清单1.五分钟快速检查表2.性能问题诊断报告
三款GIS工具多角度对比：免费的倾斜摄影OSGB/3Dtiles编辑转换发布平台枝上棉蛮教程数字孪生倾斜摄影 OSGB 3D Tiles GIS 三维数据转换数字孪生
GIS数据处理工具在现代技术与应用中扮演着至关重要的角色，它们不仅是连接原始地理信息与可分析、可视化数据的桥梁，更是推动地理信息系统（GIS）在各个行业领域深入发展与应用不可或缺的关键工具。选择一款合适的工具直接关系到数据处理、分析和展示的效率和精度，本文将通过功能、性能、价格等方面对比GISBox、CesiumLab和SuperMapiDesktop这三款软件。一、功能对比1.GISBox：以其
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
全平台兼容+3倍加载提速：GISBox将重新定义三维可视化标准 GISBox GISBox GISBox 纹理压缩数字孪生智慧城市 3DTiles 三维可视化 BIM
在智慧城市、数字孪生、BIM工程等领域的三维可视化浪潮中，模型加载卡顿、存储成本高、跨平台兼容差已成为行业痛点。无论是Web端的实时渲染，还是移动端的户外作业，高精度模型与低性能设备之间的矛盾，始终制约着项目的落地效率。而GISBox的纹理压缩功能，正是破解这一难题的“金钥匙”——它通过算法革新与硬件加速，让超大规模三维模型“瘦身”80%，加载速度提升3倍，真正实现“轻量化、高性能、全兼容”的三维
Gin框架路由 TZX_0710
介绍Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的net/http足够简单，性能也非常不错借助框架开发，不仅可以省去很多常用的封装带来的时间，也有助于团队的编码风格和形成规范安装1.安装Gingoget-ugithub.com/gin-gonic/gin2
Android gradle plugin agp8.6.1发布时间 yzpyzp android gradle
Androidgradlepluginagp8.6.1发布时间AndroidGradlePlugin(AGP)的版本8.6.1是在2023年发布的。具体来说，它是在2023年4月发布的。这个版本的更新包括了多个重要的改进和修复，旨在提升开发者在Android开发过程中的体验和效率。主要更新包括：性能改进：AGP8.6.1对构建性能进行了优化，特别是在处理大型项目时。这有助于减少构建时间，提高开发效
CentOS8换源
一、备份切换至源目录，备份源：cd/etc/yum.repos.d/#进入源目录ls#查看源文件mkdirbkup#创建备份目录mvCentOS-Linux-*bkup#将源文件移动至备份文件夹若是更换源并且原生源已经备份的情况下，使用rm-f*.repo删除原先文件。二、下载安装镜像源使用wget命令下载镜像源，本次使用的源为阿里云镜像：#下载并替换源wgethttps://mirrors.al
零基础搭建免费IP代理池：从原理到实战的保姆级指南傻啦嘿哟关于代理IP那些事儿 tcp/ip 网络协议网络
目录一、代理池的核心价值与底层原理二、环境搭建全流程详解2.1开发环境准备2.2核心组件安装三、核心配置深度解析3.1配置文件精要（setting.py）3.2自定义代理源开发四、核心模块实现原理4.1调度系统架构4.2代理验证算法五、运维实战技巧5.1性能优化策略5.2故障排查手册六、安全加固方案七、扩展升级路径八、典型问题解决方案九、性能基准测试十、合规使用指南一、代理池的核心价值与底层原理在
全球 Linux 桌面份额破 5%，国产桌面 Linux 的“春天”也来了吗？寒水馨 IT杂谈 linux 运维国产Linux 信创 UOS deepin 桌面Linux
全球Linux桌面份额破5%，国产桌面Linux的“春天”也来了吗？文章目录全球Linux桌面份额破5%，国产桌面Linux的“春天”也来了吗？引言：一个数字背后的意义1.Linux桌面为何能突破5%？1.1.市场结构的变化与用户行为的转变1.2.技术层面的成熟1.3.社区与生态的力量2.国产桌面Linux的现状与发展背景2.1.国产桌面Linux的诞生背景2.2.当前面临的挑战3.全球Linux
如何在Linux挂载ISO镜像文件 longerxin2020 Linux linux 运维服务器
在Linux系统中挂载ISO镜像文件，主要步骤如下‌：‌创建挂载目录‌：创建一个用于挂载ISO镜像文件的目录，例如/mnt/iso。‌挂载ISO镜像文件‌：使用mount命令挂载ISO镜像文件到创建的目录。命令：sudomount-oloop/path/to/iso/file.iso/mnt/iso‌查看挂载状态‌：使用df命令查看挂载点，确认ISO镜像文件是否成功挂载。df-h‌卸载ISO镜像文
CentOS 7 最新可用国内 yum 镜像源配置（含 Base 与 EPEL 源）寒水馨软件解惑 CentOS 7 yum 国内镜像源 repo epel
CentOS7最新可用国内yum镜像源配置（含Base与EPEL源）解决官方源访问慢、国内部分镜像失效问题，提供实测可用方案文章目录CentOS7最新可用国内yum镜像源配置（含Base与EPEL源）1.镜像源简介1.1.什么是yum源1.2.什么是镜像源、国内镜像源1.3.Base与EPEL源简介1.3.1.Base源（基础仓库）Base源示例软件包：1.3.2.EPEL源（企业Linux的额外
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
Redis 线上操作最佳实践阿贾克斯的黎明 java redis
在2024年9月19日，Redis作为一种高性能的内存数据库，在许多线上应用中发挥着重要作用。为了确保Redis在生产环境中的稳定运行和高效性能，以下是一些Redis线上操作的最佳实践。一、配置优化1.内存设置-根据实际需求合理设置Redis的内存限制。可以通过maxmemory参数来限制Redis使用的内存大小，避免因内存使用过多导致系统内存不足。-同时，设置合适的内存淘汰策略，如volatil
Go开发技术路线全解析：从基础到资深的系统学习指南（2025年版） Mr.小海 golang 开发语言后端容器云原生 vim 中间件
Go开发技术路线全解析：从基础到资深的系统学习指南（2025年版）一、基础阶段：Go语言入门与核心语法环境搭建与工具链环境标准化是Go开发流程的基础，其核心目标是确保开发环境的一致性与可重复性。2025年主流的Go环境安装方式包括两种：一是通过Go官方网站下载对应操作系统的二进制安装包，二是使用系统包管理器（如Linux的apt/yum、macOS的Homebrew等）进行安装。安装完成后，需配置
Redis性能对比(以下测试在同一机器执行)
一编译安装以下实例同时执行10000个请求来检测性能：[[email protected]]#redis-benchmark-n10000-a123-qPING_INLINE:52083.33requestspersecond,p50=0.663msecPING_MBULK:53191.49requestspersecond,p50=0.655msecSET:50251.26r
Go语言调度器深度解析：sysmon的核心作用与实现原理码农老gou GO golang 服务器
在Go语言的并发世界中，Goroutine的高效调度是性能保障的核心。除了众所周知的G-M-P模型，runtime中还有一个默默运行的"幕后英雄"——sysmon（系统监控协程）。作为Go调度器的重要组成部分，sysmon承担着系统级监控、网络轮询、垃圾回收触发等关键任务。本文将深入剖析sysmon的工作原理，通过源码和图示揭示其在Go运行时中的核心作用。一、sysmon的核心职责：系统级监控中枢
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
.NetCore发布到Linux下(Shell脚本控制服务启动) .NetHero c#.netcore linux
一、netcore后端部署1.设置端口号配置文件，指定接口的端口号(*注意不要和已有的服务端口相同!)Program
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他