choumin

C++中取余运算的优化

0、前言

gcc/g++编译优化选项：-O
这个选项控制所有的优化等级。使用优化选项会使编译过程耗费更多的时间，并且占用更多的内存，尤其是在提高优化等级的时候。
-O设置一共有五种：-O0、-O1、-O2、-O3和-Os。你只能在/etc/make.conf里面设置其中的一种。
除了-O0以外，每一个-O设置都会多启用几个选项，请查阅gcc手册的优化选项章节，以便了解每个-O等级启用了哪些选项及它们有何作用。
让我们来逐一考察各个优化等级：

-O0：这个等级（字母“O”后面跟个零）关闭所有优化选项，也是CFLAGS或CXXFLAGS中没有设置-O等级时的默认等级。这样就不会优化代码，这通常不是我们想要的。
-O1：这是最基本的优化等级。编译器会在不花费太多编译时间的同时试图生成更快更小的代码。这些优化是非常基础的，但一般这些任务肯定能顺利完成。
-O2：-O1的进阶。这是推荐的优化等级，除非你有特殊的需求。-O2会比-O1启用多一些标记。设置了-O2后，编译器会试图提高代码性能而不会增大体积和大量占用的编译时间。
-O3：这是最高最危险的优化等级。用这个选项会延长编译代码的时间，并且在使用gcc4.x的系统里不应全局启用。自从3.x版本以来gcc的行为已经有了极大地改变。在3.x，-O3生成的代码也只是比-O2快一点点而已，而gcc4.x中还未必更快。用-O3来编译所有的软件包将产生更大体积更耗内存的二进制文件，大大增加编译失败的机会或不可预知的程序行为（包括错误）。这样做将得不偿失，记住过犹不及。在gcc 4.x.中使用-O3是不推荐的。
-Os：这个等级用来优化代码尺寸。其中启用了-O2中不会增加磁盘空间占用的代码生成选项。这对于磁盘空间极其紧张或者CPU缓存较小的机器非常有用。但也可能产生些许问题，因此软件树中的大部分ebuild都过滤掉这个等级的优化。使用-Os是不推荐的。

1、实验一

假设现在有如下demo示例：


1 int main(void) {
2     int a = 100 % 128;
3     return 0;
4 }

不指定优化选项时的汇编代码（默认为-O0）

 1
 2 test.o: file format Mach-O 64-bit x86-64
 3
 4 Disassembly of section __TEXT,__text:
 5 _main:
 6 ; int main(void) {
 7        0:   55  pushq   %rbp
 8        1:   48 89 e5    movq    %rsp, %rbp
 9        4:   31 c0   xorl    %eax, %eax
10        6:   c7 45 fc 00 00 00 00    movl    $0, -4(%rbp)
11 ; int a = 100 % 128;
12        d:   c7 45 f8 64 00 00 00    movl    $100, -8(%rbp)
13 ; return 0;
14       14:   5d  popq    %rbp
15       15:   c3  retq

结论：虽然没有指定优化选项，但g++还是将100 % 128的结果（100）在编译的时候算出来了，在第12行的地方，通过movl $100, -8(%rbp)指令，将100赋值给了变量a，这不是我们想要的，为了能够在汇编层面看到C++计算取余的方法，我们还需要将程序写的复杂一些，以便能够绕过g++的编译优化。

2、实验二

假设现在有如下demo示例：

1 int main(void) {
2     int a = 100;
3     int b = a % 128;
4     return 0;
5 }

不指定优化选项时的汇编代码（默认为-O0）

 1
 2 test.o: file format Mach-O 64-bit x86-64
 3
 4 Disassembly of section __TEXT,__text:
 5 _main:
 6 ; int main(void) {
 7        0:   55  pushq   %rbp
 8        1:   48 89 e5    movq    %rsp, %rbp
 9        4:   31 c0   xorl    %eax, %eax
10        6:   c7 45 fc 00 00 00 00    movl    $0, -4(%rbp)
11 ; int a = 100;
12        d:   c7 45 f8 64 00 00 00    movl    $100, -8(%rbp)
13 ; int b = a % 128;
14       14:   8b 4d f8    movl    -8(%rbp), %ecx
15       17:   89 45 f0    movl    %eax, -16(%rbp)
16       1a:   89 c8   movl    %ecx, %eax
17       1c:   99  cltd
18       1d:   b9 80 00 00 00  movl    $128, %ecx
19       22:   f7 f9   idivl   %ecx
20       24:   89 55 f4    movl    %edx, -12(%rbp)
21 ; return 0;
22       27:   8b 4d f0    movl    -16(%rbp), %ecx
23       2a:   89 c8   movl    %ecx, %eax
24       2c:   5d  popq    %rbp
25       2d:   c3  retq

结论：在第19行的地方，通过idivl %ecx指令，用eax寄存器（存的是100）里的值除以ecx寄存器（存的是128）里的值，并将余数存放在edx寄存器，商存放在eax寄存器。在第20行的地方，通过movl %edx, -12(%rbp)指令，将edx寄存器（存的是余数）放入变量b中。此外，从第19行的代码可以看出，当对128（2^8)进行取余时，编译器并未通过位运算的方式对取余操作进行优化。

指定优化选项为-O1时的汇编代码

 1
 2 test.o: file format Mach-O 64-bit x86-64
 3
 4 Disassembly of section __TEXT,__text:
 5 _main:
 6 ; int main(void) {
 7        0:   55  pushq   %rbp
 8        1:   48 89 e5    movq    %rsp, %rbp
 9 ; return 0;
10        4:   31 c0   xorl    %eax, %eax
11        6:   5d  popq    %rbp
12        7:   c3  retq

结论：开启-O1编译优化选项后，main函数中的两条语句（int a = 100; int b = a % 128;）没有被编译成汇编代码，可能的原因是，那些被优化掉的代码对程序的运行结果没有任何影响，因此被编译器跳过了，这依然不是我们想要的，为了能够在汇编层面看到C++对取余运算做的优化，我们还需要将程序写的更复杂一些，以便能够绕过g++最基本的优化，同时也能看到对取余运算的优化。

3、实验三

假设现在有如下demo示例：

1 int b = 0;
2 int foo(int x) {
3     return x * x;
4 }
5 int main(void) {
6     int a = foo(10);
7     b = a % 128;
8     return 0;
9 }

指定优化选项为-O1时的汇编代码

1
 2 test.o: file format Mach-O 64-bit x86-64
 3
 4 Disassembly of section __TEXT,__text:
 5 __Z3fooi:
 6 ; int foo(int x) {
 7        0:   55  pushq   %rbp
 8        1:   48 89 e5    movq    %rsp, %rbp
 9 ; return x * x;
10        4:   0f af ff    imull   %edi, %edi
11        7:   89 f8   movl    %edi, %eax
12        9:   5d  popq    %rbp
13        a:   c3  retq
14        b:   0f 1f 44 00 00  nopl    (%rax,%rax)
15
16 _main:
17 ; int main(void) {
18       10:   55  pushq   %rbp
19       11:   48 89 e5    movq    %rsp, %rbp
20 ; int a = foo(10);
21       14:   bf 0a 00 00 00  movl    $10, %edi
22       19:   e8 00 00 00 00  callq   0 <_main+0xe>
23 ; b = a % 128;
24       1e:   89 c1   movl    %eax, %ecx
25       20:   c1 f9 1f    sarl    $31, %ecx
26       23:   c1 e9 19    shrl    $25, %ecx
27       26:   01 c1   addl    %eax, %ecx
28       28:   83 e1 80    andl    $-128, %ecx
29       2b:   29 c8   subl    %ecx, %eax
30       2d:   89 05 00 00 00 00   movl    %eax, (%rip)
31 ; return 0;
32       33:   31 c0   xorl    %eax, %eax
33       35:   5d  popq    %rbp
34       36:   c3  retq

结论：开启-O1编译优化选项后，可以看到当128作为除数进行取余运算时，g++通过位运算做了优化，涉及到的汇编代码及其作用如下表所示


sarl    $31, %ecx
shrl    $25, %ecx
addl    %eax, %ecx
andl    $-128, %ecx
subl    %ecx, %eax

行号	指令	作用
25	`sarl $31, %ecx`	将ecx寄存器中的数（被除数）算数右移31位，最高位补符号位，得到结果是，当被除数为正数时，ecx中存的是32个0，当被除数为负数时，ecx中存的是32个1。
26	`shrl $25, %ecx`	将ecx寄存器中的数逻辑右移25位，最高位补0，结合第25行的逻辑，得到的结果是，当被除数为正数时，ecx中存的是32个0，当被除数为负数时，ecx中存的是25个0和7个1，即127。
27	`addl %eax, %ecx`	将eax寄存器中的数（被除数）加上ecx寄存器中的数（0或127）放入ecx寄存器中，这样做的原因是，C++的取余运算在计算商值时，向0方向舍弃小数位，也就是说当被除数为负数时，商乘以除数的值要大于等于被除数。即，为了使第28行中的ecx & (-128)大于等于被除数，需要在第27中将ecx加上127。
28	`andl $-128, %ecx`	将ecx寄存器中的数按位与-128，得到(ecx/128)*128，即商与除数的乘积，其中 (ecx/128) 向0方向舍弃小数位。
29	`subl %ecx, %eax`	将eax寄存器中的数（被除数）减去ecx寄存器中的数放入eax寄存器中，即被除数减去商与除数的乘积，得到余数。

为了进一步说明上述汇编代码中的立即数25（32-7）、-128与demo中的128（2^7）有直接的关系，下面将demo中的128换成1024（2^10），然后再对比汇编代码的不同。

4、实验四

假设现在有如下demo示例：

1 int b = 0;
2 int foo(int x) {
3     return x * x;
4 }
5 int main(void) {
6     int a = foo(10);
7     b = a % 1024;
8     return 0;
9 }

指定优化选项为-O1时的汇编代码

1
 2 test.o: file format Mach-O 64-bit x86-64
 3
 4 Disassembly of section __TEXT,__text:
 5 __Z3fooi:
 6 ; int foo(int x) {
 7        0:   55  pushq   %rbp
 8        1:   48 89 e5    movq    %rsp, %rbp
 9 ; return x * x;
10        4:   0f af ff    imull   %edi, %edi
11        7:   89 f8   movl    %edi, %eax
12        9:   5d  popq    %rbp
13        a:   c3  retq
14        b:   0f 1f 44 00 00  nopl    (%rax,%rax)
15
16 _main:
17 ; int main(void) {
18       10:   55  pushq   %rbp
19       11:   48 89 e5    movq    %rsp, %rbp
20 ; int a = foo(10);
21       14:   bf 0a 00 00 00  movl    $10, %edi
22       19:   e8 00 00 00 00  callq   0 <_main+0xe>
23 ; b = a % 1024;
24       1e:   89 c1   movl    %eax, %ecx
25       20:   c1 f9 1f    sarl    $31, %ecx
26       23:   c1 e9 16    shrl    $22, %ecx
27       26:   01 c1   addl    %eax, %ecx
28       28:   81 e1 00 fc ff ff   andl    $4294966272, %ecx
29       2e:   29 c8   subl    %ecx, %eax
30       30:   89 05 00 00 00 00   movl    %eax, (%rip)
31 ; return 0;
32       36:   31 c0   xorl    %eax, %eax
33       38:   5d  popq    %rbp
34       39:   c3  retq
结论：由上述汇编代码可知，当除数换成1024之

结论：由上述汇编代码可知，当除数换成1024之后，实验三中第26行的立即数25变成了22（32-10），第28行的立即数-128变成了4294966272（即-1024的补码），其他内容不变。由此可以看出，在C++程序进行编译时，若源码中出现了对2的幂进行取余的操作，且开启了O1优化选项，那么在随后生成的汇编代码中，是通过位运算实现取余操作的。不过，值得注意的是，在我们的源码中进行取余操作时，我们是通过立即数的形式指定了2的幂，那如果我们通过变量的形式指定2的幂（这可能是更常见的情况），结果会如何呢？

5、实验五

假设现在有如下demo示例：

 1 int b = 0;
 2 int foo(int x) {
 3     return x * x;
 4 }
 5 int goo(int x) {
 6     return 1 << x;
 7 }
 8 int main(void) {
 9     int a = foo(10);
10     int c = goo(10);
11     b = a % c;
12     return 0;
13 }

指定优化选项为-O1时的汇编代码

 1
 2 test.o: file format Mach-O 64-bit x86-64
 3
 4 Disassembly of section __TEXT,__text:
 5 __Z3fooi:
 6 ; int foo(int x) {
 7        0:   55  pushq   %rbp
 8        1:   48 89 e5    movq    %rsp, %rbp
 9        4:   89 7d fc    movl    %edi, -4(%rbp)
10 ; return x * x;
11        7:   8b 7d fc    movl    -4(%rbp), %edi
12        a:   0f af 7d fc     imull   -4(%rbp), %edi
13        e:   89 f8   movl    %edi, %eax
14       10:   5d  popq    %rbp
15       11:   c3  retq
16       12:   66 2e 0f 1f 84 00 00 00 00 00   nopw    %cs:(%rax,%rax)
17       1c:   0f 1f 40 00     nopl    (%rax)
18
19 __Z3gooi:
20 ; int goo(int x) {
21       20:   55  pushq   %rbp
22       21:   48 89 e5    movq    %rsp, %rbp
23       24:   89 7d fc    movl    %edi, -4(%rbp)
24 ; return 1 << x;
25       27:   8b 4d fc    movl    -4(%rbp), %ecx
26       2a:   bf 01 00 00 00  movl    $1, %edi
27       2f:   d3 e7   shll    %cl, %edi
28       31:   89 f8   movl    %edi, %eax
29       33:   5d  popq    %rbp
30       34:   c3  retq
31       35:   66 2e 0f 1f 84 00 00 00 00 00   nopw    %cs:(%rax,%rax)
32       3f:   90  nop
33
34 _main:
35 ; int main(void) {
36       40:   55  pushq   %rbp
37       41:   48 89 e5    movq    %rsp, %rbp
38       44:   48 83 ec 10     subq    $16, %rsp
39       48:   c7 45 fc 00 00 00 00    movl    $0, -4(%rbp)
40 ; int a = foo(10);
41       4f:   bf 0a 00 00 00  movl    $10, %edi
42       54:   e8 00 00 00 00  callq   0 <_main+0x19>
43       59:   89 45 f8    movl    %eax, -8(%rbp)
44 ; int c = goo(10);
45       5c:   bf 0a 00 00 00  movl    $10, %edi
46       61:   e8 00 00 00 00  callq   0 <_main+0x26>
47       66:   31 ff   xorl    %edi, %edi
48       68:   89 45 f4    movl    %eax, -12(%rbp)
49 ; b = a % c;
50       6b:   8b 45 f8    movl    -8(%rbp), %eax
51       6e:   99  cltd
52       6f:   f7 7d f4    idivl   -12(%rbp)
53       72:   89 15 00 00 00 00   movl    %edx, (%rip)
54 ; return 0;
55       78:   89 f8   movl    %edi, %eax
56       7a:   48 83 c4 10     addq    $16, %rsp
57       7e:   5d  popq    %rbp
58       7f:   c3  retq

结论：从第52行的 idivl -12(%rbp)指令可以看出，当我们通过变量的形式指定2的幂时，开启-O1优化后，在得到的汇编代码中并没有通过位运算来优化取余操作。既然开启-O1优化选项后并没有得到我们想要的优化效果，那么可以尝试一下-O2优化选项。

6、实验六

假设现在有如下demo示例：

 1 int b = 0;
 2 int foo(int x) {
 3     return x * x;
 4 }
 5 int goo(int x) {
 6     return 1 << x;
 7 }
 8 int main(void) {
 9     int a = foo(10);
10     int c = goo(10);
11     b = a % c;
12     return 0;
13 }

指定优化选项为-O2时的汇编代码

 1
 2 test.o: file format Mach-O 64-bit x86-64
 3
 4 Disassembly of section __TEXT,__text:
 5 __Z3fooi:
 6 ; int foo(int x) {
 7        0:   55  pushq   %rbp
 8        1:   48 89 e5    movq    %rsp, %rbp
 9 ; return x * x;
10        4:   0f af ff    imull   %edi, %edi
11        7:   89 f8   movl    %edi, %eax
12        9:   5d  popq    %rbp
13        a:   c3  retq
14        b:   0f 1f 44 00 00  nopl    (%rax,%rax)
15
16 __Z3gooi:
17 ; int goo(int x) {
18       10:   55  pushq   %rbp
19       11:   48 89 e5    movq    %rsp, %rbp
20       14:   b8 01 00 00 00  movl    $1, %eax
21 ; return 1 << x;
22       19:   89 f9   movl    %edi, %ecx
23       1b:   d3 e0   shll    %cl, %eax
24       1d:   5d  popq    %rbp
25       1e:   c3  retq
26       1f:   90  nop
27
28 _main:
29 ; int main(void) {
30       20:   55  pushq   %rbp
31       21:   48 89 e5    movq    %rsp, %rbp
32 ; b = a % c;
33       24:   c7 05 fc ff ff ff 64 00 00 00   movl    $100, -4(%rip)
34 ; return 0;
35       2e:   31 c0   xorl    %eax, %eax
36       30:   5d  popq    %rbp
37       31:   c3  retq

结论：从第33行的 movl $100, -4(%rip) 指令可以看出，开启-O2优化选项后，g++直接在编译阶段将 (x * x) % (1 << x)的结果（100）计算出来了，其中x=10。可能，这才是g++强大的优化能力。

7、参考文献

https://blog.csdn.net/attagain/article/details/18655485

https://blog.csdn.net/coder_panyy/article/details/73743722

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
深入解析SnakeViz：Python性能分析可视化利器苏凌献
深入解析SnakeViz：Python性能分析可视化利器snakevizAnin-browserPythonprofileviewer项目地址:https://gitcode.com/gh_mirrors/sn/snakeviz什么是SnakeVizSnakeViz是一款基于浏览器的Python性能分析可视化工具，专门用于展示cProfile模块生成的性能分析数据。作为Python标准库pstat
Navicat数据库管理工具安装与应用教程 Matthew Um
本文还有配套的精品资源，点击获取简介：Navicat是一款支持多种数据库系统的管理工具，具备统一工作环境、优化的数据库连接和操作界面，极大地提高了数据库管理员和开发者的效率。该软件支持MySQL、Oracle等多种数据库类型，并为这些数据库提供了一系列管理与开发功能，如数据同步、性能分析、SQL查询等。用户可以下载Navicat的安装包，通过简单的安装过程后，即可使用其丰富的功能来高效管理数据库。
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
手机FunASR识别SIM卡通话占用内存和运行性能分析
手机FunASR识别SIM卡通话占用内存和运行性能分析--本地AI电话机器人上一篇：手机无网离线使用FunASR识别SIM卡语音通话内容下一篇：手机通话语音离线ASR识别商用和优化方向一、前言书接上一文《阿里FunASR本地断网离线识别模型简析》，我们其实在2023年底的时候输出过一版基于离线FunASR的ASR转文字方案。当时为了减少模型文件的数量和大小，只引入了【vad_res】、【asr_o
探索 Java 开发中 IntelliJ IDEA 的代码性能优化技巧 Java技术栈实战 java intellij-idea 性能优化 ai
探索Java开发中IntelliJIDEA的代码性能优化技巧关键词：Java开发、IntelliJIDEA、代码性能优化、性能分析、开发技巧摘要：本文旨在深入探索在Java开发过程中，如何借助IntelliJIDEA这一强大的集成开发环境来进行代码性能优化。首先介绍了背景信息，包括目的、预期读者、文档结构和相关术语。接着阐述了核心概念，如代码性能优化的原理和与IntelliJIDEA的联系。详细讲
JAVA面试宝典 -《性能优化实战：从代码到架构的调优》
文章目录《性能优化实战：从代码到架构的调优》引言：性能优化是系统的“生命线”第一部分：代码级优化（微观层面）1️⃣常见性能“坑”2️⃣GC调优入门3️⃣性能分析工具推荐️第二部分：数据库性能优化1️⃣SQL优化策略2️⃣利用缓存“兜底”3️⃣MyBatisPlus实例优化第三部分：服务层调优（中观层面）1️⃣接口耗时分析2️⃣异步与线程池优化3️⃣限流与熔断️第四部分：架构级优化（宏观层面）1️⃣
鸿蒙安全实战：三步实现AES加密，让你的用户密码坚不可摧！前端世界 harmonyos harmonyos 安全华为
摘要在鸿蒙应用中，数据加密是保护敏感信息（如用户密码）的核心手段。本文通过一个用户登录系统的实际场景，详细解析如何使用AES对称加密算法实现密码的安全存储与验证。我们将从密钥生成、加密存储到解密验证逐步展开，并提供完整代码实现和性能分析。描述当用户注册时，系统需将密码加密后存储；登录时需解密验证。直接存储明文密码存在严重安全隐患，而AES-256作为行业标准对称加密算法，能有效解决这一问题。鸿蒙通
深入DP！！！！！！！！！！！！！！-----------------------“DP就像人生：你的当前状态由过去的选择决定，而你的选择将影响未来状态。定义好你的状态转移方程，找到最优的人生路径！“ zwenqiyu 算法
"动态规划不是魔法，而是将大问题拆解成小问题的艺术"——一位ACMer的深夜顿悟暑假集训我们过关斩将，来到了线性动态规划和前缀优化这里，不好，是让人心惊胆战的DP！！！不同于其他题解，我们在详说DP之前，我们先说说记忆化搜索。什么是记忆化搜索？记忆化搜索（Memoization）是一种优化递归算法的技术，通过存储已计算的子问题结果，避免重复计算。它是自顶向下的动态规划实现方式。模板题斐波那契数列问
手机通话语音离线ASR识别商用和优化方向 limingade 本地AI电话机器人手机提取电话的信令和声音智能手机 FunASR离线识别 Android做ASR 手机断网离线ASR ASR语音转文字识别语音识别
手机通话语音离线ASR识别商用和优化方向--本地AI电话机器人上一篇：手机FunASR识别SIM卡通话占用内存和运行性能分析下一篇：编写中。一、前言前面的篇章中，我们尝试了将FunASR的ONNX模型文件加载到Android应用中，实现手机本地不依赖服务器和网络的离线ASR语音识别。并将这个ASR能力应用到了手机麦克风、手机本地的历史通话录音、手机实时的SIM卡电话通话内容的解析上。在实践中，我们
C++排序算法全解析（加强版）你的冰西瓜排序算法 c++算法
排序算法目录C++排序算法全解析冒泡排序（BubbleSort）一、引言二、冒泡排序的基本原理1.算法思想2.算法步骤三、C++实现代码示例代码解释四、性能分析与优化1.时间复杂度2.空间复杂度3.稳定性4.优化方法五、适用场景与总结1.适用场景2.总结选择排序（SelectionSort）一、引言二、选择排序的基本原理1.算法思想2.算法步骤三、C++实现代码示例代码解释四、性能分析与优化1.时
Day 17: 装饰器 (Decorator)：给函数穿上“新衣” 杨小扩 python
1.引言各位老朋友，我是阿扩。想象一下，你是一位才华横溢的歌手，你的主业是唱歌（sing()函数）。你的歌声优美，深受大家喜爱。现在，你的经纪人提出了一些新要求：在你每次上台唱歌前，需要有一段华丽的灯光秀和开场白（记录日志、权限检查）。在你唱完歌后，需要统计一下你这次表演花了多长时间，并向观众致谢（性能分析、清理工作）。你会怎么做？最直观的想法，可能是在你每一个唱歌的函数里，手动加上这些开场和收尾
AI周报 250630-250706 EAI工程笔记 AI周讯人工智能 AI周报 AI 周报新闻资讯
文章目录**AI核心技术进展****a.模型架构与训练****b.推理优化与部署****c.智能体(Agent)系统****d.多模态与生成技术****e.开源框架与工具****f.评测与性能分析****产业与商业动态****️科技巨头动态****汽车行业AI落地****社会影响与伦理治理**更多精彩视频内容，关注wx小视频：伊织看世界AI核心技术进展a.模型架构与训练Meta发布2-simpli
android stm32 蓝牙模块,STM32+USART+蓝牙模块(BT04) thomasschulzz android stm32 蓝牙模块
硬件：正点原子战舰V3蓝牙模块BT04(HC-05也一样的，不过指令不一样)USB转TTL模块软件：XCOM串口调试助手(PC)蓝牙调试宝(安卓平台)昨晚调试蓝牙模块，这个蓝牙模块因为只需要连接串口就可以正常工作，应该来说比较简单。但是还是遇到一个小问题，找了很久的原因，调试了很长时间。我想要测试的功能是利用手机APP发送命令控制LED灯，下面是主函数：intmain(void){u16t;u16
游戏跳伞卡顿？CPU Stall优化全解析你一身傲骨怎能输游戏开发技术专栏游戏开发语言
《粒子特效导致CPUStall的优化分析》摘要文章解析了"CPUStallwaitforevent"现象，指出这是CPU因等待内存/I/O/锁等事件而暂停执行的情况。在粒子特效中，主要诱因包括：多线程同步等待、内存带宽争用、资源竞争和任务分配不均。针对性地提出了五大优化方案：减少线程同步（采用无锁队列）、优化内存访问（避免伪共享）、均衡任务分配、异步处理计算与渲染，以及使用性能分析工具定位瓶颈。通
（面经总结）一篇文章带你整理面试过程中常考的九大排序算法南淮北安冲刺大厂之面经总结面经排序算法二分插入冒泡快速
文章目录一、二分插入排序1.原理2.代码二、冒泡排序1.原理2.代码三、插入排序算法1.原理2.代码四、快速排序算法1.原理2.代码五、希尔排序1.原理2.代码六、归并排序1.原理2.代码七、桶排序八、基数排序九、堆排序1.原理2.代码十、总结1.算法分类2.性能分析一、二分插入排序首先必须是排好序的数组，然后通过二分查找，找到合适的位置，插入1.原理二分查找算法又叫作折半查找，要求待查找的序列有
【NWFSP问题】基于中华穿山甲算法CPO求解零等待流水车间调度问题NWFSP研究（Matlab代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述1.引言2.理论基础2.1中华穿山甲算法（CPO）核心原理2.2NWFSP数学模型3.CPO-NWFSP求解框架设计3.1编码与解码3.2离散化位置更新3.3目标函数适配4.实验设计与性能分析4.1实验设置4.2结果分析4.3敏感性分析5.结论与展望
Unity 内置着色器的使用与性能优化【Usage and Performance of Built-in Shaders】小李也疯狂 #Shader：Built-in shaders unity 着色器性能优化 shader
Unity中的着色器通过材质（Material）应用，材质将着色器代码与纹理、颜色等参数结合。理解着色器与材质的关系及性能影响因素，对优化项目渲染效率至关重要。以下是内置着色器的使用指南与性能分析：一、着色器与材质的关系核心概念着色器（Shader）：定义渲染逻辑（如光照计算、纹理混合），决定材质的属性和外观。材质（Material）：着色器的实例，存储具体参数（如纹理、颜色值），同一着色器可创建
前端如何借助 Postman 进行接口性能调优前端视界前端艺匠馆前端 postman lua ai
前端如何借助Postman进行接口性能调优关键词：前端开发、Postman、接口性能调优、API测试、性能分析摘要：本文围绕前端开发中借助Postman进行接口性能调优展开。首先介绍了相关背景知识，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念，如接口性能的相关概念及其联系，并给出了对应的文本示意图和Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，结合Python代码示例进行
操作系统NUMA架构下的内存一致性优化操作系统内核探秘架构 perl 开发语言 ai
操作系统NUMA架构下的内存一致性优化关键词：NUMA架构、内存一致性、缓存一致性、多核处理器、性能优化、操作系统调度、内存访问延迟摘要：本文深入探讨了NUMA(Non-UniformMemoryAccess)架构下的内存一致性优化问题。我们将从基础概念出发，逐步分析NUMA架构的特点、内存一致性的挑战，以及操作系统层面的优化策略。通过实际代码示例和性能分析，帮助读者理解如何在高性能计算环境中有效
数据结构与算法领域线性探测的性能分析数据结构与算法学习哈希算法散列表数据结构 ai
数据结构与算法领域线性探测的性能分析关键词：哈希表、线性探测、冲突解决、时间复杂度、负载因子、性能分析、散列函数摘要：本文深入探讨哈希表中线性探测冲突解决方法的性能特点。我们将从基本概念出发，通过生活化的比喻解释线性探测的工作原理，分析其在不同场景下的时间复杂度表现，并通过Python代码实现和实验数据展示其实际性能。文章还将讨论线性探测的优缺点、适用场景以及优化策略，帮助读者全面理解这一经典算法
Mamba-YOLOv8深度解析：基于状态空间模型的下一代目标检测架构（含完整代码与实战部署）文末含资料链接！博导ai君深度学习教学-附源码 YOLO 目标检测架构
文章目录前言一、技术背景与动机1.1传统架构的局限性1.2Mamba的创新优势二、Mamba-YOLOv8架构详解2.1整体架构设计2.2核心模块：VSSblock2.3SS2D模块工作原理三、完整实现流程3.1环境配置3.2代码集成步骤3.3训练与微调四、性能分析与优化4.1精度提升策略4.2推理加速方案4.3硬件适配技巧五、实战案例：无人机航拍检测5.1数据集准备5.2模型训练与评估六、未来研
Java性能调优必修课：YourKit与VisualVM实战对比，从内存泄漏到CPU瓶颈的一站式解决
引言凌晨三点的运维群突然弹出告警：“服务器内存使用率98%！”，你顶着黑眼圈登录服务器，jstat显示GC频率飙升，jmap导出堆文件却像看天书——这种场景每个Java工程师都不陌生。性能问题就像程序里的"暗桩"，轻则让用户骂骂咧咧，重则导致系统崩溃。这时候，专业的性能分析工具就是我们的"照妖镜"。今天要聊的两位主角：JDK自带的VisualVM和商业旗舰YourKit，一个是"居家小能手"，一个
制作一款打飞机游戏65：时间表修正摩卡哈哈哈游戏关卡设计
‌Boss阶段‌：我们还没有创建Boss，因此Boss阶段和Boss召唤小弟的问题还没有解决。‌敌人同步移动‌：敌人需要与背景地面同步移动，这可能需要一些调整。‌其他小修正‌：还有一些小问题需要修复，比如敌人的溅射效果等。我们将这些问题标记为“最终修正”，并将它们移到下一个目标中。我列出了一个详细的待办事项列表，并尝试将它们结构化，以便更清楚地知道我们在程序的哪些部分工作。‌特殊能力‌：游戏似乎有
Vue3响应式卡顿？3招性能优化技巧让页面提速200%（附源码对比）程序猿全栈の董（董翔）性能优化 vue.js 前端
一、引言Vue3发布以来，其响应式系统凭借Proxy的强大能力，为开发者带来了更高效的数据绑定体验。然而，在处理复杂数据结构或大量数据时，许多开发者发现Vue3的响应式性能不如预期，甚至出现页面卡顿的情况。根据我们团队对多个大型项目的性能分析，在某些极端场景下，Vue3的响应式更新可能比直接操作DOM慢2-3倍。这种性能差距在数据量超过1000条记录时尤为明显。本文将深入分析Vue3响应式系统的性
Charles 中文版怎么用？接口抓包、慢请求分析、App 调试一文掌握 2501_91591841 http udp https websocket 网络安全网络协议 tcp/ip
随着应用开发的复杂性增加，开发者在调试和优化网络请求时需要依赖高效的工具来确保系统稳定性和用户体验。特别是在Web开发和移动应用开发中，调试HTTP/HTTPS请求和API接口变得尤为重要。Charles抓包工具因其强大的抓包、调试功能以及性能分析能力，成为了开发者日常工作中不可或缺的工具。本文将介绍如何使用Charles中文版抓包工具提升API调试效率、优化应用性能和加速开发流程。1.Charl
Android Profiler 深度解析及其在性能分析中的应用
一、AndroidProfiler概述AndroidProfiler是AndroidStudio内置的一套性能分析工具，取代了早期的AndroidMonitor工具。它提供了实时应用性能数据可视化，帮助开发者识别和解决性能瓶颈。核心组件模块：CPUProfiler-分析应用CPU使用和线程活动MemoryProfiler-监控内存分配和泄漏NetworkProfiler-跟踪网络请求活动Energ
android-性能分析
以下是Android性能分析的完整指南，涵盖核心工具、优化方向及实操方法，适用于2025年开发环境：⚙️一、性能分析工具分类1.官方工具链工具用途关键能力版本适配AndroidProfiler实时监测CPU/内存/网络/能耗火焰图分析、内存泄漏检测（支持Activity/Fragment自动检测）AndroidStudio3.6+Perfetto系统级追踪（替代Systrace）线程调度、GPU渲
冒泡排序的基本思想、基本操作、代码实现以及性能分析总结第1缕阳光算法数据结构排序算法 c++
冒泡排序1，基本思想将待排序的元素进行两两比较，如果存在逆序，就对其进行交换操作，直到所有的元素的顺序都排好。2，基本操作对于待排序序列中的n个元素，第i趟冒泡排序从1到n-i+1依次比较相邻两个记录的大小，如果存在逆序关系，就交换；最后在这从1到n-i+1个元素中，最大（我们默认排序结果为从小到大）的元素被交换到第n-i+1的位置。可以看出，在第i趟排序时前n-i+1个元素是处于无序状态，第n-
归并排序详解
创建两个临时数组存储待合并的子数组使用双指针法依次比较两个子数组的元素将较小的元素放入原数组的对应位置处理剩余未合并的元素前言1.算法概述归并排序是一种采用分治法（DivideandConquer）策略的排序算法，由约翰·冯·诺伊曼在1945年提出。它的核心思想是将一个大问题分解成若干个小问题，递归解决小问题后，再将结果合并起来。分治策略分解：将当前区间一分为二解决：递归地对两个子区间进行排序合并
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

C++中取余运算的优化

你可能感兴趣的:(性能分析,小问题)