HNHuangJingYu

编解码-性能优化-SIMD

文章目录

- 前言
- - MMX
  - SSE
  - AVX
- 使用
- - 内置函数使用
  - - SSE/AVX命名规则
    - SSE/AVX操作类别
    - 实战
- 汇编使用
- - 优化前代码详解
  - 优化后代码详解
- 引用文章

编码性能优化大法

算法优化

硬件加速

多线程并行

算法自适应升降级

冗余计算去除

箅法裁剪

以空间换时间

CPU加速

GPU加速

帧内多线程

帧间多线程

CPU大小核绑定

SIMD加速

cache miss优化

编译优化

GPU shader

GPU memory zero-copy

前言

SIMD(Single Instruction Multiple Data)是CPU硬件层面支持的用于对数据进行并行操作。

原理：采用一个控制器来控制多个处理器，同时对一组数据（又称“数据向量”）中的每一个分别执行相同的操作从而实现空间上的并行性的技术

它的指令集存在如下：

X86下的实现为MMX、SSE、AVX指令集
ARM下的实现为NEON指令集

MMX

1996年Intel推出了X86的MMX(MultiMedia eXtension)指令集

MMX定义了8个64位寄存器(MM0-MM7),以及相应的操作指令
可用于以“压缩”格式保存64位整数或多个较小整数,并没有浮点数的支持！

注意：上面说的是x86的指令扩展，可以看到有点类似于64兼容32操作系统架构"rdi->edi"。

2003年才以 x86-64 和 64 位 PowerPC 处理器架构的形式引入到（在此之前是 32 位）个人计算机领域的主流。

SSE

1999年推出了全面覆盖MMX的SSE(Streaming SIMD Extensions)流式SIMD扩展指令集

添加了8个新的128位寄存器(XMM0-XMM7)
开始支持单个寄存器存储4个32位单精度浮点数

X86-64架构世界的到来：

在原来的基础上添加了8个寄存器(XMM8至XMM15)
支持单个寄存器存储2个64位双精度浮点数

AVX

2011年推出了延伸SSE的AVX(Advanced Vector Extensions)高级向量扩展指令集

引入了16个256位寄存器(YMM0-YMM15)
AVX的256位寄存器和SSE的128位寄存器存在着相互重叠的关系(XMM寄存器为YMM寄存器的低位)

最好不要混用AVX与SSE指令集，否在会导致transition penalty(过渡处罚)

目前Apple OS X 10.6.8、Linux 2.6.30、Windows 7,可见现在AVX指令集是一个主流指令集

总结：

SIMD指令集

MMX

SSE

AVX

8个64位寄存器(MM0-MM7)

8个新的128位寄存器(XMM0-XMM7)

添加了8个寄存器(XMM8至XMM15)

16个256位寄存器(YMM0-YMM15)

使用

实现SIMD的方法如下：

使用Intel开发的跨平台函数库（Intel IPP库）
借助于Auto-vectorization(自动矢量化)，即借助编译器将标量操作转化为矢量操作
使用编译器指示符，如Cilk里的#pragma simd和OpenMP里的#pragma omp simd
使用内置函数，高级语言中类似调用普通函数一样使用simd，函数的具体实现定义在编译器中
使用汇编直接操作SIMD指令和寄存器，高级语言中嵌入汇编代码，极致的性能优化

FFmpeg对simd的使用就是“内置函数”形式
如：4.2.2中的libavutil/x86/intmath.h:#include

4.2.2中没找到向量寄存器的使用

内置函数使用

SSE/AVX指令主要定义于以下一些头文件中：

: SSE, 支持同时对4个32位单精度浮点数的操作。
: SSE 2, 支持同时对2个64位双精度浮点数的操作。
: SSE 3, 支持对SIMD寄存器的水平操作(horizontal operation)，如hadd, hsub等…。
: SSSE 3, 增加了额外的instructions。
: SSE 4.1, 支持点乘以及更多的整形操作。
: SSE 4.2, 增加了额外的instructions。
: AVX, 支持同时操作8个单精度浮点数或4个双精度浮点数。

每一个头文件都包含了之前的所有头文件，所以引用immintrin.h即可使用SSE、AVX的内在函数

SSE/AVX命名规则

数据类型通常以_mxxx(T)的方式进行命名

xxx代表数据的位数:

SSE提供的__m128为128位

AVX提供的__m256为256位

T为类型:

若为单精度浮点型则省略

若为整形则为i，如__m128i

若为双精度浮点型则为d，如__m256d。

操作浮点数的内置函数命名方式为_mm(xxx)_name_PT

name为函数执行的操作的名字:

_mm_add_ps ,加法

_mm_sub_ps ,减法

P代表的是对矢量或者标量进行操作:

_mm_add_ss ,只对最低位的32位浮点数执行加法

_mm_add_ps ,对4个32位浮点数执行加法操作

T代表浮点数的类型:

_mm_add_pd, d则为双精度浮点

_mm_add_ps, s则为单精度浮点型

操作整形的内置函数命名方式为：_mm(xxx)_name_epUY

U为整数的类型:

_mm_adds_epu16 , u为无符号类型

_mm_adds_epi16 , i为有符号类型

Y为操作的数据类型的位数:

_mm_cvtpd_pi32

SSE/AVX操作类别

存取操作(load/store/set)

load系列可以用来从内存中载入数据到SSE/AVX提供的类型中
store系列可以将SSE/AVX提供的类型中的数据存储到内存中
set系列可以直接设置SSE/AVX提供的类型中的数据

算术运算(常用部分)

_mm_add_ps，_mm_add_ss等加法系列
_mm_sub_ps，_mm_sub_pd等减法系列
_mm_mul_ps，_mm_mul_epi32等乘法系列
_mm_div_ps，_mm_div_ss等除法系列
_mm_sqrt_pd，_mm_rsqrt_ps等开平方系列
_mm_rcp_ps，_mm_rcp_ss等求倒数系列
_mm_dp_pd，_mm_dp_ps计算点乘

比较运算(常用部分)

_mm_max_ps逐分量对比两个数据，并将较大的分量存储到返回类型的对应位置中。
_mm_min_ps逐分量对比两个数据，并将较小的分量存储到返回类型的对应位置中。
_mm_cmpeq_ps逐分量对比两个数据是否相等。
_mm_cmpge_ps逐分量对比一个数据是否大于等于另一个是否相等。
_mm_cmpgt_ps逐分量对比一个数据是否大于另一个是否相等。
_mm_cmple_ps逐分量对比一个数据是否小于等于另一个是否相等。
_mm_cmplt_ps逐分量对比一个数据是否小于另一个是否相等。
_mm_cmpneq_ps逐分量对比一个数据是否不等于另一个是否相等。
_mm_cmpnge_ps逐分量对比一个数据是否不大于等于另一个是否相等。
_mm_cmpngt_ps逐分量对比一个数据是否不大于另一个是否相等。
_mm_cmpnle_ps逐分量对比一个数据是否不小于等于另一个是否相等。
_mm_cmpnlt_ps逐分量对比一个数据是否不小于另一个是否相等。

逻辑运算(常用部分)

_mm_and_pd对两个数据逐分量and
_mm_andnot_ps先对第一个数进行not，然后再对两个数据进行逐分量and
_mm_or_pd对两个数据逐分量or
_mm_xor_ps对两个数据逐分量xor

实战

以下使用宏定义方式分别运行AVX、SSE指令集：

//Building :
//- AVX Pattern "clang demo.c -D AVX -mavx && ./a.out"
//- SSE Pattern "clang demo.c && ./a.out"
#include 
#include 
#include 

#define N 170 * 1024 * 1024
#define SEED 0x100

int main(){
#if defined(AVX)
	//AVX
	float* a = (float*) _mm_malloc(N * sizeof(float), 32);
	float* b = (float*) _mm_malloc(N * sizeof(float), 32);
	float* c = (float*) _mm_malloc(N * sizeof(float), 32);
#else
	//SSE
	float* a = (float*) _mm_malloc(N * sizeof(float), 16);
	float* b = (float*) _mm_malloc(N * sizeof(float), 16);
	float* c = (float*) _mm_malloc(N * sizeof(float), 16);
#endif

	srand(SEED);
	for (int i = 0; i < N; i++) {
		a[i] = b[i] = (float)(rand() % N);
	}

	struct timeval before, after;

	gettimeofday(&before, NULL);
	//====================begin times====================
	int i = 0;
#if defined(AVX)
	//AVX
	__m256 A,B,C; // 向量类型 __m256 = 8xfloat
	for (; i < (N & (~(unsigned)7)); i+=8) {
		A = _mm256_load_ps(&a[i]);  //256bit = 32byte 表示并行操作32byte数据
		B = _mm256_load_ps(&b[i]);
    //将压缩的单精度浮点值从对齐的内存位置移动到目标向量。对应的英特尔®avx指令为 VMOVAPS
		C = _mm256_mul_ps(A,B);
    //将浮点数与32个向量相乘。对应的英特尔®avx指令为 VMULPS
		_mm256_store_ps(&c[i],C);
    //将打包的单精度浮点值从float32向量移动到对齐的内存位置。相应的英特尔®AVX指令是VMOVAPS。  即__m256 C 移动到 c指针的位置
	}
#else
	//SSE
	__m128 A,B,C; // 向量类型 __m128 = 4xfloat
	for (; i < (N & (~(unsigned)3)); i+=4) {
		A = _mm_load_ps(&a[i]);
		B = _mm_load_ps(&b[i]);
		C = _mm_mul_ps(A,B);
		_mm_store_ps(&c[i],C);
	}
#endif
	//====================end times====================
	gettimeofday(&after, NULL);
	printf("%f, %f, %f, %f\n", c[0], c[1], c[N-2], c[N-1]);


  double msecs = 0.0;
	msecs = (after.tv_sec - before.tv_sec)*1000.0 + (after.tv_usec - before.tv_usec)/1000.0;
#if defined(AVX)
	printf("AVX pattern execution time = %2.3lf ms\n", msecs);
#else
	printf("SSE pattern execution time = %2.3lf ms\n", msecs);
#endif

	_mm_free(c);
	_mm_free(b);
	_mm_free(a);
	return 0;
}

运行结果：

$ clang demo.c && ./a.out                                    
SSE pattern execution time = 512.333 ms

$ clang demo.c -D AVX -mavx && ./a.out                       
AVX pattern execution time = 417.597 ms

汇编使用

go的数据操作模块

var a []byte
var b []byte
for i,_ := range a{
  if a[i] != b[i]
  	return false;
}

下图是使用 SIMD 技术优化汇编代码前后的对比图：

优化前代码详解

//func Equal(a, b []byte) bool
TEXT bytes·Equal(SB),NOSPLIT,$0-49
//---------数据加载------------
    // 将栈上数据取到寄存器中
    // 对数组长度进行比较，如果不相等直接返回0
    MOVD a_len+8(FP), R1        // 取数组a的长度
    MOVD b_len+32(FP), R3      // 取数组b的长度
    CMP R1, R3                         // 数组长度比较
    BNE notequal                      // 数组长度不同，跳到notequal
    MOVD a+0(FP), R0              // 将数组a的地址加载到通用寄存器R0中
    MOVD b+24(FP), R2            // 将数组b的地址加载到通用寄存器R2中
    ADD R0, R1                         // R1保存数组a末尾的地址
//-----------------------------
//--------数组循环比较操作-------
loop:
    CMP R0, R1                         // 判断是否到了数组a末尾
    BEQ equal                           // 如果已经到了末尾，说明之前都是相等的，跳转到标签equal
    MOVBU.P 1(R0), R4             // 从数组a中取一个byte加载到通用寄存器R4中
    MOVBU.P 1(R2), R5             // 从数组b中取一个byte加载到通用寄存器R5中
    CMP R4, R5                         // 比较寄存器R4、R5中的值
    BEQ loop                             // 相等则继续下一轮循环操作
//-----------------------------
//-------------不相等-----------
notequal:
    MOVB ZR, ret+48(FP)          // 数组不相等，返回0
    RET
//-----------------------------
//-------------相等-------------
equal:
    MOVD $1, R0                       // 数组相等，返回1
    MOVB R0, ret+48(FP)
    RET
//-----------------------------

优化后代码详解

// 函数的参数，此处是通过寄存器传递参数的
// 调用memeqbody的父函数已经将参数放入了如下寄存器中
// R0: 寄存器R0保存数组a的地址
// R1: 寄存器R1数组a的末尾地址
// R2: 寄存器R2保存数组b的地址
// R8: 寄存器R8存放比较的结果
TEXT runtime·memeqbody<>(SB),NOSPLIT,$0
//---------------数组长度判断-----------------
// 根据数组长度判断按照何种分块开始处理
    CMP    $1, R1
    BEQ    one
    CMP    $16, R1
    BLO    tail
    BIC    $0x3f, R1, R3
    CBZ    R3, chunk16
    ADD    R3, R0, R6

//------------处理长度为64 bytes的块-----------
// 按64 bytes为块循环处理
chunk64_loop:
// 加载RO,R2指向的数据块到SIMD向量寄存器中，并将RO,R2指针偏移64位
    VLD1.P (R0), [V0.D2, V1.D2, V2.D2, V3.D2]
    VLD1.P (R2), [V4.D2, V5.D2, V6.D2, V7.D2]
// 使用SIMD比较指令，一条指令比较128位，即16个bytes，结果存入V8-v11寄存器
    VCMEQ  V0.D2, V4.D2, V8.D2
    VCMEQ  V1.D2, V5.D2, V9.D2
    VCMEQ  V2.D2, V6.D2, V10.D2
    VCMEQ  V3.D2, V7.D2, V11.D2
// 通过SIMD与运算指令，合并比较结果，最终保存在寄存器V8中
    VAND   V8.B16, V9.B16, V8.B16
    VAND   V8.B16, V10.B16, V8.B16
    VAND   V8.B16, V11.B16, V8.B16
// 下面指令判断是否末尾还有64bytes大小的块可继续64bytes的循环处理
// 判断是否相等，不相等则直接跳到not_equal返回
    CMP    R0, R6                             // 比较指令，比较RO和R6的值，修改寄存器标志位，对应下面的BNE指令
    VMOV   V8.D[0], R4
    VMOV   V8.D[1], R5                   // 转移V8寄存器保存的结果数据到R4,R5寄存器
    CBZ    R4, not_equal
    CBZ    R5, not_equal                   // 跳转指令，若R4,R5寄存器的bit位出现0，表示不相等，跳转not_equal
    BNE    chunk64_loop                  // 标志位不等于0，对应上面RO!=R6则跳转chunk64_loop
    AND    $0x3f, R1, R1                   // 仅保存R1末尾的后6位，这里保存的是末尾不足64bytes块的大小
    CBZ    R1, equal                         // R1为0,跳转equal，否则向下顺序执行

...............................................
...............................................

//-----------循环处理长度为16 bytes的块------------
chunk16_loop:
    VLD1.P (R0), [V0.D2]
    VLD1.P (R2), [V1.D2]
    VCMEQ    V0.D2, V1.D2, V2.D2
    CMP R0, R6
    VMOV V2.D[0], R4
    VMOV V2.D[1], R5
    CBZ R4, not_equal
    CBZ R5, not_equal
    BNE chunk16_loop
    AND $0xf, R1, R1
    CBZ R1, equal
//-----处理数组末尾长度小于16、8、4、2 bytes的块-----
tail:
    TBZ $3, R1, lt_8
    MOVD.P 8(R0), R4
    MOVD.P 8(R2), R5
    CMP R4, R5
    BNE not_equal

lt_8:
    TBZ $2, R1, lt_4
    MOVWU.P 4(R0), R4
    MOVWU.P 4(R2), R5
    CMP R4, R5
    BNE not_equal

lt_4:
    TBZ $1, R1, lt_2
    MOVHU.P 2(R0), R4
    MOVHU.P 2(R2), R5
    CMP R4, R5
    BNE not_equal

lt_2:
    TBZ     $0, R1, equal

one:
    MOVBU (R0), R4
    MOVBU (R2), R5
    CMP R4, R5
    BNE not_equal
//-----------------判断相等返回1----------------
equal:
    MOVD $1, R0
    MOVB R0, (R8)
    RET
//----------------判断不相等返回0----------------
not_equal:
    MOVB ZR, (R8)
    RET

上述优化代码中:

使用 VLD1(数据加载指令)一次加载 64bytes 数据到 SIMD 寄存器
再使用 VCMEQ(相等比较指令)比较 SIMD 寄存器保存的数据内容得到结果

大于 16byte 小于 64byte 块数据，使用一个 SIMD 寄存器一次处理 16byte 块的数据

小于 16byte 数据块使用通用寄存器保存数据，一次比较 8\4\2\1byte 的数据块

引用文章

https://juejin.cn/post/7091571543239000078

https://xie.infoq.cn/article/9354c2496e3652fd6560aa074

https://zhuanlan.zhihu.com/p/55327037

https://www.eet-china.com/mp/a71752.html

嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
iOS应用性能优化指南
在移动应用开发领域，iOS应用性能优化一直是开发者关注的焦点。优化应用性能不仅能够提升用户体验，还能增强应用的竞争力。本文将从多个方面详细阐述iOS应用性能优化指南，帮助开发者打造更高效、更流畅的应用。优化内存管理内存泄漏的预防与检测内存泄漏是导致应用性能下降的常见问题。开发者应遵循ARC（自动引用计数）原则，合理管理对象的引用关系。同时，可以使用Xcode的Instruments工具检测内存泄漏
资深开发者挖掘创作潜能指南
太棒了！码龄超过4年的开发者们，你们早已不是编程新手，而是积累了宝贵经验、踩过无数坑、解决过复杂问题的宝藏创作者！是时候将这些无形的资产转化为有影响力的内容，点亮他人也成就自己了。挖掘创作潜能、展现写作才华，可以从以下几个维度入手：一、重新认识你的“创作金矿”-找到你的独特价值深度复盘你的技术旅程：“踩坑”与“填坑”史：哪些Bug让你彻夜难眠？哪些架构设计让你拍案叫绝或后悔不已？哪些性能优化带来了
操作系统级TCP性能优化：高并发场景下的内核参数调优实践 Edingbrugh.南空运维 tcp/ip 性能优化网络协议
在高并发网络场景中，操作系统内核的TCP/IP协议栈配置对系统性能起着决定性作用。本文聚焦操作系统层面，深入解析内核参数调优策略，帮助读者构建稳定高效的网络通信架构。一、连接管理参数优化：从三次握手到队列控制1.1监听队列与半连接管理1.1.1net.core.somaxconn-监听套接字队列上限作用：定义listen()系统调用的积压连接队列最大值，控制未接受连接的排队长度。默认值：128（L
如何从性能菜鸟变性能大咖之------jvm 内存颜挺锐 jvm 性能测试压力测试性能优化
理解JVM（Java虚拟机）内存的性能优化，需要从JVM内存模型、垃圾回收机制、以及如何通过参数调优来提高应用程序的性能等方面入手。以下是对JVM内存性能优化的详细解读：一、JVM内存模型JVM内存模型主要包括以下几个区域：堆内存（Heap）：堆内存是JVM管理的最大一块内存空间，用于存放对象实例和数组。堆内存分为年轻代（YoungGeneration）和老年代（OldGeneration）。年轻
【译】2018 前端性能优化清单 —— 第一部分 qq_36320160 前端前端
原文地址：Front-EndPerformanceChecklist2018-Part1原文作者：VitalyFriedman译文出自：掘金翻译计划本文永久链接：https://github.com/xitu/gold-miner/blob/master/TODO/front-end-performance-checklist-2018-1.md译者：tvChan校对者：mysterytonyry
从卡顿到丝滑：uni-app房产App性能优化实践儿歌八万首 uniapp uni-app 性能优化
1.性能优化概述在移动互联网时代，用户对应用性能的要求越来越高。据统计，如果一个应用的启动时间超过3秒，将有53%的用户选择放弃使用。对于房产行业的移动应用来说，性能优化更是至关重要，因为它直接影响到用户的看房体验和决策效率。房产应用的独特挑战房产应用相比其他类型的应用，面临着更多的性能挑战：数据量大：房源、客户、跟进记录等海量数据需要高效处理和展示图片密集：房源图片、户型图、实景照片等大量高清图
【Python办公】Excel透视转数据图表(饼状图\柱状图\折线图-可拓展) 小庄-Python办公 Python办公自动化 python excel 开发语言 Excel透视 Excel透视工具 python数据分析数据分析
目录专栏导读前言项目概述技术栈选择核心依赖库核心架构设计类结构设计数据流设计界面设计实现布局结构动态界面更新核心功能实现1.透视表计算2.数据排序功能3.数据可视化4.数据统计功能错误处理和用户体验输入验证异常处理项目亮点和创新点1.灵活的多列组合2.智能数据类型处理3.一体化的数据处理流程4.用户友好的界面设计使用场景扩展建议功能扩展性能优化总结完整代码结尾专栏导读欢迎来到Python办公自动化
UnrealEngine5游戏引擎实践（C++) KENYCHEN奉孝 C++服务器 c++游戏引擎
目录目录目录UnrealEngine是什么？UnrealEngine5简介核心技术特性应用场景扩展兼容性与生态系统UnrealEngine安装下载EpicGamesLauncher启动UnrealEngine选择安装版本和路径选择组件开始安装验证安装配置项目模板（可选）更新和插件管理UE游戏引擎动作捕捉与动画系统程序化生成与AI技术物理与破坏系统音频与本地化技术性能优化导入静态网格体材质实例创建与
前端开发常见问题
技术文章大纲性能优化问题页面加载速度慢的常见原因及解决方案渲染阻塞资源的处理方法图片与媒体文件优化策略懒加载与代码分割的实现方式浏览器兼容性问题不同浏览器对CSS特性的支持差异JavaScriptAPI的兼容性处理方案Polyfill的使用场景与实现方法自动化测试工具在兼容性测试中的应用响应式设计挑战移动端与桌面端布局适配问题媒体查询的最佳实践方案视口单位与相对单位的正确使用高DPI屏幕的图像处理
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
【网络】Linux 内核优化实战 - net.ipv4.tcp_fin_timeout Linux性能优化原理和实战网络 linux tcp/ip
目录1.TCP连接关闭过程与FIN_WAIT_2状态2.参数作用3.参数取值与影响4.使用场景与建议5.相关参数6.如何配置该参数临时生效（重启后失效）：永久生效（需重启或重载配置）：7.性能优化建议8.监控与故障排查net.ipv4.tcp_fin_timeout是Linux内核中的一个TCP参数，用于控制TCP连接在FIN_WAIT_2状态下的超时时间。以下是对该参数的详细解析：1.TCP连接
【网络】Linux 内核优化实战 - net.ipv4.tcp_max_orphans 锅锅来了 Linux性能优化原理和实战网络 linux tcp/ip
目录1.什么是“孤立TCP连接”？2.参数作用3.参数取值与含义4.使用场景与建议5.相关参数6.如何配置该参数临时生效（重启后失效）：永久生效（需重启或重载配置）：7.性能优化建议8.监控与故障排查net.ipv4.tcp_max_orphans是Linux内核中的一个TCP参数，用于控制系统中孤立（orphaned）TCP连接的最大数量。以下是对该参数的详细解析：1.什么是“孤立TCP连接”？
Maven 构建性能优化深度剖析：原理、策略与实践越重天 Java Maven实战 maven 性能优化 java
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
【常见滤波器】PCL 模型滤波器
PCL模型滤波器-几何模型驱动的点云处理技术目录模型滤波器核心概念⚙️PCL模型滤波器架构基础模型滤波器实践高级模型滤波技术模型拟合精度优化️工业应用案例调试与可视化⚡️性能优化策略模型滤波器核心概念模型滤波的本质模型滤波器通过拟合几何模型并评估点云与模型的贴合度，实现对点云的过滤和处理。不同于基础的空间滤波器，模型滤波器能够识别并利用点云的底层几何结构信息。在阈值内超出阈值输入点云模型识别与拟合
Java 与 MySQL 性能优化：MySQL连接池参数优化与性能提升程序员岳彬 Java 与 MySQL 性能优化 mysql 数据库性能优化服务器后端 java
文章目录引言一、连接池的基本概念与作用二、关键连接参数详解2.1max_connections2.2wait_timeout2.3interactive_timeout2.4connect_timeout2.5thread_cache_size三、连接池参数不合理导致的性能问题3.1连接耗尽3.2响应变慢3.3连接失效3.4资源浪费四、连接池参数优化方法与策略4.1max_connections的
MySQL之查询性能优化(二) coffee_babe MySQL mysql 性能优化数据库查询优化 java
查询性能优化慢查询基础:优化数据访问查询性能低下最基本的原因是访问的数据太多。某些查询可能不可避免地需要筛选大量数据，但这并不场景。大部分性能低下的查询都可以通过减少访问的数据量的方式进行优化。对于低效的查询，我们发现通过下面两个步骤来分析总是很有效:1.确认应用程序是否在检索大量超过需要的数据。这通常意味着访问了太多的行，但有时候也可能是访问了太多的列2.确认MySQL服务器是否在分析大量超过需
HarmonyOS 中状态管理 V2和 V1 的区别
鸿蒙ArkUI框架中的ComponentV2与V1在状态管理、组件开发模式、性能优化等方面存在显著差异。以下是两者的核心区别及技术解析：一、状态管理机制V1的局限性V1的@Observed装饰器只能观察对象的第一层属性变化，需配合@ObjectLink手动拆解嵌套对象。例如：@ObservedclassAddress{city:string}@ObservedclassUser{address:A
Redis 性能优化实战：管道、事务、缓存与连接管理全解析佑瞻数据库与知识图谱缓存 redis 性能优化
在日常开发中，我们常常会遇到Redis操作的性能瓶颈：频繁的命令交互导致网络开销激增，并发更新时的数据一致性难以保证，海量数据遍历引发的阻塞问题……其实，Redis早已为这些场景准备了“利器”。今天我们就深入探讨Redis的管道、事务、扫描迭代、客户端缓存以及连接管理技巧，用实战代码带你玩转性能优化。一、管道（Pipelines）：批量执行命令，减少网络往返当我们需要连续执行多个Redis命令时，
MyBatis动态SQL进阶：复杂查询与性能优化实战
引言在复杂业务场景中，SQL查询往往需要动态拼接条件、复用代码片段，并支持批量操作。MyBatis的动态SQL功能提供了强大的解决方案，本文将深入解析条件分支、片段复用、批量操作优化等核心技巧，助你写出高效、可维护的SQL映射。一、条件分支：choose/when/otherwise标签1.1场景说明假设需要实现一个商品查询接口，支持以下条件组合：按名称模糊查询按价格区间查询按状态精确查询若无条件
异步技术：Web 性能优化的核心引擎 weixin_47233946 编程前端性能优化
异步技术：Web性能优化的核心引擎引言：当「等待」成为性能瓶颈当用户访问一个传统同步加载的新闻门户网站时，主线程在解析到时突然停止渲染，页面停留在白屏状态长达2秒——这正是GoogleLighthouse性能检测中常见的"BlockingTime"警告。这种阻塞式加载方式正是现代Web性能优化需要解决的痛点。一、异步的本质与技术演进1.1从同步到异步的范式转换同步加载如同单行道依次通行的汽车，每个
前端领域的前端设计模式技巧分享前端视界前端艺匠馆前端设计模式状态模式 ai
前端领域的前端设计模式技巧分享关键词：前端设计模式、组件化开发、状态管理、性能优化、代码复用、可维护性、响应式设计摘要：本文深入探讨前端开发中的设计模式应用技巧，从基础概念到高级实践，全面解析如何通过设计模式提升前端代码质量。文章将详细介绍常见的前端设计模式如观察者模式、单例模式、工厂模式等，并结合React、Vue等现代框架展示实际应用场景。同时，我们还将探讨设计模式在状态管理、性能优化和组件复
Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码? javastart aigc 大模型人工智能 transformer AIGC 性能优化
原文：Transformer推理性能优化技术很重要的一个就是KVcache，能否通俗分析，可以结合代码?-知乎为什么要研究KVcache？设输入序列的长度为s，输出序列的长度为n，模型深度为l，维度为h,以FP16来保存KVcache，那么KVcache的峰值显存占用大小为b(s+n)h∗l∗2∗2=4blh(s+n)。这里第一个2表示K/Vcache，第二个2表示FP16占2个bytes。以GP
Python（29）Python生成器函数深度解析：asyncio事件循环的底层实现与异步编程实战一个天蝎座白勺程序猿 python 开发语言
目录引言一、生成器与异步编程的渊源1.1技术背景与发展1.2关键结合点：协程概念1.3实际应用演进1.4底层实现原理1.5生成器的基础特性代码1.6协程的进化之路代码二、asyncio事件循环深度解析2.1事件循环架构2.2生成器调度流程三、高级特性实现3.1生成器双向通信3.2异常处理机制四、性能优化实战4.1内存管理对比4.2执行时间优化技巧五、实践建议5.1代码组织规范5.2调试技巧六、总结
构建高效的jQuery地理选择器组件 Kiki-2189
本文还有配套的精品资源，点击获取简介：本项目展示了如何利用jQuery构建一个在网页中常用的二级和三级城市选择器。这种选择器对于地理位置选择场景尤为重要，例如在线购物和预订服务。组件通过动态DOM操作、JSON数据结构、事件绑定、异步数据加载、插件化、样式美化、响应式设计、性能优化和无障碍访问等技术点，提供了一个高效、易用和适应性强的用户体验。同时，还需注意代码的兼容性、错误处理和全面的测试。1.
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置