dahan_wangtao

GCC中SIMD指令的应用方法

Abstract:

X86架构上的多媒体应用开发，如果能够使用SIMD指令进行优化，性能将大大提高。目前，IA-32的SIMD指令包括MMX，SSE，SSE2等几级。在GCC的开发环境中，有几种使用SIMD指令的方式，本文逐一介绍。

Keywords: 优化，GCC, SIMD，MMX，SSE

X86的SIMD指令 ...simd instrucitons in X86

IA-32 Intel体系结构的指令主要分为以下几类 [ 1]：

通用
x87 FPU
MMX技术
SSE/SSE2/SSE3扩展

MMX/SSE类扩展引入了SIMD（单指令多数据）的执行模式，可用于加速多媒体应用。下面简要介绍一下这些指令的执行环境和特征。

8个32位通用寄存器可为各个SIMD扩展所使用；
MMX：8个64位MMX寄存器（mm0 - mm7），也可为各SSE扩展所使用；
- 数据为整数，最多支持两个32位
- 运算中没有寄存器能够进行溢出指示
SSE：8个128位xmm寄存器，MXSCR寄存器，EFLAGS寄存器
- 支持单精度浮点
- MXSCR含有rounding, overflow标志
- 支持64位SIMD整数
SSE2：执行环境同sse
- 双精度浮点
- 128位整数
- 双—单精度转换
SSE3：与Inte Prescott处理器一同发布不久，共13条指令
- 主要增强了视频解码、3D图形优化和超线程性能

MMX技术出现最早，目前几乎所有的X86处理器都提供支持，包括嵌入式X86，所以下面的讨论主要基于MMX，但方法完全适用于SSEn，包括像AMD的3D Now等其它SIMD扩展。

MMX指令又分为以下几种：

数据传送：movd, movq
数据转换：packsswb, packssdw, packuswb, punpckhbw, punpckhwd, punpckhdq, punpcklbw, punpcklwd, punpckldq
并行算术：paddb, paddw, paddd, paddsb, paddsw, paddusb, paddusw, psubb, psubw, psubd, psubsb, psubsw, psubusb, psubusb, psubusw, pmulhw, pmullw, pmaddwd
并行比较：pcmpeqb, pcmpeqw, pcmpeqd, pcmpgtb, pcmpgtw, pcmpgtd
并行逻辑：pand, pandn, por, pxor
移位与旋转：psllw, pslld, psllq, psrlw, psrld, psrlq, psraw, psrad
状态管理：emms

这些指令除了需要注意功能外，还需要注意处理的数据类型。以上内容为背景介绍，细节请参考手册。

性能优化 ...Performance Optimization

当使用C/C++完成了一个嵌入式应用的所有功能，性能问题常摆在面前，这时可以使用profile工具(如gprof)找出产生瓶颈的函数，将这些函数使用汇编彻底重写，例如MPEG-4编解码器xvid项目 [4]就使用了这种方法，而且针对不同处理器／指令集分别给出了不同的优化，正是如此该项目无论功能、还是性能均为一流，显然这是深度优化的目标所在。

在使用流水线、VLIW以及SIMD的体系结构（比如某些DSP）上，整个函数的手工优化可以带来几倍到几十倍的性能提升。不过，性能允许，对于函数内关键部分使用一些特定的实现，既突出重点提高性能，又可以尽多地利用C/C++的高级特征，相对缩短开发周期。下面给出使用GCC时，应用MMX指令的几种混合编程方法：

Intel C/C++ 编译器intrinsics
GCC builtin操作
嵌入汇编asm construct

Intel C/C++ 编译器intrinsics ...Intel C/C++ Compiler Intrinsics

查看IA-32 Intel指令集手册 [ 2]时，部分指令的解释中会有一项“Intel C/C++ Compiler Intrinsic Equivalent”，会指出该指令对等的intrinsic。 intrinsic在C/C++程序中的语法是以函数形式出现，编译时可以直接翻译为一条MMX指令（复合情况会生成最直接的几条），换言之，如果不使用intrinsic，可能需要多条C/C++语句完成，而编译器却并不能保证将这几条语句能够生成这条最高效的MMX指令。并不是每条MMX指令都有对等的intrinsic，手册的附录中列出了所有的，它们分为简单型（simple）和复合型（composite）两种，每个简单型的就是对应一条指令，而复合型则对应多条指令。

GCC支持Intel C/C++ Compiler Intrinsics。用法如下示例：

      #include <stdio.h>
      #include <xmmintrin.h> /*一定需要包括此头文件*/

      /*gcc -Wall -march=pentium4 -mmmx -o ins  mmx_ins.c*/

      int main(int argc,char *argv[])
      { 
        /*使用MMX做以下向量的点积*/
        short in1[] = {1, 2, 3, 4};
        short in2[] = {2, 3, 4, 5};
        int out1;
        int out2;

        __m64 m1;    /* MMX支持64位整数的mm寄存器 */
        __m64 m2;    /* MMX操作需要使用mm寄存器 */
        __m128 m128; /* for SSEn only*/

        /*每次往mm寄存器装入两个short型的数，注意是两个*/
        m1 = _mm_cvtsi32_si64(((int*)in1)[0]);
        m2 = _mm_cvtsi32_si64(((int*)in2)[0]); 

        /*一条指令进行4个16位整数的乘加*/
        /*生成两个32位整数*/
        m2  = _mm_madd_pi16(m1, m2); 

        /*将低32位整数放入通用寄存器*/
        out1 =  _mm_cvtsi64_si32(m2);

        /*将高32位整数右移后，放入通用寄存器*/
        m2  = _mm_slli_pi32(m2, 32);
        out2 =  _mm_cvtsi64_si32(m2);

        /*清除MMX状态*/
        _mm_empty();

        /*将两个32位数相加，结果为8*/
        out1 += out2;
        printf("a: %d/n", out1);

        return(0);
      }

几点说明：

即使你不是P4平台，编译时也请使用以下选项，

        /*gcc -Wall -march=pentium4 -mmmx -o ins  mmx_ins.c*/

否则，会出现如下类似信息：

        ...xmmintrin.h:34:3: #error "SSE instruction set not enabled"

最终结果实际并没有求得四对乘积的和，只是前两对的， instrinsic _mm_cvtsi32_si64只向mm寄存器放入了低32位，高32位为零，但mmx有指令movq可以做到64位的数据传送，intrinsic没有对应，这也说明并不是所有的指令有等价的intrinsic。
当计算的向量为两对0x8000, 0x8000时，即 (-2¹⁵)*(-2¹⁵) + (-2¹⁵)*(-2¹⁵)，结果应该为2³¹，但计算出来的值是-2³¹，因为发生了溢出，可程序无从知道。这是使用MMX时，应特别注意的，计算溢出没有任何标志位指示，一个极大的值变为极小，SSE对此做了改善。
程序不再使用MMX之时，注意使用emms指令清除MMX状态。

使用built-in操作 ...GCC built-in Operation

什么是built-in操作？就是对待MMX操作数，就如int, float等基本数据类型一般，有相应定义的操作，如加(+)、减(-)，或者数据类型之间的转换。详细内容参考GNU GCC Manual [ 5] Extensions to the C Language Family ->Built-in Functions -> X86 Built-in Functions一节。

一些MMX指令有其相应的built-in操作，下面一段代码为例：

      include <stdio.h>
      /*无需特别的头文件，built-in嘛*/

      /* gcc -Wall  -o bins  builtinmmx.c*/

      /*定义了一个vector数据类型，hi表示16位，4表示4个*/
      typedef int v4hi __attribute__ ((mode(V4HI)));

      /*定义了2个32位的vector类型，si表示32位*/
      typedef int v2si __attribute__ ((mode(V2SI)));

      int main(int argc,char *argv[])
      { 
        short pa[4] = {0x8000, 0x8000, 1, -1};
        short pb[4] = {0x8000, 0x7FFF, -1, -2};
        
        v4hi va, vb;
        v4hi vsum;
        
        va = ((v4hi*)pa)[0];
        vb = ((v4hi*)pb)[0];
        
        /* 4个16位进行饱和加 */
        //vsum = __builtin_ia32_paddsw(va, vb);

        /* 4个16位还可以直接进行加法，但不同于两个long long相加 */
        vsum =  va + vb;
        
        /*vector的输出还需要强制转换为long long*/
        printf("...with MMX instructions...to compute vec_add: %llx /n", (long long)vsum);
        
        //结果1：0xfffd0000ffff8000
        //结果2：0xfffd0000ffff0000
        
        return(0);
      }

几点说明：

是的，这里built-in vector及其操作，随着GCC的发展正在加强。如果需要使用以上范例，应使用GCC 3.4以上版本；
使用builtin函数时，与intrinsic相似；但本质却是不同，这里两个向量使用‘+’操作就说明了vector也如其它数据类型一样，编译器直接支持，只不过这里的加法就是指四个单元数分别相加，低位单元的进位不会影响相邻高位单元的数据；
vector还可以强制转换为通用数据。

嵌入汇编 ...Inline asm

GCC一开始就允许C代码中嵌入asm指令，并不只是针对MMX指令，不过对于MMX技术，显然也是一个很好的利用方法，详细的语法请参考GNU GCC手册 [ 5]，或者GCC: The Complete Reference [ 6]''Inline Assembly''一节。

如下是一个点积的例子：

      #include <stdio.h>

      /** GCC -o ins  inlinemmx.c **/

      int main(int argc,char *argv[])
      { 
        int i;
        int result;
        short a[] = {1, 2, 3, 4, 5, 6, 7, 8};
        short b[] = {1, 1, 1, 1, 1, 1, 1, 1};

        printf("...with MMX instructions.../n");
        
        /*首先，将点积合累积寄存器清零，实际缺省就为0？*/
        asm("pandn %%mm5,%%mm5;"::);

        /*读入a, b，每四对数相乘后分两组相加，形成两组和*/
        /*这里的循环控制是C在做*/
        for(i = 0; i < sizeof(a)/sizeof(short); i += 4){
          asm("movq %0,%%mm0;/
          movq %1,%%mm1;/
          pmaddwd %%mm1,%%mm0;/
          paddd %%mm0,%%mm5; #相乘后相加 "
          :
          : "m" (a[i]), "m" (b[i]));
        }

        /*将两组和分离，并相加*/
        asm("movq %%mm5, %%mm0;/
        psrlq $32,%%mm5;/
        paddd %%mm0, %%mm5;/
        movd %%mm5,%0;/
        emms"
        :"=r" (result)
        :);

        printf("result: 0x%x/n", result);
        //这里结果为0x24

        return(0);
      }

几点说明：

这里是典型的在函数中C和汇编混合编程；
注意汇编指令中操作数的顺序；
这里可以直接使用movq等没有intrinsics/built-in对应的指令；
注意在asm指令序列中间不要加杂注释，可能导致生成的代码不正确。

MMX实用一例：合成滤波器 ...Synthesis Filter in X86 SIMD INSTRUCTIONS

下面是合成滤波器(Synthesis Filter)的一个优化过程，合成滤波器在语音编解码中有广泛应用，运行时也占用了整个算法中较高比例的时间。

      for (i = 0; i < lg; i++)
      {
        s = L_mult(x[i], a[0]);/*L_mult是相乘后左移*/
        for (j = 1; j <= M; j++){/*M这里固定为10*/
          s = L_msu(s, a[j], yy[-j]);/*L_msu是乘减后左移操作*/
        }
	
        s = L_shl(s, 3); /*左移三位*/
        *yy++ = g729round(s);
      }
      #endif

上面的代码，因为内存循环为10，可以考虑展开，并统一操作为乘加指令。

      /*为了使用乘加操作，需要调整10个系数的顺序*/
      for(i = 0; i < M; i++)
        ta[i] = -a[M - i];

      ta[11] = 0;
      ta[10] = a[0];

      for (i = 0; i < lg; i++){
        *yy = x[i];
        yy[1] = 0;

        s = L_mac(s, ta[11], yy[1]);
        s = L_mac(s, ta[10], yy[0]);
        s = L_mac(s, ta[9], yy[-1]);
        s = L_mac(s, ta[8], yy[-2]);
        s = L_mac(s, ta[7], yy[-3]);
        s = L_mac(s, ta[6], yy[-4]);
        s = L_mac(s, ta[5], yy[-5]);
        s = L_mac(s, ta[4], yy[-6]);
        s = L_mac(s, ta[3], yy[-7]);
        s = L_mac(s, ta[2], yy[-8]);
        s = L_mac(s, ta[1], yy[-9]);
        s = L_mac(s, ta[0], yy[-10]);
        
        s = L_shl(s, 3);
        *yy++ = g729round(s);
      }

以上循环内核正好可以将MMX的8个寄存器全部利用。

      /*为了使用乘加操作，需要调整10个系数的顺序*/
      for(i = 0; i < M; i++)
        ta[i] = -a[M - i];

      ta[11] = 0;
      ta[10] = a[0];

      /*11个系数分别放入3个MMX寄存器，0作填充*/
      asm("movq %0,%%mm0;/
      movq %1,%%mm1;/
      movq %2,%%mm2"/
      :/
      : "m" (ta[0]), "m" (ta[4]), "m"(ta[8]));
      
      /*利用MMX技术进行滤波器核心操作*/
      for (i = 0; i < lg; i++){
        *yy = x[i];
        yy[1] = 0;

        asm("pandn %%mm6,%%mm6;/
        movq %1,%%mm3;/
        movq %2,%%mm4;/
        movq %3,%%mm5;/
        pmaddwd %%mm0,%%mm3;/
        pmaddwd %%mm1,%%mm4;/
        pmaddwd %%mm2,%%mm5;/
        paddd %%mm3, %%mm6;/
        paddd %%mm4, %%mm6;/
        paddd %%mm5, %%mm6;/
        movq  %%mm6, %%mm7;/
        psrlq $32, %%mm6;/
        paddd %%mm7, %%mm6;/
        movd %%mm6,%0;/
        emms"
        :
        :"r"(s), "m" (yy[-10]), "m" (yy[-6]), "m"(yy[-2]));

	/*因为指令结果饱和属性的限制，s还没有左移，所以下面多做一位饱和左移*/
        s = L_shl(s, 4);
        *yy++ = g729round(s);
      }

几点说明：

注意：以上嵌入的汇编代码输出结果s放在了输入处，属于实践中的个案；
MMX没有乘左移之类的DSP指令，甚至还没有加饱和之类的操作，SSE中有一定增强；
以上操作，理论上存在溢出可能，所以最后使用原有的饱和左移操作，减少了一定风险；
上面的部分代码操作显然允许并行，这在VLIW系统中十分有用；
这已经形成了该滤波器全面优化的核心。

总结 ...Conclusion

如果愿意尽多地利用SIMD技术，可能需要更多地使用汇编级的编码，不过也有一些高级语言和汇编的混合编程技术能够帮助你，它们有的提高性能更大一些，有的形式上更优雅些，本质上效率也不错，都不失好的方法，建议尝试。

正是如此，一方面CPU上支持越来越多的SIMD指令集扩展，另一方面GCC也正在加紧支持这些扩展的易用，对，正在，碰到一些问题，先想办法绕过去，这里使用GCC 3.4.1，根据经验效果还是不错的。

Bibliography

1: Intel: IA-32 Intel Architechture Software Developer's Manual, Volume 1: Basic Architecture(2002)
2: Intel: IA-32 Intel Architechture Software Developer's Manual, Volume 2: Instruction Set Reference(2003)
3: Intel: IA-32 Intel Architechture Software Developer's Manual, Volume 3: System Programming Guide(2003)
4: XviD.org， http://www.xvid.org/(up-to-date)
5: GNU, GCC online documentation, http://www.gnu.org/software/GCC/onlinedocs/(up-to-date)
6: Authur Griffith, GCC: The Complete Referencea, McGraw Hill(2002)

About this document ...

GCC中SIMD指令的应用方法

This document was generated using the LaTeX2HTML translator Version 2002 (1.62)

【HarmonyOS Next】鸿蒙监听手机按键 GeorgeGcs HarmonyOS 解决方案 OpenHarmony知识体系 harmonyos 华为 onKeyEvent 按键监听事件按下鸿蒙
【HarmonyOSNext】鸿蒙监听手机按键一、前言应用开发中我们会遇到监听用户实体按键，或者扩展按键的需求。亦或者是在某些场景下，禁止用户按下某些按键的业务需求。这两种需求，鸿蒙都提供了对应的监听事件进行处理。onKeyEvent默认的按钮监听事件onKeyPreIme这是优先级最高的监听回调，别上面多了一个return开关，用于告诉系统监听事件是否再向下传递。窗口是第一级接收按钮事件的实体。
【vue】Mammoth.js的使用：将.docx转换成HTML 暴富暴富暴富啦啦啦 1024程序员节
mammoth.convertToHtml(input,options）：把源文档转换为HTML文档mammoth.convertToMarkdown(input,options)：把源文档转换为Markdown文档。mammoth.extractRawText(input)：提取文档的原始文本。这将忽略文档中的所有格式。每个段落后跟两个换行符。npminstallelement-uimammot
麒麟v10安装mysql5.7（ARM架构） qqxinxi arm开发
下载路径：华为云镜像麒麟v10是潮流时代的新时髦的linux操作系统，但随着ARM架构流行，出现了一些卡点，不以为然，没当回事的大吃一惊。经常卡住。例如:在安装mysql5.7（ARM架构）最简单：使用rpmmysql-5.7.27.1.el7.aarch64.rpm文件比较小下载完之后rpm-ivhmysql-5.7.27.1.el7.aarch64.rpm比较简单常用的方法，再不能连接互联网时
YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
分布式数据库解析 qcidyu 文章归档数据分片高可用架构云数据库共识算法全球一致性分布式事务 CAP定理
title:分布式数据库解析date:2025/2/20updated:2025/2/20author:cmdragonexcerpt:通过金融交易、社交平台、物联网等9大真实场景，结合GoogleSpanner跨洲事务、DynamoDB毫秒级扩展等38个生产级案例，揭示分布式数据库的核心原理与工程实践。内容涵盖CAP定理的动态权衡策略、Paxos/Raft协议的工程实现差异、TrueTime时钟
五大常考SQL面试题 Begin to change MySQL sql 面试
目录一、找出连续7天登陆，连续30天登陆的用户（小红书笔试，电信云面试），最大连续登陆天数的问题--窗口函数二、求连续点击三次的用户数，而且中间不能有别人的点击三、计算除去部门最高工资，和最低工资的平均工资（字节跳动面试）--窗口函数四、留存的计算，和累计求和的计算--窗口函数，自联结（pdd面试）一、找出连续7天登陆，连续30天登陆的用户（小红书笔试，电信云面试），最大连续登陆天数的问题--窗口
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
RealtimeSTT：实时语音转文本的开源神器，轻松实现高效语音处理 AI云极【开源系列】语音识别开源
在语音技术飞速发展的时代，实时语音转文本（Speech-to-Text，简称STT）技术已逐渐成为语音助手、在线会议记录、字幕生成等应用的核心功能。今天要为大家推荐的是一款开源的实时语音转文本工具——RealtimeSTT，它功能强大且易于集成，为开发者提供了快速构建实时语音处理应用的能力。项目地址：GitHub-RealtimeSTT一、什么是RealtimeSTT？RealtimeSTT是一款
java竞赛优化输入输出效率 px不是xp 蓝桥准备 java 开发语言
在编程竞赛中，输入输出效率至关重要。Java的`Scanner`和`System.out.println`虽然简单，但在处理大规模数据时会严重拖慢速度。以下是**竞赛专用输入输出模板**及其原理详解，助你轻松应对高频I/O场景。---###⚡竞赛级输入输出模板（Java）importjava.io.*;importjava.util.*;publicclassMain{ publicstatic
快速复制A库表数据前10000行到B库 musk1212 数据库 sql mysql
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录应用场景一、存储过程，快速复制A库表数据前10000行到B库二、使用优化点说明结构优化性能调整错误处理增强安全改进调用示例应用场景表结构可预先存在或不存在mysql5.7快速复制A库表数据前10000行到B库一、存储过程，快速复制A库表数据前10000行到B库/*设置自定义分隔符以处理存储过程中的分号*/DELIMITER$$
十大排序算法 myprogramc 排序算法算法数据结构
排序算法插入排序冒泡排序选择排序希尔排序计数排序快速排序1经典Lomuto分区法2经典Lomuto分区法3随机快排堆排序归并排序桶排序基数排序插入排序从i=1开始，判断nums[i-1]和nums[i]的大小，一直到nums[i]插入到自己的位置。模拟抓扑克牌的过程：将元素插入到已排序的部分，使其有序voidinsertionSort(vector&nums){for(inti=1;i=0&&nu
4070与3070ti显卡性能对比：哪款更适合您的需求？ mmoo_python windows
4070与3070ti显卡性能对比：哪款更适合您的需求？在高性能显卡市场中，4070和3070ti无疑是两款备受瞩目的产品。它们专为那些对游戏或其他图形密集型任务有高要求的用户而设计，提供了卓越的性能和体验。然而，尽管这两款显卡都拥有强大的性能，但它们在某些方面仍有所不同。本文将详细对比4070和3070ti显卡，以帮助您根据自己的需求做出明智的选择。一、性能对比：3070ti略胜一筹首先，我们来
TK群发器：提升TikTok营销效率的智能工具 @ V:ZwaitY09 矩阵 tiktok
随着短视频平台TikTok的快速发展，许多企业和内容创作者都将其作为重要的营销渠道。但随着平台的竞争加剧，如何高效管理多个账号、提升曝光度和互动率，成为了营销者的一大挑战。为了解决这一问题，TK群发器应运而生。它通过智能化的操作方式，帮助用户精准高效地进行多账号管理和内容群发，极大提高了营销效率。TK群发器的主要功能：多账号精准群发：TK群发器支持同时管理多个TikTok账号，用户可以通过该工具实
HarmonyOS进程通信及原理拥有一颗学徒的心 HarmonyOS harmonyos 华为鸿蒙信息与通信分布式
大家好，我是学徒小z，最近在研究鸿蒙中一些偏底层原理的内容，今天分析进程通信给大家，请用餐文章目录进程间通信1.通过公共事件（@ohos.commonEventManager）公共事件的底层原理2.IPCKit能力LiteIPC的归属与特点1.所属内核2.核心思想3.公共事件子系统鸿蒙内核小知识进程间通信1.通过公共事件（@ohos.commonEventManager）公共事件的底层原理公共事件
深入了解 CDN：概念、原理、过程、作用及工作场景羊村懒哥网络网络加速缓存
目录一、CDN的概念二、CDN的工作原理三、CDN的工作过程四、CDN的作用五、CDN可结合使用的技术六、CDN能够解决的网络问题七、CDN的工作场景在当今互联网飞速发展的时代，用户对于网页加载速度和内容获取的时效性要求越来越高。CDN（ContentDeliveryNetwork，⭐内容分发网络）应运而生，它在提升网络性能和用户体验方面发挥着关键作用。本文将详细介绍CDN的概念、工作原理、工作过
OpenLayers总结3 Super毛毛穗 WebGIS开发 OpenLayers GIS WebGIS
一、静态测距1.原理静态测距主要是针对地图上已有的矢量要素（如线要素），利用OpenLayers提供的几何计算函数来获取其长度。在实际操作中，先加载包含几何要素的GeoJSON数据到矢量图层，当鼠标指针移动到要素上时，获取该要素的几何信息，再调用getLength函数计算其长度。2.代码实现步骤及注释//引入必要的模块importVectorLayerfrom"ol/layer/Vector.js
产品架构图怎么画？看这篇就够了！小天才学习机打游戏 caffe 人工智能深度学习 AI编程金融 prompt 机器学习
1.什么是产品架构图?产品是由不同的业务功能单元组成的，功能单元之间又有一定逻辑关系，将这些功能单元和它们的逻辑关系以可视化形式展现出来就是产品架构图，这张图最重要的作用就是在产品规划阶段帮助各方快速建立这个产品画像。立项评审时这个图必不可少，产品最后做出来长么样，大家就对着这张图yy了田所以如何画出一张各方(领导、研发、测试)都看得懂的产品架构图就很考验功力。2.怎么画?产品架构图一般由上至下分
vue3-video-play 插件在 Vue 3 项目上的应用放逐者-保持本心，方可放逐 vue3应用 vue.js 前端 javascript vue3-video-play
文章目录vue3-video-play插件在Vue3项目上的应用一、插件简介二、插件安装三、插件组件应用示例1.局部引入组件2.全局引入组件四、需要注意的事项五、本地环境将`package.json`中`"module":"./dist/index.es.js"`改为`"module":"./dist/index.mjs"`问题解析探索问题描述原因分析解决方案格式及应用实例vue3-video-p
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
一款超好用的开源密码管理器？七步编程 Github python 开发 github 开发语言 python
程序员宝藏库：https://gitee.com/sharetech_lee/CS-Books-StoreDevWeekly收集整理每周优质开发者内容，包括开源项目、资源工具、技术文章等方面。每周五定期发布，同步更新到知乎：Jackpop。欢迎大家投稿，提交issue，推荐或者自荐开源项目/资源/工具/文章~订阅方式：Star并收藏项目DevWeekly关注知乎：Jackpop开源项目1.
散热风扇常见的调速方式有哪几种辉盈防爆散热风扇其他
在现代电子设备中，散热风扇扮演着至关重要的角色，它们通过高效的空气流动帮助设备排热，保障设备的稳定运行。而散热风扇的调速方式，则是影响其散热效率和使用寿命的关键因素。那么，散热风扇如何调速?有哪几种调速方式?1.PWM(脉冲宽度调制)调速是有一个专用的PWM调速操控电路来调理，这个操控信号是要散热风扇生产厂家来完结，此功用可以使用频率和高低压电平来操控风扇转速，经过调整占空比来线性操控风扇转速，带
探索全金属耐高温交流散热风扇辉盈防爆散热风扇其他
随着科技的飞速发展，电子设备在高性能运算、长时间运行及极端环境应用中的需求日益增长，散热问题成为了制约其性能与寿命的关键因素之一。在这样的背景下，辉盈全金属耐高温交流散热风扇应运而生，以其优异的散热性能、稳定的运行特性及出色的耐温能力，成为了众多高端电子设备不可或缺的“降温卫士”。全金属材质的独特优势全金属散热风扇，顾名思义，其主体结构采用金属材料制成，如铝合金或不锈钢等。这些材料不仅具备高强度、
SQL面试题练习 —— 取出累计值与1000差值最小的记录夏木夕 SQL sql 面试数据库
题目来源：滴滴目录1题目2建表语句3题解1题目已知有表t_cost_detail包含id和money两列，id为自增，请累加计算money值，并求出累加值与1000差值最小的记录。+-----+--------+|id|money|+-----+--------+|1|200||2|300||3|200||4|100||5|150||6|80||7|100||8|200|+-----+------
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
探索 TypeScript Redux：构建大规模JavaScript应用的终极指南柳旖岭
探索TypeScriptRedux：构建大规模JavaScript应用的终极指南去发现同类优质开源项目:https://gitcode.com/在当今快速发展的前端开发领域中，组合正确工具集来应对复杂性和扩展性挑战至关重要。今天，我们将深入了解一个令人兴奋的开源项目——TypeScriptRedux，它结合了TypeScript、JSPM、typings、React和Redux的强大功能，为开发者
探索HeidiSQL：一款强大的数据库管理工具夏庭彭Maxine
探索HeidiSQL：一款强大的数据库管理工具HeidiSQLHeidiSQL:是一个免费且强大的SQL编辑器和数据库管理工具，支持MySQL、PostgreSQL、SQLite等多种数据库。适合数据库管理员和开发者使用HeidiSQL管理数据库和查询数据。项目地址:https://gitcode.com/gh_mirrors/he/HeidiSQL项目介绍HeidiSQL是一款开源的图形化数据库
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
GATK3.5GATK4.0与java版本的关系探序基因 java
探序基因肿瘤研究院整理操作系统centosstream9yum安装java后，输入java-version可看到：openjdkversion"11.0.20.1"2023-08-24LTSOpenJDKRuntimeEnvironment(Red_Hat-11.0.20.1.1-2)(build11.0.20.1+1-LTS)OpenJDK64-BitServerVM(Red_Hat-11.0.
位图（BitMap）实现小猫猫猫◍˃ᵕ˂◍ bitmap 算法
位图（BitMap）实现1.位图简介位图（BitMap）是一种高效的数据结构，用于存储和操作位（bit）数据。每个位可以表示一个布尔值（0或1），常用于去重、排序、快速查找等场景。2.核心功能⚙️设置位（Set）：将某一位设置为1。清除位（Clear）：将某一位设置为0。获取位（Get）：检查某一位是否为1。打印位图（Print）：以二进制形式打印位图。3.代码实现packageMyStruct;
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

GCC中SIMD指令的应用方法

Abstract:

X86的SIMD指令 ...simd instrucitons in X86

性能优化 ...Performance Optimization

Intel C/C++ 编译器intrinsics ...Intel C/C++ Compiler Intrinsics

使用built-in操作 ...GCC built-in Operation

嵌入汇编 ...Inline asm

MMX实用一例：合成滤波器 ...Synthesis Filter in X86 SIMD INSTRUCTIONS

总结 ...Conclusion

Bibliography

About this document ...

你可能感兴趣的:(GCC中SIMD指令的应用方法)