daoqinglin

SIMD(单道指令多道数据流)指令(MMX/SSE1/SSE2)详解(中文).

SIMD(单道指令多道数据流)指令(MMX/SSE1/SSE2)详解(中文).还有更多的多媒体指令集,SSE3,SSE4,可惜我不会.
在这里拜托AoGo老大,把此贴挂的时间长点,算是对我辛苦劳动的一点支持吧.
此贴请多多顶顶,多多转贴,这可是我从Intel文档上边看边试边翻译出来的,不容易呀,网上实在找不到如此详细的SIMD指令中文说明了,
这也算是我对ASM初学者一点帮助吧,中间可能有错误,发现后请立即发贴指正,并在转贴时修改,免得误人子弟,但要注明原文内容.
我想看懂了 MMX 指令的肯定很容易理解 SSE 指令的,至少我是这样,所以我 SSE 的例子就少加了点.
其中有一些指令我也搞不懂,主要是关于标志位的,毕竟是E文的,所以我没写上去,知道的补充一下,我知道该论坛上有很多E文高手的.
转贴请注明作者与出处.
还有浏览时请把文档后缀名改为.asm,然后用ASM编辑器浏览,这样关键字可以以不同颜色标出,增加可读性.
作者:HAM(参考资料:Intel PDF文档)
完成日期:2007年8月20日
本文档所在网站:www.aogosoft.com
注:其中有的指令6.14版本的ml.exe无法编译,比如SSE2指令集,masm32软件包中的编译器无法编译,大家可去下载6.15版本,或找宏代替.

对于SIMD指令我想大家不会没听说过吧,那是Intel Pentium Pro CPU上开始增加的专用于多媒体处理的指令集,算算有10年了,
时间过得可真快,技术发展如此之迅速,那时的我还没见过电脑呢,如今已有了自己的第一台小黑,可惜是单核的.
不过用好SIMD多媒体指令还真得下点工夫,用好了速度会明显上升,用不好速度反儿变慢,这一点我有感觉,我现在不太会用多媒体
指令,Intel 文档上都是E文的,看了实在累,为了翻译这些指令的用途就花了我一个星期,更别谈指令优化了,可恨从初中开始
没有认真学习英语,不知哪位大哥恳详谈一下指令优化的一些知识,我指的是针对当前主流CPU的速度上的优化,网上一些文章都是
﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌
老一代的CPU,甚有8086,8088的,如今的CPU都用上了什么超流水,超线程等等,这些技术我发现对指令的前后顺序十分敏感,即使指令
条数相同,指令用得也一样,就是前后顺序不一样,速度上也会相差甚远,现在的CPU汇编语言真是越来越难掌握了,不只是学习
指令用法与算法,看来高级语言还是有优势的,可能算法一样,速度都会比一个菜鸟用汇编语言写的运行的快.
▍

MMX指令有8个64位寄存器(MM0~MM7),不过可惜都是借的FPU的, FPU原来有8个80位寄存器(st(0)~st(7)),现在用在了MMX
上,所以用之后要加上一条EMMS指令,用以复位.
MMX寄存器有64位,可以同时进行8对字节或4对字或2对双字同时相同操作,还可以进行饱和运算,也就是运算结果有个顶点,
不会溢出,当然也可以进行普通运算.
    MM表示64位MMX寄存器.
    r32表示32位通用寄存器或esi,edi
    m32表示32位内存变量
    m64表示64位内存变量
    m128表示128位内存变量
    imm8表示8位立即数
    左操作数为目的操作数,右操作数为源操作数
    '|'字符表示每组数据之间的间隔分隔符
    'MM'与'XMM'必须为大写,如果写成小写,就必须在ml的命令行参数后加上' /Cp','/'前要加一个空格,'C'大写,'p'小写.

MMX:
        movd MM,r32/m32
        把 r32/m32 值赋给 MM 的低32位,高32位清零.
        movd r32/m32,MM
        把 MM 的低32位值赋给 r32/m32.
        例:
        当MM0 == 1234567887654321 h,eax == 0abc h时,执行movd MM0,eax,则MM0 == 0abc h
        当MM0 == 1234567887654321 h,eax == 0abc h时,执行movd eax,MM0,则eax == 87654321 h

        movq MM,MM/m64
        把源MM/m64的值送入目的MM.
        例:
        当MM0 == 1234567887654321 h,MM1 == 3141592653 h时,执行movq MM0,MM1,则MM0 == 3141592653 h

        paddsb MM,MM/m64
        按字节对齐,饱和有符号数(补码)相加(结果= -128~+127,80h~7fh),值送入目的MM.
        当结果小于-128时,结果强制转为80h,当结果大于+127时,结果强制转为7fh.
        例:
        当MM0 ==  00 c0 fe 7e 11 h,
          MM1 ==  12 a6 9c 10 02 h时,执行 paddsb MM0,MM1,
        则MM0 ==  12 80 9a 7f 13 h
        0c0h = -64,0a6h = -90,-64 + (-90) = -154,-154 < -128,所以结果为80h
        7eh=126,10h=16,126+16=142,142>127,所以结果为7fh
        其余的未饱和所以结果正常.

        paddsw MM,MM/m64
        按字对齐,饱和有符号数(补码)相加(结果= -32768~+32767,8000h~7fffh),值送入目的MM.
        运算与paddsb类似,当结果小于-32768时,结果强制转为8000h,当结果大于,+32767时,结果强制转为7fffh.

        paddusb MM,MM/m64
        按字节对齐,饱和无符号数相加(结果= 0~255,0h~0ffh),值送入目的MM.
        当结果大于255时,结果强制转为0ffh.
        例:
        当MM0 == 23 11 h,MM1 == fc 22 h时,执行paddusb MM0,MM1,则MM0 == ff 33h
        23h = 35,0fch = 253,35 + 253 = 288,288 > 255,所以结果为0ffh

        paddusw MM,MM/m64
        按字对齐,饱和无符号数相加(结果= 0~65535,0h~0ffffh),值送入目的MM.
        运算与paddusb类似,当结果大于65535时,结果强制转为0ffffh.

        psubsb MM,MM/m64
        按字节对齐,饱和有符号数(补码)相减(结果= -128~+127,80h~7fh),值送入目的MM.
        运算与paddsb类似,当结果小于-128时,结果强制转为80h,当结果大于,+127时,结果强制转为7fh.

        psubsw MM,MM/m64
        按字对齐,饱和有符号数(补码)相减(结果= -32768~+32767,8000h~7fffh),值送入目的MM.
        运算与paddsw类似,当结果小于-32768时,结果强制转为8000h,当结果大于,+32767时,结果强制转为7fffh.

        paddb MM,MM/m64
        按字节对齐,普通相加,与add指令类似.
        例:
        当MM0 = 12 34 56 78 ab cd ef feh,
          MM1 = 87 69 86 54 3d ea cb 03h,执行paddb MM0,MM1,
        则MM0 = 99 9d dc cc e8 b7 ba 01h


        paddw MM,MM/m64
        按字对齐,普通相加,与add指令类似.

        paddd MM,MM/m64
        按双字对齐,普通相加.与add指令类似.

        paddq MM,MM/m64
        按四字对齐,普通相加.
        例:
        当MM0 == 0fffffffffffffffeh,MM1 == 3h,执行paddq MM0,MM1,则MM0 = 1h

        psubb MM,MM/m64
        按字节对齐,普通相减,与sub指令类似.

        psubw MM,MM/m64
        按字对齐,普通相减,与sub指令类似.

        psubd MM,MM/m64
        按双字对齐,普通相减.与add指令类似.

        psubq MM,MM/m64
        按四字对齐,普通相减.
        例:
        当MM0 == 1h,MM1 == 3 h,执行psubq MM0,MM1,则MM0 = 0fffffffffffffffeh

        psllw MM,MM/m64    psllw MM,imm8
        把目的寄存器按字由源存储器(或imm8 立即数)指定位数逻辑左移,移出的位丢失.
        低字移出的位不会移入高字.
        例:
        当MM0 = 0ffff ffff ffff ffffh,执行psllw MM0,1
        则MM0 = 0fffe fffe fffe fffeh

        psrlw MM,MM/m64   psrlw MM,imm8
        把目的寄存器按字由源存储器(或imm8 立即数)指定位数逻辑右移,移出的位丢失.
        高字移出的位不会移入低字.
        例:
        当MM0 = 0ffff ffff ffff ffffh,执行psrlw MM0,1
        则MM0 = 07fff 7fff 7fff 7fffh

        pslld MM,MM/m64   pslld MM,MM imm8
        把目的寄存器按双字由源存储器(或imm8 立即数)指定位数逻辑左移,移出的位丢失.
        低双字移出的位不会移入高双字.
        例:
        当MM0 = 0ffffffff ffffffffh,执行pslld MM0,1
        则MM0 = 0fffffffe fffffffeh

        psrld MM,MM/m64   psrld MM,imm8
        把目的寄存器按双字由源存储器(或imm8 立即数)指定位数逻辑右移,移出的位丢失.
        高双字移出的位不会移入低双字.
        例:
        当MM0 = 0ffffffff ffffffffh,执行psrld MM0,1
        则MM0 = 07fffffff 7fffffffh


        pmullw MM,MM/m64
        按字对齐,有符号(补码)相乘,取结果低16位,放入目的寄存器的对应字.
        例:
        当MM0 == 2 acfeh,MM1 == 9 cef3h,执行 pmulhw,则MM0 = 0000 0000 0012 991ah
        2 * 9 = 18,18 = 0000 0012h,取低16位 0012 为结果.
        0acfeh == -21250,0cef3h == -12557,-21250*-12557 = 266836250 = 0fe7 991a h,取低16位 991a 为结果.

        pmulhw MM,MM/m64
        按字对齐,有符号(补码)相乘,取结果高16位,放入目的寄存器的对应字.
        例:
        当MM0 == 2 acfeh,MM1 == 9 cef3h,执行 pmulhw,则MM0 = 0000 0000 0000 0fe7h
        2 * 9 = 18,18 = 0000 0012h,取高16位 0000 为结果.
        0acfeh == -21250,0cef3h == -12557,-21250*-12557 = 266836250 = 0fe7 991a h,取高16位 0fe7 为结果.

      ▲注:在MMX指令集中没有除法指令.
           ﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌
        pand MM,MM/m64
        64个位'与'操作,结果放入目的寄存器.

        pandn MM,MM/m64
        目的寄存器按位先取'非',再'与'源寄存器,结果放入目的寄存器.

        por MM,MM/m64
        64个位'或'操作,结果放入目的寄存器.

        pxor MM,MM/m64
        64个位'异或'操作,结果放入目的寄存器.

        pmaddwd MM,MM/m64
        按字对齐有符号(补码)向量点乘.
                                  高32位  |   低32位
        目的寄存器:            a0  |  a1  |  a2  |  a3
        源寄存器:              b0  |  b1  |  b2  |  b3
        目的寄存器结果:       a0*b0+a1*b1 | a2*b2+a3*b3
        例:
        当MM0 = 0006 8a11   1234 4321h,
          MM1 = 0154 c239   ae39 2b35h,当执行pmaddwd MM0,MM1
        则MM0 =  1c75a7c1    0583d669h 注意是有符号操作!

        pcmpeqb MM,MM/m64
        源寄存器与目的寄存器按字节比较,相等就置目的寄存器对应字节为0ffh,否则为00h
        例:
        当MM0 == 20 11h,MM1 == 21 11h,执行pcmpeqb MM0,MM1,则MM0 = ff ff ff ff ff ff 00 ff h
        注:MM0与MM1的高48为0,因为0 == 0,所以置目的寄存器对应字节为0ffh.

        pcmpeqw MM,MM/64
        源寄存器与目的寄存器按字比较,相等就置目的寄存器对应字为0ffffh,否则为0000h

        pcmpeqd MM,MM/m64
        源寄存器与目的寄存器按双字比较,相等就置目的寄存器对应双字为0ffffffffh,否则为00000000h

        pcmpgtb MM,MM/m64
        源寄存器与目的寄存器按字节(有符号补码)比较,
        当目的寄存器对应字节大于源寄存器就置目的寄存器对应字节为0ffh,否则为00h
        例:
        当MM0 == 80 12 11 h,MM1 == 7f 12 10h,执行pcmpgtb MM0,MM1,则MM0 = 00 00 ffh
        因为80h = -128,7fh = 127,-128<127,所以结果为00h

        pcmpgtw MM,MM/m64
        源寄存器与目的寄存器按字(有符号补码)比较,
        当目的寄存器对应字大于源寄存器就置目的寄存器对应字为0ffffh,否则为0000h

        pcmpgtd MM,MM/m64
        源寄存器与目的寄存器按双字(有符号补码)比较,
        当目的寄存器对应双字大于源寄存器就置目的寄存器对应双字为0ffffffffh,否则为00000000h

        packuswb MM,MM/m64
        把目的寄存器按字有符号数压缩为字节无符号数放入目的寄存器低32位
        把源寄存器按字有符号数压缩为字节无符号数放入目的寄存器高32位
        压缩时负数变为00h,大于255的正数变为0ffh.
                                  高32位  |   低32位
        目的寄存器:            a0  |  a1  |  a2  |  a3
        源寄存器:              b0  |  b1  |  b2  |  b3
        目的寄存器压缩结果:   b0|b1| b2|b3| a0|a1|a2|a3
        例:
        当MM0 == 7fff 8000 1234 00ae h,MM1 == 00ad 0123 80ff 0100 h,
        执行packuswb MM0,MM1,则MM0 = ad ff 00 ff   ff 00 ff ae h.

        packsswb MM,MM/m64
        把目的寄存器按字有符号数压缩为字节有符号数放入目的寄存器低32位
        把源寄存器按字有符号数压缩为字节有符号数放入目的寄存器高32位
        压缩时小于-128负数变为80h,大于127的正数变为7fh.
                                  高32位  |   低32位
        目的寄存器:            a0  |  a1  |  a2  |  a3
        源寄存器:              b0  |  b1  |  b2  |  b3
        目的寄存器压缩结果:   b0|b1| b2|b3| a0|a1|a2|a3
        例:
        当MM0 == 0fff ff06 0080 0012 h,MM1 == 0001 8000 ffff 7fff h,
        执行packsswb MM0,MM1,则MM0 = 01 80 ff 7f   7f 80 7f 12 h

        packssdw MM,MM/m64
        把目的寄存器按双字有符号数压缩为单字有符号数放入目的寄存器低32位
        把源寄存器按双字有符号数压缩为单字有符号数放入目的寄存器高32位
        压缩时小于-32768负数变为8000h,大于32767的正数变为7fffh.
                                  高32位  |   低32位
        目的寄存器:                a0     |     a1
        源寄存器:                  b0     |     b1
        目的寄存器压缩结果:    b0   | b1  | a0  |  a1

        punpcklbw MM,MM/m64
        把目的寄存器与源寄存器的低32位按字节交错排列放入目的寄存器
                                  高32位  |   低32位
        目的寄存器:            a0|a1|a2|a3|a4|a5|a6|a7
        源寄存器:              b0|b1|b2|b3|b4|b5|b6|b7
        目的寄存器结果:        b4|a4|b5|a5|b6|a6|b7|a7
        例:
        当MM0 == 01 02 03 04 05 06 07 08 h,MM1 == 09 0a 0b 0c 0d 0e 0f 00 h
        执行punpcklbw MM0,MM1,则MM0 = 0d 05 0e 06 0f 07 00 08 h

        punpcklwd MM,MM/m64
        把目的寄存器与源寄存器的低32位按字交错排列放入目的寄存器
                                 高32位  |   低32位
        目的寄存器:            a0  | a1  | a2  | a3
        源寄存器:              b0  | b1  | b2  | b3
        目的寄存器结果:        b2  | a2  | b3  | a3

        punpckldq MM,MM/m64
        把目的寄存器与源寄存器的低32位按双字交错排列放入目的寄存器
                                 高32位  |   低32位
        目的寄存器:                a0    |    a1
        源寄存器:                  b0    |    b1
        目的寄存器结果:            b1    |    a1

        punpckhbw MM,MM/m64
        把目的寄存器与源寄存器的高32位按字节交错排列放入目的寄存器
                                  高32位  |   低32位
        目的寄存器:            a0|a1|a2|a3|a4|a5|a6|a7
        源寄存器:              b0|b1|b2|b3|b4|b5|b6|b7
        目的寄存器结果:        b0|a0|b1|a1|b2|a2|b3|a3
        例:
        当MM0 == 01 02 03 04 05 06 07 08 h,MM1 == 09 0a 0b 0c 0d 0e 0f 00 h
        执行punpcklbw MM0,MM1,则MM0 = 09 01 0a 02 0b 03 0c 04 h

        punpckhwd MM,MM/m64
        把目的寄存器与源寄存器的高32位按字交错排列放入目的寄存器
                                 高32位  |   低32位
        目的寄存器:            a0  | a1  | a2  | a3
        源寄存器:              b0  | b1  | b2  | b3
        目的寄存器结果:        b0  | a0  | b1  | a1

        punpckhdq MM,MM/m64
        把目的寄存器与源寄存器的高32位按双字交错排列放入目的寄存器
                                 高32位  |   低32位
        目的寄存器:                a0    |    a1
        源寄存器:                  b0    |    b1
        目的寄存器结果:            b0    |    a0

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
              ★★★★★注:除 movups,movupd 指令外,其它涉及到128位内存变量操作的,
                           内存变量首地址必须要对齐16字节,也就是内存地址低4位为0,
                           否则会引起CPU异常,导致指令执行失败,此错误编译器不检查.
SSE1:
主要是单精度浮点运算
SSE有8个128位独立寄存器(XMM1~XMM7).
        MM指64位MMX寄存器
        XMM指XMM寄存器
        m128指128位内存变量

        movaps XMM,XMM/m128  movaps XMM/128,XMM
        把源存储器内容值送入目的寄存器,当有m128时,必须对齐内存16字节,也就是内存地址低4位为0.
                                                                     ﹋﹋﹋﹋﹋﹋﹋﹋﹋﹋﹋
        movups XMM,XMM/m128  movaps XMM/128,XMM
        把源存储器内容值送入目的寄存器,但不必对齐内存16字节.
                                       ﹋﹋﹋﹋﹋﹋﹋﹋﹋﹋
        movlps XMM,m64
        把源存储器64位内容送入目的寄存器低64位,高64位不变,内存变量不必对齐内存16字节.

        movhps XMM,m64
        把源存储器64位内容送入目的寄存器高64位,低64位不变,内存变量不必对齐内存16字节.

        movhlps XMM,XMM
        把源寄存器高64位送入目的寄存器低64位,高64位不变.

        movlhps XMM,XMM
        把源寄存器低64位送入目的寄存器高64位,低64位不变.

        addps XMM,XMM/m128
        源存储器内容按双字对齐,共4个单精度浮点数与目的寄存器相加,结果送入目的寄存器,内存变量必须对齐内存16字节.
        例:
        当XMM0 = 0c517e000 44290000 46b6d000 3c4985f0 h
          XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,当执行addps XMM0,XMM1
        则XMM0 = 045992000 44350ccd 4a5b52e0 3c59018e h
        因为XMM0 = -2.43E3 6.76E2   2.34E4   1.23E-2        'xEy'指x * 10^y,如 1.0E2 = 100,1.0E-2 = 0.01,
            XMM1 = 7.33E3  4.82E1   3.57E6   9.45E-4             当中'E'不是16进制中的'e',而是指数'EXP'
        结果XMM0 = 4.9E3   7.242E2  3.5934E6 1.3245E-2
      ◆关于浮点数的转为字符串的程序我已有程序贴在此论坛上(www.aogosoft.com),你只须稍微改动一下,就可用来测试此类指令.

        addss XMM,XMM/m32
        源存储器的低32位1个单精度浮点数与目的寄存器的低32位1个单精度浮点数相加,结果送入目的寄存器的低32位
        高96位不变,内存变量不必对齐内存16字节.
        例:
        当XMM0 = 0c517e000 44290000 46b6d000 3c4985f0 h
          XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,当执行addss XMM0,XMM1
        则XMM0 = 0c517e000 44290000 46b6d000 3c59018e h

        subps XMM,XMM/m128
        源存储器内容按双字对齐,共4个单精度浮点数与目的寄存器相减(目的减去源),结果送入目的寄存器,
        内存变量必须对齐内存16字节.
        例:
        当XMM0 = 0c517e000 44290000 46b6d000 3c4985f0 h
          XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,当执行addss XMM0,XMM1
        则XMM0 = 0c6188000 441cf333 ca5877a0 3c3a0a52 h
        因为XMM0 = -2.43E3 6.76E2   2.34E4   1.23E-2
            XMM1 = 7.33E3  4.82E1   3.57E6   9.45E-4
        结果XMM0 = -9.76E3 6.278E2 -3.5466E6 1.1355E-2

        subss XMM,XMM/m32
        源存储器的低32位1个单精度浮点数与目的寄存器的低32位1个单精度浮点数相减(目的减去源),
        结果送入目的寄存器的低32位,高96位不变,内存变量不必对齐内存16字节.
        例:
        当XMM0 = 0c517e000 44290000 46b6d000 3c4985f0 h
          XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,当执行addss XMM0,XMM1
        则XMM0 = 0c517e000 44290000 46b6d000 3c3a0a52 h

        maxps XMM,XMM/m128
        源存储器4个单精度浮点数与目的寄存器4个单精度浮点数比较,较大数放入对应目的寄存器,内存变量必须对齐内存16字节.
        例:
        当XMM0 = 0c517e000 44290000 46b6d000 3c4985f0 h
          XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,当执行maxps XMM0,XMM1
        则XMM0 = 045e51000 44290000 4a59e540 3c4985f0 h
        因为XMM0 = -2.43E3 6.76E2   2.34E4   1.23E-2
            XMM1 = 7.33E3  4.82E1   3.57E6   9.45E-4
        结果XMM0 = 7.33E3  6.76E2   3.57E6   1.23E-2

        maxss XMM,XMM/m32
        源存储器低32位1个单精度浮点数与目的寄存器低32位1个单精度浮点数比较,较大数放入目的寄存器低32位,高96位不变
        内存变量不必对齐内存16字节.
        例:
        当XMM0 = 045e51000 4240cccd 4a59e540 3a77b9e0 h
          XMM1 = 0c517e000 44290000 46b6d000 3c4985f0 h,当执行maxss XMM0,XMM1
        则XMM0 = 045e51000 4240cccd 4a59e540 3c4985f0 h

        minps XMM,XMM/m128
        源存储器4个单精度浮点数与目的寄存器4个单精度浮点数比较,较小数放入对应目的寄存器,内存变量必须对齐内存16字节.

        minss XMM,XMM/m32
        源存储器低32位1个单精度浮点数与目的寄存器低32位1个单精度浮点数比较,较小数放入目的寄存器低32位,高96位不变
        内存变量不必对齐内存16字节.

        rcpps XMM,XMM/m128
        源存储器4个单精度浮点数的倒数放入对应目的寄存器,内存变量必须对齐内存16字节.
        注:比如2.0E0的倒数为1÷2.0E0 = 5.0E-1
        例:
        当XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,执行rcpps XMM0,XMM1
        则XMM0 = 0390f0800 3ca9f800 34966000 44844800 h
        因为XMM1 = 7.33E3  4.82E1   3.57E6   9.45E-4
        结果XMM0 = 1.36E-4 2.075E-2 2.8E-7   1.06E3

        rcpss XMM,XMM/32
        源存储器低32位1个单精度浮点数的倒数放入目的寄存器低32位,高96位不变
         例:
        当XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,执行rcpss XMM0,XMM1
        则XMM0 = 045e51000 4240cccd 4a59e540 44844800 h

        rsqrtps XMM,XMM/m128
        源存储器4个单精度浮点数的开方的倒数放入对应目的寄存器,内存变量必须对齐内存16字节.
                                    _____
        比如2.0E0的开方的倒数为1÷√2.0E0 ≈ 7.0711E-1
        例:
        当XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,执行rsqrtps XMM0,XMM1
        则XMM0 = 03c3f6000 3e138000 3a0ab800 42022000 h
        因为XMM1 = 7.33E3  4.82E1   3.57E6   9.45E-4
        结果XMM0 = 1.17E-2 1.44E-1  5.29E-4  3.25E1

        rsqrtss XMM,XMM/32
        源存储器低32位1个单精度浮点数的开方的倒数放入目的寄存器低32位,高96位不变,内存变量不必对齐内存16字节.

        mulps XMM,XMM/m128
        源存储器内容按双字对齐,共4个单精度浮点数与目的寄存器相乘,结果送入目的寄存器,内存变量必须对齐内存16字节.

        mulss XMM,XMM/32
        源存储器的低32位1个单精度浮点数与目的寄存器的低32位1个单精度浮点数相乘,结果送入目的寄存器的低32位,
        高96位不变,内存变量不必对齐内存16字节.

        divps XMM,XMM/m128
        目的寄存器共4个单精度浮点数除以源存储器4个单精度浮点数,结果送入目的寄存器,内存变量必须对齐内存16字节.

        divss XMM,XMM/32
        目的寄存器低32位1个单精度浮点数除以源存储器低32位1个单精度浮点数,结果送入目的寄存器的低32位,
        高96位不变,内存变量不必对齐内存16字节.

        andps XMM,XMM/m128
        源存储器128个二进制位'与'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        orps XMM,XMM/m128
        源存储器128个二进制位'或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        xorps XMM,XMM/m128
        源存储器128个二进制位'异或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        unpckhps XMM,XMM/m128
        源存储器与目的寄存器高64位按双字交错排列,结果送入目的寄存器,内存变量必须对齐内存16字节.
                                 高64位   |    低64位
        目的寄存器:            a0  |  a1  |  a2  |  a3
        源存储器:              b0  |  b1  |  b2  |  b3
        目的寄存器结果:        b0  |  a0  |  b1  |  a1
        例:
        当XMM0 = 0c517e000 44290000 46b6d000 3c4985f0 h
          XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,当执行unpckhps XMM0,XMM1
        则XMM0 = 045e51000 c517e000 4240cccd 44290000 h

        unpcklps XMM,XMM/m128
        源存储器与目的寄存器低64位按双字交错排列,结果送入目的寄存器,内存变量必须对齐内存16字节.
                                 高64位   |    低64位
        目的寄存器:            a0  |  a1  |  a2  |  a3
        源存储器:              b0  |  b1  |  b2  |  b3
        目的寄存器结果:        b2  |  a2  |  b3  |  a3
        例:
        当XMM0 = 0c517e000 44290000 46b6d000 3c4985f0 h
          XMM1 = 045e51000 4240cccd 4a59e540 3a77b9e0 h,执行unpcklps XMM0,XMM1
        则XMM0 = 04a59e540 46b6d000 3a77b9e0 3c4985f0 h

        cvtpi2ps XMM,MM/m64
        源存储器64位两个32位有符号(补码)整数转为两个单精度浮点数,放入目的寄存器低64中,高64位不变.
      ★注:源寄存器是'MM',不是'XMM',但编译时写成'XMM'不会报错,反汇编后发现实际为'MM',所以务必小心!
                      ﹌       ﹌
        例:
        当XMM0 = 2315d4d7 930d9761 82748383 ed2782cb h
                             MM0 = 0001e240 fffe1dc0 h,执行cvtpi2ps XMM0,MM0
        则XMM0 = 2315d4d7 930d9761 c7f12000 47f12000 h
        因为0001e240h(有符号整数) =  123456 =  1.23456E5 =  47f12000h(单精浮点)
            fffe1dc0h(有符号整数) = -123456 = -1.23456E5 = 0c7f12000h(单精浮点)

        cvtsi2ss XMM,r32/m32
        源存储器1个32位有符号(补码)整数转为1个单精度浮点数,放入目的寄存器低32中,高96位不变.

        cvtps2pi MM,XMM/m64
        把源存储器低64位两个32位单精度浮点数转为两个32位有符号(补码)整数,放入目的寄存器.
        当XMM0 = 2315d4d7 930d9761 c7f12000 47f12000 h,执行cvtps2pi XMM0,MM0
                             MM0 = 0001e240 fffe1dc0 h
      ★注:目的寄存器是'MM',不是'XMM',但编译时写成'XMM'不会报错,反汇编后发现实际为'MM',所以务必小心!

        cvtss2si r32,XMM/m32
        把源存储器低32位1个单精度浮点数转为1个32位有符号(补码)整数,放入目的寄存器.

        pavgb MM,MM/m64     pavgb XMM,XMM/m128
        把源存储器与目的寄存器按字节无符号整数相加,再除以2,结果四舍五入为整数放入目的寄存器,
        源存储器为m128时,内存变量必须对齐内存16字节.
        注:此运算不会产生溢出.
        例:
        当MM0 = 9a bc de f0 12 34 56 78 h
          MM1 = 8d ec 5b f8 98 25 71 47 h,执行pavgb MM0,MM1
        则MM0 = 94 d4 9d f4 55 2d 64 60 h
          9ah = 154,8dh = 141,154+141 = 295,295÷2 = 147.5 ≈ 148(四舍五入) = 94h

        pavgw MM,MM/m64     pavgw XMM,XMM/m128
        把源存储器与目的寄存器按字无符号整数相加,再除以2,结果四舍五入为整数放入目的寄存器,
        源存储器为m128时,内存变量必须对齐内存16字节.

        pextrw r32,MM,imm8   pextrw r32,XMM,imm8   imm8为8位立即数(无符号)
        从源寄存器中选第imm8(0~3 或 0~7)个字送入目的寄存器的低16位,高16位清零.
      ★注:imm8范围为 0~255,当源寄存器为'MM'时,有效值= imm8 mod 4,当目的寄存器为'XMM'时,有效值= imm8 mod 8

        pinsrw MM,r32/m32,imm8     pinsrw XMM,r32/m32,imm8
        把源存储器的低16位内容送入目的寄存器第imm8(0~3 或 0~7)个字,其余字不变.
        注:imm8范围为 0~255,当目的寄存器为'MM'时,有效值= imm8 mod 4,当目的寄存器为'XMM'时,有效值= imm8 mod 8
        例:
                     7    6    5    4    3    2    1    0
        当XMM0 = 0ffff ffff ffff ffff ffff ffff ffff ffff h
           eax = 01234 5678 h,执行pinsrw XMM0,eax,3
                       ﹌﹌
        则XMM0 = 0ffff ffff ffff ffff 5678 ffff ffff ffff h
                                      ﹌﹌
          执行pinsrw XMM0,eax,9
        则XMM0 = 0ffff ffff ffff ffff ffff ffff 5678 ffff h
                                                ﹌﹌

        pmaxsw MM,MM/m64     pmaxsw XMM,XMM/m128
        把源存储器与目的寄存器按字有符号(补码)整数比较,大数放入目的寄存器对应字,
        源存储器为m128时,内存变量必须对齐内存16字节.

        pmaxub MM,MM/m64     pmaxsw XMM,XMM/m128
        把源存储器与目的寄存器按字节无符号整数比较,大数放入目的寄存器对应字节,
        源存储器为m128时,内存变量必须对齐内存16字节.

        pminsw MM,MM/m64     pmaxsw XMM,XMM/m128
        把源存储器与目的寄存器按字有符号(补码)整数比较,较小数放入目的寄存器对应字,
        源存储器为m128时,内存变量必须对齐内存16字节.

        pminub MM,MM/m64     pmaxsw XMM,XMM/m128
        把源存储器与目的寄存器按字节无符号整数比较,较小数放入目的寄存器对应字节,
        源存储器为m128时,内存变量必须对齐内存16字节.

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

SSE2:
主要是双精度浮点运算
SSE2与SSE1使用相同寄存器

        movapd XMM,XMM/m128      movapd XMM/m128,XMM
        把源存储器内容值送入目的寄存器,当有m128时,必须对齐内存16字节.

        movupd XMM,XMM/m128      movapd XMM/m128,XMM
        把源存储器内容值送入目的寄存器,但不必对齐内存16字节.
        我感觉这两条指令同movaps 和 movups 指令一样,不过又不确定.

        movlpd XMM,m64     movlpd m64,XMM
        把源存储器64位内容送入目的寄存器低64位,高64位不变,内存变量不必对齐内存16字节.

        movhpd XMM,m64     movhpd m64,XMM
        把源存储器64位内容送入目的寄存器高64位,低64位不变,内存变量不必对齐内存16字节.

        addpd XMM,XMM/m128
        源存储器内容按四字对齐,共两个双精度浮点数与目的寄存器相加,结果送入目的寄存器,内存变量必须对齐内存16字节.

        addsd XMM,XMM/m64
        源存储器的低64位1个双精度浮点数与目的寄存器的低64位1个双精度浮点数相加,结果送入目的寄存器的低64位
        高64位不变,内存变量不必对齐内存16字节.

        subpd XMM,XMM/m128
        把目的寄存器内容按四字对齐,两个双精度浮点数,减去源存储器两个双精度浮点数,
        结果送入目的寄存器,内存变量必须对齐内存16字节.

        subsd XMM,XMM/m128
        把目的寄存器的低64位1个双精度浮点数,减去源存储器低64位1个双精度浮点数,结果送入目的寄存器的低64位
        高64位不变,内存变量不必对齐内存16字节.

        mulpd XMM,XMM/m128
        源存储器内容按四字对齐,共两个双精度浮点数与目的寄存器相乘,结果送入目的寄存器,内存变量必须对齐内存16字节.

        mulsd XMM,XMM/m128
        源存储器的低64位1个双精度浮点数与目的寄存器的低64位1个双精度浮点数相乘,结果送入目的寄存器的低64位,
        高64位不变,内存变量不必对齐内存16字节.

        divpd XMM,XMM/m128
        目的寄存器共两个双精度浮点数除以源存储器两个双精度浮点数,结果送入目的寄存器,内存变量必须对齐内存16字节.

        divsd XMM,XMM/m128
        目的寄存器低64位1个双精度浮点数除以源存储器低64位1个双精度浮点数,结果送入目的寄存器的低64位,
        高64位不变,内存变量不必对齐内存16字节.

        sqrtpd XMM,XMM/m128
        源存储器两个双精度浮点数的开方放入对应目的寄存器,内存变量必须对齐内存16字节.

        sqrtsd XMM,XMM/m128
        源存储器低64位1个双精度浮点数的开方放入目的寄存器低64位,高64位不变,内存变量不必对齐内存16字节.

        maxpd XMM,XMM/m128
        源存储器两个双精度浮点数与目的寄存器两个双精度浮点数比较,较大数放入对应目的寄存器,内存变量必须对齐内存16字节.

        maxsd XMM,XMM/m128
        源存储器低64位1个双精度浮点数与目的寄存器低64位1个双精度浮点数比较,较大数放入目的寄存器低64位,高64位不变
        内存变量不必对齐内存16字节.

        minpd XMM,XMM/m128
        源存储器两个双精度浮点数与目的寄存器两个双精度浮点数比较,较小数放入对应目的寄存器,内存变量必须对齐内存16字节.

        minsd XMM,XMM/m128
        源存储器低64位1个双精度浮点数与目的寄存器低64位1个双精度浮点数比较,较小数放入目的寄存器低64位,高64位不变
        内存变量不必对齐内存16字节.

        andpd XMM,XMM/m128
        源存储器128个二进制位'与'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        andnpd XMM,XMM/m128
        目的寄存器128个二进制位先取'非',再'与'源存储器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        orpd XMM,XMM/m128
        源存储器128个二进制位'或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        xorpd XMM,XMM/m128
        源存储器128个二进制位'异或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        ───────────────────────────

        cvtps2pd XMM,XMM/m64
        把源存储器低64位两个单精度浮点数变成两个双精度浮点数,结果送入目的寄存器.

        cvtss2sd XMM,XMM/m32
        把源存储器低32位1个单精度浮点数变成1个双精度浮点数,结果送入目的寄存器的低64位,高64位不变.

        cvtpd2ps XMM,XMM/m128
        把源存储器两个双精度浮点数变成两个单精度浮点数,结果送入目的寄存器的低64位,高64位清零,
        内存变量必须对齐内存16字节.
        例:
        当XMM0 = 011112222 33334444 55556666 77778888 h,
          XMM1 = 0dd1a5e1f35aec736   41132a4000000000 h,执行cvtpd2ps XMM0,XMM1
        则XMM0 = 000000000 00000000 ff800000 48995200 h
                                   ＾特殊状态＾3.14E5

        因为XMM1 = -3.14E140         3.14E5
        而单精浮点最小可表示1.18E-38(规格化),-3.14E140已远超过,所以变成一种特殊状态,
        指数位全为1,尾数全为0,符号位不变,3.14E5则变为正常的单精度3.14E5


        cvtsd2ss XMM,XMM/m64
        把源存储器低64位1个双精度浮点数变成1个单精度浮点数,结果送入目的寄存器的低32位,高96位不变.

        cvtpd2pi MM,XMM/m128
        把源存储器两个双精度浮点数变成两个双字有符号整数,结果送入目的寄存器,内存变量必须对齐内存16字节.
        如果结果大于所能表示的范围,那么转化为80000000h(正数也转为此值).
        当XMM1 = 0dd1a5e1f35aec736   41132a4000000000 h,执行cvtpd2pi MM0,XMM1
        则 MM0 = 80000000 0004ca90 h
        因为0dd1a5e1f35aec736h(双精度浮点数) = -3.14E140 超过 80000000h所以变为80000000h
        而41132a4000000000h(双精度浮点数) = 3.14E5,所以转为314000 = 0004ca90h(有符号整数)

        cvtpi2pd XMM,MM/m64
        把源存储器两个双字有符号整数变成两个双精度浮点数,结果送入目的寄存器.

        cvtpd2dq XMM,XMM/m128
        把源存储器两个双精度浮点数变成两个双字有符号整数(此运算与cvtpd2pi类似但目的寄存器变为XMM),
        结果送入目的寄存器的低64位,高64位清零,内存变量必须对齐内存16字节.

        cvtdq2pd XMM,XMM/m128
        把源存储器低64位两个双字有符号整数变成两个双精度浮点数,结果送入目的寄存器,内存变量必须对齐内存16字节.

        cvtsd2si r32,XMM/m64
        把源存储器低64位1个双精度浮点数变成1个双字有符号整数,结果送入目的寄存器.

        cvtsi2sd XMM,r32/m32
        把源存储器1个双字有符号整数变成1个双精度浮点数,结果送入目的寄存器的低64位,高64位不变.

        cvtps2dq XMM,XMM/m128
        把源存储器4个单精度浮点数变成4个双字有符号整数,结果送入目的寄存器,内存变量必须对齐内存16字节.

        cvtdq2ps XMM,XMM/m128
        把源存储器4个双字有符号整数变成4个单精度浮点数,结果送入目的寄存器,内存变量必须对齐内存16字节.

        ───────────────────────────

        movdqa XMM,XMM/m128     movdqa XMM/m128,XMM
        把源存储器内容值送入目的寄存器,当有m128时,必须对齐内存16字节.

        movdqu XMM,XMM/m128     movdqu XMM/m128,XMM
        把源存储器内容值送入目的寄存器,但不必对齐内存16字节.

        paddd XMM,XMM/m128
        把源存储器与目的寄存器按双字对齐无符号整数普通相加,结果送入目的寄存器,内存变量必须对齐内存16字节.

        paddq XMM,XMM/m128
        把源存储器与目的寄存器按四字对齐无符号整数普通相加,结果送入目的寄存器,内存变量必须对齐内存16字节.

        paddq MM,MM/m64
        把源存储器与目的寄存器四字无符号整数普通相加,结果送入目的寄存器.

        psubd XMM,XMM/m128
        把目的寄存器与源存储器按双字对齐无符号整数普通相减,结果送入目的寄存器,
        内存变量必须对齐内存16字节.(目的减去源)

        psubq XMM,XMM/m128
        把目的寄存器与源存储器按四字对齐无符号整数普通相减,结果送入目的寄存器,
        内存变量必须对齐内存16字节.(目的减去源)

        psubq MM,MM/m64
        把目的寄存器与源存储器四字无符号整数普通相减,结果送入目的寄存器.(目的减去源)

        pmuludq XMM,XMM/m128
        把源存储器与目的寄存器的低32位无符号整数相乘,结果变为64位,送入目的寄存器低64位,
        把源存储器与目的寄存器的高64位的低32位无符号整数相乘,结果变为64位,送入目的寄存器高64位.
        内存变量必须对齐内存16字节.
                                 高64位   |    低64位
        目的寄存器:            a0  |  a1  |  a2  |  a3
        源存储器:              b0  |  b1  |  b2  |  b3
        目的寄存器结果:          b1*a1    |    b3*a3

        pmuludq MM,MM/m64
        把源存储器与目的寄存器的低32位无符号整数相乘,结果变为64位,送入目的寄存器.
                                 高32位   |    低32位
        目的寄存器:                a0     |      a1
        源存储器:                  b0     |      b1
        目的寄存器结果:                 b1*a1

        pslldq XMM,imm8
        把目的寄存器128位按imm8(立即数)指定字节数逻辑左移,移出的字节丢失.
        imm8 == 1时,代表左移8位,imm8 == 2时,代表左移16位.

        psrldq XMM,imm8
        把目的寄存器128位按imm8(立即数)指定字节数逻辑右移,移出的字节丢失.
        imm8 == 1时,代表右移8位,imm8 == 2时,代表右移16位.

        psllw XMM,XMM/m128   psllw XMM,imm8
        把目的寄存器按字由源存储器(或imm8 立即数)指定位数逻辑左移,移出的位丢失.
        低字移出的位不会移入高字,内存变量必须对齐内存16字节.

        psrlw XMM,XMM/m128   psrlw XMM,imm8
        把目的寄存器按字由源存储器(或imm8 立即数)指定位数逻辑右移,移出的位丢失.
        高字移出的位不会移入低字,内存变量必须对齐内存16字节.

        pslld XMM,XMM/m128   pslld XMM,XMM imm8
        把目的寄存器按双字由源存储器(或imm8 立即数)指定位数逻辑左移,移出的位丢失.
        低双字移出的位不会移入高双字,内存变量必须对齐内存16字节.

        psrld XMM,XMM/m128   psrld XMM,imm8
        把目的寄存器按双字由源存储器(或imm8 立即数)指定位数逻辑右移,移出的位丢失.
        高双字移出的位不会移入低双字,内存变量必须对齐内存16字节.

        movq2dq XMM,MM
        把源寄存器内容送入目的寄存器的低64位,高64位清零.

        movdq2q MM,XMM
        把源寄存器低64位内容送入目的寄存器.

        pmaddwd XMM,XMM/m128
        把源存储器与目的寄存器分4组进行向量点乘(有符号补码操作),内存变量必须对齐内存16字节..
                                        高64位          |           低64位
        目的寄存器:            a0  |  a1  |  a2  |  a3  |  a4  |  a5  |  a6  |  a7
        源存储器:              b0  |  b1  |  b2  |  b3  |  b4  |  b5  |  b6  |  b7
        目的寄存器结果:       a0*b0+a1*b1 | a2*b2+a3*b3 | a4*b4+a5*b5 | a6*b6+a7*b7

        paddsb XMM,XMM/m128
        源存储器与目的寄存器按字节对齐有符号补码饱和相加,内存变量必须对齐内存16字节.

        paddsw XMM,XMM/m128
        源存储器与目的寄存器按字对齐有符号补码饱和相加,内存变量必须对齐内存16字节.

        psubsb XMM,XMM/m128
        源存储器与目的寄存器按字节对齐有符号补码饱和相减(目的减去源),内存变量必须对齐内存16字节.

        psubsw XMM,XMM/m128
        源存储器与目的寄存器按字对齐有符号补码饱和相减(目的减去源),内存变量必须对齐内存16字节.

        paddusb XMM,XMM/m128
        源存储器与目的寄存器按字节对齐无符号饱和相加,内存变量必须对齐内存16字节.

        paddusw XMM,XMM/m128
        源存储器与目的寄存器按字对齐无符号饱和相加,内存变量必须对齐内存16字节.

        psubusb XMM,XMM/m128
        源存储器与目的寄存器按字节对齐无符号饱和相减(目的减去源),内存变量必须对齐内存16字节.

        psubusw XMM,XMM/m128
        源存储器与目的寄存器按字对齐无符号饱和相减(目的减去源),内存变量必须对齐内存16字节.

        paddb XMM,XMM/m128
        源存储器与目的寄存器按字节对齐无符号普通相加,内存变量必须对齐内存16字节.

        paddw XMM,XMM/m128
        源存储器与目的寄存器按字对齐无符号普通相加,内存变量必须对齐内存16字节.

        paddd XMM,XMM/m128
        源存储器与目的寄存器按双字对齐无符号普通相加,内存变量必须对齐内存16字节.

        paddq XMM,XMM/m128
        源存储器与目的寄存器按四字对齐无符号普通相加,内存变量必须对齐内存16字节.

        psubb XMM,XMM/m128
        源存储器与目的寄存器按字节对齐无符号普通相减(目的减去源),内存变量必须对齐内存16字节.

        psubw XMM,XMM/m128
        源存储器与目的寄存器按字对齐无符号普通相减(目的减去源),内存变量必须对齐内存16字节.

        psubd XMM,XMM/m128
        源存储器与目的寄存器按双字对齐无符号普通相减(目的减去源),内存变量必须对齐内存16字节.

        psubq XMM,XMM/m128
        源存储器与目的寄存器按四字对齐无符号普通相减(目的减去源),内存变量必须对齐内存16字节.

        pmulhw XMM,XMM/m128
        源存储器与目的寄存器按字对齐有符号补码饱和相乘,取结果的高16位放入目的寄存器对应字中.
        内存变量必须对齐内存16字节.

        pmullw XMM,XMM/m128
        源存储器与目的寄存器按字对齐有符号补码饱和相乘,取结果的低16位放入目的寄存器对应字中.
        内存变量必须对齐内存16字节.

        pcmpeqb XMM,XMM/m128
        目的寄存器与源存储器按字节比较,如果对应字节相等,就置目的寄存器对应字节为0ffh,否则为00h,
        内存变量必须对齐内存16字节.

        pcmpeqw XMM,XMM/m128
        目的寄存器与源存储器按字比较,如果对应字相等,就置目的寄存器对应字为0ffffh,否则为0000h,
        内存变量必须对齐内存16字节.

        pcmpeqd XMM,XMM/m128
        目的寄存器与源存储器按双字比较,如果对应双字相等,就置目的寄存器对应双字为0ffffffffh,否则为00000000h,
        内存变量必须对齐内存16字节.

        pcmpgtb XMM,XMM/m128
        目的寄存器与源存储器按字节(有符号补码)比较,如果目的寄存器对应字节大于源存储器,就置目的寄存器对应字节为0ffh,
        否则为00h,内存变量必须对齐内存16字节.

        pcmpgtw XMM,XMM/m128
        目的寄存器与源存储器按字(有符号补码)比较,如果目的寄存器对应字大于源存储器,就置目的寄存器对应字为0ffffh,
        否则为0000h,内存变量必须对齐内存16字节.

        pcmpgtd XMM,XMM/m128
        目的寄存器与源存储器按双字(有符号补码)比较,如果目的寄存器对应双字大于源存储器,
        就置目的寄存器对应双字为0ffffffffh,否则为00000000h,内存变量必须对齐内存16字节.

        movd XMM,r32/m32
        把源存储器32位内容送入目的寄存器的低32位,高96位清零.

        movd r32/m32,XMM
        把源寄存器的低32位内容送入目的存储器32位.

        movq XMM,XMM/m64
        把源存储器低64位内容送入目的寄存器的低64位,高64位清零.

        movq m64,XMM
        把源寄存器的低64位内容送入目的存储器.

        pand XMM,XMM/m128
        源存储器128个二进制位'与'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.
      ◎我发现与andpd功能差不多,就不知其它特性是否一样.

        pandn XMM,XMM/m128
        目的寄存器128个二进制位先取'非',再'与'源存储器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        por XMM,XMM/m128
        源存储器128个二进制位'或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        pxor XMM,XMM/m128
        源存储器128个二进制位'异或'目的寄存器128个二进制位,结果送入目的寄存器,内存变量必须对齐内存16字节.

        packuswb XMM,XMM/m128   (此指令与前面的MMX指令packuswb MM,MM/m64操作相同,只是变成了128位)
        把目的寄存器按字有符号数压缩为字节无符号数放入目的寄存器低64位
        把源寄存器按字有符号数压缩为字节无符号数放入目的寄存器高64位
        压缩时负数变为00h,大于255的正数变为0ffh,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:            a0  |   a1  |  a2  |  a3  |  a4  |  a5  |  a6  |  a7
        源寄存器:              b0  |   b1  |  b2  |  b3  |  b4  |  b5  |  b6  |  b7
        目的寄存器压缩结果:   b0|b1| b2| b3| b4|b5| b6|b7| a0|a1| a2|a3| a4|a5| a6| a7

        packsswb XMM,XMM/m128   (此指令与前面的MMX指令packsswb MM,MM/m64操作相同,只是变成了128位)
        把目的寄存器按字有符号数压缩为字节有符号数放入目的寄存器低64位
        把源寄存器按字有符号数压缩为字节有符号数放入目的寄存器高64位
        压缩时小于-128负数变为80h,大于127的正数变为7fh,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:            a0  |   a1  |  a2  |  a3  |  a4  |  a5  |  a6  |  a7
        源寄存器:              b0  |   b1  |  b2  |  b3  |  b4  |  b5  |  b6  |  b7
        目的寄存器压缩结果:   b0|b1| b2| b3| b4|b5| b6|b7| a0|a1| a2|a3| a4|a5| a6| a7

        packssdw XMM,XMM/m128
        把目的寄存器按双字有符号数压缩为字有符号数放入目的寄存器低64位
        把源寄存器按双字有符号数压缩为字有符号数放入目的寄存器高64位
        压缩时小于-32768负数变为8000h,大于32767的正数变为7fffh,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:                a0      |      a1     |      a2     |      a3
        源寄存器:                  b0      |      b1     |      b2     |      b3
        目的寄存器压缩结果:    b0  |   b1  |  b2  |  b3  |  a0  |  a1  |  a2  |  a3

        punpckldq XMM,XMM/m128
        把源存储器与目的寄存器低64位按双字交错排列,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:                a0      |      a1     |      a2     |      a3
        源寄存器:                  b0      |      b1     |      b2     |      b3
        目的寄存器排列结果:        b2      |      a2     |      b3     |      a3

        punpckhdq XMM,XMM/m128
        把源存储器与目的寄存器高64位按双字交错排列,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:                a0      |      a1     |      a2     |      a3
        源寄存器:                  b0      |      b1     |      b2     |      b3
        目的寄存器排列结果:        b0      |      a0     |      b1     |      a1

        punpcklwd XMM,XMM/m128
        把源存储器与目的寄存器低64位按字交错排列,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:            a0  |   a1  |  a2  |  a3  |  a4  |  a5  |  a6  |  a7
        源寄存器:              b0  |   b1  |  b2  |  b3  |  b4  |  b5  |  b6  |  b7
        目的寄存器排列结果:    b4  |   a4  |  b5  |  a5  |  b6  |  a6  |  b7  |  a7

        punpckhwd XMM,XMM/m128
        把源存储器与目的寄存器高64位按字交错排列,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:            a0  |   a1  |  a2  |  a3  |  a4  |  a5  |  a6  |  a7
        源寄存器:              b0  |   b1  |  b2  |  b3  |  b4  |  b5  |  b6  |  b7
        目的寄存器排列结果:    b0  |   a0  |  b1  |  a1  |  b2  |  a2  |  b3  |  a3

        punpcklbw XMM,XMM/m128
        把源存储器与目的寄存器低64位按字节交错排列,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:           a0|a1| a2| a3| a4|a5| a6|a7| a8|a9| aA|aB| aC|aD| aE| aF
        源寄存器:             b0|b1| b2| b3| b4|b5| b6|b7| b8|b9| bA|bB| bC|bD| bE| bF
        目的寄存器排列结果:   b8|a8| b9| a9| bA|aA| bB|aB| bC|aC| bD|aD| bE|aE| bF| aF

        punpckhbw XMM,XMM/m128
        把源存储器与目的寄存器高64位按字节交错排列,内存变量必须对齐内存16字节.
                                         高64位          |           低64位
        目的寄存器:           a0|a1| a2| a3| a4|a5| a6|a7| a8|a9| aA|aB| aC|aD| aE| aF
        源寄存器:             b0|b1| b2| b3| b4|b5| b6|b7| b8|b9| bA|bB| bC|bD| bE| bF
        目的寄存器排列结果:   b0|a0| b1| a1| b2|a2| b3|a3| b4|a4| b5|a5| b6|a6| b7| a7

        ───────────────────────────
        shufps XMM,XMM/m128,imm8(0~255)    SSE1指令
        把源存储器与目的寄存器按双字划分,由imm8(立即数)八个二进制位(00~11,00^11,00~11,00~11)指定排列,
        内存变量必须对齐内存16字节.目的寄存器高64位放源存储器被指定数,目的寄存器低64位放目的寄存器被指定数.
        '( )'中的都是二进制数.
                                            高64位             |              低64位
        目的寄存器:                a(11)      |      a(10)     |      a(01)     |      a(00)
        源寄存器:                  b(11)      |      b(10)     |      b(01)     |      b(00)
        目的寄存器排列结果:      b(00~11)     |    b(00~11)    |    a(00~11)    |    a(00~11)
        目的寄存器压缩结果'( )'中的值由imm8对应的两位二进制位指定.
        例:
                 (  11  ) (  10  ) (  01  ) (  00  )           (  11  ) (  10  ) (  01  ) (  00  )
        当XMM0 = 090a0b0c 0d0e0f11 01020304 05060708 h,XMM1 = 0aabbccdd eeff1234 22334455 66778899 h,
                                    imm8       ══>        (XMM1 10) (XMM1 01) (XMM0 11) (XMM0 00)
        执行shufps XMM0,XMM1,10 01 11 00 b(二进制),则XMM0 = 0eeff1234  22334455   090a0b0c 05060708 h
        由例子中我们发现imm8=10011100b,imm8的高4位选的是源存储器,低4位选的是目的寄存器,imm8的最高两位
        为 10b 那么就选则XMM1中的第 2(从0开始选择) 个双字,发现为0eeff1234h,就放入XMM0的高32位(原来的
        值已经自动保护起来了),01b就选择XMM1中的第2个,11选择XMM0中的第3个,00选择XMM0中的第0个.
        当然imm8中4个选则也可以相同,比如shufps XMM0,XMM1,10 10 10 10 b,那么结果为:
        XMM0 = 0eeff1234 eeff1234 0d0e0f11 0d0e0f11 h.


        shufpd XMM,XMM/m128,imm8(0~255)      imm8(操作值) = imm8(输入值) mod 4
        把源存储器与目的寄存器按四字划分,由imm8(立即数)4个二进制位(0~1,0^1,0~1,0~1)指定排列,
        内存变量必须对齐内存16字节.目的寄存器高64位放源存储器被指定数,目的寄存器低64位放目的寄存器被指定数.
                                            高64位             |              低64位
        目的寄存器:                          a(1)              |               a(0)
        源寄存器:                            b(1)              |               b(0)
        目的寄存器排列结果:                 b(0~1)             |              a(0~1)
        例:
        当XMM0 = 1111111122222222 3333333344444444 h
          XMM1 = 5555555566666666 aaaaaaaacccccccc h,执行shufpd XMM0,XMM1,101001 1 0 b
        则XMM0 = 5555555566666666 3333333344444444 h
        因为101001 1 0 b mod 4(101001 1 0 b & 11b),得到操作值为1 0b,
        1选择XMM1的第1位5555555566666666h,0选择XMM0的第0位3333333344444444.

        pshuflw XMM,XMM/m128,imm8(0~255)
        先把源存储器的高64位内容送入目的寄存器的高64位,然后用imm8将源存储器的低64位4个字选入
        目的寄存器的低64位,内存变量必须对齐内存16字节.
                                                            低64位
        源寄存器低64位:           b(11)      |      b(10)     |      b(01)     |      b(00)
        目的寄存器低64位排列结果: b(00~11)   |    b(00~11)    |    b(00~11)    |    b(00~11)
        例:
        当XMM0 = 1111111122222222 3333 4444 5555 6666 h
          XMM1 = 5555555566666666 7777 8888 9999 cccc h,执行pshuflw XMM0,XMM1,10 10 01 10 b
        则XMM0 = 5555555566666666 8888 8888 9999 8888 h

        pshufhw XMM,XMM/m128,imm8(0~255)
        先把源存储器的低64位内容送入目的寄存器的低64位,然后用imm8将源存储器的高64位4个字选入
        目的寄存器的高64位,内存变量必须对齐内存16字节.
                                                            高64位
        源寄存器高64位:           b(11)      |      b(10)     |      b(01)     |      b(00)
        目的寄存器高64位排列结果: b(00~11)   |    b(00~11)    |    b(00~11)    |    b(00~11)
        例:
        当XMM0 = 3333 4444 5555 6666 1111111122222222 h
          XMM1 = 7777 8888 9999 cccc 5555555566666666 h,执行pshufhw XMM0,XMM1,10 10 01 10 b
        则XMM0 = 8888 8888 9999 8888 5555555566666666 h

        pshufd XMM,XMM/m128,imm8(0~255)
        将源存储器的4个双字由imm8指定选入目的寄存器,内存变量必须对齐内存16字节.
                                           高64位             |              低64位
        源寄存器:                 b(11)      |      b(10)     |      b(01)     |      b(00)
        目的寄存器排列结果:       b(00~11)   |    b(00~11)    |    b(00~11)    |    b(00~11)
        例:
        当XMM1 = 11111111 22222222 33333333 44444444 h,执行pshufd XMM0,XMM1,11 01 01 10b
        则XMM0 = 11111111 33333333 33333333 22222222 h



▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

啊!不容易,终于写好了,那手敲了累呀,不过能为许多初学者带来一点方便我还是很开心的,因为网上真的很难找到如此详细
的中文说明了,我刚学时也到网上去搜索,就是找不到满意的,而很多高手不知是因为忙,还是嫌这个太初级了,不高兴写,哎…,难
怪我国的IT事业如此落后,如果多几个像罗云彬这样的人,我国的软件事业肯定会更上几个台阶,可惜太少了,悲哉.
本人就是通过学习罗云彬的《windows环境下32位汇编语言程序设计》开始win32编程的,算算学了有半年了,从中学了不少
知识,看他的书学习效率实在太高了,认识此书也是我在网上搜索win32汇编教程的时发现的,当时下载的是完整的chm文挡,阅读了
几天,发现写了实在太好了,十分适合我这个已学了半年D0S汇编的菜鸟,所以我就去网上书店买了一本第二版的,从此遍开始了我
的汇编之旅,学习的中间充满了辛酸,同学的冷笑,老师的劝解,说什么年代了还在钻研汇编语言,只要了解就可以了,现在应该去学
习C++,JAVA,Delphi等等,但是我没有改变我的立场,我坚信学好汇编以后会对我将来学习高级语言带来莫大的帮助,可以打下坚实
的基础,因为汇编语言是一门非常基础的语言,掌握她可以更好的对高级语言中的一些包装好的一些东西有本质上的认识,这对于
一名优秀的程式设计师来说是十分必要的,当然光学习汇编语言是不行的,还得去深入学习数据结构与算法,这些才是最最重要的,
比熟练API还重要.

你可能感兴趣的:(存储,汇编,语言,c,多媒体处理,文档)

SnowConvert：自动化数据迁移的技术解析与最佳实践 weixin_30777913 迁移学习数据库运维
SnowConvert是Snowflake生态系统的关键迁移工具，专为将传统数据仓库（如Oracle、Teradata、SQLServer等）的代码资产高效、准确地转换为Snowflake原生语法而设计。以下基于官方文档对其技术原理、工作流程及最佳实践进行深入分析：一、SnowConvert核心技术解析精准的语法映射引擎语言支持：深度解析源系统特有语法（OraclePL/SQL,TeradataB
GitHub Actions与AWS OIDC实现安全的ECR/ECS自动化部署 ivwdcwso 运维与云原生 github aws 安全 ecr ecs oldc CI/CD
引言在现代云原生应用开发中，实现安全、高效的CI/CD流程至关重要。本文将详细介绍如何利用GitHubActions和AWSOIDC（OpenIDConnect）构建一个无需长期凭证的安全部署管道，将容器化应用自动部署到AmazonECR和ECS服务。架构概述整个解决方案的架构包含三个主要部分：GitHub端：代码仓库和GitHubActions工作流AWS端：OIDC身份验证、ECR容器仓库和E
26、A* Algorithm: An In-depth Guide to Optimal Pathfinding tree C#搜索设计模式精解 A*Algorithm Pathfinding Heuristic Function
A*Algorithm:AnIn-depthGuidetoOptimalPathfinding1.IntroductiontoA*AlgorithmA(pronounced“Astar”)isapowerfulalgorithmwidelyusedforpathfindingandgraphtraversal.Itcombinestheadvantagesofbothuniform-costsea
ArkTS 开发学习路径全攻略：从入门到实战码农乐园学习
随着HarmonyOS的持续演进，ArkTS（ArkTypeScript）已成为鸿蒙系统的主力开发语言。特别是HarmonyOSNEXT推行纯鸿蒙化后，ArkTS成为构建鸿蒙原生应用的唯一选择。本文将为你梳理一套系统化的学习路径，从语法基础到实战项目，再到系统能力调用与分布式开发，一步步带你成为合格的鸿蒙开发者。第一阶段：ArkTS语言和HarmonyOS基础入门学习目标：掌握ArkTS基础语法；
AWS Lambda与RDS连接优化之旅 t0_54manong 编程问题解决手册 aws 云计算个人开发
在云计算的时代，AWSLambda与RDS的结合为开发者提供了高效且灵活的解决方案。然而，在实际应用中，我们常常会遇到一些性能瓶颈。本文将通过一个真实案例，探讨如何优化AWSLambda与RDS之间的连接，以提高API的响应速度。背景介绍最近，我们在AWS上部署了一个使用Dotnet6开发的API，它通过APIGateway暴露给外部，并连接到同VPC内的MySQLAuroraRDS数据库。部署前
前端用MQTT协议通信的场景和好处 CreatorRay 前端网络面试前端 MQTT 网络协议物联网
上家公司中前端项目有用MQTT协议和硬件通信的场景，虽然很早就听说过MQTT协议，但是这是第一次在前端项目里基于MQTT协议做网络通信。当时没了解太多，工作中只做好了代码层面的工作，并没有深入了解MQTT协议的好处和适合的应用场景。在前端项目中，应该99%的情况都会基于HTTP和WebSocket来进行网络通信，使用MQTT在前端里确实比较小众。目前可能只会在物联网项目中，需要跟硬件通信的前提下，
“自动化失败归因”测试集-Who&When liliangcsdn 自动化人工智能语言模型
在MAS(Multi-Agent系统)中，Agent之间自主协作、信息链条长，异常常见而且诊断困难。Who&When就是测者MAS系统异常诊断的benchmark。Who&When的prompt问题来源于GAIAandAssistantBench，包含了127个LLMMulti-Agent系统中收集的异常日志，并经过系统和人工处理。Who&When样本配有如下所示的细粒度标注：“谁”(Who)：哪
游戏寻路之A*算法（GUI演示） jforgame 从零开始搭建游戏服务器框架 java A星自动寻路
一、A*算法介绍A*算法是一种路径搜索算法，用于在图形网络中找到最短路径。它结合了Dijkstra算法和启发式搜索的思想，通过综合利用已知的最短路径和估计的最短路径来优化搜索过程。在游戏自动寻路得到广泛应用。二、A*算法的基本思想在图形网络中选择一个起点和终点。维护两个列表：开放列表和关闭列表。开放列表用于存储待考虑的节点，关闭列表用于存储已考虑过的节点。将起点加入开放列表。循环以下工作当open
Linux ps 指令 halugin Linux指令 linux 运维
Linuxps指令ps（ProcessStatus）是Linux系统中用于查看进程状态的核心命令行工具。它提供系统当前运行进程的快照，显示进程ID、CPU和内存使用情况、运行状态等信息。作为系统管理员或开发人员，ps是监控系统资源、排查性能问题和管理系统进程的必备工具。其灵活的选项和输出格式使其适用于从简单查询到复杂分析的各种场景。什么是ps指令？概述ps是一个经典的Linux/Unix命令，用于
Linux netstat 指令 halugin Linux指令 linux 运维
Linuxnetstat指令netstat（NetworkStatistics）是Linux系统中用于查看网络状态、连接、路由表和接口统计信息的经典命令行工具。它为系统管理员和开发人员提供了强大的网络诊断功能，帮助分析网络连接、监控流量以及排查网络问题。尽管在现代Linux系统中，netstat正在被更新的工具（如ss）部分取代，但其简单性和广泛适用性使其仍然是许多场景下的首选工具。什么是nets
Linux ss 指令 halugin Linux指令 linux 运维
Linuxss指令ss（SocketStatistics）是Linux系统中用于显示网络套接字（socket）信息的现代命令行工具，是netstat的继任者，性能更高、输出更简洁。它提供详细的网络连接、监听端口和协议统计信息，广泛用于网络监控、故障排查和性能分析。相比传统的netstat，ss直接从内核获取数据显示更快，功能更强大，适合现代Linux系统。什么是ss指令？ss是Linux系统中的一
微服务分布式事务的几种解决方案及应用场景凌晨四点的打铁声分布式事务微服务分布式数据库 springcloud
文章目录分布式事务的几种方案1.2pcseata的AT一阶段二阶段-回滚二阶段-提交2.柔性事务——TCC事务补偿型3.柔性事务-最大努力通知型方案4.柔性事务-可靠消息+最终一致性方案（异步确保型）分布式事务的几种方案2pc模式TCC模式：柔性事务——TCC事务补偿型柔性事务-最大努力通知型方案柔性事务-可靠消息+最终一致性方案（异步确保型）1.2pc2pc就是2phasecommit二阶段提交
鸿蒙HarmonyOS应用开发之在非ArkTS线程中回调ArkTS接口「已注销」 harmonyOS 移动开发鸿蒙开发 harmonyos 鸿蒙鸿蒙开发组件化 ui Arkts 移动开发
场景介绍ArkTS是单线程语言，通过NAPI接口对ArkTS对象的所有操作都须保证在同一个ArkTS线程上进行。本示例将介绍通过napi_get_uv_event_loop和uv_queue_work实现在非ArkTS线程中通过NAPI接口回调ArkTS函数。使用示例接口声明、编译配置以及模块注册接口声明//index.d.tsexportconstqueueWork:(cb:(arg:numbe
AIRIOT物联网低代码平台如何配置MQTT驱动？ AIRIOT 网络服务器物联网
MQTT驱动配置简介MQTT全称为消息队列遥测传输（英语：MessageQueuingTelemetryTransport），是ISO标准（ISO/IECPRF20922）下基于发布(Publish)/订阅(Subscribe)范式的消息协议，工作在TCP/IP协议族上。MQTT最大优点在于，可以用极少的数据和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协
Spring Cloud 微服务架构部署模式 Java技术栈实战架构 spring cloud 微服务 ai
SpringCloud微服务架构部署模式：从单体到云原生的进化路径关键词：SpringCloud、微服务架构、部署模式、容器化、Kubernetes、服务网格、DevOps摘要：本文系统解析SpringCloud微服务架构的核心部署模式，涵盖传统物理机部署、容器化部署、Kubernetes集群编排、服务网格集成等技术栈。通过技术原理剖析、实战案例演示和最佳实践总结，揭示不同部署模式的适用场景、技术
Redis配置与优化 ?ccc? redis 数据库缓存
目录一：Redis介绍1：关系数据库与非关系型数据库2：Redis基础2.1Redis简介2.2Redis安装部署2.3配置参数3：Redis命令工具3.1redis-cli命令行工具3.2redis-benchmark测试工具4：Redis数据库常用命令4.1key相关命令4.2多数据库常用命令二：Redis持久化1：RDB和AOF的区别2：RDB和AOF的优缺点3：Redis持久化配置三：性能
VB.NET,C#字典对象来保存用户数据,支持大小写专注VB编程开发20年 java 开发语言
用这个保存的,登录时大小写不一样会不会无法识别根据你提供的SaveUsersToJson方法，我注意到你使用了JSON序列化来保存用户数据，但没有显式指定字典的比较器。这意味着在反序列化时，默认会使用区分大小写的比较器，导致大小写不同的用户名无法正确匹配。问题分析当你保存用户数据时：PrivateSubSaveUsersToJson(usersAsDictionary(OfString,UserI
疲劳检测与行为分析：工厂智能化实践智驱力人工智能安全智慧城市行为识别人员属性识别疲劳检测抽烟检测徘徊检测
视觉分析算法赋能工厂疲劳与安全管理一、背景与需求在制造业中，疲劳作业是导致安全事故和效率下降的核心因素之一。传统人工巡检存在覆盖面不足、响应滞后等问题，而基于视觉分析的智能监控系统通过多算法协同，可实现全天候、高精度的疲劳检测与行为管理。本文围绕疲劳检测算法、人员计数算法、抽烟检测算法及徘徊检测算法，探讨其在工厂场景中的技术实现与应用价值。二、技术实现疲劳检测算法原理：基于PERCLOS（眼睑闭合
Spring Boot项目初始化加载自定义配置文件内容到静态属性字段 @Corgi Java面试题 spring boot 后端 java
文章目录创建配置文件cXXX.properties配置类XXXConfig.java添加第三方JAR包创建配置文件cXXX.properties在resource目录下新建配置文件cXXX.properties，内容如下：#商户号mch_id=xxxxx#商户密码pwd=xxxx#接口请求地址req_url=https://xxx#异步回调通知地址（请替换为实际地址）notify_url=htt
三阶落地：腾讯云Serverless+Spring Cloud的微服务实战架构大熊计算机 #腾讯云架构腾讯云 serverless
云原生演进的关键挑战（1）传统微服务架构痛点资源利用率低（非峰值期资源闲置率>60%）运维复杂度高（需管理数百个容器实例）突发流量处理能力弱（扩容延迟导致P99延迟飙升）（2）Serverless的破局价值腾讯云SCF（ServerlessCloudFunction）提供：毫秒级计费粒度（成本下降40%~70%）百毫秒级弹性伸缩（支持每秒万级并发扩容）零基础设施运维同步调用异步事件用户请求API网
Nordic智能楼宇自动化系统方案/nrf-knx-iot Halfway-- Product 物联网 iot
1:KNXIoT通过物联网（IoT）的强大功能和灵活性扩展了KNX标准的能力。因此，它允许KNX设备与物联网设备和云服务集成，从而能够创建先进的智能楼宇自动化系统。通过KNXIoT，设备可以在IP网络上进行通信，从而在设备连接和控制方式上提供更大的灵活性2:KNXIoT由3个主要负责数据互操作性的主要元素组成：KNXIoT第三方API一个标准化的API，通过一个抽象层连接KNX特定知识和第三方应用
鸿蒙 ArkTS 开发知识点全体系（HarmonyOS NEXT 架构）码农乐园 harmonyos 架构华为
一、基础知识：ArkTS语言与项目结构1.ArkTS基础语法（华为增强TypeScript）类型声明与推导函数与箭头函数类、接口、枚举、泛型模块导入与导出装饰器语法（@Entry、@Component等）异步编程（async/await）2.DevEcoStudio开发环境项目创建与构建模拟器配置与真机调试工程结构（entry、pages、resources、common、config.json）
【开源项目】「安卓原生3D开源渲染引擎」：Sceneform‑EQR
「安卓原生3D开源渲染引擎」：Sceneform‑EQR渲染引擎“那一夜凌晨3点，第一次提交PR的手在抖……”——我深刻体会这种忐忑与激动。仓库地址：(github.com)。一、前言：开源对我意味着什么DIY的自由Vs.工业化的束缚刚入Android原生开发时，我习惯自己在项目里嵌入各种3D渲染／AR／XR模块，结构臃肿、流程混乱。当我知道GoogleSceneformSDK被弃用，起初只是出于
GPT-4o重磅升级！只需一条指令，教你秒出SCI级专业科研图！智写AI AI学术写作指南信息可视化人工智能
经过数月爆肝，七哥终于完成专业的学术AI使用教程，估计也有个80万字的详细操作指南。分为多个细分的专业写作场景，跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢迎加我交流（yida985），祝你一臂之力。七哥之前写过关于用AI生成流程图的教程，不过需要借助其他软件才能搞定完美的流程图。近期GPT-4o全新推出了“生图功能”，这个生图的过程就更加方便轻松了，全能G
RAG 调优指南：Spring AI Alibaba 模块化 RAG 原理与使用 ApacheDubbo spring 人工智能架构 Spring AI RAG
>夏冬,SpringAIAlibabaContributorRAG简介什么是RAG（检索增强生成）RAG（RetrievalAugmentedGeneration，检索增强生成）是一种结合信息检索和文本生成的技术范式。核心设计理念RAG技术就像给AI装上了「实时百科大脑」，通过先查资料后回答的机制，让AI摆脱传统模型的"知识遗忘"困境。️四大核心步骤1.文档切割→建立智能档案库核心任务:将海量文档
华为云welink考试试题_华为内部开启WeLink项目，华为云是这样考虑的-通信/网络-与非网... weixin_39820437 华为云welink考试试题
协同办公市场竞争激烈华为云WeLink是华为旗下智能工作平台，它融合消息，邮件，会议、音视频、云空间、小程序等服务，可助力用户随时、随地、通过各类终端设备等实现协作办公。华为还宣布携手合作伙伴成立华为云WeLink生态联盟，金山办公、中软国际、致远互联、罗技、华为商旅、红圈营销、合思费控、Coremail论客、芯盾集团、视源股份、喜马拉雅等成为首批生态伙伴。IDC曾发布了《2018年下半年中国企业
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
【基于ESP32-S3的Modbus RTU单双精度浮点数验证方案】 2345VOR #Arduino小项目开发工业通讯 esp32s3 ModBusRTU 浮点数
基于ESP32-S3的ModbusRTU单双精度浮点数验证方案一、核心功能升级在工业自动化场景中，单纯的整型数据已无法满足高精度测量需求。本文在原有ADC数据采集方案基础上，通过ModbusRTU协议扩展实现以下功能升级：新增1路16位浮点数（3.3V量程）新增1路32位双精度浮点数（±2.5V量程）保持原有4通道ADC数据传输本方案在原有ADC数据采集基础上，重点实现单双精度浮点数（float&
数学分析(十八)-隐函数定理及其应用1-隐函数4：隐函数极值问题 u013250861 数学分析数学分析
f′(x)=−Fx(x,y)Fy(x,y)(5)f^{\prime}(x)=-\cfrac{F_{x}(x,y)}{F_{y}(x,y)}\quad\quad(5)f′(x)=−Fy(x,y)Fx(x,y)(5)y′′=−1Fy(Fxx+2Fxyy′+Fyyy′2)=2FxFyFxy−Fy2Fxx−Fx2FyyFy3,(
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的