housisong

代码优化－之－优化浮点数取整

代码优化－之－优化浮点数取整
[email protected] 2007.05.19

tag: 浮点数转换为整数,fpu,sse,sse2,读缓冲区优化,代码优化,ftol,取整,f2l,ftoi,f2i,floattoint
摘要: 本文首先给出一个浮点数取整的需求，并使用默认的取整方式，然后通过尝试各种方法来优化它的速度；
最终的浮点数取整实现速度甚至达到了初始代码的5倍(是vc6代码的18倍)！

(注意: 文章中的测试结果在不同的CPU和系统环境下可能有不同的结果,数据仅作参考)

(2007.06.08更新：补充SSE3新增的FPU取整指令fisttp的说明)
(2007.06.04更新：一些修正、补充double取整、补充FPU的RC场说明)

正文:
为了便于讨论，这里代码使用C++，涉及到汇编优化的时候假定为x86平台;使用的编译器为vc2005;
测试使用的CPU为AMD64x2 4200+,测试时使用的单线程执行;
为了代码的可读性,没有加入异常处理代码;

A: 需要优化的原始代码(使用了大量的浮点数到整数的转换)

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_0                        1.047 秒 (VC6编译 3.64 秒):
//          (使用vc2005的SSE编译选项 “/arch:SSE” 0.437 秒)
////////////////////////////////////////////////////////////////////////////////

一般编译器生成的浮点数转换为整数的指令序列都比预想的速度慢很多,它的性能代价很容易被人忽略；
在VC6编译器下上面的代码需要运行3.64秒，代码先修改FPU的取整模式(RC场)，完成取整后在恢复RC场；
VC2006生成的代码在CPU支持SSE的时候会调用使用cvttsd2si指令实现的版本，从而加快了取整的速度,
达到了1.047秒，快了很多！
让我们来尝试继续优化这个含有大量取整操作的函数ftol_test_0；

B: 最容易想到的就是用浮点协处理器(FPU)(也可以称作x87)来优化取整
将设置FPU取整方式和恢复FPU的取整方式的代码放到循环体外面从而加快了速度

void ftol_test_fpu()
{
    unsigned short RC_Old;
    unsigned short RC_Edit;
    long isrc;
    asm
    {
        //设置FPU的取整方式  为了直接使用fistp浮点指令
        FNSTCW  RC_Old             // 保存协处理器控制字,用来恢复
        FNSTCW  RC_Edit            // 保存协处理器控制字,用来修改
        FWAIT
        OR      RC_Edit, 0x0F00    // 改为 RC=11  使FPU向零取整

        FLDCW   RC_Edit            // 载入协处理器控制字,RC场已经修改

        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc +ecx*4 ]
        neg     ecx
      StartLoop:
            fld     dword ptr [edx+ecx*4 ]
            fistp   isrc
            add     eax,isrc

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;

        //恢复FPU的取整方式
        FWAIT
        FLDCW   RC_Old
    }
}

//RC场占用第11、10bit位用于控制舍入方向

// RC=00 向最近(或偶数)舍入 RC=01 向下(负无穷大)舍入

// RC=10 向上(正无穷大)舍入 RC=11 向零舍入

//提示:一般的编程语言环境中,RC场都会设置为一个默认值(一般为RC=00),

// 语言就可能利用这一点做快速的取整(比如Delphi中的round函数)，但某些引入的

// 第三方库或代码可能会修改该默认值，从而造成以前运行正确的程序出现异常情况

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_fpu 0.407 秒
////////////////////////////////////////////////////////////////////////////////

SSE3增加了一条FPU取整指令fisttp,和fistp指令功能几乎相同(我的电脑上经过测试速度也相同)，但默认向0取整，和RC场设置无关，所以使用fisttp的代码就可以不管RC场了，有利于简化代码和优化性能；

C:利用浮点数的编码格式来“手工”处理浮点数到整数的转换(利用了IEEE浮点编码格式)

    inline long _ftol_ieee(float f)
    {
        long a         = *(long*)(& f);
        unsigned long mantissa  = (a&((1<<23)-1))|(1<<23); //不支持非规格化浮点数
        long exponent  = ((a&0x7fffffff)>>23 );
        long r         = (mantissa<<8) >> (31+127- exponent);
        long sign      = (a>>31 );
        return ((r ^ (sign)) - sign ) &~ ((exponent-127)>>31 );
    }

void ftol_test_ieee()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; ++ i)
        tmp += _ftol_ieee(fSrc[i]);
    testResult= tmp;
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_ieee 0.828 秒
////////////////////////////////////////////////////////////////////////////////

手工实现居然超过了VC2005的SSE实现(主要是VC2005的实现函数调用开销太大)；

如果能够允许存在误差的话，还有一个快速的取整算法(注意，该函数的结果和标准不完全相同)：// ftol_test_ieee_M 0.438 秒

inline long ftol_ieee_M(float x)
{
    static const float magic_f = (3<<21 );
    static const long magic_i = 0x4ac00000 ;
    float ftmp=x+ magic_f;
    return  (*((long*)&ftmp)-magic_i) >> 1 ;
}

D:对于Double到整数的转换有一个超强的算法 (利用了IEEE浮点编码格式)

    inline long _ftol_ieee_MagicNumber(double x)
    {
        static const double magic = 6755399441055744.0; // (1<<51) | (1<<52)
        double tmp = x;
        tmp += (x > 0) ? -0.499999999999 : +0.499999999999; //如果需要4舍5入取整就去掉这一行
        tmp += magic;
        return *(long*)& tmp;
    }
void ftol_test_ieee_MagicNumber()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; ++ i)
        tmp += _ftol_ieee_MagicNumber(fSrc[i]);
    testResult= tmp;
}

(警告:该算法要求FPU的计算精度为高精度模式，某些程序可能为了速度而将FPU改成了低精度模式，
比如在D3D中会默认调整该设置)

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_ieee_MagicNumber 1.813 秒
////////////////////////////////////////////////////////////////////////////////
如果需要4舍5入取整，速度就能快出很多，降低到0.407秒

( ftol_test_ieee,ftol_test_ieee_MagicNumber的实现主要参考了: 云风的《_ftol 的优化》：

http://blog.codingnow.com/2005/12/_ftol_opt.html
和 http://www.flipcode.com/cgi-bin/fcarticles.cgi?show=64008 这里有改动)

E:借鉴vc2005的SSE实现使用cvttss2si指令

void ftol_test_sse()
{
    asm
    {
        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc+ecx*4 ]
        neg     ecx
      StartLoop:
            cvttss2si   ebx,dword ptr [edx+ecx*4 ]
            add     eax,ebx

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;
    }
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_sse 0.422 秒
////////////////////////////////////////////////////////////////////////////////

F: cvttss2si是一个单指令单数据流的指令，我们可以使用它的单指令多数据流的版本：
cvttps2dq指令；它能同时将4个float取整！

long ftol_sse_expand16(float* psrc,long count16)
{
    long result;
    asm
    {
        mov     ecx,count16
        test    ecx,ecx
        jle     EndLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     ecx,count16
        mov     edx,psrc
        lea     edx,[edx+ecx*4]
        neg     ecx
      StartLoop:  //一次循环处理16个float
            cvttps2dq   xmm2,xmmword ptr [edx+ecx*4 ]
            cvttps2dq   xmm3,xmmword ptr [edx+ecx*4+16 ]
            cvttps2dq   xmm4,xmmword ptr [edx+ecx*4+16*2 ]
            cvttps2dq   xmm5,xmmword ptr [edx+ecx*4+16*3 ]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx,16
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm1,xmm0
        movhlps     xmm1,xmm0
        paddd       xmm0,xmm1
        movaps      xmm2,xmm0
        shufps      xmm2,xmm0, 1
        paddd       xmm0,xmm2

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void ftol_test_sse_expand16()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; i+=2000 )
    {
        tmp+=ftol_sse_expand16(&fSrc[i],2000);//2000=16*125
    }
    //todo: 因为testDataCount是2000的倍数，所以这里不用处理边界了
    testResult= tmp;
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_sse_expand16 0.281 秒
////////////////////////////////////////////////////////////////////////////////

G: 由于函数需要读取大量的数据来处理，所以可以考虑优化读缓冲区(也可以考虑使用显式预读指令)

long ftol_sse_expand16_prefetch(float* psrc,long count16)
{
    long result;
    asm
    {
        mov     ecx,count16
        test    ecx,ecx
        jle     EndLoop

        //预读
        mov     edx,psrc
        lea     edx,[edx+ecx*4 ]
        neg     ecx
      ReadStartLoop:
            mov     eax,dword ptr [edx+ecx*4 ]
            add     ecx,16
          jnz     ReadStartLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     ecx,count16
        neg     ecx
      StartLoop:
            cvttps2dq   xmm2,xmmword ptr [edx+ecx*4]
            cvttps2dq   xmm3,xmmword ptr [edx+ecx*4+16]
            cvttps2dq   xmm4,xmmword ptr [edx+ecx*4+16*2]
            cvttps2dq   xmm5,xmmword ptr [edx+ecx*4+16*3]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx,16
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm1,xmm0
        movhlps     xmm1,xmm0
        paddd       xmm0,xmm1
        movaps      xmm2,xmm0
        shufps      xmm2,xmm0, 1
        paddd       xmm0,xmm2

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void ftol_test_sse_expand16_prefetch()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; i+=2000 )
    {
        tmp+=ftol_sse_expand16_prefetch(&fSrc[i],2000 );
    }
   testResult= tmp;
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_sse_expand16_prefetch 0.219 秒
////////////////////////////////////////////////////////////////////////////////

H:补充Double的取整，完整测试源代码

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

volatile long testResult; //使用一个全局域的volatile变量以避免编译器把需要测试的代码优化掉
const long    testDataCount=10000000 ;
const long    testCount=20 ;
double          fSrc[testDataCount];
#define asm __asm

void dftol_test_0()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; ++ i)
    {
        tmp +=(long)fSrc[i];  //需要优化的浮点取整
    }
    testResult= tmp;
}

void dftol_test_fpu()
{
    unsigned short RC_Old;
    unsigned short RC_Edit;
    long isrc;
    asm  //设置FPU的取整方式  为了直接使用fistp浮点指令
    {
        FNSTCW  RC_Old             // 保存协处理器控制字,用来恢复
        FNSTCW  RC_Edit            // 保存协处理器控制字,用来修改
        FWAIT
        OR      RC_Edit, 0x0F00    // 改为 RC=11  使FPU向零取整
        FLDCW   RC_Edit            // 载入协处理器控制字,RC场已经修改
    // }
    // asm
    //{
        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc+ecx*8 ]
        neg     ecx
      StartLoop:
            fld     qword ptr [edx+ecx*8 ]
            fistp   isrc
            add     eax,isrc

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;
    // }
    //asm  // 恢复FPU的取整方式
    //{
        FWAIT
        FLDCW   RC_Old
    }
}

inline long dftol_ieee_MagicNumber(double x)
{
    static const double magic = 6755399441055744.0; // (1<<51) | (1<<52)
    double tmp = x;
    tmp += (x > 0) ? -0.499999999999 : +0.499999999999; //如果需要4舍5入取整就去掉这一行
    tmp += magic;
    return *(long*)& tmp;
}

void dftol_test_ieee_MagicNumber()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; ++ i)
        tmp += dftol_ieee_MagicNumber(fSrc[i]);
    testResult= tmp;
}

void dftol_test_sse2()
{
    asm
    {
        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc+ecx*8 ]
        neg     ecx
      StartLoop:
            cvttsd2si   ebx,qword ptr [edx+ecx*8 ]
            add     eax,ebx

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;
    }
}

long dftol_sse2_expand8(double* psrc,long count8)
{
    long result;
    asm
    {
        mov     ecx,count8
        test    ecx,ecx
        jle     EndLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     edx,psrc
        lea     edx,[edx+ecx*8 ]
        neg     ecx
      StartLoop://一次循环处理8个double
            cvttpd2dq   xmm2,xmmword ptr [edx+ecx*8 ]
            cvttpd2dq   xmm3,xmmword ptr [edx+ecx*8+16 ]
            cvttpd2dq   xmm4,xmmword ptr [edx+ecx*8+16*2 ]
            cvttpd2dq   xmm5,xmmword ptr [edx+ecx*8+16*3 ]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx,8
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm1,xmm0
        shufps      xmm1,xmm0, 1
        paddd       xmm0,xmm1

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void dftol_test_sse2_expand8()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; i+=2000 )
    {
        tmp+=dftol_sse2_expand8(&fSrc[i],2000);//2000=8*256
    }
    //todo: 因为testDataCount是2000的倍数，所以这里不用处理边界了
    testResult= tmp;
}

long dftol_sse2_expand8_prefetch(double* psrc,long count8)
{
    long result;
    asm
    {
        mov     ecx,count8
        test    ecx,ecx
        jle     EndLoop

        //预读
        mov     edx,psrc
        lea     edx,[edx+ecx*8 ]
        neg     ecx
      ReadStartLoop:
            mov     eax,dword ptr [edx+ecx*8 ]
            add     ecx,8
          jnz     ReadStartLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     ecx,count8
        neg     ecx
      StartLoop:
            cvttpd2dq   xmm2,xmmword ptr [edx +ecx*8 ]
            cvttpd2dq   xmm3,xmmword ptr [edx+ecx*8+16 ]
            cvttpd2dq   xmm4,xmmword ptr [edx+ecx*8+16*2 ]
            cvttpd2dq   xmm5,xmmword ptr [edx+ecx*8+16*3 ]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx,8
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm2,xmm0
        shufps      xmm2,xmm0, 1
        paddd       xmm0,xmm2

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void dftol_test_sse2_expand8_prefetch()
{
    long tmp=0 ;
    for (long i = 0; i < testDataCount; i+=2000 )
    {
        tmp+=dftol_sse2_expand8_prefetch(&fSrc[i],2000 );
    }
   testResult= tmp;
}

int main()
{
    //inti
    for (long i=0;i<testDataCount;++ i)
        fSrc[i]=(float)(rand()*(1.0/RAND_MAX)*(rand()-(RAND_MAX>>1))*rand()*(1.0/ RAND_MAX));

    //test
    double start0=(double )clock();
    for (long c=0;c<testCount;++ c)
        // dftol_test_0();
        // dftol_test_fpu();
        // dftol_test_ieee_MagicNumber();
        // dftol_test_sse2();
        //dftol_test_sse2_expand8();
        dftol_test_sse2_expand8_prefetch();
    start0=((double)clock()-start0)*(1.0/ CLOCKS_PER_SEC);

    //out
    printf ("  Result = %ud   Seconds = %8.5f " ,testResult,start0);

    return 0 ;
}

H:把测试结果放在一起

////////////////////////////////////////////////////////////////////////////////
//速度测试: 编译器vc2005 CPU为AMD64x2 4200+ 单线程
//==============================================================================
// ftol_test_0                        1.047 秒 (“/arch:SSE”0.437秒、VC6编译3.64秒)
// ftol_test_fpu                      0.407 秒
// ftol_test_ieee                     0.828 秒
// ftol_test_ieee_MagicNumber         1.813 秒 (4舍5入取整0.407 秒)
// ftol_test_sse                      0.422 秒
// ftol_test_sse_expand16             0.281 秒
// ftol_test_sse_expand16_prefetch    0.219 秒
//==============================================================================秒
//补充double的取整
// dftol_test_0                       1.141 秒 (“/arch:SSE2”0.734秒、VC6编译3.675秒)
// dftol_test_fpu                     0.719 秒
// dftol_test_ieee_MagicNumber        1.688 秒 (4舍5入取整0.703 秒)
// dftol_test_sse2                    0.734 秒
// dftol_test_sse2_expand8            0.609 秒
// dftol_test_sse2_expand8_prefetch   0.516 秒
////////////////////////////////////////////////////////////////////////////////

提示:为了避免浮点数到整数的转换可以考虑用定点数来表示小数，从而在需要取整的时候可
以用一个快速的移位指令来实现

【编译原理】方舟编译技术课程 — 词法分析 CSU_THU_SUT 编译原理编译器编译原理 llvm
打开目录阅读更佳参考视频：方舟·编译技术入门与实战以及西交冯博琴老师的相关视频编译的过程包括词法分析（分析程序符号）、语法分析（分析语法单位）、中间代码生成、代码优化和目标代码生成。一、编译过程各部分的任务（1）词法分析：输入源程序，扫描分解源程序字符串，识别五类符号，包括定义符、标识符、运算符、界符和常数，转为单词符号。（2）语法分析：在词法分析基础上，将单词符号转为语法单位（如短句、子句、句子
Android 性能优化实战：打造流畅体验斯陀含 android 性能优化
Android性能优化实战：打造流畅体验导言：Android应用的性能直接影响用户体验，流畅、快速、高效的应用才能吸引用户并留住用户。优化代码性能是提升用户体验的关键，而这需要我们深入理解Android系统的运行机制和性能瓶颈，并采取针对性的优化策略。本教程将带领你深入学习Android性能优化，涵盖代码优化、布局优化、渲染优化、内存优化、网络优化等多个方面，并提供丰富的实例和代码示例，帮助你快速
Android之性能优化追梦的鱼儿 android 性能优化
目录1.内存优化1.1避免内存泄漏1.2使用合适的数据结构2.布局优化2.1减少布局层级2.2避免过度绘制3.网络优化3.1使用缓存3.2压缩数据4.I/O操作优化4.1异步处理4.2使用高效的I/OAPI5.动画优化5.1使用硬件加速5.2避免频繁的属性更新6.数据库优化6.1使用索引6.2批量操作7.启动时间优化7.1延迟初始化7.2使用SplashScreen8.代码优化8.1避免不必要的对
通义灵码怎么样？分为哪些版本，看看基础能力多少分？阿里云云原生阿里云云原生通义灵码
通义灵码，是一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，并针对阿里云的云服务使用场景调优，助力开发者高效、流畅的编码。下载使用通义灵码：https://tongyi.aliyun.com/lingma核心场景代码智能生成经过海量优秀开源代码数据训练，可根据当前代码文件及跨文件的上下文
将泛型和函数式编程结合，竟然会让代码这么优雅！程序员蜗牛g springboot java spring
但这种方式却太表象了，没有灵魂和深度，过去的那些日子，我感觉自己的编程水平也就限于把重复的代码抽一抽，（如下图所示一样），甚至觉得代码优化不就是这样吗，这样的状态一直维持很久。image.png然后后来让我感受到这种优雅艺术的点，正是泛型和函数式编程！2.1结构化的代码以分页为例子，来感受一下什么是结构化的代码。特别说明一下：分页还需当前页数、页大小，以及校验等，本案例忽略；代码主要逻辑：查询分页
提升前端性能的JavaScript技巧（上） Good_tea_h javascript
提升前端性能的JavaScript技巧是一个广泛而深入的话题，它涵盖了从代码优化、资源管理、DOM操作效率、网络请求优化到利用现代浏览器特性等多个方面。以下将详细探讨这些技巧，并给出具体的实施建议。一、代码优化1.变量和函数优化局部变量优先：尽量使用局部变量而非全局变量，因为局部变量在查找时速度更快，因为它们位于作用域链的顶部。避免使用with语句：with语句会改变作用域链，导致JavaScri
如何用GPT进行编程辅助？玩AI的小胡子 ai编程 AIGC python chatgpt
随着人工智能技术的迅速发展，GPT（生成型预训练模型）已成为开发者的得力助手之一。无论是编写代码、调试、生成文档，还是解决编程问题，GPT都能提供显著帮助。这篇教程将详细介绍如何使用GPT进行编程辅助，并提供具体的操作步骤和案例。一、为什么选择GPT进行编程辅助？1.快速生成代码：通过提供明确的提示，GPT可以自动生成代码段，减少开发者的工作量，提升效率。2.代码优化与重构：GPT不仅能生成代码，
情怀源码开发搭建的费用是多少呢？梦想平凡游戏机源代码管理游戏程序游戏大数据
在考虑情怀源码的开发搭建时，可以选择对现成源码进行优化与集成，这种方法适合那些既需要节省成本，又希望提升源码稳定性和功能性的项目。通过优化现成源码并与现有系统或第三方服务集成，可以实现更高效的开发和部署。现成源码的基础费用：现成源码通常在几千元到几万元之间，可以提供基本的功能框架，但可能在稳定性和特定功能方面有所欠缺。优化与集成的附加费用：为了提升现成源码的性能和功能，通常需要进行代码优化和与其他
磁盘I/O性能优化示例 Tech Synapse 性能优化
磁盘I/O性能优化通常涉及多个层面，包括操作系统层面的设置、数据库配置调整、以及应用层面的代码优化。由于直接操作磁盘I/O的代码通常较为底层且依赖于具体的系统和库，我将给出一些更通用的指导原则和示例，这些示例可以在不同程度上提升磁盘I/O性能。1.操作系统层面的优化a.调整文件系统挂载选项对于Linux系统，可以通过修改/etc/fstab文件或使用mount命令来调整文件系统的挂载选项，以优化性
使用 UniApp 实现摄像头视频流的接入并在页面上显示视频流 man2017 uni-app
UniApp是一个使用Vue.js开发所有前端应用的框架，它支持一次开发，多端部署（包括H5、小程序和APP）。下面我将展示如何使用UniApp实现摄像头视频流的接入，并在页面上显示视频流。我还会提供一些使用场景以及代码优化建议。使用场景直播应用：用户可以实时分享自己的画面。在线教育平台：教师可以开启摄像头进行授课。远程医疗咨询：医生与患者之间通过视频通话进行交流。安全监控：用户可以查看家中的实时
react面试题八笃励 react.js 前端前端框架
一、如何优化React应用的性能？优化React应用的性能是一个多方面的过程，涵盖了从代码优化到应用架构调整等多个方面。以下是一些关键策略和技术，可以帮助你提升React应用的性能：1.代码拆分和懒加载代码拆分：将代码分割成更小的块，然后只加载当前路由或页面需要的代码块。这可以通过React.lazy和Suspense组件实现。懒加载：在需要时才加载组件或库，可以减少初始加载时间。2.优化组件使用
Rust代码优化的九大技巧代号0408 无畏并发Rust rust 开发语言后端
一.使用Cargo内置的性能分析工具描述：Cargo是Rust的包管理器，带有内置工具来分析代码性能，以识别性能瓶颈。解释：发布模式：在发布模式下编译启用优化，可以显著提高性能。cargobuild--release基准测试：cargobench允许你为代码编写基准测试，提供对程序各部分性能的洞察。cargobench性能分析：像cargoflamegraph这样的工具提供了程序在大多数时间中运行
推荐一款好用的刷题工具阿里云云原生阿里云云原生通义灵码
为了帮助正在准备求职季的开发者提升备战效率，阿里云特别推出“通义灵码陪你备战求职季”活动，精心挑选百道历史校招技术面试/笔试题，借助通义灵码智能问答、代码智能生成、代码优化等核心功能，帮助开发者更加准确地了解程序员职业所需的核心技能，加强对问题解决思维和解题能力的练习。下载安装：通义灵码个人版全面免费，为开发者提供智能编码能力。通义灵码支持JetBrainsIDEs、VisualStudioCod
2018-09-07 Maymomo
编译原理Ch1概念编译程序本质上是一个翻译程序，将一门源语言(高级语言)翻译成功能等价的低级语言(汇编语言，机器语言等)的程序。编译程序由八部分组成：词法分析程序语法分析程序语义分析程序中间代码生成程序代码优化程序目标代码生成程序表格管理程序出错处理程序词法分析顺序读入源程序文件，解析出一个个的单词.我的理解是将语言的保留字，标识符，运算符和数值等提取出来。如下简单的C代码(假设不经历预处理器处理
深入理解 Go 语言原子内存操作 Mindfulness code Go语言开发开发语言 Go atomic
原子内存操作提供了实现其他同步原语所需的低级基础。一般来说，你可以用互斥体和通道替换并发算法的所有原子操作。然而，它们是有趣且有时令人困惑的结构，应该深入了解它们是如何工作的。如果你能够谨慎地使用它们，那么它们完全可以成为代码优化的好工具，而不会增加复杂性。1.原子内存操作的内存保证为什么我们需要单独的函数来进行原子内存操作？如果我们写入一个变量，其大小小于或等于机器字长（现代计算机的机器字长一般
Linux性能调优指南(1)：聚焦CPU性能与缓存优化策略星鬼123 操作系统概念 linux 运维缓存
文章目录一,CPU性能调优1.选择适合的CPU1.1性能评估工具1.2CPU信息查看命令1.3基准测试工具2.CPU缓存优化2.1.了解缓存结构2.2.缓存预热2.3.数据布局和访问模式优化2.4.使用性能分析工具2.4.1.perf的安装2.4.2.perf的基本使用2.4.3.perf的高级功能2.4.4.perf的工作原理2.5.调整内核参数2.6.编译器优化2.7.代码优化2.8.多线程与
Linux系统性能调优指南-应用程序优化何遇mirror 运维 linux
目录应用程序优化性能分析示例步骤1:使用perf分析性能步骤2:使用gprof分析性能步骤3:使用valgrind检测内存泄漏步骤4:代码优化示例代码优化后的代码应用程序优化应用程序优化是提高Linux系统性能的关键部分之一。这通常涉及使用各种工具来分析性能瓶颈，并对代码进行重构以提高效率。下面详细介绍一些常用的性能分析工具和代码优化技巧。性能分析性能分析工具可以帮助开发者找到应用程序中的瓶颈所在
leetcode(力扣) 77. 组合（回溯 & 剪枝-----清晰图解+回溯套路模板）深度不学习！！个人笔记交流学习 python leetcode 1024程序员节
文章目录题目描述思路分析完整代码优化(剪枝)；完整代码题目描述给定两个整数n和k，返回范围[1,n]中所有可能的k个数的组合。你可以按任何顺序返回答案。示例1：输入：n=4,k=2输出：[[2,4],[3,4],[2,3],[1,2],[1,3],[1,4],]示例2：输入：n=1,k=1输出：[[1]]思路分析一道回溯经典应用题。题目要求的是组合不是排列，也就是[1,2][2,1]是一个答案，别
【ASP.NET Core 基础知识】--最佳实践和进阶主题--性能调优和缓存喵叔哟 ASP.NET Core 基础知识 asp.net 缓存后端
一、性能调优在ASP.NETCore中进行性能调优，代码优化是至关重要的一部分。以下是一些常见的ASP.NETCore代码优化技巧：减少数据库查询：尽可能地减少数据库查询次数，可以通过使用合适的ORM（对象关系映射）工具来避免重复查询相同的数据。考虑使用延迟加载（LazyLoading）或预加载（EagerLoading）等技术，以减少不必要的数据库查询。使用异步编程：利用异步编程模式（如asyn
目标检测算法之YOLOv5在社交媒体内容审核领域的应用实例详解小嘤嘤怪学 YOLO 媒体 yolov5 深度学习算法目标检测人工智能
目录YOLOv5具体工作流程应用实例及代码优化再优化继续优化YOLOv5具体工作流程YOLOv5可以在社交媒体内容审核领域发挥重要作用，具体工作流程如下：1.**数据准备**：首先，收集大量标记过的图像和视频数据，这些数据包含了需要被检测的内容类别，例如暴力、色情、仇恨言论等的视觉标识。2.**模型训练**：使用这些数据对YOLOv5模型进行训练。训练过程中，模型学习如何从图像中识别和定位这些不良
金九银十！阿里大牛力荐6篇实战文档：JVM+多线程+Kafka+Redis+Nginx+MySQL，临时抱佛脚管用！独孤球球 jvm java 开发语言
深入理解Java虚拟机：JVM高级特性与最佳实践第一部分走近Java第1章走近Java第二部分自动内存管理机制第2章Java内存区域与内存溢出异常第3章垃圾收集器与内存分配策略第4章虚拟机性能监控与故障处理工具第5章调优案例分析与实战第三部分虚拟机执行子系统第6章类文件结构第7章虚拟机类加载机制第8章虚拟机字节码执行引擎第9章类加载及执行子系统的案例与实战第四部分程序编译与代码优化第10章早期（编
给定n个结点的树，定义G(k)为n个结点的图，u，v之间有边当且仅当u，v在树上的距离大于等于k。对任意k(1 ＜= k ＜= n), 求G(k)连通分量的个数 __night_ codeforces 算法
题目思路：代码优化：在找直径端点的时候把其他结点到直径两端点的距离都求出来，不用lca#includeusingnamespacestd;#defineintlonglong#definepbpush_back#definefifirst#definesesecond#definelsonpG[maxn];intp[maxn];intfa[21][maxn],dep[maxn];intans[ma
Java 三大并大特性-可见性介绍（结合代码、分析源码）夜夜流光相皎洁_小宁 Java技术 java 高并发多线程可见性 jvm hotspot
目录编辑一、可见性概念1.1概念二、可见性问题由来2.1由来分析三、可见性代码例子3.1代码3.2执行结果四、Java中保证可见性的手段4.1volatile4.1.1优化代码4.1.2测试结果4.1.3volatile原理分析4.1.3.1查看字节码4.1.3.2hotspot层面4.1.3.3volatile原理总结4.2synchronized4.2.1代码优化4.2.2测试结果4.2.3s
小猿圈之Hadoop优化小猿圈加加
Hadoop框架是现在最主流的的框架之一，越来越多的人去学习，那么你对hadoop的理解是什么？hadoop一定要会优化，那怎么优化呢，小猿圈今天说一下，感兴趣的朋友可以看看小猿圈写的这篇文章。1、mr程序的效率瓶颈功能：分布式离线计算计算机性能：CPU、内存、磁盘、网络I/O操作优化（1）数据倾斜（代码优化）（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久
【精选】java多态进阶——多态练习测试 hacker-routing web 小白学JAVA java 开发语言 python 网络安全编程青少年编程
博主介绍‍博主介绍：大家好，我是hacker-routing，很高兴认识大家~✨主攻领域：【渗透领域】【应急响应】【python】【VulnHub靶场复现】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！目录代码需求画图代码练习代码优化代码需求根据需求完成代码:1.定义狗类属性：年龄，颜色行为:eat(
通义灵码——灵动指间，快码加编，你的智能编码助手阿里云云原生
通义灵码，是阿里云出品的一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，并针对阿里云的云服务使用场景调优，助力开发者高效、流畅的编码。点击此处立即参与通义灵码体验！代码智能生成，完成工作更高效经过海量优秀开源代码数据训练，可根据当前代码文件及跨文件的上下文，为你生成行级/函数级代码、单元
JVM | 第2部分：虚拟机执行子系统《深入理解 Java 虚拟机》多氯环己烷
前言参考资料：《深入理解Java虚拟机-JVM高级特性与最佳实践》第1部分主题为自动内存管理，以此延伸出Java内存区域与内存溢出、垃圾收集器与内存分配策略、参数配置与性能调优等相关内容；第2部分主题为虚拟机执行子系统，以此延伸出class类文件结构、虚拟机类加载机制、虚拟机字节码执行引擎等相关内容；第3部分主题为程序编译与代码优化，以此延伸出程序前后端编译优化、前端易用性优化、后端性能优化等相关
JS中的设计模式，你还没搞懂设计模式？叫我阿东就行 JS中的设计模式 javascript 设计模式前端
前言在大三上学期，学校开设了软件设计模式这门课程(学位课)，可惜当时并没有重视这门课程，一直视为水课，但是学得越深入(前端方向)，才发现软件设计模式这么重要，好像写代码就离不开软件设计模式，它决定了你要怎样设计你的代码，将所有串联起来，同样也涉及到了很多得代码优化，优化结构，增加代码得可读性和结构性，如果你和当时的我一样还没有搞懂什么时软件设计模式，希望从此刻开始，通过这篇文章，能够加深你对软件设
这35个Java代码优化细节，你用了吗？ weixin_43659776 代码优化 java
这35个Java代码优化细节，你用了吗？作者：java架构笔记前言代码优化，一个很重要的课题。可能有些人觉得没用，一些细小的地方有什么好修改的，改与不改对于代码的运行效率有什么影响呢？这个问题我是这么考虑的，就像大海里面的鲸鱼一样，它吃一条小虾米有用吗？没用，但是，吃的小虾米一多之后，鲸鱼就被喂饱了。代码优化也是一样，如果项目着眼于尽快无BUG上线，那么此时可以抓大放小，代码的细节可以不精打细磨；
js手写Promise（上）法玛梅林网页 javascript 前端开发语言 es6
目录构造函数resolve与reject状态改变状态改变后就无法再次改变代码优化回调函数中抛出错误thenonFulfilled和onRejected的调用时机异步then多个then如果是不知道或者对Promise不熟悉的铁铁可以先看我这篇文章Promise构造函数在最开始，我们先不去考虑Promise内部是怎么实现，而是先将自己的Promise声明出来，这里我使用ES6的class来声明cla
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

代码优化－之－优化浮点数取整

你可能感兴趣的:(代码优化)