代码优化--优化浮点数取整

原文： http://blog.csdn.net/housisong/article/details/1616026

tag: 浮点数转换为整数,fpu,sse,sse2,读缓冲区优化,代码优化,ftol,取整,f2l,ftoi,f2i,floattoint
摘要: 本文首先给出一个浮点数取整的需求，并使用默认的取整方式，然后通过尝试各种方法来优化它的速度；
最终的浮点数取整实现速度甚至达到了初始代码的5倍(是vc6代码的18倍)！

(注意: 文章中的测试结果在不同的CPU和系统环境下可能有不同的结果,数据仅作参考)

(2007.06.08更新：补充SSE3新增的FPU取整指令fisttp的说明)
(2007.06.04更新：一些修正、补充double取整、补充FPU的RC场说明)

正文:
为了便于讨论，这里代码使用C++，涉及到汇编优化的时候假定为x86平台;使用的编译器为vc2005;
测试使用的CPU为AMD64x2 4200+,测试时使用的单线程执行;
为了代码的可读性,没有加入异常处理代码;

A: 需要优化的原始代码(使用了大量的浮点数到整数的转换)

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_0                        1.047 秒 (VC6编译 3.64 秒):
//          (使用vc2005的SSE编译选项 “/arch:SSE” 0.437 秒)
////////////////////////////////////////////////////////////////////////////////

一般编译器生成的浮点数转换为整数的指令序列都比预想的速度慢很多,它的性能代价很容易被人忽略；
在VC6编译器下上面的代码需要运行3.64秒，代码先修改FPU的取整模式(RC场)，完成取整后在恢复RC场；
VC2006生成的代码在CPU支持SSE的时候会调用使用cvttsd2si指令实现的版本，从而加快了取整的速度,
达到了1.047秒，快了很多！
让我们来尝试继续优化这个含有大量取整操作的函数ftol_test_0；

B: 最容易想到的就是用浮点协处理器(FPU)(也可以称作x87)来优化取整
将设置FPU取整方式和恢复FPU的取整方式的代码放到循环体外面从而加快了速度

void ftol_test_fpu()
{
    unsigned short RC_Old;
    unsigned short RC_Edit;
     long isrc;
    asm
    {
         // 设置FPU的取整方式  为了直接使用fistp浮点指令
        FNSTCW  RC_Old              // 保存协处理器控制字,用来恢复
        FNSTCW  RC_Edit             // 保存协处理器控制字,用来修改
        FWAIT
        OR      RC_Edit, 0x0F00      // 改为 RC=11  使FPU向零取整

        FLDCW   RC_Edit             // 载入协处理器控制字,RC场已经修改

        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc + ecx * 4 ]
        neg     ecx
      StartLoop:
            fld     dword ptr [edx + ecx * 4 ]
            fistp   isrc
            add     eax,isrc

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;

         // 恢复FPU的取整方式
        FWAIT
        FLDCW   RC_Old
    }
}

//RC场占用第11、10bit位用于控制舍入方向

// RC=00 向最近(或偶数)舍入 RC=01 向下(负无穷大)舍入

// RC=10 向上(正无穷大)舍入 RC=11 向零舍入

//提示:一般的编程语言环境中,RC场都会设置为一个默认值(一般为RC=00),

// 语言就可能利用这一点做快速的取整(比如Delphi中的round函数)，但某些引入的

// 第三方库或代码可能会修改该默认值，从而造成以前运行正确的程序出现异常情况

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_fpu 0.407 秒
////////////////////////////////////////////////////////////////////////////////

SSE3增加了一条FPU取整指令fisttp,和fistp指令功能几乎相同(我的电脑上经过测试速度也相同)，但默认向0取整，和RC场设置无关，所以使用fisttp的代码就可以不管RC场了，有利于简化代码和优化性能；

C:利用浮点数的编码格式来“手工”处理浮点数到整数的转换(利用了IEEE浮点编码格式)

    inline long _ftol_ieee( float f)
    {
         long a          = * ( long * )( & f);
        unsigned long mantissa   = (a & (( 1 << 23 ) - 1 )) | ( 1 << 23 ); // 不支持非规格化浮点数
         long exponent   = ((a & 0x7fffffff ) >> 23 );
         long r          = (mantissa << 8 ) >> ( 31 + 127 - exponent);
         long sign       = (a >> 31 );
         return ((r ^ (sign)) - sign ) &~ ((exponent - 127 ) >> 31 );
    }

void ftol_test_ieee()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; ++ i)
        tmp += _ftol_ieee(fSrc[i]);
    testResult = tmp;
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_ieee 0.828 秒
////////////////////////////////////////////////////////////////////////////////

手工实现居然超过了VC2005的SSE实现(主要是VC2005的实现函数调用开销太大)；

如果能够允许存在误差的话，还有一个快速的取整算法(注意，该函数的结果和标准不完全相同)：// ftol_test_ieee_M 0.438 秒

inline long ftol_ieee_M( float x)
{
     static const float magic_f = ( 3 << 21 );
     static const long magic_i = 0x4ac00000 ;
     float ftmp = x + magic_f;
     return   ( * (( long * ) & ftmp) - magic_i) >> 1 ;
}

D:对于Double到整数的转换有一个超强的算法 (利用了IEEE浮点编码格式)

    inline long _ftol_ieee_MagicNumber( double x)
    {
         static const double magic = 6755399441055744.0 ; // (1<<51) | (1<<52)
         double tmp = x;
        tmp += (x > 0 ) ? - 0.499999999999 : + 0.499999999999 ; // 如果需要4舍5入取整就去掉这一行
        tmp += magic;
         return * ( long * ) & tmp;
    }
void ftol_test_ieee_MagicNumber()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; ++ i)
        tmp += _ftol_ieee_MagicNumber(fSrc[i]);
    testResult = tmp;
}

(警告:该算法要求FPU的计算精度为高精度模式，某些程序可能为了速度而将FPU改成了低精度模式，
比如在D3D中会默认调整该设置)

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_ieee_MagicNumber 1.813 秒
////////////////////////////////////////////////////////////////////////////////
如果需要4舍5入取整，速度就能快出很多，降低到0.407秒

( ftol_test_ieee,ftol_test_ieee_MagicNumber的实现主要参考了: 云风的《_ftol 的优化》：

http://blog.codingnow.com/2005/12/_ftol_opt.html
和 http://www.flipcode.com/cgi-bin/fcarticles.cgi?show=64008 这里有改动)

E:借鉴vc2005的SSE实现使用cvttss2si指令

void ftol_test_sse()
{
    asm
    {
        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc + ecx * 4 ]
        neg     ecx
      StartLoop:
            cvttss2si   ebx,dword ptr [edx + ecx * 4 ]
            add     eax,ebx

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;
    }
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_sse 0.422 秒
////////////////////////////////////////////////////////////////////////////////

F: cvttss2si是一个单指令单数据流的指令，我们可以使用它的单指令多数据流的版本：
cvttps2dq指令；它能同时将4个float取整！

long ftol_sse_expand16( float * psrc, long count16)
{
     long result;
    asm
    {
        mov     ecx,count16
        test    ecx,ecx
        jle     EndLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     ecx,count16
        mov     edx,psrc
        lea     edx,[edx+ecx*4]
        neg     ecx
      StartLoop:   // 一次循环处理16个float
            cvttps2dq   xmm2,xmmword ptr [edx + ecx * 4 ]
            cvttps2dq   xmm3,xmmword ptr [edx + ecx * 4 + 16 ]
            cvttps2dq   xmm4,xmmword ptr [edx + ecx * 4 + 16 * 2 ]
            cvttps2dq   xmm5,xmmword ptr [edx + ecx * 4 + 16 * 3 ]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx, 16
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm1,xmm0
        movhlps     xmm1,xmm0
        paddd       xmm0,xmm1
        movaps      xmm2,xmm0
        shufps      xmm2,xmm0, 1
        paddd       xmm0,xmm2

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void ftol_test_sse_expand16()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; i += 2000 )
    {
        tmp += ftol_sse_expand16( & fSrc[i], 2000 ); // 2000=16*125
    }
     // todo: 因为testDataCount是2000的倍数，所以这里不用处理边界了
    testResult = tmp;
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_sse_expand16 0.281 秒
////////////////////////////////////////////////////////////////////////////////

G: 由于函数需要读取大量的数据来处理，所以可以考虑优化读缓冲区(也可以考虑使用显式预读指令)

long ftol_sse_expand16_prefetch( float * psrc, long count16)
{
     long result;
    asm
    {
        mov     ecx,count16
        test    ecx,ecx
        jle     EndLoop

         // 预读
        mov     edx,psrc
        lea     edx,[edx + ecx * 4 ]
        neg     ecx
      ReadStartLoop:
            mov     eax,dword ptr [edx + ecx * 4 ]
            add     ecx, 16
          jnz     ReadStartLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     ecx,count16
        neg     ecx
      StartLoop:
            cvttps2dq   xmm2,xmmword ptr [edx+ecx*4]
            cvttps2dq   xmm3,xmmword ptr [edx+ecx*4+16]
            cvttps2dq   xmm4,xmmword ptr [edx+ecx*4+16*2]
            cvttps2dq   xmm5,xmmword ptr [edx+ecx*4+16*3]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx,16
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm1,xmm0
        movhlps     xmm1,xmm0
        paddd       xmm0,xmm1
        movaps      xmm2,xmm0
        shufps      xmm2,xmm0, 1
        paddd       xmm0,xmm2

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void ftol_test_sse_expand16_prefetch()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; i += 2000 )
    {
        tmp += ftol_sse_expand16_prefetch( & fSrc[i], 2000 );
    }
   testResult = tmp;
}

////////////////////////////////////////////////////////////////////////////////
//速度测试:
//==============================================================================
// ftol_test_sse_expand16_prefetch 0.219 秒
////////////////////////////////////////////////////////////////////////////////

H:补充Double的取整，完整测试源代码

#include < stdio.h >
#include < stdlib.h >
#include < time.h >

volatile long testResult; // 使用一个全局域的volatile变量以避免编译器把需要测试的代码优化掉
const long     testDataCount = 10000000 ;
const long     testCount = 20 ;
double          fSrc[testDataCount];
#define asm __asm

void dftol_test_0()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; ++ i)
    {
        tmp += ( long )fSrc[i];   // 需要优化的浮点取整
    }
    testResult = tmp;
}

void dftol_test_fpu()
{
    unsigned short RC_Old;
    unsigned short RC_Edit;
     long isrc;
    asm   // 设置FPU的取整方式  为了直接使用fistp浮点指令
    {
        FNSTCW  RC_Old              // 保存协处理器控制字,用来恢复
        FNSTCW  RC_Edit             // 保存协处理器控制字,用来修改
        FWAIT
        OR      RC_Edit, 0x0F00      // 改为 RC=11  使FPU向零取整
        FLDCW   RC_Edit             // 载入协处理器控制字,RC场已经修改
     // }
     // asm
     // {
        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc + ecx * 8 ]
        neg     ecx
      StartLoop:
            fld     qword ptr [edx + ecx * 8 ]
            fistp   isrc
            add     eax,isrc

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;
     // }
     // asm   // 恢复FPU的取整方式
     // {
        FWAIT
        FLDCW   RC_Old
    }
}

inline long dftol_ieee_MagicNumber( double x)
{
     static const double magic = 6755399441055744.0 ; // (1<<51) | (1<<52)
     double tmp = x;
    tmp += (x > 0 ) ? - 0.499999999999 : + 0.499999999999 ; // 如果需要4舍5入取整就去掉这一行
    tmp += magic;
     return * ( long * ) & tmp;
}

void dftol_test_ieee_MagicNumber()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; ++ i)
        tmp += dftol_ieee_MagicNumber(fSrc[i]);
    testResult = tmp;
}

void dftol_test_sse2()
{
    asm
    {
        mov     ecx,testDataCount
        xor     eax,eax
        test    ecx,ecx
        jle     EndLoop

        lea     edx,[fSrc + ecx * 8 ]
        neg     ecx
      StartLoop:
            cvttsd2si   ebx,qword ptr [edx + ecx * 8 ]
            add     eax,ebx

          inc     ecx
          jnz     StartLoop

      EndLoop:

        mov  testResult,eax;
    }
}

long dftol_sse2_expand8( double * psrc, long count8)
{
     long result;
    asm
    {
        mov     ecx,count8
        test    ecx,ecx
        jle     EndLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     edx,psrc
        lea     edx,[edx + ecx * 8 ]
        neg     ecx
      StartLoop: // 一次循环处理8个double
            cvttpd2dq   xmm2,xmmword ptr [edx + ecx * 8 ]
            cvttpd2dq   xmm3,xmmword ptr [edx + ecx * 8 + 16 ]
            cvttpd2dq   xmm4,xmmword ptr [edx + ecx * 8 + 16 * 2 ]
            cvttpd2dq   xmm5,xmmword ptr [edx + ecx * 8 + 16 * 3 ]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx, 8
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm1,xmm0
        shufps      xmm1,xmm0, 1
        paddd       xmm0,xmm1

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void dftol_test_sse2_expand8()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; i += 2000 )
    {
        tmp += dftol_sse2_expand8( & fSrc[i], 2000 ); // 2000=8*256
    }
     // todo: 因为testDataCount是2000的倍数，所以这里不用处理边界了
    testResult = tmp;
}

long dftol_sse2_expand8_prefetch( double * psrc, long count8)
{
     long result;
    asm
    {
        mov     ecx,count8
        test    ecx,ecx
        jle     EndLoop

         // 预读
        mov     edx,psrc
        lea     edx,[edx + ecx * 8 ]
        neg     ecx
      ReadStartLoop:
            mov     eax,dword ptr [edx + ecx * 8 ]
            add     ecx, 8
          jnz     ReadStartLoop

        pxor    xmm0,xmm0
        pxor    xmm1,xmm1
        mov     ecx,count8
        neg     ecx
      StartLoop:
            cvttpd2dq   xmm2,xmmword ptr [edx + ecx * 8 ]
            cvttpd2dq   xmm3,xmmword ptr [edx + ecx * 8 + 16 ]
            cvttpd2dq   xmm4,xmmword ptr [edx + ecx * 8 + 16 * 2 ]
            cvttpd2dq   xmm5,xmmword ptr [edx + ecx * 8 + 16 * 3 ]
            paddd       xmm2,xmm3
            paddd       xmm4,xmm5
            add     ecx, 8
            paddd       xmm0,xmm2
            paddd       xmm1,xmm4

          jnz     StartLoop

      EndLoop:
        paddd       xmm0,xmm1

        movaps      xmm2,xmm0
        shufps      xmm2,xmm0, 1
        paddd       xmm0,xmm2

        movd       eax,xmm0
        mov        result,eax
    }
     return   result;
}
void dftol_test_sse2_expand8_prefetch()
{
     long tmp = 0 ;
     for ( long i = 0 ; i < testDataCount; i += 2000 )
    {
        tmp += dftol_sse2_expand8_prefetch( & fSrc[i], 2000 );
    }
   testResult = tmp;
}

int main()
{
     // inti
     for ( long i = 0 ;i < testDataCount; ++ i)
        fSrc[i] = ( float )(rand() * ( 1.0 / RAND_MAX) * (rand() - (RAND_MAX >> 1 )) * rand() * ( 1.0 / RAND_MAX));

     // test
     double start0 = ( double )clock();
     for ( long c = 0 ;c < testCount; ++ c)
         // dftol_test_0();
         // dftol_test_fpu();
         // dftol_test_ieee_MagicNumber();
         // dftol_test_sse2();
         // dftol_test_sse2_expand8();
        dftol_test_sse2_expand8_prefetch();
    start0 = (( double )clock() - start0) * ( 1.0 / CLOCKS_PER_SEC);

     // out
    printf ( "   Result = %ud   Seconds = %8.5f " ,testResult,start0);

     return 0 ;
}

H:把测试结果放在一起

////////////////////////////////////////////////////////////////////////////////
//速度测试: 编译器vc2005 CPU为AMD64x2 4200+ 单线程
//==============================================================================
// ftol_test_0                        1.047 秒 (“/arch:SSE”0.437秒、VC6编译3.64秒)
// ftol_test_fpu                      0.407 秒
// ftol_test_ieee                     0.828 秒
// ftol_test_ieee_MagicNumber         1.813 秒 (4舍5入取整0.407 秒)
// ftol_test_sse                      0.422 秒
// ftol_test_sse_expand16             0.281 秒
// ftol_test_sse_expand16_prefetch    0.219 秒
//==============================================================================秒
//补充double的取整
// dftol_test_0                       1.141 秒 (“/arch:SSE2”0.734秒、VC6编译3.675秒)
// dftol_test_fpu                     0.719 秒
// dftol_test_ieee_MagicNumber        1.688 秒 (4舍5入取整0.703 秒)
// dftol_test_sse2                    0.734 秒
// dftol_test_sse2_expand8            0.609 秒
// dftol_test_sse2_expand8_prefetch   0.516 秒
////////////////////////////////////////////////////////////////////////////////

提示:为了避免浮点数到整数的转换可以考虑用定点数来表示小数，从而在需要取整的时候可
以用一个快速的移位指令来实现

【编译原理】方舟编译技术课程 — 词法分析 CSU_THU_SUT 编译原理编译器编译原理 llvm
打开目录阅读更佳参考视频：方舟·编译技术入门与实战以及西交冯博琴老师的相关视频编译的过程包括词法分析（分析程序符号）、语法分析（分析语法单位）、中间代码生成、代码优化和目标代码生成。一、编译过程各部分的任务（1）词法分析：输入源程序，扫描分解源程序字符串，识别五类符号，包括定义符、标识符、运算符、界符和常数，转为单词符号。（2）语法分析：在词法分析基础上，将单词符号转为语法单位（如短句、子句、句子
Android 性能优化实战：打造流畅体验斯陀含 android 性能优化
Android性能优化实战：打造流畅体验导言：Android应用的性能直接影响用户体验，流畅、快速、高效的应用才能吸引用户并留住用户。优化代码性能是提升用户体验的关键，而这需要我们深入理解Android系统的运行机制和性能瓶颈，并采取针对性的优化策略。本教程将带领你深入学习Android性能优化，涵盖代码优化、布局优化、渲染优化、内存优化、网络优化等多个方面，并提供丰富的实例和代码示例，帮助你快速
Android之性能优化追梦的鱼儿 android 性能优化
目录1.内存优化1.1避免内存泄漏1.2使用合适的数据结构2.布局优化2.1减少布局层级2.2避免过度绘制3.网络优化3.1使用缓存3.2压缩数据4.I/O操作优化4.1异步处理4.2使用高效的I/OAPI5.动画优化5.1使用硬件加速5.2避免频繁的属性更新6.数据库优化6.1使用索引6.2批量操作7.启动时间优化7.1延迟初始化7.2使用SplashScreen8.代码优化8.1避免不必要的对
通义灵码怎么样？分为哪些版本，看看基础能力多少分？阿里云云原生阿里云云原生通义灵码
通义灵码，是一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，并针对阿里云的云服务使用场景调优，助力开发者高效、流畅的编码。下载使用通义灵码：https://tongyi.aliyun.com/lingma核心场景代码智能生成经过海量优秀开源代码数据训练，可根据当前代码文件及跨文件的上下文
将泛型和函数式编程结合，竟然会让代码这么优雅！程序员蜗牛g springboot java spring
但这种方式却太表象了，没有灵魂和深度，过去的那些日子，我感觉自己的编程水平也就限于把重复的代码抽一抽，（如下图所示一样），甚至觉得代码优化不就是这样吗，这样的状态一直维持很久。image.png然后后来让我感受到这种优雅艺术的点，正是泛型和函数式编程！2.1结构化的代码以分页为例子，来感受一下什么是结构化的代码。特别说明一下：分页还需当前页数、页大小，以及校验等，本案例忽略；代码主要逻辑：查询分页
提升前端性能的JavaScript技巧（上） Good_tea_h javascript
提升前端性能的JavaScript技巧是一个广泛而深入的话题，它涵盖了从代码优化、资源管理、DOM操作效率、网络请求优化到利用现代浏览器特性等多个方面。以下将详细探讨这些技巧，并给出具体的实施建议。一、代码优化1.变量和函数优化局部变量优先：尽量使用局部变量而非全局变量，因为局部变量在查找时速度更快，因为它们位于作用域链的顶部。避免使用with语句：with语句会改变作用域链，导致JavaScri
如何用GPT进行编程辅助？玩AI的小胡子 ai编程 AIGC python chatgpt
随着人工智能技术的迅速发展，GPT（生成型预训练模型）已成为开发者的得力助手之一。无论是编写代码、调试、生成文档，还是解决编程问题，GPT都能提供显著帮助。这篇教程将详细介绍如何使用GPT进行编程辅助，并提供具体的操作步骤和案例。一、为什么选择GPT进行编程辅助？1.快速生成代码：通过提供明确的提示，GPT可以自动生成代码段，减少开发者的工作量，提升效率。2.代码优化与重构：GPT不仅能生成代码，
情怀源码开发搭建的费用是多少呢？梦想平凡游戏机源代码管理游戏程序游戏大数据
在考虑情怀源码的开发搭建时，可以选择对现成源码进行优化与集成，这种方法适合那些既需要节省成本，又希望提升源码稳定性和功能性的项目。通过优化现成源码并与现有系统或第三方服务集成，可以实现更高效的开发和部署。现成源码的基础费用：现成源码通常在几千元到几万元之间，可以提供基本的功能框架，但可能在稳定性和特定功能方面有所欠缺。优化与集成的附加费用：为了提升现成源码的性能和功能，通常需要进行代码优化和与其他
磁盘I/O性能优化示例 Tech Synapse 性能优化
磁盘I/O性能优化通常涉及多个层面，包括操作系统层面的设置、数据库配置调整、以及应用层面的代码优化。由于直接操作磁盘I/O的代码通常较为底层且依赖于具体的系统和库，我将给出一些更通用的指导原则和示例，这些示例可以在不同程度上提升磁盘I/O性能。1.操作系统层面的优化a.调整文件系统挂载选项对于Linux系统，可以通过修改/etc/fstab文件或使用mount命令来调整文件系统的挂载选项，以优化性
使用 UniApp 实现摄像头视频流的接入并在页面上显示视频流 man2017 uni-app
UniApp是一个使用Vue.js开发所有前端应用的框架，它支持一次开发，多端部署（包括H5、小程序和APP）。下面我将展示如何使用UniApp实现摄像头视频流的接入，并在页面上显示视频流。我还会提供一些使用场景以及代码优化建议。使用场景直播应用：用户可以实时分享自己的画面。在线教育平台：教师可以开启摄像头进行授课。远程医疗咨询：医生与患者之间通过视频通话进行交流。安全监控：用户可以查看家中的实时
react面试题八笃励 react.js 前端前端框架
一、如何优化React应用的性能？优化React应用的性能是一个多方面的过程，涵盖了从代码优化到应用架构调整等多个方面。以下是一些关键策略和技术，可以帮助你提升React应用的性能：1.代码拆分和懒加载代码拆分：将代码分割成更小的块，然后只加载当前路由或页面需要的代码块。这可以通过React.lazy和Suspense组件实现。懒加载：在需要时才加载组件或库，可以减少初始加载时间。2.优化组件使用
Rust代码优化的九大技巧代号0408 无畏并发Rust rust 开发语言后端
一.使用Cargo内置的性能分析工具描述：Cargo是Rust的包管理器，带有内置工具来分析代码性能，以识别性能瓶颈。解释：发布模式：在发布模式下编译启用优化，可以显著提高性能。cargobuild--release基准测试：cargobench允许你为代码编写基准测试，提供对程序各部分性能的洞察。cargobench性能分析：像cargoflamegraph这样的工具提供了程序在大多数时间中运行
推荐一款好用的刷题工具阿里云云原生阿里云云原生通义灵码
为了帮助正在准备求职季的开发者提升备战效率，阿里云特别推出“通义灵码陪你备战求职季”活动，精心挑选百道历史校招技术面试/笔试题，借助通义灵码智能问答、代码智能生成、代码优化等核心功能，帮助开发者更加准确地了解程序员职业所需的核心技能，加强对问题解决思维和解题能力的练习。下载安装：通义灵码个人版全面免费，为开发者提供智能编码能力。通义灵码支持JetBrainsIDEs、VisualStudioCod
2018-09-07 Maymomo
编译原理Ch1概念编译程序本质上是一个翻译程序，将一门源语言(高级语言)翻译成功能等价的低级语言(汇编语言，机器语言等)的程序。编译程序由八部分组成：词法分析程序语法分析程序语义分析程序中间代码生成程序代码优化程序目标代码生成程序表格管理程序出错处理程序词法分析顺序读入源程序文件，解析出一个个的单词.我的理解是将语言的保留字，标识符，运算符和数值等提取出来。如下简单的C代码(假设不经历预处理器处理
深入理解 Go 语言原子内存操作 Mindfulness code Go语言开发开发语言 Go atomic
原子内存操作提供了实现其他同步原语所需的低级基础。一般来说，你可以用互斥体和通道替换并发算法的所有原子操作。然而，它们是有趣且有时令人困惑的结构，应该深入了解它们是如何工作的。如果你能够谨慎地使用它们，那么它们完全可以成为代码优化的好工具，而不会增加复杂性。1.原子内存操作的内存保证为什么我们需要单独的函数来进行原子内存操作？如果我们写入一个变量，其大小小于或等于机器字长（现代计算机的机器字长一般
Linux性能调优指南(1)：聚焦CPU性能与缓存优化策略星鬼123 操作系统概念 linux 运维缓存
文章目录一,CPU性能调优1.选择适合的CPU1.1性能评估工具1.2CPU信息查看命令1.3基准测试工具2.CPU缓存优化2.1.了解缓存结构2.2.缓存预热2.3.数据布局和访问模式优化2.4.使用性能分析工具2.4.1.perf的安装2.4.2.perf的基本使用2.4.3.perf的高级功能2.4.4.perf的工作原理2.5.调整内核参数2.6.编译器优化2.7.代码优化2.8.多线程与
Linux系统性能调优指南-应用程序优化何遇mirror 运维 linux
目录应用程序优化性能分析示例步骤1:使用perf分析性能步骤2:使用gprof分析性能步骤3:使用valgrind检测内存泄漏步骤4:代码优化示例代码优化后的代码应用程序优化应用程序优化是提高Linux系统性能的关键部分之一。这通常涉及使用各种工具来分析性能瓶颈，并对代码进行重构以提高效率。下面详细介绍一些常用的性能分析工具和代码优化技巧。性能分析性能分析工具可以帮助开发者找到应用程序中的瓶颈所在
leetcode(力扣) 77. 组合（回溯 & 剪枝-----清晰图解+回溯套路模板）深度不学习！！个人笔记交流学习 python leetcode 1024程序员节
文章目录题目描述思路分析完整代码优化(剪枝)；完整代码题目描述给定两个整数n和k，返回范围[1,n]中所有可能的k个数的组合。你可以按任何顺序返回答案。示例1：输入：n=4,k=2输出：[[2,4],[3,4],[2,3],[1,2],[1,3],[1,4],]示例2：输入：n=1,k=1输出：[[1]]思路分析一道回溯经典应用题。题目要求的是组合不是排列，也就是[1,2][2,1]是一个答案，别
【ASP.NET Core 基础知识】--最佳实践和进阶主题--性能调优和缓存喵叔哟 ASP.NET Core 基础知识 asp.net 缓存后端
一、性能调优在ASP.NETCore中进行性能调优，代码优化是至关重要的一部分。以下是一些常见的ASP.NETCore代码优化技巧：减少数据库查询：尽可能地减少数据库查询次数，可以通过使用合适的ORM（对象关系映射）工具来避免重复查询相同的数据。考虑使用延迟加载（LazyLoading）或预加载（EagerLoading）等技术，以减少不必要的数据库查询。使用异步编程：利用异步编程模式（如asyn
目标检测算法之YOLOv5在社交媒体内容审核领域的应用实例详解小嘤嘤怪学 YOLO 媒体 yolov5 深度学习算法目标检测人工智能
目录YOLOv5具体工作流程应用实例及代码优化再优化继续优化YOLOv5具体工作流程YOLOv5可以在社交媒体内容审核领域发挥重要作用，具体工作流程如下：1.**数据准备**：首先，收集大量标记过的图像和视频数据，这些数据包含了需要被检测的内容类别，例如暴力、色情、仇恨言论等的视觉标识。2.**模型训练**：使用这些数据对YOLOv5模型进行训练。训练过程中，模型学习如何从图像中识别和定位这些不良
金九银十！阿里大牛力荐6篇实战文档：JVM+多线程+Kafka+Redis+Nginx+MySQL，临时抱佛脚管用！独孤球球 jvm java 开发语言
深入理解Java虚拟机：JVM高级特性与最佳实践第一部分走近Java第1章走近Java第二部分自动内存管理机制第2章Java内存区域与内存溢出异常第3章垃圾收集器与内存分配策略第4章虚拟机性能监控与故障处理工具第5章调优案例分析与实战第三部分虚拟机执行子系统第6章类文件结构第7章虚拟机类加载机制第8章虚拟机字节码执行引擎第9章类加载及执行子系统的案例与实战第四部分程序编译与代码优化第10章早期（编
给定n个结点的树，定义G(k)为n个结点的图，u，v之间有边当且仅当u，v在树上的距离大于等于k。对任意k(1 ＜= k ＜= n), 求G(k)连通分量的个数 __night_ codeforces 算法
题目思路：代码优化：在找直径端点的时候把其他结点到直径两端点的距离都求出来，不用lca#includeusingnamespacestd;#defineintlonglong#definepbpush_back#definefifirst#definesesecond#definelsonpG[maxn];intp[maxn];intfa[21][maxn],dep[maxn];intans[ma
Java 三大并大特性-可见性介绍（结合代码、分析源码）夜夜流光相皎洁_小宁 Java技术 java 高并发多线程可见性 jvm hotspot
目录编辑一、可见性概念1.1概念二、可见性问题由来2.1由来分析三、可见性代码例子3.1代码3.2执行结果四、Java中保证可见性的手段4.1volatile4.1.1优化代码4.1.2测试结果4.1.3volatile原理分析4.1.3.1查看字节码4.1.3.2hotspot层面4.1.3.3volatile原理总结4.2synchronized4.2.1代码优化4.2.2测试结果4.2.3s
小猿圈之Hadoop优化小猿圈加加
Hadoop框架是现在最主流的的框架之一，越来越多的人去学习，那么你对hadoop的理解是什么？hadoop一定要会优化，那怎么优化呢，小猿圈今天说一下，感兴趣的朋友可以看看小猿圈写的这篇文章。1、mr程序的效率瓶颈功能：分布式离线计算计算机性能：CPU、内存、磁盘、网络I/O操作优化（1）数据倾斜（代码优化）（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久
【精选】java多态进阶——多态练习测试 hacker-routing web 小白学JAVA java 开发语言 python 网络安全编程青少年编程
博主介绍‍博主介绍：大家好，我是hacker-routing，很高兴认识大家~✨主攻领域：【渗透领域】【应急响应】【python】【VulnHub靶场复现】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！目录代码需求画图代码练习代码优化代码需求根据需求完成代码:1.定义狗类属性：年龄，颜色行为:eat(
通义灵码——灵动指间，快码加编，你的智能编码助手阿里云云原生
通义灵码，是阿里云出品的一款基于通义大模型的智能编码辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力，并针对阿里云的云服务使用场景调优，助力开发者高效、流畅的编码。点击此处立即参与通义灵码体验！代码智能生成，完成工作更高效经过海量优秀开源代码数据训练，可根据当前代码文件及跨文件的上下文，为你生成行级/函数级代码、单元
JVM | 第2部分：虚拟机执行子系统《深入理解 Java 虚拟机》多氯环己烷
前言参考资料：《深入理解Java虚拟机-JVM高级特性与最佳实践》第1部分主题为自动内存管理，以此延伸出Java内存区域与内存溢出、垃圾收集器与内存分配策略、参数配置与性能调优等相关内容；第2部分主题为虚拟机执行子系统，以此延伸出class类文件结构、虚拟机类加载机制、虚拟机字节码执行引擎等相关内容；第3部分主题为程序编译与代码优化，以此延伸出程序前后端编译优化、前端易用性优化、后端性能优化等相关
JS中的设计模式，你还没搞懂设计模式？叫我阿东就行 JS中的设计模式 javascript 设计模式前端
前言在大三上学期，学校开设了软件设计模式这门课程(学位课)，可惜当时并没有重视这门课程，一直视为水课，但是学得越深入(前端方向)，才发现软件设计模式这么重要，好像写代码就离不开软件设计模式，它决定了你要怎样设计你的代码，将所有串联起来，同样也涉及到了很多得代码优化，优化结构，增加代码得可读性和结构性，如果你和当时的我一样还没有搞懂什么时软件设计模式，希望从此刻开始，通过这篇文章，能够加深你对软件设
这35个Java代码优化细节，你用了吗？ weixin_43659776 代码优化 java
这35个Java代码优化细节，你用了吗？作者：java架构笔记前言代码优化，一个很重要的课题。可能有些人觉得没用，一些细小的地方有什么好修改的，改与不改对于代码的运行效率有什么影响呢？这个问题我是这么考虑的，就像大海里面的鲸鱼一样，它吃一条小虾米有用吗？没用，但是，吃的小虾米一多之后，鲸鱼就被喂饱了。代码优化也是一样，如果项目着眼于尽快无BUG上线，那么此时可以抓大放小，代码的细节可以不精打细磨；
js手写Promise（上）法玛梅林网页 javascript 前端开发语言 es6
目录构造函数resolve与reject状态改变状态改变后就无法再次改变代码优化回调函数中抛出错误thenonFulfilled和onRejected的调用时机异步then多个then如果是不知道或者对Promise不熟悉的铁铁可以先看我这篇文章Promise构造函数在最开始，我们先不去考虑Promise内部是怎么实现，而是先将自己的Promise声明出来，这里我使用ES6的class来声明cla
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

代码优化--优化浮点数取整

你可能感兴趣的:(代码优化)