Briwisdom

编译代码性能优化实践：理解循环展开(pragma unroll)

引言：CUDA的矩阵乘优化经常见到 pragma unroll 的使用，本文通过简单的示例，展示了CPU和CUDA对循环展开前后的性能表现，来通俗理解循环展开的优化策略。

一、什么是循环展开？

简单理解：将代码中的for循环展开，减少循环次数；循环展开的本质是，利用CPU指令级并行，来降低循环的开销，当然，同时也有利于指令流水线的高效调度

优点

提高缓存命中（cache hit）率，增加循环体内语句并发执行的可能性（需要循环体内语句不相关）；
减少分支预测失败的可能性，提高性能

缺点

程序代码膨胀、代码可读性降低
消耗较多寄存器缓存（SM里的寄存器大小是有限的，SM会根据一个块需要消耗的寄存器大小和线程的个数去分配该SM上块的个数，当一个SM连一个块都分配不了时，就会导致内核启动不了）

二、循环展开的使用

循环展开在CPU和CUDA端都可以使用，但在CPU端可以由程序员手动实现，也可以通过成熟的编译器实现优化。# pragma unroll 是常用在CUDA编程的核函数中对for循环展开的使用方法。

下面通过计算0-100000个数字累加的和为例，展示CPU和CUDA下的对循环展开使用的理解。

CPU端

1）原始不展开

void test_cpu_1(int count, const char* name)
{  
    int sum = 0;

    auto start = std::chrono::system_clock::now();
    for(int i = 0;i < count;i++){  
        sum += i;
    }
    auto end = std::chrono::system_clock::now();
    auto dura = std::chrono::duration_cast (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;
    printf("                                                   sum = %d\n",sum);
}

2）循环展间隔4次

void test_cpu_2(int count, const char* name)
{
    int sum = 0;
    auto start = std::chrono::system_clock::now();
    for(int i=0; i (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;
    printf("                                                   sum = %d\n",sum);

}

3）循环展开间隔4次，优化循环内的数据依赖关系

上面虽然实现了循环展开，但是循环体内是的4行代码之间共用sum地址, 所以是有先后依赖的，如果我们把他们之间的依赖关系去掉，则能进一步提升代码性能。

void test_cpu_3(int count, const char* name)
{
    int sum = 0;
    int sum1=0,sum2=0,sum3=0, sum4=0;

    auto start = std::chrono::system_clock::now();
    for(int i=0;i < count;i+=4){
        sum1 += i;
        sum2 += i+1;
        sum3 += i+2;
        sum4 += i+3;
    }
    sum = sum1+sum2+sum3+sum4;
    auto end = std::chrono::system_clock::now();
    auto dura = std::chrono::duration_cast (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;
    printf("                                                   sum = %d\n",sum);

}

CUDA端

CUDA则主要对比使用# pragma unroll前后的区别。

1）原始不展开

__global__ void progam_kernel1(int* sum, int count)
{
    for(int i = 0;i < count;i++){  
        *sum += i;
    }
    
}

2）使用循环展开

__global__ void progam_kernel2(int* sum, int count)
{
    #pragma unroll
    for(int i = 0;i < count;i++){  
        *sum += i;
    }
}

性能分析与测试接口实现

上面各种对比的方法测试时间如下，可以看到CPU端循环展开比原始不展开时间减少接近一半，而优化后的循环展开时间又减少将近一半。CUDA端使用pragma unroll后，时间减少三分之二。

cpu origin cost time: 1079 microseconds
                                                   sum = 704982704
cpu pragma unroll cost time: 678 microseconds
                                                   sum = 704982704
cpu pragma unroll_1 cost time: 374 microseconds
                                                   sum = 704982704
cuda origin cost time: 18 microseconds
                                                   sum = 704982704
cuda pragma unroll cost time: 6 microseconds
                                                   sum = 704982704

编译如下，因为把kernel函数写在一起了，所以用.cu为后缀命名。

nvcc -o test test_performance.cu

下面是总体实现的代码

// file name: test_performance.cu
#include 
#include 
#include "cublas_v2.h"
#include 
#include 
#include 
#include 
using namespace std;

void test_cpu_1(int count, const char* name)
{  
    int sum = 0;

    auto start = std::chrono::system_clock::now();
    for(int i = 0;i < count;i++){  
        sum += i;
    }
    auto end = std::chrono::system_clock::now();
    auto dura = std::chrono::duration_cast (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;
    printf("                                                   sum = %d\n",sum);
}


void test_cpu_2(int count, const char* name)
{
    int sum = 0;
    auto start = std::chrono::system_clock::now();
    for(int i=0; i (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;
    printf("                                                   sum = %d\n",sum);

}

void test_cpu_3(int count, const char* name)
{
    int sum = 0;
    int sum1=0,sum2=0,sum3=0, sum4=0;

    auto start = std::chrono::system_clock::now();
    for(int i=0;i < count;i+=4){
        sum1 += i;
        sum2 += i+1;
        sum3 += i+2;
        sum4 += i+3;
    }
    sum = sum1+sum2+sum3+sum4;
    auto end = std::chrono::system_clock::now();
    auto dura = std::chrono::duration_cast (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;
    printf("                                                   sum = %d\n",sum);

}

__global__ void progam_kernel1(int* sum, int count)
{
    for(int i = 0;i < count;i++){  
        *sum += i;
    }
    
}

__global__ void progam_kernel2(int* sum, int count)
{
    #pragma unroll
    for(int i = 0;i < count;i++){  
        *sum += i;
    }
}

void test_cuda_1(int count, const char* name)
{
    int sum =0;
    int* g_sum;
    cudaMalloc((void **)&g_sum, sizeof(int) * 1);
    cudaMemcpy(g_sum, &sum, 1 * sizeof(int),cudaMemcpyHostToDevice);

    auto start = std::chrono::system_clock::now();
    progam_kernel1<<<1,1>>>(g_sum, count); //调用核函数
    auto end = std::chrono::system_clock::now();
    auto dura = std::chrono::duration_cast (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;

    cudaMemcpy(&sum, g_sum, sizeof(int) * 1, cudaMemcpyDeviceToHost);
    printf("                                                   sum = %d\n",sum);
    cudaFree(g_sum); 

}

void test_cuda_2(int count, const char* name)
{
    int sum =0;
    int* g_sum;
    cudaMalloc((void **)&g_sum, sizeof(int) * 1);
    cudaMemcpy(g_sum, &sum, 1 * sizeof(int),cudaMemcpyHostToDevice);

    auto start = std::chrono::system_clock::now();
    progam_kernel2<<<1,1>>>(g_sum, count); //调用核函数
    auto end = std::chrono::system_clock::now();
    auto dura = std::chrono::duration_cast (end - start);
    std::cout << name <<" cost time: "<< dura.count() << " microseconds" << std::endl;

    cudaMemcpy(&sum, g_sum, sizeof(int) * 1, cudaMemcpyDeviceToHost);
    printf("                                                   sum = %d\n", sum);
    cudaFree(g_sum);  

}

void test_performance()
{
    int count =100000;
    std::string s1 ="cpu origin";
    std::string s2 = "cpu pragma unroll";
    std::string s21 = "cpu pragma unroll_1";
    std::string s3 = "cuda origin";
    std::string s4 = "cuda pragma unroll";

    test_cpu_1(count, s1.c_str());
    test_cpu_2(count, s2.c_str());
    test_cpu_3(count, s21.c_str());
    test_cuda_1(count, s3.c_str());
    test_cuda_2(count, s4.c_str());


}

int main(int argc, char *argv[]) 
{
    test_performance();
    return 0;

}

借助编译器的性能优化

程序员针对CPU端编写代码时候，可以使用上面的循环展开实现，实际上在c/c++的编译器已经非常成熟，针对这种代码都有对应的优化策略。在实际项目部署时候，可以开启编译器自动优化选项，帮助我们进一步提升代码性能。

比如，本次测试我写了CMakeLists.txt脚本，添加编译器优化的参数后执行结果如下。CPU端和未开启编译器优化相比，时间性能有了很大的提升。手动增加的循环展开的代码时间也大大降低了。

cpu origin cost time: 31 microseconds
                                                   sum = 704982704
cpu pragma unroll cost time: 0 microseconds
                                                   sum = 704982704
cpu pragma unroll_1 cost time: 0 microseconds
                                                   sum = 704982704
cuda origin cost time: 18 microseconds
                                                   sum = 704982704
cuda pragma unroll cost time: 6 microseconds
                                                   sum = 704982704

上面未开启编译器优化的输出：

cpu origin cost time: 1079 microseconds
sum = 704982704
cpu pragma unroll cost time: 678 microseconds
sum = 704982704
cpu pragma unroll_1 cost time: 374 microseconds
sum = 704982704
cuda origin cost time: 18 microseconds
sum = 704982704
cuda pragma unroll cost time: 6 microseconds
sum = 704982704

在CMakeLists.txt添加了如下一行：

set(CMAKE_CXX_FLAGS "${CMAKE_C_FLAGS} -O1 -Wall")

参考：

C++性能榨汁机之循环展开 - 知乎

【CMAKE】c++代码编译加速以及优化项_cmake 编译优化-CSDN博客

你可能感兴趣的:(性能测试,性能优化,编译器,pragma,unroll,CUDA,循环展开)

Java项目设计文档：架构、模块与实现策略详解体制教科书
本文还有配套的精品资源，点击获取简介：Java项目设计文档是项目规划、实施和维护的重要指导工具，包含系统架构、模块划分、接口定义、类设计、数据库设计、异常处理、测试计划、性能优化以及部署运维等方面。本设计文档集合对于理解Java项目的架构设计和提升项目开发质量具有极高的参考价值。1.项目背景阐述在当今数字化转型的大潮中，企业对于IT系统的依赖日益加重。项目背景阐述这一章，将为您揭示本次项目的发起缘
MySQL中处理JSON数据小村学长毕业设计 mysql json 数据库
MySQL中处理JSON数据已成为大数据分析领域的一个新方向，这一功能自MySQL5.7版本引入以来，为数据库管理系统在处理非结构化数据方面提供了强大的支持。以下是对MySQL中处理JSON数据的详细探讨，包括其引入的背景、特性、函数与操作符、性能优化以及在大数据分析中的应用等方面。一、JSON数据类型引入的背景随着大数据技术的迅猛发展和普及，数据量的爆炸性增长对数据处理能力提出了前所未有的挑战。
Java 数组终极详解可问可问春风 java基础 java 开发语言
以下是Java数组终极详解，覆盖底层原理、操作技巧、高频陷阱及性能优化方法，帮助您全面掌握数组的精髓：一、数组核心概念速查表特性描述存储类型相同数据类型元素的连续内存块长度固定数组长度在创建时确定，不可动态扩展索引访问从0开始索引，支持随机存取（时间复杂度O(1)）内存分配数组变量存储的是堆内存中数组对象的引用地址默认值初始化int[]默认0，boolean[]默认false，对象数组默认null
深入浅出JVM性能优化：从理论到实践 rider189 java jvm
一、JVM架构与内存模型深度解析1.1JVM运行时数据区全景图方法区（元空间）：存储类信息、常量池等元数据堆内存：对象实例存储核心区域YoungGeneration（新生代）Eden区（对象诞生地）Survivor区（S0/S1，存活对象过渡区）OldGeneration（老年代）虚拟机栈：线程私有，存储栈帧本地方法栈：Native方法调用程序计数器：线程执行位置指示器1.2对象生命周期管理对象创
详细说明脚本评估和耗时较长的任务混血哲谈性能优化
在网页性能优化中，脚本评估和耗时较长的任务是两大关键性能瓶颈。它们直接影响页面的加载速度、交互响应以及用户体验。以下是对这两个概念的详细说明及优化策略：一、脚本评估（ScriptEvaluation）1.定义脚本评估指浏览器解析（Parsing）、编译（Compiling）和执行（Executing）JavaScript代码的全过程。这一过程通常包括：解析：将文本形式的JavaScript代码转换
富途证券C++面试题及参考答案大模型大数据攻城狮 c++java 后端面试大厂面试 Epoll 智能指针数据库索引
C++中堆和栈的区别在C++中，堆和栈是两种不同的内存区域，它们有许多区别。从内存分配方式来看，栈是由编译器自动分配和释放的内存区域。当一个函数被调用时，函数内的局部变量、函数参数等会被压入栈中，这些变量的内存空间在函数执行结束后会自动被释放。例如，在下面的函数中：voidfunc(){inta=5;//这里的变量a存储在栈中，当func函数结束后，a所占用的栈空间会自动释放}而堆是由程序员手动分
使用PHP对接StockTV全球金融市场数据API实战指南 php股票接口
关键词：PHPAPI开发、金融市场数据、WebSocket实时数据、cURL实战一、项目概述StockTV作为全球领先的金融数据平台，提供覆盖股票、外汇、期货和加密货币的实时行情服务。本文将手把手教你使用PHP实现以下核心功能：✅RESTAPI调用：获取历史行情数据✅WebSocket订阅：实时价格推送✅生产级特性：异常重试、速率控制、数据缓存✅高性能优化：连接池、异步处理二、环境准备1.运行环境
《Astro 3.0 岛屿架构实战：用「零JS」打造百万PV内容网站》前端极客探险家架构 javascript 开发语言
文章目录一、传统内容站点的性能困局1.1企业级项目性能调研（N=200+）1.2Astro核心优势矩阵二、十分钟构建高性能内容站点2.1项目初始化2.2核心配置文件三、六大企业级场景实战3.1场景一：多框架组件混用3.2场景二：交互增强型Markdown四、性能优化深度解析4.1优化前后数据对比4.2关键优化策略五、企业级架构方案5.1内容站点技术栈5.2流量突增应对方案六、调试与监控体系6.1性
C语言关键字之“volatile” 你好，奋斗者！软件学习 c语言嵌入式计算机
目录一、回顾二、寄存器为什么是没有地址的？三、C语言中变量的访问四、volatile关键字（编译器实现的）一、回顾C语言中变量的定义存储类型特征修饰数据类型变量名决定变量的存储位置决定变量的特征属性决定变量的存储空间及数据范围决定变量的引用标识auto、static、extern、registorconst（修饰的变量只能读，不能写，不是常量，还是变量，只是变量的属性改了）、volatilecha
Java 24 正式发布：AI 开发与后量子安全引领企业级编程革命程序猿小白菜后端java生态圈 java 人工智能安全
摘要2025年3月18日，Oracle正式发布Java24（OracleJDK24），这是Java诞生30周年之际的重要版本更新。新版本聚焦AI开发支持、后量子安全加密、性能优化和开发效率提升，提供20余项新特性及数千项改进，为企业级应用开发注入全新动力。一、语言特性：代码简洁性与模式匹配增强Java24在语法层面进一步简化代码逻辑，提升开发效率：JEP488：原始类型模式匹配（第二次预览）支持在
【AI大模型】搭建本地大模型GPT-NeoX：详细步骤及常见问题处理 qzw1210 gpt 人工智能深度学习
搭建本地大模型GPT-NeoX：详细步骤及常见问题处理GPT-NeoX是一个开源的大型语言模型框架，由EleutherAI开发，可用于训练和部署类似GPT-3的大型语言模型。本指南将详细介绍如何在本地环境中搭建GPT-NeoX，并解决过程中可能遇到的常见问题。1.系统要求1.1硬件要求1.2软件要求操作系统:Linux(推荐Ubuntu20.04或更高版本)CUDA:11.2或更高版本Python
第十二届蓝桥杯C++青少年组中/高级组省赛2021年真题解析码农StayUp C++蓝桥杯青少年组真题解析蓝桥杯 c++算法
一、单选题第1题下列符号中哪个在C++中表示行注释（）。A:!B:#C:]D://答案：D在C++中，行注释的表示方式是使用双斜杠//。行注释是指从双斜杠开始直到该行的末尾，所有内容都会被编译器忽略，不会被编译和执行。第2题每个C++程序都必须有且仅有一个（）A:函数B:预处理命令C:主函数D:语句答案：C每个C++程序都必须有且仅有一个主函数。第3题下列字特串中不可以用作C++变量名称的是（）A
React性能优化的8种方式 Mr.BoBo. 前端 #React react.js 性能优化前端
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1、Reac.memo缓存组件2、使用useMemo缓存大量的计算3、避免使用内联对象4、避免使用匿名函数5、延迟加载不是立即需要的组件6、调整CSS而不是强制组件加载和卸载7、使用React.Fragment避免添加额外的DOM8、使用React.PureComponent,shouldComponentUpdate9、
大疆C++开发面试题及参考答案大模型大数据攻城狮信号量 C++面试 C++面经堆和栈 TCP和UDP 智能指针 C++11
虚函数的作用是什么？虚函数机制是如何实现的？虚表指针在内存中的存放位置在哪里？虚函数主要用于实现多态性。多态是面向对象编程中的一个重要概念，它允许通过基类指针或引用调用派生类中重写的函数。这样可以在运行时根据对象的实际类型来确定调用哪个函数，增强了程序的灵活性和可扩展性。在实现虚函数机制方面，C++使用了虚函数表（v-table）。当一个类包含虚函数时，编译器会为这个类创建一个虚函数表。虚函数表是
OpenStack 云平台的深度定制与性能优化算法探索者 openstack
引言OpenStack作为一款领先的开源云平台，以其高度的灵活性和可扩展性，为企业构建云计算基础设施提供了强大的支持。然而，不同企业的业务场景和技术需求千差万别，原生的OpenStack部署往往无法完全满足企业特定的要求。因此，对OpenStack云平台进行深度定制，并在此基础上进行性能优化，成为了企业充分发挥OpenStack优势、提升云服务质量的关键。本文将深入探讨如何针对企业特定需求对Ope
vggt 3d重建相机位姿，新视角生成 AI算法网奇 3D视觉人工智能深度学习
vggt动态追踪实时重建https://github.com/facebookresearch/vggtimporttorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_imagesdevice="cuda"iftorch.cuda.is_available()else"cpu"dtyp
链接-简介 zhubo_1117 深入理解计算机系统
链接是将代码和数据合成一个文件的一个过程，生成的文件可以直接拷贝到存储器中并且执行。链接可以在程序编译时，加载时，甚至运行时执行。1.编译器的驱动程序编译器系统中包含编译驱动程序，驱动程序主要包含：预处理器，编译器，汇编器和连接器。处理过程如下：预处理器编译器汇编器main.c------------------>main.i----------------------->main.s------
2021-最新Web前端经典面试试题及答案-史上最全前端面试题(含答案)---React篇圆白菜和大白菜前端 react 大前端 react
★★★React事件绑定原理★★★React中的setState缺点是什么呢★★★React组件通信如何实现★★★类组件和函数组件的区别★★★请你说说React的路由是什么？★★★★★React有哪些性能优化的手段？★★★★Reacthooks用过吗，为什么要用？★★★★虚拟DOM的优劣如何？实现原理？★★★★React和Vue的diff时间复杂度从O(n^3)优化到O(n)，那么O(n^3)和O
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
深入浅出：序列化与反序列化的全面解析进击的小白菜一些开发常识开发语言开发常识
文章目录1.引言2.什么是序列化？2.1为什么需要序列化？3.什么是反序列化？3.1反序列化的重要性4.序列化与反序列化的实现4.1JSON(JavaScriptObjectNotation)4.2XML(eXtensibleMarkupLanguage)4.3ProtocolBuffers(Protobuf)4.4MessagePack5.安全性考虑6.性能优化7.结论附录：常见问题解答Q1:什
C# 语法糖：深度解析与代码实例演示墨瑾轩一起学学C#【一】c#
C#作为一种现代、面向对象的编程语言，内置了许多语法糖（SyntacticSugar）特性，旨在简化代码书写、提升代码可读性与编写效率，而不会牺牲程序的语义或性能。语法糖并非语言的新功能，而是对已有功能的封装或简化表示，编译器在编译阶段会将其转换为等效的基础语法。以下是一些C#中常见的语法糖特性，结合详细描述、代码示例和注释进行展示。1.属性（Auto-ImplementedProperties）
计算机网络&性能优化相关内容详解 GISer_Jinger javascript 前端
1.优化页面性能：根据搜索结果，优化可以从资源加载、渲染优化、缓存策略等方面入手。网页1提到合并文件、压缩图片、使用CDN和HTTP/2。网页2和3强调了关键资源划分、减少HTTP请求、代码拆分和预加载。我需要综合这些点，分块回答。2.滚动性能优化及虚拟滚动核心：用户提到虚拟滚动是关键。网页6、8、9、10详细介绍了虚拟滚动的原理，即仅渲染可视区域元素，减少DOM操作。需要总结这些内容，并指出核心
JDK8新特性陈天在睡觉知识点总结 JavaSE java JDK8 javase 八股文后端
JDK8是官方发布的一个大版本,提供了很多新特性功能给开发者使用,包含语言、编译器、库、工具和JVM等方面的十多个新特性。本文将介绍编码过程中常用的一些新特性。一、Lambda表达式1.优点简化匿名内部类的写法，允许你以简洁的方式表示可传递给方法或存储在变量中的代码块，用更加简洁和表达性的语法来编写匿名函数，从而简化了对函数式接口的实现，使代码更加简洁紧凑。提高了代码的可读性和可维护性，尤其是在处
【商城实战(55)】商城数据库备份：策略与实操指南奔跑吧邓邓子商城实战商城实战数据库备份 MySQL 策略与实操
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
通过动态内存管理实现在VS2022中实现变长数组 Dust-Chasing 开发语言 c语言数据结构算法
目录一、malloc函数和free函数二、calloc函数三、realloc函数不知道大家在使用vs2022编译器时有没有遇见过这样一个问题，当我们用一个变量来作为数组的大小时，编译器会报错，要求我们使用常量，这样一来就会使我们的内存空间被大量浪费，使我们非常的头疼，但是如果当我们学到动态内存管理时，我们就有了解决这个问题的办法。一、malloc函数和free函数C语言提供了一个动态内存开辟的函数
六十天前端强化训练之第二十九天之深入解析：从零构建企业级Vue项目的完整指南编程星辰海 #前端前端 Vue项目
=====欢迎来到编程星辰海的博客讲解======看完可以给一个免费的三连吗，谢谢大佬！目录一、Vite核心原理与开发优势二、项目创建深度解析三、配置体系深度剖析四、企业级项目架构设计五、性能优化实战六、开发提效技巧七、质量保障体系八、扩展阅读推荐一、Vite核心原理与开发优势1.1为什么选择Vite？Vite采用现代浏览器原生ES模块系统（NativeESM）作为开发服务器，颠覆了传统打包工具的
中国大陆网站用了lightHouse之后还有必要用WebPageTest么？混血哲谈网络
对于中国大陆的网站，即使已使用Lighthouse进行性能优化，WebPageTest仍有不可替代的价值。两者并非互斥，而是互补工具，适用于不同维度的性能分析。以下是具体原因和场景说明：一、核心结论：Lighthouse与WebPageTest的定位差异工具核心价值适用场景中国大陆场景的局限性Lighthouse提供代码级优化建议（如压缩资源、渲染阻塞修复）本地开发调试、快速生成优化清单仅反映本地
秒开WebView Android性能优化全攻略：深度解析与实战策略俊星学长 android 性能优化
秒开WebViewAndroid性能优化全攻略：深度解析与实战策略在Android开发中，WebView作为一个重要的组件，用于在应用中嵌入和展示网页内容。然而，WebView的性能往往成为影响用户体验的关键因素之一。实现WebView的“秒开”体验，不仅需要开发者对WebView的工作机制有深入的理解，还需要掌握一系列性能优化策略。本文将从多个维度深入探讨AndroidWebView的性能优化，
如何进行PHP性能优化？破碎的天堂鸟 PHP学习 php 性能优化开发语言
PHP性能优化是一个复杂且多方面的过程，涉及从代码层面到服务器配置的多个方面。以下是一些关键的优化技巧和最佳实践：选择合适的数据结构（如数组、对象等）可以显著提高程序的运行效率。缓存是提升PHP性能的有效手段之一。可以通过页面缓存、数据缓存、内存缓存等方式来减少重复计算。例如，使用APC、Memcached或Redis进行内存缓存，或者利用文件系统进行数据缓存。使用索引、优化SQL查询语句以及使用
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他