阿里巴巴淘系技术团队官网博客

深入浅出 | 谈谈MNN GPU性能优化策略

MNN(Mobile Neural Network)是一个高性能、通用的深度学习框架，支持在移动端、PC端、服务端、嵌入式等各种设备上高效运行。MNN利用设备的GPU能力，全面充分“榨干”设备的GPU资源，来进行深度学习的高性能部署与训练。

概述

MNN自开源以来，一直以高性能、通用性、易用性等特性闻名于业界。近一年来，MNN GPU再发力，OpenCL后端针对移动端(Adreno/Mali GPU)、PC端性能总体提升超过100%，部分机型性能翻几番。请看下图：

移动端GPU受限于芯片面积、能耗以及成本等因素，通常需要在IO带宽和运算资源上严格受控压缩。GPU硬件多样性、OpenCL本身支持力度取决于设备生产商，这导致了不同设备GPU软硬件层面的差异化。那么，如何在有限且碎片化的资源下充分发挥出硬件的性能优势，加快深度学习模型推理速度，给MNN GPU平台通用性与高性能兼备的定位带来很高的挑战。

是什么优化手段能在高端手机、低端千元机、服务端显卡上，模型推理都能加速如此之多呢？MNN OpenCL在最近一年内做了什么优化呢？且看下文~

内存访问效率角度

▐ 内存对象多元化调优

OpenCL提供两种内存对象接口，Buffer-object和Image-object。有的GPU厂商对Image-object具有更快速的访问和支持，高通Adreno GPU用户手册明确建议使用Image-object进行存储更有利于访问效率；但是ARM Mali GPU系列众多，有不少机型对Image-object内存支持没有那么好，适合更通用的Buffer-object。面对不同GPU内存存储格式引起的不同访问效率，MNN支持多元的内存存储格式，以应对差异化的GPU型号。

下表为OpenCL Imgae-object与Buffer-object的区别对比。

高通平台明确给出下图数据流路结构图，当使用Image-object存储时，在进去读数据时候可以使用Texture处理器和L1 cache进行快速读取。如果使用Buffer-object的话将无法使用该硬件缓存优势。所以对于高通骁龙系列手机，使用其GPU资源，选择OpenCL Image-object性能更优。

Buffer-object也有其使用范围和优势。首先，Image-object的2D/3D内存每个维度申请尺寸是有上限的(不同硬件不同)，当要申请的内存某个维度的尺寸超过硬件支持的上限时，Image-object内存会申请失败，这个时候只能使用Buffer-object。其次，Buffer-object内存排布是线性的，排布紧密，cache miss较友好，Image-object如果第一维度尺寸太小容易造成很严重的cache miss。ARM Mali GPU并没有很友好的Texture处理器和L1 Cache(官方未提及)，官方开源项目采用Buffer-object存储模式，可见目前Buffer-object对ARM Mali GPU更有优势。

MNN OpenCL2020年之前已经支持Image-object，今年新增了对Buffer-object内存对象格式的支持，针对不同硬件平台和算法模型，MNN OpenCL目前框架内支持根据实验经验化，在ARM-Mali GPU上采用Buffer内存，其他GPU型号采用Image内存。目前这个策略只是比较粗糙的经验化手段。为了精确的内存选择，用户可以通过提前试跑两种内存设置，来得到两种内存模式推理性能的更优者，在实际推理过程中设置此内存模式即可。

▐ 内存对齐优化

下图是CPU和GPU拥有的硬件资源(运算单元ALU/控制单元/缓存等)的示意图。

CPU配置强大的控制单元和缓存机制，具有厉害的分支预测能力，擅长处理复杂逻辑。GPU硬件资源大量运算单元，控制单元和缓存相对来说较薄弱，使得分支预测能力较弱，所以在编程过程中需要尽量避免逻辑分支。

通常某个维度的并行量不会太大，在MNN OpenCL实现中，宽方向最高并行量是4，在申请内存时可以将该维度4对齐向上取整，这样可以避免在读取数据时为了防止读越界而带来的边界判断需求，从而减少GPU kernel内部分支。同时在遇到部分实在无法避免的分支判断时，尽可能选择三目运算符替代if分支。

▐ local memory并行归约优化

归约是一种并行算法，对于传入进来N个输入，通过二元操作，得到一个输出值。典型的就是求最值、取平均值、求和等操作。以取最大值为例，传统的串行算法，实现简单，需要N次迭代运算操作。通常如下：

float maxValue = -MAXFLOAT;
for (int i = 0; i < N; i++) {
    maxValue = max(maxValue, array[i]);
}

下图二分法并行归约算法示意图，每个步骤可以并行去求最大值，在opencl实现中，将放在同一个工作组的线程采用局部内存(local memory)进行存储，因为同一工作组中的线程访问共享数据时，local memory由于其得天独厚的物理设计，效率远高于global memory。二分归约只需要logN次迭代操作。相较于传统串行方法时间复杂度有降维优势。对于归约数目N较时，该方法性能提升明显；但是N较少时使用串行方法即可，因为线程间barrier开销会明显盖过local memory和操作次数带来的优势。

如下是opencl归约算法kernel代码示例：

const int idx = get_local_id(0);
FLOAT local sum[256];
sum[idx] = -MAXFLOAT;
const int reduce_num = get_local_size(0);//获取工作组中的线程数量


for (int h = idx; h < total_num; h+=reduce_num) {//将多个工作组的值映射到当前工作组
    FLOAT in = read_input_data(input);
    sum[idx] = max(sum[idx], in);
}


barrier(CLK_LOCAL_MEM_FENCE);
for(int i = reduce_num/2; i > 0; i /= 2){//对当前工作组进行二分归约运算
    if (idx < i)
        sum[idx] = max(sum[idx], sum[idx + i]);
    barrier(CLK_LOCAL_MEM_FENCE);
}
if (idx == 0) {
    write_output_data(output, sum[0]);//将sum[0]的值写入输出地址处
}

GPU计算分块角度

▐ 工作组大小选择

下图示意的是一个GPU任务分块执行示意图。左侧NDRange size表示的是任务拥有的总子任务(子线程)数量。子线程会被组织成一系列work-group分块线程，每个work-group分块会被分配到一个SP上面执行。这个执行过程是GPU SIMT架构的必然映射。

work-group大小的划分会影响到整个GPU硬件资源的利用情况。针对一个特定的任务，最合适的work-group大小受单个线程需要完成的任务量、机型GPU硬件资源的强弱以及总线程数目等很多综合因素影响，选择不合适的work-group会对计算效率性产生不好的影响。

OpenCL框架允许编程者不去设定这个尺寸大小，会根据情况自行调度决定。但这往往不能带来较好的性能效果。通常较合适的work-group size是NDRange size的因子或者是2的幂次方，这种极简的设置往往可以带来“还不错”的性能。为了极佳的性能，MNN在预推理阶段会选取多组work-group分块大小进行Auto-Tuning试跑，选出性能最佳的work-group size，以此配置在实际推理中应用。

▐ 数据分块复用方案

对于CNN网络中常见的二维卷积运算，实际上是三维张量到三维张量的映射操作。拿kernel为3x3，stride为1x1，pad为1x1，dilate为1x1的卷积运算(暂不考虑偏置的情况)举例，对于

输入维度是Cin*H*W

权重维度是Cout*Cin*Kh*Kw,（3x3卷积核，Kw=Kh=3）

输出维度则是Cout*H*W

下表给出了，单个线程不同粒度计算量对应的总的计算复杂度和内存访问量大小。可以看出总的计算复杂度都是恒定的，但是随着单个线程计算量的则增加，数据可复用力度越高，总的内存访问量将会越少。拿单个像素输出粒度为基准，单个线程输出连续4个通道和连续4个宽方向的16个像素时，内存访问量将减少75%。

增大数据分块可以在计算复杂度不变的前提下，有效的降低数据内存访问次数，对于提升性能有很重要的作用。但是，随着单个线程GPU kernel计算量越大，需要使用的寄存器资源越多，全局工作项数目也将对应减少。单个线程计算量过大时必然会导致寄存器等资源不够用，也可能导致全局工作项数目过小起不到较佳的GPU任务发射并行度。

最适宜的数据分块量，会随着总线程数量/硬件平台寄存器/硬件ALU数目/IO带宽等资源以及单个线程的计算量大小的不同，也会有较大的差别。譬如，当总线程数目较少时，此时为了足够的并发量，数据分块大小需要相对应尽可能减小；当总线程数/寄存器资源足够的时候，可以考虑加大数据分块大小，来增大数据复用的优势。

当前MNN OpenCL针对核心算子支持多种数据复用分块量，支持在预推理阶段提前Auto-Tuning试跑找到最适宜当前设备/计算规模的数据分块量，以获得最佳的优化性能。

异构调度角度

异构系统的调度，相比于同构系统调度会复杂一些，因为会涉及到主机端与设备端交互部分。下图是一个典型的OpenCL异构系统调度图。主要包含了三个部分。其一：主机CPU端，负责整个异构系统的主控调度，包括资源的申请调配、任务的发射等；其二：各种异构设备端（比如GPU/DSP/FPGA等），是异构系统的核心处理器；其三：OpenCL kernel代码，负责对异构处理器进行操纵。

OpenCL kernel从CPU提交到任务队列后会经历Queued/Submitted/Ready/Running等整个执行状态。和CPU算子执行存在明显的差别，GPU算子执行需要统一入队，然后GPU会对同一个任务队列上的任务进行队列式排队。对于某个算子从入队等待到真正执行是有延迟的。具体延迟情况依赖厂商平台调度。

从Queued到Submitted状态之间的软件开销/CPU cache开销，调度好的系统能尽量最优化处理调度。但是，由于不同机型，对OpenCL的任务调度不尽如人意，往往这段时延较大。OpenCL提供flush接口，可以在一定kernel量的时候手动加速提交任务，在调度上加入人为的动态队列刷新机制。

在华为系列手机(Mali GPU)，需要在kernel累计量较少的时候就需要人为加入刷新机制，整体性能提升可观，对人为刷新机制依赖比较严重。高通系列手机，在kernel累计量较多的时候加入刷新机制即可，不依赖人为刷新机制，整体系统调度情况较好。MNN根据实验经验公式，针对不同机型调优出动态的命令队列刷新机制。

预推理Auto-tuning调优

GPU种类众多，不同厂家设计差异大，相同厂家GPU设计更新变迁复杂。这一系列导致的GPU碎片化，使得不同机型最优的算子实现都不一样。很可能会出现某些机型算子实现了最优化，其他部分机型上出现负优化的情况。这给MNN GPU平台通用且高性能兼备的定位带来很大的挑战。要想使得全机型、多模型性能都能达到很优，Auto-tuning试跑是一个很有效的方式。

但是，Auto-tuning必然会增加不少额外的试跑耗时。MNN之前已经支持了“预推理”机制，核心目的是：在真正推理之前，将推理过程中需要的内存/任务准备与分发等提前推理出来，从而优化降低实际推理过程中的耗时。功能主要包括：

进行内存管理：申请每个算子的输入输出Tensor内存与运算时所需的缓存。
任务准备与分发：对CPU来说，可以在这个环节生成Lambda函数。对GPU来说，可以制作相关算子的命令缓冲（Command Buffer），填充参数等等。

MNN的OpenCL后端扩充新增“预推理”的功能——任务Auto-tuning试跑，找出最优的计算配置方案。增加此功能主要基于以下考虑：

每个模型的算子固定，每次推理只是算子的输入数据不同，计算方式和计算量完全一致。最优的实现方式一致，可以在“预推理”阶段提前Auto-tuning出每个算子的最优配置。
“预推理”机制可以有效降低推理阶段的耗时。

MNN OpenCL增加此“预推理”功能后，在推理阶段，可以直接使用“预推理”出的Auto-tuning计算配置，获得优化的性能。目前支持了工作组大小选择和数据分块复用两种优化策略的Auto-tuning试跑，具体内容在GPU分块角度优化模块里已经阐述过。

GPU业务落地设计与建议

▐ 用户可配置的Gpu-Mode

上述通过经验实验方法与Auto-Tuning试跑的方式来提升推理速度。由于经验实验公式不可能覆盖所有情况，支持增加接口给用户自行选择。目前GPU内存对象选择提供开放选项给用户自行配置。Auto-Tuning试跑会增加“预推理”的耗时，MNN OpenCL提供不同的Auto-tuning力度选项可供用户选择。用户可选取性能满足要求的前提下尽可能缩减Auto-tuning的力度。

MNN OpenCL提供用户可自行配置的MNNGpuMode，具体选项如下图所示。

指定需要使用的Tuning-mode和Gpu-Memory类型，在代码中设置config的mode设置即可。代码示例如下：

MNN::ScheduleConfig config;
config.mode = MNN_GPU_TUNING_NORMAL | MNN_GPU_MEMORY_IMAGE;

通常如果介意“预推理”耗时较长可以选取较低level的Tuning-mode(下面也会介绍Cache机制解决初始化耗时长的问题)。Gpu-Memory用户可以Buffer模式和Image模式都自行设置一次，选择推理速度较优的模式，当然如果不设置的话框架会根据机型进行自动选择(不可能保证所有情况下都最优)。

▐ MNN Cache技术设计

由于OpenCL kernel需要根据不同机型在线编译源码program，以及加入精细化调优Auto-tuning试跑机制后，获得极佳性能的同时会带来启动时间较慢的代价。很多情况下，用户对于初始化时间不太能接受，导致很多业务难以真正落地。

为了优化GPU初始化时间，MNN将当前机型编译好的program转成二进制、Auto-tuning出的最佳配置进行记录，并存储成Cache文件。之后初始化的时候加载Cache文件读取二进制版program(无需编译源码)和tune好的配置信息(无需再次Auto-tuning)，从而大大提高初始化速度。

如果应用仅限某种或某几种特定机型，可以事先生成好该机型的cache文件。这样实际启动的时候就可以直接加载cache文件，享受快速的启动速度。如果应用机型太多，不能接受每种机型都事先提前生成好Cache文件，可以考虑在调度上可以事先提前初始化，在跑其他应用的时候就提前初始化生成Cache文件，在调度上“隐藏”掉生成Cache的时间。

MNN Cache使用上极其方便简洁，用户只需要调用一行代码，接口如下：

setCacheFile(const std::string& fileName, size_t keySize = 128)//keySize: 使用模型Buffer的前 keySize 个 byte 作为校验

下表给出小米6(Adreno-540 GPU)设备上，在使用Cache前后不同tuning-mode时OpenCL总初始化耗时。可以看到使用Cache能极大优化启动速度，助力业务落地。

▐ 用户透明的性能分析

用户在设计了一个模型后，使用MNN benchmark工具测试GPU性能，当遇到不太符合预期的性能时，这个时候用户就像是用了个盲盒似的，无从分析，无从下手。在此需求下，MNN GPU提供了性能热点分析工具，帮助用户定位性能热点。

性能热点分析对于提升总体推理性能的重要性，就好比生病了去医院需要抽血分析各项指标报告一样，只有知道各处的指标详情才好对症下药。MNN GPU提供统计OpenCL kernel耗时方法，使用opencl event进行GPU端计时统计，可以精确地进行单个kernel耗时分析，准确性能明显高于CPU端计时器。

MNN OpenCL用户可以在编译库的时候打开MNN_OPENCL_PROFILE宏，运行程序可以看到每个部分的耗时，去进行性能热点定位分析。下图给出的是部分算子耗时图，可以看到各个算子的耗时情况，可以看出第一个Conv2D算子耗时是绝对的热点。用户可以为了提升性能，对这个卷积算子考虑采用减小通道数或者使用多个小卷积核代替一个大卷积核方式。提供这样的Profile功能，对模型设计带来更多指导性灵感和参考，提供了结合框架去设计模型的可能性。

▐ 适合GPU加速模型设计建议

经常会有用户反馈，为什么使用GPU加速反而性能不如运行CPU上呢？通常在用户潜意识里，GPU总比CPU快。其实这是个误解。GPU的硬件结构设计特性，决定了GPU对具有大量可并行的运算才更有优势。对于运算量过小或者并行度较低的模型，通常GPU上运行效率不如CPU。

对于CPU耗时本身较少的小模型(如几个ms)，不建议使用GPU加速。因为GPU运行启动调度本身需要一定耗时，其次CPU/GPU数据拷贝耗时，加之不符合GPU适合大量运算的特性。因此，模型太小选择CPU就好。在移动端和PC端，要用GPU加速，模型设计方面要尽可能设计一些并行量大的高速模型。具体给出以下几点建议：

卷积核不宜太大，常用的1x1和3x3较好。如果模型需要更大卷积核（如5x5）可以考虑使用5x1和1x5来代替，或者采用两个3x3卷积去替代5x5卷积。
通道数设计尽量保持4对齐
对于feature map和通道数都较大的卷积，可以考虑使用depthwise卷积。
加减乘除乘方这类binary/unary运算量较低的算子，可以有，但是不要过多。
尽量减少只改变形状没有计算量的算子，如squeeze、transpose、permute、reshape等。
尽量减少concat/slice这类纯访存类算子，无计算量。
尽量避免使用global pooling。
尽量减少使用除reduce轴之外的维度尺寸较大的reduction操作。

总之，适合GPU计算的模型，就是模型中的算子，尽可能多的满足具有大量可并行的特点；减少低计算量、高访存算子的使用，避免不好并行运算的算子。

▐ 参考文献

[1] https://en.wikipedia.org/wiki/OpenCL

[2] "Qualcomm Snapdragon Mobile Platform OpenCL General Programming and Optimization Guide"

[3] "The OpenCL Specification，Version: 1.2，Document Revision: 15"

[4] "ARM Mali GPU OpenCL，Version 3.3 Developer Guide"

[5] "Arm Mali GPU Datasheet 2020"

[6] "Building Heterogeneous Systems with PowerVROpenCL Programmer’s Reference"

[7] "颜深根等. "基于OpenCL 的归约算法优化." 软件学报 (2011)."

[8] https://www.cnblogs.com/xudong-bupt/p/3586518.html

[9] https://zhuanlan.zhihu.com/p/273657259

[10] https://developer.arm.com/solutions/graphics-and-gaming/developer-guides/advanced-guides/mali-gpu-best-practices

[11] https://zhuanlan.zhihu.com/p/107141045

阿里集团新零售技术事业群淘系技术部招聘啦~

岗位：端智能推理引擎架构师。工作地点：杭州/北京

岗位描述

(1) 负责端侧推理引擎的顶层架构设计和开发, 负责关键技术方案的架构选型，主导技术方案和系统设计评审

(2) 负责端侧设备的高性能计算优化，确保在推理引擎，图像处理，视频编解码等领域核心竞争力

(3) 负责端侧推理引擎及高性能计算对集团内外的影响力提升

岗位要求(任一点即可）

(1) 深入了解tensorflow/pytorch/tvm的核心, 或主导过类似框架的核心架构设计

(2) 对模型架构搜索/模型结构优化/模型压缩/模型编译/高性能计算等方向有较深入研究，熟悉MNN/TNN/NCNN/MACE等开源框架；

(3) 对卷积/矩阵乘法/图像/视频编解码等高性能计算有深入的实践和洞察

(4) 深度学习领域3年以上工作经验，有一定的知名度和影响力

投递简历方式

深度学习框架相关方向的简历均可投递至：

[email protected]

具体JD详见

✿ 拓展阅读

作者|恬步

编辑|橙子君

出品|阿里巴巴新零售淘系技术

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep