Luchang-Li

Winograd算法实现卷积原理

ref

Fast Algorithms for Convolutional Neural Networks

Fast Convolution based on Winograd Minimum Filtering: Introduction and Development

Efficient Winograd or Cook-Toom Convolution Kernel Implementation on Widely Used Mobile CPUs: https://arxiv.org/abs/1903.01521

https://www.emc2-ai.org/assets/docs/hpca-19/paper1-presentation.pdf

Performance Evaluation of INT8 Quantized Inference on Mobile GPUs

本文整理和改编自上述文献。

一维Winograd卷积

一维的输入向量d = [d0, d1, d2, d3] 与一维的向量filter g = [g0, g1, g3]进行卷积(更长的输入通过分段实现)，原始的计算方法为直接卷积，进行两次长度为3的向量内积，而Winograd的F(2, 3)快速计算方法（2指输出的元素个数，3指filter大小）为:

之所以能快速计算，原因是两次计算输入有重叠元素并且filter不变。

This algorithm uses just 4 multiplications and is therefore minimal by the formula µ(F(2, 3)) = 2 + 3 − 1 = 4. It also uses 4 additions involving the data, 3 additions and 2 multiplications by a constant involving the filter (the sum g0 + g2 can be computed just once), and 4 additions to reduce the products to the final result.

这个过程可以通过矩阵计算来进行描述：

并且

扩展到2D情形

g is an r × r filter, d is an (m + r - 1) × (m + r - 1) input image tile. is the filter transformation matrix, is the data transformation matrix. ⊙ is the corresponding bit multiplication of the matrix (Hadamard product), represents the output transformation matrix.

We can naturally split Winograd convolution into four separate stages:

对于m=2, r=3, F(2x2,3x3)，g为3x3 filter，d为4x4 image tile，winograd domain点乘的矩阵大小为4x4，输出大小为2x2。F(2x2,3x3)在Arm的文档中表述为F(2x2, 3x3, 4x4)，括号里面三个量分布表示的是output, filter, input的shape，如F(2x2, 3x3, 4x4), F(3x3, 3x3, 5x5), F(2x2, 5x5, 6x6)。

Algorithms for F(m×m, r×r) can be used to compute convnet layers with r × r kernels. Each image channel is divided into tiles of size (m+r−1)×(m+r−1), with r−1 elements of overlap between neighboring tiles, yielding P = ⌈H/m⌉⌈W/m⌉ tiles per channel, C. F(m×m, r×r) is then computed for each tile and filter combination in each channel, and the results are summed over all channels.

计算性能提升评估

F(2×2, 3×3) uses 4×4 = 16 multiplications (两个4x4矩阵的elemwise乘法), whereas the standard algorithm uses 2 × 2 × 3 × 3 = 36. This is an arithmetic complexity reduction of 36/16 = 2.25.

The data transform uses 32 additions (由于B矩阵内容的特殊性，data transform只需要加法计算，filter 和inverse transform同理),

the filter transform uses 28 floating point instructions (推理场景filter固定的情况下这一步还可以提前算好), and the inverse transform uses 24 additions.

（arm的这个ppt里面，U, V含义与上面公式是反的）

K filters, C channels, batch N的处理

上面算法的基本思路是对一个通道的输入图像与一个通道filter进行计算得到，实际上每张图像需要与K个C个通道的filter进行上述计算，并且每次有batch=N张输入图像需要进行计算。

Thus we can reduce over C channels in transform space, and only then apply the inverse transform A to the sum. This amortizes the cost of the inverse transform over the number of channels. 也就是说每个C通道的卷积的inverse/output transform可以等到所有通道计算完成后计算一次，而不是每个通道的单张图像计算一次，如下图所示。

注意不是U与V直接做矩阵乘，而是在channel方向做矩阵乘！！！

多个batch和输出channel计算合并成矩阵计算：

注意写在等号前面的符号上下标是需要在其范围内进行循环得到每个位置的结果，例如(ξ, ν)是在点乘的矩阵范围内循环从而得到点乘矩阵每个元素位置的结果。而k, b则是分别在K个output channel和batch=N范围内循环，从而得到整个output channel和batch的结果。而公式12到13的M和U, V省略了k, b等下标，是指M和U, V代表了整个K和batch，而不是单个索引位置的结果。

由于每个channel的图像是4x4图像点乘，整个C通道会4X4图像每个元素位置沿着通道方向累加求和，因此实际上每个元素位置是一个长度为C的向量内积（一维向量矩阵乘）。同时由于有K个输出通道，因此变成了N个C通道的input data与K个C通道的filter向量做矩阵乘。

这里公式的M和U, V是三个二维tensor，指的是做点乘的矩阵在每个元素坐标处的矩阵乘（因为实际上整个计算结果有N*K个点乘矩阵，也就是点乘的矩阵每个像素对应N*K个结果），如下图所示(同一种计算的两种表示方式而已)。而整个4x4点乘矩阵的所有位置的计算一起为一个16 batched matrix multiplies.

V矩阵在(ξ, ν)的内容为不同batch input data在data transform后点乘矩阵(ξ, ν)坐标处的内容。

U矩阵在(ξ, ν)的内容为K个filter在filter transform后点乘矩阵(ξ, ν)坐标处的内容。

具体实现算法

Fast Algorithms for Convolutional Neural Networks的实现算法

前两个for循环组读取data和filter的tile，然后进行transform（这里的transform虽然是矩阵乘的表达，但并不需要实际采用矩阵乘计算），Scatter u和v to matrices也就是U和V对于每个元素坐标把[batch, in channel]和[in channel, output channel]的矩阵数据放在最内层维度。

第三个for循环组对点乘矩阵每个元素位置的数据做矩阵乘，第四个for循环组把M从HW维度解释并且做output transform。

Fast Algorithms for Convolutional Neural Networks的GPU实现描述

The data and filter transform, 16 batched matrix multiplies (GEMMs), and inverse transform are all computed in the same block. The 16 batched GEMMs compute 32×32 outputs, which enables us to fit the workspace in the registers and shared memory of a single block and still have 2 active blocks per SM for latency hiding. Zero padding is implicit through use of predicates. If the predicate deselects a global image load, the zero value is loaded with a dual issued I2I instruction. Another resource limit is the instruction cache, which can only fit about 720 instructions. Our main loop is larger than this, but aligning the start of the loop with the 128 byte instruction cache-line boundary helps mitigate the cost of a cache miss.

We also implemented a variant that we call “FX” that runs a filter transform kernel first and stores the result in a workspace buffer. In general, we found that the FX variant of our implementation performed best unless the number of filters and channels was very large.

Image data is stored in CHWN order to facilitate contiguous and aligned memory loads, significantly reducing over-fetch. We employ a “super blocking” strategy to load 32 tiles of size 4×4 from a configurable number of images, rows, and columns. For N >= 32, we load tiles from 32 separate images. For N < 32, we load a super block of X × Y = 32/N tiles per image. This strategy facilitates efficient loads with small batch sizes, as theW×N dimensions of the input data are contiguous in memory. Furthermore, the 2 pixel overlap between adjacent tiles causes high L1 cache hit rates when using several tiles in a super block.

We also employ L2 cache blocking to increase the re-use of overlapping blocks. Since the number of image tiles is typically much larger than the number of filters, our block mapping iterates over a group of up to 128 filters in the inner loop, and then iterates over all image tiles in the second loop. All channels of the filter group fit in L2 cache, so each filter will only be loaded once from DDR memory, and each image tile will be loaded ⌈K/128⌉ times as we iterate over the filter groups. This strategy reduces DDR memory bandwidth by almost half.

这个CHWN格式比较奇特，一般很少用这种格式，常用是NCHW或者NHWC或者NC1HWC0。

ARM的实现

这个图是输入数据的读取和重排布，Arm采用了NHWC格式，在应对不同数据类型，tile大小等场景时相比NCHW格式具有明显的优势。

R指的是不同tile或者batch，C指的是input channel。对于batch=1时读取了6x6的子区域，由于2 pixels overlap, 拆分成了4个tile，相当于batch=4的计算。最终把数据重排布了HWNCi的格式便于后续做矩阵乘。（同样读取4个tile，读取1x4个而不是2x2个tile可能更有利于cache？）。

M指的是output channel，C指的是input channel。这里把weight数据重排布为HWCiCo格式。

接下来进行16个矩阵乘：

矩阵乘是HWNCi与HWCiCo进行batch矩阵乘，结果大小为HWNCo。仔细对照上面U, V矩阵乘的示例图，跟这里其实是一模一样的。因为是同一个点乘矩阵位置处每个batch的Ci通道输入数据与K个Ci通道的filter做矩阵乘。

最后数据再重排布做output transform：

另一个全过程可视化图[Sparse Winograd Convolutional neural networks on small-scale systolic arrays]：

做矩阵乘的时候两个矩阵都是把C放在最内层，也就是NC格式。transform是对每个HW矩阵部分坐标之间的元素进行计算，例如input transform：

对读取后的数据x部分坐标数据进行加减操作，由于每个通道都要进行这样的独立操作，以NHWC格式读取后不同channel的数据对C通道可以采用向量计算完成。

扩展到其他tile大小的性能和数值精度

更大的tile和filter大小如F(4x4,3x3)

Applying the nesting formula yields a minimal algorithm for F(4 × 4, 3 × 3) that uses 6 × 6 = 36 multiplies, while the standard algorithm uses 4 × 4 × 3 × 3 = 144. This is an arithmetic complexity reduction of 4.

The 2D data transform uses 12(6 + 6) = 144 floating point instructions, the filter transform uses 8(3 + 6) = 72, and the inverse transform uses 10(6 + 4) = 100.

The number of additions and constant multiplications required by the minimal Winograd transforms increases quadratically with the tile size [10, p. 211]. Thus for large tiles, the complexity of the transforms will overwhelm any savings in the number of multiplications.

The magnitude of the transform matrix elements also increases with increasing tile size. This effectively reduces the numeric accuracy of the computation, so that for large tiles, the transforms cannot be computed accurately [16, p. 28].

As the number of multiplications is larger in F(4×4, 3×3) than in F(2 × 2, 3 × 3), Winograd convolution achieves 4× reduction in multiplication operations for F(4 × 4, 3 × 3), whereas 2.25× reduction for F(2×2, 3×3). In contrast, since the denominator in the G matrix is larger in F(4 × 4, 3 × 3) than F(2 × 2, 3 × 3), convolution computation errors using the former tend to be larger than the latter [42]. On the other hand, Winograd convolution requires more memory space to store transformed results [43].

Winograd convolution has only been applied to the 3 × 3 convolution kernel and small input tiles for a long time, because of the inherent numerical instability in the Winograd convolution calculation. When applied to larger convolution kernels or input tiles, the polynomial coefficients of the Winograd transform increase exponentially. This imbalance will be reflected in the elements of the transformation matrix, resulting in large relative errors. [7] studied that the source of this numerical instability is the large-scale Vandermonde matrix in the transformation [3] and proposed carefully selecting the corresponding polynomials that exhibit the smallest exponential growth. They also proposed scaling the transformation matrix to alleviate numerical instability. [23] used higher-order polynomials to reduce the error of Winograd convolution, but the cost was an increase in the number of multiplications. [42] handed over the processing of numerical errors to training to learn better convolution kernel weights and quantization in Winograd convolution. [51] proved mathematically that large convolution kernels can be solved by overlap and addition. [20], [52] solved large-size convolution kernel and non-unit step convolution into small convolution kernels to solve the numerical accuracy problem. [53] selected the appropriate output tile size based on symbolic calculation and meta-programming automation to balance numerical stability and efficiency. [54] proved that the floating-point calculation order in linear transformation affects accuracy, rearranged the calculation order in linear transformation based on Huffman coding, and proposed a mixed-precision algorithm.

这个tile大小并不是越大越好，tile大理论提升的性能更大，但是内部计算的矩阵乘shape更大，对资源要求更高，transform需要的额外计算也更多，可能抵消乘法数量降低的优势。此外，transform matrix的元素值更大，可能导致计算精度明显下降。具体性能精度可能要实际测试来选择使用。

Windows faster whisper GUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕] 私人珍藏库 whisper Windows faster whisper 人声分离声音转文本
WindowsfasterwhisperGUI链接：https://pan.xunlei.com/s/VOLwhsGJ1Rt5b24AhoPL8wvKA1?pwd=vydu#WindowsfasterwhisperGUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕]whisperX+faster-whisper+Demucs把模型下载，然后加载模型用就好了，实在不会的
easyswoole学习记录司江龙 swoole PHP easyswoole swoole
php-fpm的工作方式php-fpm就是php-fastcgi进程管理器主要工作的就是mastr进程，主要和linux进行一个协调，当请求从nginx到fpm的时候，master会把请求交给自己下面管理的子进程一个池模型，问题：一个work进程内只会处理一个请求，也就是说这个进程内在同一时刻只会处理一个request请求，不会处理多个，所以一台服务器的并发数就取决于服务器开启了多少个work进程
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
汇编 - 基础知识雨过濯缨汇编语言汇编
文章目录前言1.组成2.指令和数据3.存储器读写4.地址总线5.数据总线6.控制总线7.计算机组成7.1存储器芯片8.内存地址空间总结前言汇编语言是直接在硬件之上工作的编程语言,首先了解硬件系统的结构,才能有效地应用汇编语言对其编程;值得注意的是,汇编指令是机器指令便于记忆的书写格式.此处的汇编语言版本为8086CPU的MASM宏汇编版本1.组成编译器:将汇编指令转换为机器指令的翻译程序编写编
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
VMWare Centos7虚拟机安装并运行MongoDB Jay_Wooz 经验数据库环境搭建 mongodb linux 数据库
虚拟机：CentOS-7-x86_64-Minimal-2009MongoDB：mongodb-linux-x86_64-rhel70-5.0.5运行起来#Step1.安装依赖yuminstalllibcurlopenssl-y#Step2.下载mongoDB压缩包wgethttps://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-5.
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
Java基础面试题学习 PowerCloud java 学习开发语言
转换成自已的语言来回答，来源小林coding、沉默王二以及其它资源和自已改编。1、概念1、说一下Java的特点我认为Java有很多特点首先是平台无关性：Java可以实现一次编译到处运行，因为Java的编译器将源代码编译成字节码，使得该字节码可以在任意装有JVM的操作系统上运行。其次是面向对象的性质：Java是面向对象编程语言，这种OOP的特性使得代码易于维护和重用。主要源于封装继承多态这三大特性。
AI工具如何改变编程学习？Trae IDE与Claude 3.5的实践案例黑金IT AI智能 AI编程 fasttify 人工智能学习 ide
在现在这个到处都是电脑和手机的时代，AI工具正在变成编程学习和开发的好帮手。今天，咱们就来好好聊聊AI工具，特别是TraeIDE和Claude3.5这两个工具，在学习FastAPI和构建知识图谱的时候有多厉害，还有它们对编程行业会有什么影响。一、AI工具：编程学习与开发的好帮手AI工具在编程学习和开发里，作用可太大了。就像TraeIDE和Claude3.5，它们能像好朋友一样，在写代码的时候帮忙检
Pytorch使用手册-DCGAN 指南（专题十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
1.Introduction本教程将通过一个示例介绍DCGANs（深度卷积生成对抗网络）。我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。这里的大部分代码来源于PyTorch官方示例中的DCGAN实现，而本文档将对该实现进行详细解释，并阐明这种模型的运行机制及其背后的原因。无需担心，你不需要事先了解GAN的知识，但初次接触的读者可能需要花一些时间来理
使用Truffle进行智能合约测试 25号底片t 智能合约区块链网络
1、Vscode下安装Solidity插件，change到指定的solidity编译器的版本下2、Truffle开发框架的安装：npminstall-gtruffle3、在workspace下新建一个truffle-test的项目目录，执行truffleinit初始化项目D:\WorkSpace\4、在migrations目录下新建一个js文件：1_deploy_contracts.js（注意文件
c++类和对象(中篇)上朽棘不雕 c++学习 c++开发语言
在上一篇博客中学习了一些类和对象的基础,下面让我们一起来看看这部分比较难以理解的重点部分吧.在中篇我主要学习了默认成员函数以及其中包含的运算符重载.在这篇中主要分享下默认成员函数的前三个.赋值函数以及其中包含的运算符重载的知识见下.类和对象的默认成员函数默认成员函数就是指在一个类中,就算用户没有显示实现,编译器也会自动生成的成员函数.在一个类中,编译器会默认生成6个成员函数.分别是构造函数,析构函
MDK（Keil μVision 5）的编译过程及文件类型全解 froxy 工具 arm stm32
MDK（KeilμVision5）的编译过程及文件类型全解一、编译过程MDK的编译过程主要分为预处理、编译、汇编、链接、生成可执行文件、格式转换六个阶段。以下是详细流程：预处理（Preprocessing）工具:armcc（ARMC/C++编译器）输入文件:.c（C源文件）、.h（头文件）输出文件:.i（预处理后的临时文件，默认不保存）作用:展开宏、处理条件编译指令（如#ifdef）、合并头文件到
Kotlin代码示例及详细解析（Kotlin 1.3.11）淮山2 kotlin
//Kotlin1.3.11编译器版本//无包声明//1.基础变量声明//声明实例变量AAA1，类型为Int，初始值为0，类似C语言先声明后初始化的习惯varAAA1:Int=0//声明实例变量AAA2，类型为Double，初始值为0.0varAAA2:Double=0.0//声明实例变量AAA3，类型为String，初始值为空字符串varAAA3:String=""//2.静态变量声明//声明静
kotlin基础淮山2 kotlin
//Kotlin1.3.11编译器版本//无包声明importkotlin.experimental.ExperimentalUnsignedTypes//定义数据类A1，类型前置dataclassA1(valrepresentation:UInt){//这里可以添加数据类的其他方法或属性，但当前仅包含一个属性}funmain(){//1.集中声明变量，类型前置，符合C语言风格的变量声明习惯//无
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
1，Kotlin代码案例：决属性与方法冲突的类和对象操作演示淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1classA1{//定义静态变量BBB，类似C语言中的全局静态变量companionobject{varBBB:Int=0//初始化静态变量BBB为0}//定义实例变量AAA，包含整数和字符串类型，类似C语言中的结构体成员变量varAAA_int:Int=0//整数类型的实例变量，初始化值为0varAAA_s
6，Kotlin代码案例，并按照要求对变量、类、方法等进行了改写淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1，类似一个简单的控制器类，用于处理Web请求相关操作classA1{//定义静态变量BBB，这里模拟一个可能的全局配置相关的静态变量companionobject{varBBB:Int=0}//实例方法CCC，模拟处理"/helloworld"和"/"路径的请求funCCC():Any{//返回一个字符串，模
Kotlin v2.1.20 发布，标准库又有哪些变化？ ForteScarlet 水文罢了 kotlin 开发语言 android
大家吼哇！就在三小时前，Kotlinv2.1.20发布了，更新的内容也已经在官网上更新：What’snewinKotlin2.1.20。我粗略地看了一下，下面为大家选出一些我比较感兴趣、且你可能也会感兴趣的内容。注意！这里只选了一些标准库中的一些API之类的变化，不会包括诸如编译器变动、工具（例如Gradle）变化等。AtomicAPI现在，在Kotlin的标准库中可以使用原子类啦！在之前，想要使
SOFAStack-00-sofa 技术栈概览老马啸西风 sofa 架构监控阿里云系统架构
SOFAStack前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。核心项目⚙️SOFABootGitHub:sofastack/sofa-boot|★3.8k功能：企业级SpringBoot增强框架，支持模块化开发、类隔离、日志隔离，提供健康检查、异步初始化等特性。SOFARPCGitH
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
【Java学习日记6】：字面量的分类与使用小蛋6g Java学习日记 java 开发语言
一、字面量的定义与作用字面量是程序中直接书写的数据值，无需通过变量或计算获取。它用于表示固定的值，如数字、字符、布尔值等，例如：数字100、字符串"Hello"、字符'A'等。字面量告诉编译器数据的类型和值。字面量就是告诉程序员:数据在程序中的书写格式.---二、字面量的分类Java中的字面量按数据类型可分为以下六类：类型说明示例整数类型不带小数点的数字123,-456小数类型带小数点的数字3.1
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
2025年渗透测试面试题总结-某四字大厂实习面试复盘一面二面三面（题目+回答）独行soc 2025年渗透测试面试指南面试职场和发展安全 web安全红蓝攻防 python
网络安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录一面1.数组和链表各自的优势和原因2.操作系统层面解析和进程3.线程和进程通信方式及数据安全问题4.线程和多进程的选用场景及原因5.SQL注入绕WAF方式6.FUZZ绕WAF的payload长度通常是多少7.不查资料直接写IPv4正则regex8.Fastjson反序
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。