张小殊.

深度神经网络算子参数量和计算量分析—卷积篇

前言

在用于计算机视觉任务的深度神经网络模型中，卷积算子作为一种重要的特征提取方式被广泛应用，本文针对常见的卷积算子参数量和计算量的计算方法进行分析，主要包括普通卷积、深度可分离卷积、分组卷积，以及自动计算模型参数量和计算量的工具库ptflops进行简单介绍。

文章目录

- 前言
- 1. 普通卷积
- - (1) Params
  - (2) FLOPs
- 2. 深度可分离卷积
- - (1) Params
  - (2) FLOPs
- 3.分组卷积
- - (1) Params
  - (1) FLOPs
- 4. ptflops

1. 普通卷积

对于普通的卷积算子，也就是让卷积核在特征图上按照既定规则进行滑动，并在每一个位置对应元素相乘后累加得到输出特征图的一个像素点。

我们假设输入特征图维度（宽、高、通道数）为 $W_{i} \times H_{i} \times C_{i}$ ，卷积核的维度（宽、高、卷积核个数）为 $K_{w} \times K_{h} \times C_{i}$ ，输出特征图的维度（宽、高、通道数）为 $W_{o} \times H_{o} \times C_{o}$ 。

(1) Params

单个卷积核权重参数共有 $K_{w} \times K_{h} \times C_{i}$ ，偏置参数共有1个，共有 $C_{o}$ 个卷积核，因此，普通卷积算子的参数量为：

$Params=(K_{w} \times K_{h} \times C_{i} +1) \times C_{o}$

(2) FLOPs

对于普通的卷积算子，卷积核在特征图上每滑动一次，将对应元素相乘后累加得到输出特征图中的一个像素点，因此，输出特征图中的一个像素点的计算量为：

$(K_{w} \times K_{h}\times C_{i}) \times (K_{w} \times K_{h}\times C_{i}-1)+1$

其中 $K_{w} \times K_{h}\times C_{i}$ 是做乘法运算的次数， $K_{w} \times K_{h}\times C_{i}-1$ 是做加法运算的次数， $+ 1$ 是加偏置运算的加法次数(每次滑动需要一次加偏置操作,或者理解为每一个输出特征像素需要一次加偏置操作)。

输出特征图的维度大小是 $W_{o} \times H_{o} \times C_{o}$ ，故对于普通的卷积算子总的计算量为：

$FLOPs=[(K_{w} \times K_{h}\times C_{i}) \times (K_{w} \times K_{h}\times C_{i}-1)+1]\times W_{o} \times H_{o} \times C_{o}\\ = 2\times K_{w} \times K_{h} \times C_{i} \times W_{o} \times H_{o} \times C_{o}$

2. 深度可分离卷积

对于深度可分离卷积算子，其主要由两部分操作组成，即深度卷积（上图Depthwise Convolution）和点卷积（上图Pointwise Convolution），深度卷积也叫逐通道卷积，具体实现为：对于输入特征图的每一个通道，都有一个对应的卷积核去和它做卷积运算，最后得到的特征图通道数和输入特征图通道数相同。点卷积即使用 $1\times1$ 大小的卷积核对特征图做普通卷积。

我们假设输入特征图的维度（宽、高、通道数）为 $W_{i} \times H_{i}\times C_{i}$ ，深度可分离卷积中的深度卷积维度（宽、高、卷积核个数）为 $K_{w} \times K_{h}\times C_{i}$ ，经过深度卷积后的维度（宽、高、通道数）为 $W_{m} \times H_{m} \times C_{i}$ ，深度可分离卷积中的点卷积维度（宽、高、卷积核通道数、卷积核个数）为 $\times 1 \times C_{i} \times C_{o}$ ，输出特征图的维度（宽、高、通道数）为 $W_{o} \times H_{o}\times C_{o}$ 。

我们再对照着上面的假设理解一次深度可分离卷积的过程，首先对于 $W_{i} \times H_{i}\times C_{i}$ 输入特征图进行深度卷积，即逐通道 $W_{i} \times H_{i}$ 和深度卷积核 $K_{w} \times K_{h}$ 进行卷积运算然后生成一张特征图，输入特征图的通道数和深度卷积核的个数都为于 $C_{i}$ ，故深度卷积共有 $C_{i}$ 张输出特征图，然后对深度卷积得到的 $C_{i}$ 张输出特征图进行点卷积（普通卷积），即每一个点卷积核 $\times 1 \times C_{i}$ 和深度卷积得到的 $C_{i}$ 张输出特征图进行普通卷积得到一张 $W_{o} \times H_{o}$ 的特征图，而点卷积的个数共有 $C_{o}$ 个，故输出特征图维度为 $W_{o} \times H_{o}\times C_{o}$ 。

理解其过程后，下面我们分析深度可分离卷积算子的参数量和计算量

(1) Params

对于深度卷积，单个卷积核的维度大小（宽、高、卷积核通道）为 $K_{w} \times K_{h}\times 1$ ，偏置参数共有1个，共有 $C_{i}$ 个深度卷积核，故其参数量为：

$Params_{深度卷积} = (K_{w} \times K_{h} \times1+1) \times C_{i}$

对于点卷积，单个卷积核的维度大小（宽、高、卷积核通道）为 $\times 1 \times C_{i}$ ，偏置参数共有1个，共有 $C_{o}$ 个深度卷积核，故其参数量为：

$Params_{点卷积} = (1 \times 1 \times C_{i}+1) \times C_{o}$

故，对于深度可分离卷积来说，其总的参数量为：

$Params=Params_{深度卷积}+Params_{点卷积} =[(K_{w} \times K_{h}+1) \times C_{i}] + [(1 \times 1 \times C_{i}+1) \times C_{o}]$

(2) FLOPs

对于深度卷积，同样的深度卷积核在特征图上每滑动一次，将对应元素相乘后累加得到输出特征图中的一个像素点，因此，输出特征图中的一个像素点的计算量为：

$(K_{w} \times K_{h} \times1) \times (K_{w} \times K_{h} \times 1-1)+1$

其中 $K_{w} \times K_{h} \times1$ 是做乘法运算的次数， $K_{w} \times K_{h} \times1-1$ 是做加法运算的次数， $+ 1$ 是加偏置运算的加法次数(每次滑动需要一次加偏置操作,或者理解为每一个输出特征像素需要一次加偏置操作)。

注意：这里的 $\times 1$ 表示卷积核通道数,因为是逐通道卷积，也就是通道数为1的卷积运算。

深度卷积输出特征图的维度大小是 $W_{m} \times H_{m}\times C_{i}$ ，故对于深度卷积算子总的计算量为：

$FLOPs_{深度卷积} =[(K_{w} \times K_{h}) \times (K_{w} \times K_{h}-1)+1]\times W_{m} \times H_{m}\times C_{i}\\=2\cdot (K_{w} \times K_{h})\times W_{m} \times H_{m}\times C_{i}$

对于点卷积，同样的点卷积核在特征图上每滑动一次，将对应元素相乘后累加得到输出特征图中的一个像素点，因此，输出特征图中的一个像素点的计算量为：

$\times 1 \times C_{i}) \times (1 \times 1 \times C_{i}-1)+1$

其中 $\times 1 \times C_{i}$ 是做乘法运算的次数， $\times 1 \times C_{i}-1$ 是做加法运算的次数， $+ 1$ 是加偏置运算的加法次数(每次滑动需要一次加偏置操作,或者理解为每一个输出特征像素需要一次加偏置操作)。

点卷积输出特征图的维度大小是 $W_{o} \times H_{o}\times C_{o}$ ，故对于点卷积算子总的计算量为：

$FLOPs_{点卷积} =[(1 \times 1 \times C_{i}) \times (1 \times 1 \times C_{i}-1)+1] \times W_{o} \times H_{o}\times C_{o}\\ =2\cdot C_{i}\times W_{o} \times H_{o}\times C_{o}$

故对于深度可分离卷积来说，其总的计算量为：

$FLOPs=FLOPs_{深度卷积}+FLOPs_{点卷积} =[2\cdot (K_{w} \times K_{h})\times W_{m} \times H_{m}\times C_{i}] + [2\cdot C_{i}\times W_{o} \times H_{o}\times C_{o}]$

3.分组卷积

分组卷积是卷积神经网络中常用的一种卷积操作，它将输入的特征图分成若干组，每组特征图分别与对应的卷积核进行卷积操作，然后将各组的卷积结果拼接在一起形成最终的输出特征图。上图左边是普通卷积的示意图，右图是分组卷积的示意图，下面大概介绍一下分组卷积的基本流程：

输入特征图分组：将输入特征图按照通道数分成若干组，每组包含相等数量的通道。
分组卷积核：为每个分组准备对应的卷积核，每个卷积核组的数量与输入特征图的分组数量相同。
分组卷积操作：对每个分组的输入特征图分别使用对应的分组卷积核进行卷积操作，得到各组的卷积结果。
输出特征图拼接：将各组的卷积结果按照通道顺序进行拼接，形成最终的输出特征图。

分组卷积的主要优势在于可以减少参数量和计算量，同时提高模型的并行性，特别适用于计算资源有限的场景。这种技术在一些轻量级的神经网络结构中得到了广泛的应用。

我们假设分组卷积的分组数为 $g$ 组，输入特征图的维度（宽、高、通道数）为 $W_{i} \times H_{i}\times C_{i}$ ，那么每一组输入特征图的维度（宽、高、通道数）为 $W_{i} \times H_{i} \times \frac{C_{i}}{g}$ ，共有 $g$ 组输入特征图；

卷积算子分组数同样为 $g$ 组，其维度（宽、高、通道数、卷积核个数）为 $K_{w} \times K_{h} \times \frac{C_{i}}{g} \times \frac{C_{o}}{g}$ ；

每一组中输入特征图和分组卷积核做卷积得到每一组的输出特征图维度为 $W_{o} \times H_{o} \times \frac{C_{o}}{g}$ ，g个组的输出特征图拼接在一起就是 $W_{o} \times H_{o} \times C_{o}$ ；

理解其过程后，下面我们分析深度可分离卷积算子的参数量和计算量

(1) Params

对于单个分组卷积算子来说，其维度（宽、高、通道数）为 $K_{w} \times K_{h} \times \frac{C_{i}}{g}$ ，偏置参数共有1个，单个分组的卷积核个数为 $\frac{C_{o}}{g}$ ，共有 $g$ 个分组卷积，故其参数量为：

$Params=(K_{w} \times K_{h} \times \frac{C_{i}}{g}+1) \times \frac{C_{o}}{g}\times g$

(1) FLOPs

对于分组卷积算子来说，同样的单个分组的卷积核在特征图上每滑动一次，将对应元素相乘后累加得到输出特征图中的一个像素点，因此，输出特征图中的一个像素点的计算量为：

$(K_{w} \times K_{h} \times \frac{C_{i}}{g})+(K_{w} \times K_{h} \times \frac{C_{i}}{g}-1）+1$

其中 $K_{w} \times K_{h} \times \frac{C_{i}}{g}$ 是做乘法运算的次数， $K_{w} \times K_{h} \times \frac{C_{i}}{g}-1$ 是做加法运算的次数， $+ 1$ 是加偏置运算的加法次数(每次滑动需要一次加偏置操作,或者理解为每一个输出特征像素需要一次加偏置操作)。

单个分组的卷积输出特征图维度为 $W_{o} \times H_{o} \times \frac{C_{o}}{g}$ ，故对于单个分组卷积算子总的计算量为：

$FLOPs_{单个分组}=[(K_{w} \times K_{h} \times \frac{C_{i}}{g})+(K_{w} \times K_{h} \times \frac{C_{i}}{g}-1）+1]\times W_{o} \times H_{o} \times \frac{C_{o}}{g}$

又因为共有 $g$ 组操作，故其总的计算量为

$FLOPs=[(K_{w} \times K_{h} \times \frac{C_{i}}{g})+(K_{w} \times K_{h} \times \frac{C_{i}}{g}-1）+1] \times W_{o} \times H_{o} \times \frac{C_{o}}{g}\times g\\ = 2\times K_{w} \times K_{h} \times \frac{C_{i}}{g} \times W_{o} \times H_{o} \times C_{o}$

回顾一下普通卷积的参数量核计算量，可以发现分组卷积的参数量和计算量都是普通卷积的 $\frac{1}{g}$ 倍。

4. ptflops

ptflops 是一个自动计算模型参数量和计算量的库，可以通过pip/conda直接下载，即

pip install ptflops

速度过慢时可以使用-i参数指定源，即

pip install ptflops -i https://pypi.tuna.tsinghua.edu.cn/simple

使用举例：

import torch
from torchvision.models import resnet18
from ptflops import get_model_complexity_info
  
model = resnet50()
macs, params = get_model_complexity_info(model, (3, 224, 224), as_strings=True,print_per_layer_stat=True, verbose=True)
                                           
print("MACs=", str(macs / 1e9) + '{}'.format("G"))
print("MACs=", str(macs / 1e6) + '{}'.format("M"))

虽然它可以自己计算模型的参数量和计算量，但是对一些自定义的层或算子不支持，并且不支持带有批量的计算。

参考：
全连接-普通卷积-深度可分离卷积-分组卷积-计算量和参数量
普通卷积、分组卷积和深度分离卷积概念以及参数量计算

你可能感兴趣的:(性能分析,人工智能,卷积神经网络,分组卷积,深度可分离卷积,参数量,计算量FLOPs)

探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
OpenLayers集成天地图服务开发指南喆星时瑜 WebGIS #天地图 OpenLayers GIS 天地图 WebGIS HTML 地图地图API
以下是一份面向GIS初学者的OpenLayers开发详细教程，深度解析代码：一、开发环境搭建1.1OpenLayers库引入ol.css：包含地图控件、图层等可视化样式ol.js：OpenLayers核心功能库推荐使用固定版本号（如v7.3.0）确保稳定性1.2地图容器设置.map{//设置地图控件显示尺寸height:95vh;width:95vw;}使用视口单位(vh/vw)实现响应式布局保留
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
Windows程式开发设计指南（二十三）领略Internet 干了这一碗BUG WINDOWS编程
23.领略InternetInternet－全世界电脑透过不同协定交换资讯的大型连结体－近几年重新定义了个人计算的几个领域。虽然拨接资讯服务和电子邮件系统在Internet流行开来之前就已经存在，但它们通常局限於文字模式，并且根本没有连结而是各自分隔的。例如，每一种资讯服务都需要拨不同的电话号码，用不同的使用者ID和密码登录。每一种电子邮件系统仅允许在特定系统的缴款使用者之间发送和接收邮件。现在，
高频交易：当速度与智慧在金融市场中“飙车”（策略＋算法）西蒙斯.果 python numpy pandas
高频交易：当速度与智慧在金融市场中“飙车”高频交易（High-FrequencyTrading,HFT）就像金融市场的“闪电侠”，利用强大的计算机和复杂的算法，在毫秒甚至微秒内完成交易。它的目标是抓住市场中的微小机会，赚取“快钱”。以下是对高频交易策略和算法的详细介绍，带点幽默感，让你在了解金融科技的同时也能会心一笑。---一、高频交易策略：金融市场的“快闪族”1\.做市策略：买卖价差的“中间商”
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
html.partial mvc5,[ASP.NET Core Razor Pages系列教程]ASP.NET Core Razor Pages中的Partial Views(部分视图)(04)... 安静的小屁孩儿 html.partial mvc5
PartialViews(部分视图)什么是PartialViews?PartialViews(之后统称:部分视图)是包含了HTML代码片段和服务端代码的Razor文件，它同样以.cshtml为扩展名。部分视图可以被包含在任意数量的页面或者布局中。部分视图可以用来将复杂的页面分解成更小的单元，从而减少复杂性，同时也可以在团队开发中被复用。什么时候使用部分视图(PartialViews)部分视图可以处
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
深入解析Flink Kafka Connector的分布式流数据采集架构与底层实现数据与算法架构提升之路 #Flink flink kafka conector 源码
目录1.FlinkKafka连接器的分布式流采集架构1.1架构组成1.2分布式流模型2.数据分区分配策略3.为什么重写序列化和偏移量管理3.1与Flink分布式架构集成3.2与Flink检查点机制集成同时承接多级并行架构3.3OffsetsInitializer与细粒度偏移量控制3.4与Flink的Source接口统一4.版本兼容性管理5.有界流处理支持5.1实现原理5.2API使用示例5.3多种
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
安卓 vs iOS 文件系统深度解析：开放自由与封闭安全的终极博弈 jingling1007 Android android ios 安全安全性测试
安卓和iOS的差异远不止于界面和生态，它们的文件系统设计更是体现了两种截然不同的技术哲学。安卓的开放目录允许用户“为所欲为”，而iOS的沙盒机制则像一座密不透风的堡垒。本文将通过技术细节对比、真实场景案例、用户操作指南，深度剖析两大系统的核心设计，回答一个关键问题：谁的设计更能平衡自由与安全？一、文件系统架构：从根目录到沙盒1.安卓：Linux的开放基因目录结构全景根目录（/）：包含所有系统层级（
java选择语句 FAQEW java
Java选择结构深度解析一、if结构体系1.单条件判断//基础if结构intscore=85;if(score>=60){System.out.println("考试通过");}//判断空值（防御性编程）Stringtext=null;if(text!=null&&!text.isEmpty()){System.out.println(text.length());}执行流程：truefalse条
数据结构二叉树进阶 z一一m 数据结构数据结构算法
1.根据二叉树创建字符串1.题目2.分析原理要把二叉树元素按照前序顺序取出来，并且以字符串的形式返回，还要添加括号对于左子树和右子树，那么第一步就是向定义一个string类型来接收取出的元素，需要用到to_string函数把整型变成string类型，第二步就是递归来深度遍历了，但是需要判断一下，题目有些情况是省略了括号，有些没有省去，题目例子可以知道左为空右不为空就不能省略括号，左不为空右为空就可
C/C++数据类型--整型类型蓝心湄 C/C++数据类型 c语言
概念数据类型表示的是数据的身份决定它可以进行什么操作、占用多少空间与数据结构的区别数据类型更倾向于表示数据的身份数据结构表示的是怎么操作数据（是在类型的基础上进行对数据的操作的）C语言允许使用的类型类型的分类算术类型：基本类型和枚举类型纯量类型：算术类型和指针类型组合类型：数组类型和结构体类型整型数据基本整型（int）长度为2字节或4字节短整型（shortint）长度为2字节长整型（longint
QHDBO基于量子计算和多策略融合的蜣螂优化算法算法小狂人算法改进智能优化算法量子计算算法
2.DBO基本的蜣螂算法通过模拟蜣螂在自然界中的四种行为（滚动、产卵、觅食和偷窃）来执行种群位置更新。2.1滚动蜣螂在自然界中，蜣螂必须通过太阳导航，使其球滚动的路线尽可能直线。方程(1)用于原始论文中更新滚动蜣螂的位置：xi(t+1)=xi(t)+α⋅k⋅xi(t−1)+b⋅Δx(1)x_i(t+1)=x_i(t)+\alpha\cdotk\cdotx_i(t-1)+b\cdot\Deltax\
A800核心加速技术深度剖析智能计算研究中心其他
内容概要作为第三代异构计算架构的典型代表，A800通过深度融合通用计算单元与专用加速模块，构建了高度灵活的资源调度体系。其核心突破在于将矩阵运算、并行任务分发与内存访问路径进行系统性重构，解决了传统架构中计算密度与能效失衡的行业痛点。通过实测数据显示，在典型AI训练场景下，A800相较于前代架构实现了3.2倍的吞吐量提升，同时单位功耗下的指令执行效率优化达47%。技术维度第二代架构A800架构提升
全国一体化算力网演进与多域协同发展智能计算研究中心其他
内容概要全国一体化算力网的建设正从技术探索迈向系统性布局，其核心目标是通过多源异构资源的动态调度与协同管理，构建覆盖全域的智能化算力基础设施。当前，东数西算战略通过跨区域算力资源整合，推动智能算力、超级算力与边缘计算的有机衔接，逐步形成支撑工业互联网、元宇宙、智能家居等多元化场景的泛在服务能力。技术层面，异构计算架构的突破与量子计算、模型压缩等创新技术的融合，正在重塑算力系统的可扩展性与可靠性边界
H200架构升级与实战解析智能计算研究中心其他
内容概要作为新一代高性能计算平台的核心载体，H200架构通过系统性硬件重构实现了计算性能的显著跃迁。本文将从芯片级设计革新出发，剖析其多维度升级路径：首先解读计算单元拓扑重组带来的并行效率提升，阐释内存子系统的带宽优化策略；继而拆解面向AI训练场景的混合精度加速机制，以及科学计算工作负载的动态资源调度方案。通过比对行业典型部署案例中的能效曲线与吞吐表现，系统化呈现H200在模型训练加速、大规模仿真
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
H800能效架构实战解析智能计算研究中心其他
内容概要H800能效架构以异构计算资源调度与动态功耗控制为核心，通过系统级协同设计实现算力密度与能耗优化的双重目标。其核心技术覆盖智能负载分配、电压频率动态调节及热管理三大模块，形成从芯片级到数据中心级的垂直优化链路。在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
算力网协同创新与多场景应用实践智能计算研究中心其他
内容概要算力网协同创新正通过技术融合与场景适配，驱动算力资源的高效整合与跨域调度。核心突破方向涵盖异构计算架构优化、边缘计算实时响应能力提升，以及智能算力在工业互联网、数字孪生等场景的动态供给。随着“东数西算”工程推进，算力网络需兼顾性能与可持续性，在芯片制程优化、模型压缩算法及能耗管理等领域形成技术闭环。技术方向应用场景关键指标异构计算架构工业检测任务延迟<10ms模型压缩算法医疗影像分析计算资
算力技术创新与多场景应用突破智能计算研究中心其他
内容概要算力技术创新正成为驱动数字经济发展的核心引擎，其演进路径呈现出多维度突破态势。从量子计算颠覆性架构到光子计算超高速特性，从异构计算资源动态整合到边缘计算实时响应机制，技术革新持续突破物理边界与能耗瓶颈。应用层面，工业互联网实时控制、元宇宙沉浸式交互、生物计算精准建模等场景对算力提出差异化需求，推动智能调度算法与能效管理体系的协同优化。与此同时，全国一体化算力网络建设加速芯片制程迭代、数据中
Android Compose 框架按钮与交互组件模块源码深度剖析(二) &有梦想的咸鱼& Androiod Compose原理 Android开发大全 android
一、引言在现代Android应用开发中，用户交互体验至关重要。AndroidCompose作为Google推出的声明式UI工具包，为开发者提供了简洁、高效且灵活的方式来构建用户界面。其中，按钮与交互组件模块是用户与应用进行交互的重要组成部分。本文将深入剖析AndroidCompose框架中按钮与交互组件模块的源码，从基础概念到具体实现，逐步揭示其工作原理和设计思路。二、AndroidCompose
MMO基础双端架构（五）：如何O(1)的处理心跳消息晴空～蓝兮 MMO双端游戏架构游戏算法 c#
更多代码细节，球球各位观众老爷给鄙人的开源项目点个Star，持续更新中~Free项目开源地址5.LRU算法淘汰超时心跳消息采用双向链表+线程安全哈希字典处理心跳消息的超时和检查机制仿照了经典算法LRU（也就是最少关注移除算法，当容器内的size大于最大容许size时，最少关注的那个单位就会被移除）这样的设计可以实现，平均o(1)插入删除，整个链表的长度只与客户端连接的数量有关，每一次查询都会均摊超
模式搜索+扩散模型：FlowMo重构图像Token化的技术革命芯作者 DD：日记重构
图像Token化作为现代生成式AI系统的核心技术，长期面临对抗性训练不稳定、潜在空间冗余等挑战。斯坦福大学李飞飞与吴佳俊团队提出的FlowMo（FlowtowardsModes）创新性地融合模式搜索与扩散模型，在多个关键维度突破传统方法局限，为图像压缩与重建开辟新路径。本文将深度解析其技术突破、实现原理及行业影响。一、传统图像Token化的困境与FlowMo的破局之道1.1传统方法的三大桎梏传统T
macOS Sequoia 15.0 小洋学长经验分享
macOSSequoia推出了一系列新功能，可助你在Mac上提高生产力和创造力。通过最新连续互通功能iPhone镜像，你可以在Mac上访问整个iPhone。轻松平铺窗口快速打造理想工作空间，还可查看通过演讲者前置演示时即将共享的内容。经过重大更新的Safari浏览器带来了干扰控制，可让你在浏览网页的同时轻松完成各种任务。macOSSequoia还为“信息”带来了文字效果和表情符号点回，为“计算器”
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他