calvinpaean

X3D: Expanding Architectures for Efficient Video Recognition 论文学习

Abstract

本文提出的 X3D 是一组高效率的视频网络，沿着网络的空间、时间、宽度和深度维度来对较小的2D图像分类结构进行扩展。受到机器学习中特征选择方法的启发，本文使用了一个简单的、逐步的网络扩展方法，每一步中只扩展单个维度，这样就可以实现准确度与复杂度的平衡。为了将X3D的复杂度扩展至一个目标程度，在前向扩展操作之后会跟着一个反向的收缩操作。X3D实现了state of the art的性能，而计算量比以前的方法少了 $4.8\times$ ，参数量少了 $5.5\times$ 。本文最惊人的发现就是，使用高时空分辨率的网络也能效果很好，而其网络的宽度和参数量都极其轻量。在视频分类和检测基准上，X3D都取得了最佳的准确率。代码位于：https://github.com/facebookresearch/SlowFast。

1. Introduction

将2D图像的网络结构扩展至时空域，大幅度地推动了视频分类的网络结构。这些扩展通常发生在时间维度上，比如将网络的输入、特征、卷积核扩展至时空维度。但是其它的设计选项—如深度（层的个数）、宽度（通道个数）以及空间大小都沿用了2D图像的网络结构。尽管沿着时间维度来扩展（保留其它的设计属性），通常可以提升准确率，但是考虑到计算量/准确率之间的关系，这就不是最优的了。

直接将2D模型扩展至3D，视频识别的网络结构的计算量很重。与图像识别相比，视频模型通常会消耗更多的计算量，如图像ResNet的计算量要比一个在时间维度上延展出来的视频模型少 $27\times$ 倍。

本文关注于计算量较低的方法上，针对视频识别实现计算量/准确率的平衡。作者基于图像识别中的移动端模型来设计本文方法。本文的核心思想是，尽管沿着时间维度来扩展小模型可以提升准确率，但是与扩展其它维度相比，其计算量/准确率的平衡并不一定是最佳的，尤其是在较低计算量的方法中，其它维度上的准确率可能提升地更快。

如图1所示，本文中作者通过增加多个可能的维度，逐步地将一个小型的2D网络结构扩展至时空域。候选的维度包括时长 $\gamma_t$ 、帧率 $\gamma_\tau$ 、空间分辨率 $\gamma_s$ 、网络宽度 $\gamma_\omega$ 、bottleneck宽度 $\gamma_b$ 、深度 $\gamma_d$ 。该网络结构称作X3D（Expand 3D），从2D空间扩展至3D时空域。

2D基线模型受到 MobileNet 的核心概念（通道可分离卷积）启发，但是要小许多，它的计算量要比移动端图像模型少10倍。然后扩展操作会逐步地增加计算量（每次扩展一个维度），随后训练及验证得到的模型结构，最后选择能实现最佳计算量/准确率的维度。该过程会不断地重复，直到我们达到了理想的计算量目标。我们可以理解为是 coordinate descent 的一种形式，这些维度就定义了超参数空间。

本文递进的网络扩展方式受到了卷积网络的设计和机器学习中特征选取方式的启发，流行的网络结构都会在深度、分辨率或宽度维度上进行扩展。递进的特征选取方法在一开始时，会有一个数量极少的特征组成的集合，然后通过greedy算法找到那些相关的、能大幅度提升表现的特征；或者一开始时，会有一个完备的特征集合，然后重复地删除那些对性能损害最小的特征，找到那些不相关的特征。

为了和之前的研究相比较，作者使用了Kinetics-400、Kinetics-600、Charades、AVA数据集。为了系统性地研究，作者将其模型分为不同的复杂度层级—小型、中型、大型的模型。

总之，利用该扩展操作，作者构建了一组时空网络结构，涵盖了大范围的计算量/准确率 trade-offs。在实际应用中，它们可以根据不同的计算量预算来使用。例如，在不同的计算量和准确率设定下，X3D的表现与目前state of the art的模型相似，而所需的计算量和参数量少了 $4.8\times$ 和 $5.5\times$ 。此外，扩展操作简单且成本低，例如，只训练30个小模型后，我们的低计算量模型就完成了，而这30个小模型所需的计算量要比训练一个大模型所需的少 $25\times$ 倍。

本文最惊人的发现就是，通过扩展时空分辨率而得到的很窄的视频网络结构，其效果也很好，而网络的宽度和参数量要小许多。X3D网络的宽度要比其它网络小许多，这样X3D就和高分辨率的Fast Pathway相似。

2. Related Work

时空（3D）网络。对图像分类网络进行扩展，加入时间维度，并保留其空间属性，人们就设计出了视频识别模型。这些扩展包括直接的2D模型变换，如将ResNet或Inception改为3D，在2D CNNs之上增加RNNs，或者通过光流 stream 来扩展2D模型。它一开始是一个2D图像模型，然后通过滤波器改造，将之转换为时空域的模型，这允许我们在图像分类任务上进行预训练，但是该视频网络结构内在地就会偏向基于图像的那部分。

SlowFast 网络在Slow和Fast pathway 的多个维度上，以及不同的时间、空间和通道分辨率上探索了分辨率的 trade-offs。有趣的是，Fast pathway 可以非常地窄，因此所需的计算量比较少。但是，运算起来较慢。而且，它需要和计算量沉重的Slow pathway结构一起运算。本文研究了我们是否需要Slow pathway，以及一个轻量级网络能否有竞争力的问题。

高效2D网络。在图像分类任务上，人们大量研究了计算高效率的网络结构，如MobileNetV1&V2和ShuffleNet，研究了通道可分离卷积和扩展bottlenecks。人们也提出了神经结构搜索方法，在设计空间中加入了SE注意力模块，和最近的MobileNetV3 Swish非线性激活函数。MobileNets 通过一个宽度和分辨率乘数来变大和变小。最近，MnasNet 对空间、宽度和深度维度分别使用线性缩放因子，得到一组EfficientNets用于图像分类。

本文的扩展方法与之相关，但是所需的样本数更少，它可以处理更多的维度，因为在每一步，对于每个维度，我们只训练一个模型。对原始设定采用网格搜索法，我们就需要训练 $k^d$ 个模型，其中 $k$ 是网格的个数， $d$ 是维度的个数。为了得到MnasNet，所需搜索的模型数会有约8000个。对于视频而言，这就无法做到了，因为相较于图像分类所需的图像数量而言，它是指数倍的，比如Kinetics 有 $\approx 195M$ 帧，比ImageNet的图像数量多 $162.5\times$ 倍。相反，本文方法只需训练6个模型，每个维度扩展都对应一个模型，直到我们达到最终的复杂度。假设我们有5步，它就需要训练30个模型。

高效率3D网络。针对高效率视频分类课题，人们提出了多个创新的网络结构。通道可分离卷积是高效率2D卷积网络的核心构建模块，在视频分类任务上人们也进行了尝试，将2D结构扩展为3D结构，比如在 ShuffleNet、MobileNet 或 ResNet 中残差阶段的bottleneck中使用 $3\times 3\times 3$ 的通道可分离卷积。更早一点，[10] 采用 2D ResNets 和 MobileNets，将每个残差模块内的连接进行稀疏化，与可分离卷积或分组卷积相似。[51]中提出了时间转移模块（TSM），扩展了ResNets，利用内存转移操作来获取时间信息。在自适应的帧采样技巧方面，人们也有大量的研究，可作为本文的补充。

本文方法没有采用从2D网络继承而来的设计，但在多个维度上（空间、时间、通道和深度）对小型网络结构进行扩展，实现不错的效率 trade-off。

3. X3D网络

图像分类网络经历了结构设计上的演化，沿着网络的深度、输入分辨率或通道宽度不断地扩展现有的模型。在移动端图像分类领域，我们也可以看到相似的进展，对网络做收缩改造（网络更浅、分辨率更低、层更窄、可分离卷积）使得计算量很低。在视频网络结构上，我们并没有发现相似的演进，因为它们都是对图像模型进行直接的时间域扩展但是，单纯地将2D结构扩展为3D真的理想吗？沿着不同的维度来扩展或收缩是否更好呢？

对于视频分类，时间维度带来了一个新的问题，增加可能性的数量，但是所需的处理方式与空间维度的处理方式不同。作者特别关心不同维度之间的 trade-offs:

对于3D网络最佳的时间采样策略是什么？相较于较短的视频片段的快速采样，长时长的输入和稀疏采样策略是否更好？
我们是否需要更高的空间分辨率？之前的视频分类工作都采用较低的分辨率，提升效率。同样，视频通常要比网络图像的分辨率更粗糙，那么是否会存在一个空间分辨率，使得网络的表现会饱和呢？
高帧率而通道分辨率较低的网络是否更好？或者用一个较宽的模型来慢慢处理视频？比如，网络内的层是否应该更重，与图像分类模型（Slow pathway）相似，或更轻量、宽度较窄，与Fast pathway相似？
当我们增加网络宽度时，全局地增加ResNet模块中的宽度更好，还是增大内部 "bottleneck"的宽度更好？这与使用了通道可分离卷积的移动端图像分类网络相似。
加大输入分辨率的同时，是否应该网络更深一些？以此来保证网络的感受野足够大，而且它的growth rate 几乎是常量，在不同的维度进行扩展是否更好？这在空间和时间维度上是否都成立？

这一部分，在3.1节首先介绍了基本的X2D结构，在3.2节定义了扩展操作，3.3节介绍了渐进的网络的扩展。

3.1 基本结构

作者首先介绍了基本的网络结构 X2D，作为基线模型，可以扩展入时空维度。该实例化延续了 ResNet 结构以及单帧时间输入时 SlowFast模型中的 Fast pathway 设计。表1中详细介绍了X2D 的结构，如果所有的扩展因子 $\{\gamma_\tau, \gamma_t, \gamma_s, \gamma_\omega, \gamma_b, \gamma_d\}$ 都设为1。

作者将时空大小表示为 $T\times S^2$ ，其中 $T$ 是时间长度， $S$ 是一个正方形空间裁剪区域的宽度和高度。X2D的结构如下所述。

网络分辨率和通道表示能力。模型的输入是一个视频片段，在数据层中的采样帧率是 $1/\gamma_\tau$ 。基本网络结构的输入只有1帧，大小是 $T\times S^2 = 1\times 112^2$ 作为输入，因此它可看作为图像分类网络。每层的宽度都以 Fast pathway 设计为指导，第一个 stage， $conv_1$ 对RGB输入通道进行滤波操作，输出24个通道。从 $res_2$ 到 $res_5$ ，经过每次步长是 $1, 2^2$ 的空间下采样后，宽度都会乘以2。在每个stage的第一个残差模块中，都会用 bottleneck 中的滤波器进行空间下采样。

与SlowFast pathway相似，该模型在各特征层级中保留了所有特征的时间输入分辨率。在整个网络中，直到分类层之前的全局池化层，都没有用到时间下采样层（时间池化或time-strided conv）。因此，激活张量包含了时间维度上的所有帧，保留了所有特征中的时间频率信息。

网络阶段 X2D 由一个 stage-level 和 bottleneck 设计组成，受2D移动端图像分类网络启发，它使用了通道可分离卷积，是高效率卷积网络的核心构建模块。作者借鉴了 MobileNet 的设计，将bottleneck 模块中的空间 $3\times 3$ 卷积扩展为 $3\times 3\times 3$ 时空卷积。此外，在第一个 $conv_1$ 中的 $3\times 1$ 时间卷积是 channel-wise的。

讨论。X2D 可以理解为一个 Slow pathway，因为它每次只将单帧作为输入，而网络宽度与 Fast pathway 相似，这和传统的3D卷积网络相比更加轻量。它只需要 20.67M FLOPS，是目前 SlowFast 的 $0.0097\%$ 。

如表1和图1所示，X2D 在 6 个维度上进行了扩展， $\{\gamma_\tau, \gamma_t, \gamma_s, \gamma_\omega, \gamma_b, \gamma_d\}$ 。

3.2 扩展操作

作者定义了一组基本的扩展操作，逐步地将X2D从一个小型空间网络扩展为X3D，通过以下在时间、空间、宽度和深度维度上的操作。

通过提高帧率 $1/\gamma_\tau$ ，X-Fast 扩展了时间激活大小， $\gamma_t$ ，因此也就提高了时间分辨率，而视频时长不变。
通过采样一个较长的视频片段，X-Temporal 扩展了时间长短， $\gamma_t$ ，增加帧率 $1/\gamma_\tau$ ，扩展视频的时长和时间分辨率。
通过提高输入视频的空间采样分辨率，X-Spatial 扩展了空间分辨率， $\gamma_s$ 。
通过增加每个残差 stage 中的层数 $\gamma_d$ 倍，X-Depth 扩展了网络的深度。
X-Width 通过一个全局宽度扩展系数 $\gamma_\omega$ 来扩展所有层的通道数。
X-Bottleneck 在每个残差模块中，扩展其内部卷积滤波器的通道宽度 $\gamma_b$ 。

3.3 渐进的网络扩展

作者采用一个简单的、渐进的算法来进行网络扩张，与特征选取的前向和反向算法相似。一开始，作者将X2D作为基础的模型实例，其扩张系数集合 $\chi_0$ 的势为 $a$ 。本文中 $a = 6$ ， $\chi=\{\gamma_\tau, \gamma_t, \gamma_s, \gamma_w, \gamma_b, \gamma_d\}$ 。

前向扩张。作者将网络扩张的评价函数表示为 $J(\chi)$ ，它可以衡量当前扩张系数 $\chi$ 的好坏。分数越高，表示扩张系数越好，分数越低，则表示扩张系数不好。在实验中，它对应着用 $\chi$ 扩张的模型的准确率。此外，以 $C(\chi)$ 作为复杂度评价函数，衡量当前扩张系数 $\Chi$ 的成本。在实验中， $C$ 是 $\chi$ 扩展出的网络实例的浮点计算操作个数，而其他的指标如运行时、参数量、内存也是可以的。然后，网络扩展操作试图找到最佳 trade-off 的扩展系数 $\chi$ ， $\chi = \argmax_{Z,C(Z)=c} = J(Z)$ ，其中 $Z$ 是可能的扩张系数，有待研究， $c$ 是目标复杂度。在本文中，作者所进行的扩张，只会改变 $a$ 个扩张系数中的一个，而其它的保持不变。因此我们一共有 $a$ 个不同的 $Z$ 的子集去评价，它们中的每一个只会改变 $\chi$ 中的一个维度。能得到最佳计算量/准确率平衡的扩张系数会留作下一次的优化。这是超参数空间 coordinate descent 的一种形式，该超参空间由这些维度定义而来。

该扩张是以一个渐进的方式进行的，扩张率是 $\hat c$ ，对应着模型复杂度 $c$ 在扩张步骤中所增加的大小。作者使用了 $\hat c \approx 2$ 的乘数增加，在每一步中增加模型复杂度，对应着模型帧数的增加一倍。该逐步扩张的方式因此很简单，且高效，因为它只需要训练少量的模型，就可达到目标复杂度。

反向收缩。由于前向扩张只在离散的步骤中产生模型，作者进行了反向收缩来满足目标复杂度，如果前向扩张步骤超过了目标复杂度。该收缩操作的实现很简单，就是对最后一个扩张操作进行降低操作，来满足目标复杂度。例如，如果最后一步将帧率增加了一倍，反向收缩就会用 $< 2$ 的系数来降低帧率，从而满足目标复杂度。

4. Experiments

Pls read paper for more details.

什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
从《哪吒 2》看个人IP的破局之道|创客匠人
《哪吒2》以破竹之势登顶中国影史票房榜，不到9天票房突破62亿，观众自发为其“冲百亿”的热情，揭示了一个朴素却深刻的商业逻辑：IP的真正生命力，不在于短暂曝光，而在于用户愿意用行动投票的长期信任。这种逻辑，同样适用于2025年个人IP的增长突围。流量失效的真相：用户体验断层终结增长如今的IP运营者常陷入一个误区：疯狂追逐流量，却留不住用户。短视频投流成本翻倍，内容越做越多粉丝却不涨，好不容易成交的
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
Topview Avatar 2深度实测：AI数字人带货的新高度，还是又一个营销噱头？神码小Z AI工具人工智能
在AI数字人赛道越来越卷的今天，各家产品都在宣传自己的"独门秘技"。最近，TopviewAI推出的Avatar2引起了我的注意——号称突破了产品尺寸限制，实现了"万物皆可带"。作为一个经常需要制作营销视频的内容创作者，我决定亲自上手测试一番，看看这款工具是否真的像宣传的那样强大。TopviewAvatar2是什么？革命性升级还是渐进式改良？TopviewAvatar2是TopviewAI推出的第二
Flutter 应用本地存储与云存储的最佳选择
Flutter应用本地存储与云存储的最佳选择视频https://youtu.be/B-5W2ZpK_GMhttps://www.bilibili.com/video/BV1oQymYUE9b/前言原文Flutter本地存储与云存储本文深入探讨Flutter应用中本地存储和云存储的选择因素，帮助开发者根据需求选择最合适的存储方案。参考https://docs.flutter.devhttps://f
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
Xcode 26 现已发布，并支持代码智能它与基于 Cursor 和 AI Agent 的工作流程相比如何？知识大胖 SwiftUI源码大全 xcode macos ide
简介Xcode26昨天发布了！惊喜的是，它支持macOS15，但要使用新的ChatGPT助手，你需要macOS26Tahoe。所以我把我的M3MaxMacBookPro升级到了Tahoe。我不是说你应该升级，但我这么做是为了测试Xcode的新功能并与大家分享！值得注意的是，这是迄今为止最小的Xcode版本（下载大小）！正如Apple在Xcode新功能会话视频（我建议您观看）中所说的那样，这是一项巨
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo