rca_finforc

TSN 论文阅读

TSN论文

提出的动机

TSN全称——Temporal Segment Networks，一种用于对视频中动作进行识别的网络。以往的视频动作识别所运用的神经网络会受到如下的限制：

长度问题。因为传统方法只关注于短期的动作，依赖于稠密采样（这样会带来超高的计算复杂度，同时对长视频进行采样会有丢失重要信息的风险）。
视频未裁剪。没有把可能会干扰动作识别模型的背景帧去掉。
构建模型存在困难。公开能获得的数据集无论是尺寸还是多样性都不够充足，使用光流提取带来了巨额的计算消耗，所以计算能力也成为了限制模型构建的一个瓶颈。

文章对以上三个问题都提出了解决的方案，给出了一个思路简单、灵活并且具有适用性的框架。（该框架使用的是全局的稀疏抽样策略基于连续帧有大量冗余的视频）

给出了关于长视频学习的解决方案。
分层聚合方案，将动作识别模型应用于未剪裁的视频。
调研了一系列好的方法来学习和应用深度动作识别模型。

为什么要基于段采样？

计算的角度。稠密的局部采样会带来大的计算量。
建模的角度。由于固定的采样间隔，所以时间上的覆盖范围依然很局部和受限。难于去捕获完整视频的视觉内容。（其实是因为对整个视频进行稠密的采样是不现实的）

所以采取了一种段采样的策略。所基于的思想就是：虽然帧被很密集地记录在视频中，但是其内容的变化是非常缓慢的。所以这种均匀的稀疏全局的采样策略总能大致地覆盖整个视频的额视觉片段。所以，采样的帧数将会被固定为一个独立于视频长度的初始值。

框架和公式

框架整体流程

网络框架的主要流程如下3点：

将视频分成K段。这每个片段都有一个卷积网络，但是所有片段的卷积网络都是共享参数的。
每个视频序列中随机地提取出小的片段。
使用段共识函数（segmental consensus function）聚合信息（这里的信息是通过神经网络传出来的视觉特征）。TSN网络能对整个视频的长时间结构进行建模。而这个建模所花费的时间其实是与视频长度无关的，只与视频分的段数相关。

根据上图，给出了论文中的第一个公式，该公式是对整个网络的一个整体描述

$TSN(T_1,T_2,\dots,T_K)={\mathcal H}({\mathcal G}({\mathcal F}(T_1;{\bold W}),{\mathcal F}(T_2;{\bold W}),\cdots,{\mathcal F}(T_K;{\bold W})))$

其中出现的 $F(T_1;W)$ 函数代表的是第1个卷积网络，W为权重，用于产生类别分数。 $G$ 为分段共识函数，用于结合多个短片段的输出以获得他们之间的类假设聚合结果（就是综合每个片段对第i个类的分数，进行综合判断）。 $H$ 为预测函数，论文中用的就是softmax函数。

损失函数

${\mathcal L}(y, G)=-\sum\limits_{i=1}^C y_i\left(g_i-log\sum\limits_{j=1}^C e^{g_j}\right)$

$\frac{\partial{\mathcal L}(y,G)}{\partial W}=\frac{\partial{\mathcal L}}{\partial G}\sum\limits_{k=1}^K\frac{\partial G}{\partial{\mathcal F}(T_k)}\frac{\partial{\mathcal F}(T_k)}{\partial W}$

损失函数和损失函数对权重的导数如上所示。C代表动作类别的个数，y_i代表第i个动作类别的正确标签，g代表分段聚合函数（G）的第j个动作的值，小写的k代表第k个（总共有大写的K个）卷积神经网络。

聚合函数的分析

字母的定义顺延损失函数开头的定义。

最大池化。 $g_i={\rm max}_{k\in\{1,2,\dots,K\}}f_i^k$ 该式为第i个动作的聚合函数的输出值，代表的是总共K个片段的神经网络输出中对第i个动作的判断值中最大的那个。f取自于 ${\bold F}^k={\mathcal F}(T_k;W)$ ，所以可以得到第i个动作的聚合函数对权重为W的卷积网络的第i个输出（动作）的导数： $\frac{\partial g_i}{\partial f_i^k}=\begin{cases}1,\text{if k = argmax}_lf^l_i,\\0,\text{otherwise}\end{cases}$ 。总结可得：其实就是找到这么C个动作在这K个小片段中，能使得激活（activation）最大的那个网络（片段），用这个片段作为代表，或者说作为这个类别的视频级响应。

缺点就是缺乏对整个视频的建模，无法做到整合所有的小片段来理解视频级的动作。
平均池化。就是对所有的K个网络的第i个动作的输出值进行加权求和： $g_i=\frac{1}{K}\sum^K_{k=1}f_i^k$ ，所以第i个动作的聚合函数对权重为W的卷积网络的第i个输出（动作）的导数： $\frac{g_i}{f^k_i}=\frac{1}{K}$ 。这个方法利用了所有片段的响应，将所有片段的响应求平均作为视频级的预测。

好处是：整体把握整个视频，从整个视频中捕捉视觉信息。

坏处是：在有噪声的环境下，可能会平均到一些无关的新片段，这些背景片段可能会影响到最终的识别表现。
Top-k池化。这是对前两个方法的综合考虑，先对每个类别找出其中最具区分能力的K个值，再对这K个数值求平均，其第i个动作的聚合函数，和g对f的导数如下所示： $g_i=\frac{1}{\mathcal K}\sum^{\mathcal K}_{k=1}\alpha_kf^k_i$ ， $\frac{g_i}{f_i^k}=\begin{cases}\frac{1}{\mathcal K},\text{if }\alpha_k=1,\\0,otherwise.\end{cases}$

这个聚合函数能够对不同的视频自适应地确认一个判别的小片段的自己，集合了最大池化和平均池化的优点，能有联系地对负责的相关片段进行建模的同时避免受到背景片段的影响。
线性加权。 $g_i=\sum_{k=1}^K\omega_kf_i^k$ ， $\frac{\partial g_i}{\partial f_i^k},\frac{\partial g_i}{\partial \omega_k}=f_i^k$ 。动作被分解成几个小段，不同的片段可以在识别动作的类型时作为不同的角色——即识别不同的特征，通过网络自适应地调整权重来识别不同的片段。

优点：线性加权的方法比起池化的方法可以更好地适应不同的数据。

缺点：缺乏考量视频之间差异的能力，因为片段和片段之间的关联在线性加权的场景下失效了。
注意力加权。通过学习一个函数的方式来自动地根据视频内容给每个小片段赋予一个重要性权重（important weight）。假设注意力函数为 ${\mathcal A}(T_k)$ ，那么有第i个动作的聚合函数（共识函数） $g_i=\sum_{k=1}^K{\mathcal A}(T_k)f_i^k$ ，那么第i个动作的共识函数对第i个动作第k个网络的输出和第k个网络的注意力函数的输出的导数如下所示： $\frac{\partial g_i}{\partial f_i^k}={\mathcal A}(T_k),\frac{\partial g_i}{\partial {\mathcal A}(T_k)}=f_i^k$ ，对于最终的表现结果而言，注意力权重函数 ${\mathcal A}(T_k)$ 的选择是非常重要的。
1. 从每个小片段中提取视觉特征 ${\rm R}={\mathcal R}(T_k)$ ，注意卷积网络是相同的。
2. 然后产生的注意力权重： $e_k=\omega^{att}{\mathcal R}(T_k),{\mathcal A}(T_k)=\frac{e^{e_k}}{\sum^K_{l=1}e^{e_l}}$ ，其中的 $\omega^{att}$ 代表的是在和网络权重W一起训练得到的，这个注意力权重的方程是最后一个隐藏层的激活函数。其梯度可以如下表示：
  - $\frac{{\mathcal A}(T_k)}{\partial \omega^{att}}=\sum\limits_{l=1}^K\frac{\partial {\mathcal A}(T_k)}{\partial e_l}{\mathcal R}(T_l)$
  - $\frac{{\mathcal A}(T_k)}{\partial e_l}=\begin{cases}{\mathcal A}(T_k)(1-{\mathcal A}(T_l)),\text{if }l=k\\-{\mathcal A}(T_k){\mathcal A}(T_l),\text{otherwise}\end{cases}$
3. 所以整合到损失函数节中的梯度函数中有如下等式：
  
  $\frac{\partial {\mathcal L}(y,{\rm G})}{\partial {\rm W}}=\frac{\partial {\mathcal L}}{\partial {\rm G}}\sum\limits_{k=1}^K\left(\frac{\partial {\rm G}}{\partial {\mathcal F}(T_k)}\frac{\partial {\mathcal F}(T_k)}{\partial {\rm W}}+\frac{\partial {\rm G}}{\partial {\mathcal A}(T_k)}\frac{\partial {\mathcal A}(T_k)}{\partial {\rm W}}\right)$
优点：基于视频的内容自动地评估每个片段的重要性权重，这一方法加强了建模能力；这个R（每个片段提取的特征（通过神经网络之后提取出来的特征））是注意力模型的基石。注意力模型利用额外的反向传播信息来指导ConvNet参数的学习过程，并且非常有可能会加速训练的收敛。

滑动窗口技术

同时提出了一种称之为多尺度时间窗口集成（Multi-scale Temporal Window Integration）的视频分类技术。其步骤如下：

拆分未剪切视频到各种固定持续时间的小窗口序列。
对每个窗口中的这些片段级的识别分数通过最大池化来独立的执行动作识别。
使用top-K池化和注意力加权来聚合窗口的预测来产生视频级别的识别结果。因为这个方法会隐式地选择具有判别性动作实例的间隙同时抑制住背景噪声。

滑动窗口的数学细节

首先将视频以秒为度量进行描述： $\{T_1, T_2,\dots,T_M\}$ ，M表示视频的总秒数。

然后窗口大小的取值从集合 $l\in\{1,2,4,8,16\}$ 中进行选择。所有窗口将在整个视频的持续时间中滑动（从头到尾），滑动步长为 $0.8\times l$ 。

那么对于第 $s^{th}$ 秒来说，通过滑动窗口将生成一系列帧 $\{T_{s+1},\dots,T_{s+l}\}$ ，然后把这些帧放入卷积网络中得到 $\{F(T_{s+1}),\dots,F(T_{s+l})\}$ ，所以第s秒窗口大小为l的卷积网络输出的第i个类别的分数可以被如此表示： $F_i^{s,l}= \underset{p\in\{1,2,\dots,l\}}{\rm max}\{f_i ^{s+p}\}$

所以我们统计大小为 $l$ 的窗口有 $N^l=\lfloor\frac{M}{0.8l}\rfloor$ 个。

应用top-K池化方案来从这N^l个窗口获得聚合函数G^l的值，这里的K的取值被定义为 $K=max(15,\lceil \frac{N^l}{4}\rceil)$ 。这样我们能获得5组类别的得分对应size $l\in\{1,2,4,8,16\}$ 。

最后对5组共识函数进行平均 $P=\frac{1}{5}\sum _{l\in\{1,2,4,8,16\}G^l}$ 得到得分传给FC层得到最终的分类结果。

输入

上图从左到右依次是RGB，RGB差异图像，光流场图像和翘曲光流场图像。

密集的光流场可以用于视频的动作识别，但是速度较慢，所以论文就提出了两个新的模态：

warped optical flow：对相机的运动具有稳定性，可以更专注于人的运动。
RGB differences：光流提取带来的巨额时间消耗导致以双流为基础的方法不太好用，必须得寻找别的方法。

训练（解决过拟合的策略）

由于有标注的数据集规模较小容易导致过拟合，所以提出了以下几种策略：

跨模态初始化（cross-modality initialization）。从RBG转换为光流和RGB差异等模态。步骤如下：
- 线性变换将光流场离散为 $[0, 255]$ 这么256个数值。
- 对于第一层中预训练的RGB模型的权重进行跨RGB通道求平均。然后通过时间网络输入的通道数复制平均值。
- 最后时间网络中其余的层的权重直接从与训练的RGB网络中复制。
正规化（Regularization）。
- 使用批归一化（BN），通过估计每个批次内的激活均值和方差来对这些激活值进行归一化来处理协变量偏移的问题（但是可能会增大过拟合的风险）。
- 批归一化后，冻结除了第一层之外的所有批归一化层的均值和方差。
- 光流图像和RGB图像的分布不同，所以一个卷积层的激活值也有截然不同的分布，所以需要重新估计均值和方差，该过程称之为局部BN操作。
- 全局池化层之后添加一个高丢弃率的dropout层来减少过拟合。
数据增强（Data Augmentation）。在CS231n中有一节课专门讲到。该论文中使用了两种方法：
- 边角裁剪（corner cropping）：取图像边角处和正中心位的位置，来避免隐式更关注于中心区域。
- 尺度抖动（scale-jittering）：首先固定输入尺寸为 $256\times 340$ 。然后裁剪区域的尺寸在集合 ${256, 224, 192, 168\}$ 中随机选择。最后将裁剪的区域形状resize成 $224\times 224$ 。

模型实际表现

对于裁剪过的视频

因为动作实例已经被手动地从长视频中裁剪出来，所以可以被简单地视为分类问题。在TSN中，所有的片段级卷积网络共享模型参数，所以学习过的模型能够在帧级别评估上表现得和正常的卷积网络没有差别。完整的过程如下：

从采样的snippets中裁剪出四个边角、一个中心和这些图片的水平翻转用于评估卷积网络。
使用平均池化来聚合不同裁剪样本和小片段的预测结果。
对不同类型的预测进行融合。对于来自多种模态的预测的融合，对它们进行加权平均，其中融合权重由经验确定。
在softmax归一化前融合这25个帧（可能是被分成了25个片段）和不同的信息流的预测结果。

对于未裁剪的视频

首先视频中有大量的无关内容会对识别结果产生干扰。简单地对视频的每个定位点（时间上的）进行平均，会导致将模型背景内容的那种不可预测的响应纳入考虑（计算）之中，造成巨大的风险。总结一下存在三个比较大的挑战：

视频中有大量的无关内容。
动作的持续时间可长可短。
动作可能出现在这个视频的时间轴上的任何位置。

所以论文提出了一个基于探测的方法（detection based method）来让动作模型适应未裁剪的视频。该方法步骤如下：

固定比例采样。
评估采样片段。
在每个帧的分数上应用一系列不同大小的时间滑动窗口。
每个窗口都用其中所有类的最大分数来表示。
同样大小的窗口进行top-K池化进行聚合避免背景内容的干扰。
来自不同窗口大小的聚合结果用来决定整个视频的最终预测。

实验

不同训练策略

可以看出交叉预训练（主要提升了temporal convnets的效果）和带有dropout的部分BN 又明显提升。

不同输入模式

可以看到一般而言融合多种类型的输入可以达到更好的效果，尤其是利用光流信息。

不同片段数

可以观察到增加片段数通常会带来更好的性能。然而，当段数K从7增加到9时，性能饱和。实验中设置了K=7。

不同聚合函数

在具有更复杂和多样时间结构的数据集上，高级聚合函数会有更好的识别精度。

不同的深层卷积网络结构

可以看到TSN使用 BN-Inception 的权重进行预训练，可以达到94.9%的准确率，说明TSN和主流的网络模型一起使用也十分有效。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不