Mitsui745

论文Is Space-Time Attention All You Need for Video Understanding?阅读笔记

写在前面：

1.Introduction

2.TimeSformer model

2.1Joint Space-Time

2.2Divided Space-Time

2.3Other models

3.Experiments

3.1experiment 1 不同架构在K400与SSv2的精度比较

3.2experiment 2 joint space-time和divided space-time的成本比较

3.3experiment 3 与3D CNNS 的比较

3.4experiment 4增加帧数/增加patch个数对结果的影响

3.5experiment 5与SOTA的比较

3.6experiment 6Long-Term Video Modeling验证

3.7experiment 7额外的消融实验

3.8experiment 8 可视化结果

写在前面：

要从Transformer在NLP领域的一举成名说起，这种简单只使用注意力机制（attention）的结构在机器翻译等等方向都取得了不错的效果。顾名思义，这篇文章的方法基于Transformer提出了一种用于视频理解的框架，是Google提出的用于图像的Transformer-ViT(VisionTransformer)的扩展，将该方法命为TimeSformer(Time-Space Transformer)。

对于基本的Transformer不再赘述，对于 ViT进行简单介绍。ViT的目标是将标准 Transformer 直接应用于图片，做最少的修改，不做任何针对视觉任务的特定的改变。做法是将一幅图片（224*224）划分成很多 patches，每个 patch 元素是 16 * 16，序列长度 14 * 14 = 196个元素。每一个 patch 经过一个 FC layer(fully connected layer)得到一个 linear embedding，但图片的 patches 是有顺序的，Patch embedding + position embedding == token ，包含图片 patch 信息和 patch 在原图中的位置信息。得到 tokens 之后，对其进行 NLP 操作。tokens 传入 Transformer encoder，得到很多输出。就将vision问题转化为NLP问题。

附ViT模型图：

总结ViT

打通了 CV 和 NLP 之间的鸿沟
挖了一个更大的多模态的坑视频、音频、基于 touch 的信号各种 modality 的信号都可以拿来用

ViT证明了Transformer可以应用于图片，对于具有时空信息的视频，文章《Is Space-Time Attention All You Need for Video Understanding?》提出了几种基于时空容量（space-time volume）的可扩展自我注意设计结构。这其中最好的设计是“分散注意力(divided attention)”架构，它分别在网络的每个区块内应用时间注意力和空间注意力。

论文阅读笔记：

1.Introduction

视频理解任务和NLP的相同点：

Sequential 连续性：视频和句子基本上都是连续的。
Contextual 具有上下文联系：句子中某个单词的意思通常需要通过将其与句子中的其他单词联系起来来理解；对于视频来说，为了消除歧义，片段中的行为也需要与视频的其余部分结合起来。

所以，NLP的自注意模型可能会对视频建模有效。因为其不仅可以捕捉跨时序的依赖关系，还可以通过对不同空间位置的特征进行两两比较，从而揭示每一帧中的上下文信息。

尽管在GPU硬件加速方面取得了进步，但训练深度cnn仍然非常昂贵，特别是当应用于高分辨率和长视频时。基于这些观察结果，文章提出了一个完全建立在self-atention之上的视频架构。通过将自注意力机制从图像空间扩展到时空三维体积，将图像模型“Vision Transformer”(ViT)应用于视频。提出的模型名为“TimeSformer”，将视频视为从单个帧中提取的patches序列。与ViT一样，每个patch都被线性映射到一个embedding中，并添加了位置信息。

自我注意的一个缺点是，它需要计算所有tokens的相似性度量。由于视频中存在大量的patches，这一计算成本很高。为了解决这一问题，文章提出了几种可扩展的时空自我注意设计，并在大规模行动分类数据集上对它们进行了实证评估。在所提出的方案中，发现最佳设计由一个“divided attention”架构表示，该架构在网络的每个区块内分别应用时间注意和空间注意。它实现的精度可与该领域的最先进技术相媲美，而且在某些情况下更先进。实验还表明，模型可以用于持续数分钟的视频的long-range 建模。

2.TimeSformer model

2.1Joint Space-Time

Input clip（模型输入）:

代表F帧的RGB图像，每张图片尺寸为H×W。

Decomposition into patches（分解为patches）:

把每一帧分解为N个不重叠的patches，每个patch尺寸为p×p，把每个patch展平成向量x(p,t)。

Linear embedding：

通过一个可学习的矩阵E将每个patch线性映射到一个嵌入向量Z。

其中 $e_{(p,t)}^{pos}\epsilon R^{D}$ 代表一个可学习的位置嵌入，添加用来编码每个patch的时空位置。嵌入向量的结果序列表示Transformer的输入，类似于NLP中单词序列的作用。与BERT Transformer一样，在序列第一个位置添加一个特殊向量 $Z_{(0,0)}^{(0)}\epsilon R^{D}$ 表示分类token的embedding。

Query-Key-Value computation.（QKV的计算）

模型由n个encoder组成。在第L个encoder中，编码器已经得到了上一个encoder传入的 $Z_{(p,t)}^{(L-1)}$ 。我们首先使用其来计算transformer中最重要的三个量——q,k,v，

其中，LN()代表LayerNorm层归一化,不采用BN的原因在于， BN是对数据的每个channel进行Norm,LN是对单个数据的指定维度进行Norm，因为数据不同channel长短不齐，因此采用LN。

Self-attention computation（atteneion值的计算）

得到三个重要的虚拟值后，下一步就是搬出softmax公式，计算attention值。在这里要注意,q值和k值是点乘操作，需要对q进行转置。由于transformer是多头attention结构，a表示当前是多头attention的第几个attention。 $D_{h}$ 代表每个attention的维度，SM代表softmax。

softmax操作结束后，最后一步——把得到的attention值和value值相乘求和，得到当前patch和相邻空间/时间上patch的关联信息。

最后，将attention模块中multi-head的部分做处理，把这些单个的attention结构得到的值拼接到一起。然后乘上权重，与编码器输出的 $Z_{(p,t)}^{(L-1)}$ 相加，实现short-cut的操作。

下面就是MLP部分，通过感知机嵌套LN计算得到的值，再和attention部分得到的 $Z^{'}$ 相加，得到最后的输出值。

最后收尾步骤就是完成分类任务。使用一个hidden layer的感知机，输出视频类别。

2.2Divided Space-Time

提出了一种更有效的时空注意结构，名为“Divided Space-Time Attention”(用T+S表示)，其中时间注意和空间注意分别相互应用。即在计算attention值部分，将时序与空间分别计算：

实验表明，这种时空分解不仅效率更高，而且提高了分类精度。

2.3Other models

文章还实验了“稀疏局部全局”(L+G)和“轴向”(T+W+H)注意模型。它们的体系结构如图所示。

这些模型注意的patches如下所示

空间注意力机制（S)：只取同一帧内的图像块进行自注意力机制；
时空共同注意力机制（ST）：取所有帧中的所有图像块进行注意力机制；
分开的时空注意力机制（T+S）：先对不同帧中，相同位置的patch进行注意力机制，再对同一帧中的所有图像块进行自注意力机制；
稀疏局部全局注意力机制（L+G）：先利用所有帧中，相邻的 H/2 和 W/2 的图像块计算局部的注意力，然后在空间上，使用2个图像块的步长，在整个序列中计算自注意力机制，这个可以看做全局的时空注意力更快的近似；
轴向的注意力机制（T+W+H）：先在时间维度上进行自注意力机制，然后在纵坐标相同的图像块上进行自注意力机制，最后在横坐标相同的图像块上进行自注意力机制。

3.Experiments

在四个数据集上进行实验：Kinetics-400，Kinetics-600， Something-Something-v2，Diving-48，采用在ImageNet-1k上预训练的“基础”ViT模型架构。使用大小为8×224×224的clip，帧采样率为1/16。patch大小设置为16 × 16。

3.1experiment 1 不同架构在K400与SSv2的精度比较

注意到Space(S)的TimeSformer仅在K400上表现良好。事实上，之前的研究(Sevilla-Lara等人，2021)已经表明，在K400上，空间线索比时间信息更重要，以获得较强的准确性。在这里，我们证明了在没有任何时间建模的情况下，可以对K400获得可靠的精度。但是，请注意，仅限空间的注意在SSv2上的表现很差。这强调了对后一个数据集的时间建模的重要性。此外，我们观察到Divided Space-Time在K400和SSv2上都取得了最好的精度。这是有道理的，因为与联合时空注意相比，Divided Space-Time具有更大的学习能力（见表1），因为它包含了不同的时间注意和空间注意的学习参数。

3.2experiment 2 joint space-time和divided space-time的成本比较

文章还比较了在使用更高的空间分辨率（左）和更长的（右）视频时，joint space-time和divided space-time的计算成本。我们注意到，在这两种设置下，divided space-time的方案显然更优越。相比之下，当增加分辨率或视频长度时，joint space-time方案的成本显著提高。

3.3experiment 3 与3D CNNS 的比较

旨在理解TimeSformer与三维卷积架构相比的区别特性，这是近年来视频理解的突出方法。

模型容量：

虽然TimeSfromer具有较大的学习能力(参数数为121.4M)，但它的推理成本较低(TFLOPs中为0.59)。相比之下，尽管SlowFast8x8R50只包含34.6M个的参数，但它具有更大的推理成本(1.97TFLOPs)。这表明，TimeSformer更适合于涉及大规模学习的设置。相比之下，现代3Dcnn的巨大计算成本使得其难以在进一步提高模型容量的同时也难以保持效率。

视频训练时间：

TimeSformer可以在训练时间更少的情况下获得更高的精度。

预训练的重要性：

由于参数的大量存在，从头开始训练我们的模型是很困难的。因此，在对视频数据进行训练时间分析器之前，我们用从ImageNet学习到的权重来初始化它。

由上表可见，在ImageNet-21K上预训练后获得的精度大于ImageNet-1k所得精度。另一方面，在SSv2上，我们观察到ImageNet-1K和ImageNet-21K的预训练导致了相似的精度。这是有道理的，因为SSv2需要复杂的时空推理，而K400更偏向于空间场景信息，因此，它从更大的训练前数据集学习的特征中获益更多。

视频数据尺寸的影响：

在K400上，TimeSformer在所有训练子集上都优于其他模型。然而，我们在SSv2上观察到一个不同的趋势，其中TimeSformer只有在75%或100%的完整数据上训练时才是最强的模型。这可能是因为与K400相比，SSv2需要学习更复杂的时间模式，因此时间器需要更多的例子来有效地学习这些模式。

3.4experiment 4增加帧数/增加patch个数对结果的影响

在空间上，增加到一定数量，精度会下降；而时序上，增加输入帧的数量，精度持续增加。
这里由于显存的限制，没有办法测试 96 帧以上的视频片段。作者说，这已经是一个很大的提升了，因为目前的卷积模型，输入一般都被限制在 8-32 帧。

3.5experiment 5与SOTA的比较

文章使用了三种TimeSformer的变体：
TimeSformer ：输入 8×224×224，8为帧数
TimeSformer-HR：空间清晰度比较高，输入为 16×448×448
TimeSformer-L：时间范围比较广，输入为 96×224×224

SSv2和Diving48上的结果，SSv2并没有达到最好的结果，作者提到说所提方法采用了完全不同的结构，对于这么有挑战性的数据集来说已经是比较好的了，有进一步发展的空间。

3.6experiment 6Long-Term Video Modeling验证

这部分实验在HowTo100M数据集上完成。它包含大约100万个教学网络视频，展示人类执行超过23K种不同的任务，如烹饪、修理、编织和艺术创作。这些视频的平均时长是7分钟。

3.7experiment 7额外的消融实验

Smaller & Larger Transformers：

除了“基础”ViT模型(Dosovitstiyetal.，2020)，我们还实验了“大型”ViT。精度下降1%,我们怀疑当前的数据集不够大，不足以证明进一步增加模型容量。我们还尝试了“小”ViT变体，它产生的精度比我们默认的“基础”ViT模型差约5%左右。

Larger Patch Size:

文章还实验了一个不同的patch大小，即P=32。指出，模型的这个变体产生的结果比默认变体差3%。我们推测，随着P=32的增加，性能的下降是由于空间粒度的减少。我们没有训练任何P值低于16的模型，因为这些模型的计算成本要高得多。

The Order of Space and Time Self-Attention：

提出的“ Divided Space-Time Attention”方案一个接一个地应用于时间注意和空间注意。在这里，我们研究了反转时空注意的顺序（即首先应用空间注意，然后再应用时间注意）是否对我们的研究结果有影响。我们报道，首先应用空间注意，然后是时间注意，会导致动力学-400和v2的准确率下降0.5%。我们还尝试了一个平行的时空自我注意。我们报告说，与我们采用的“划分时空注意”方案相比，它的准确率降低了0.4%。

3.8experiment 8 可视化结果

我们的研究结果表明，TimeSformer学习注意视频中的相关区域，以执行复杂的时空推理。例如，我们可以观察到，模型专注于手的配置，只关注不可见时的对象。

我们还可视化了时间分析器在V2上学习到的特性。可视化使用t-SNE(vanderMaaten&Hinton，2008)完成，其中每个点代表一个视频，不同的颜色描述不同的动作类别。在此基础上，我们观察到有划分时空注意的时间形成器比只有空间注意或ViT的TimeSformer学习更多的可分离特征.

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
从《哪吒 2》看个人IP的破局之道|创客匠人
《哪吒2》以破竹之势登顶中国影史票房榜，不到9天票房突破62亿，观众自发为其“冲百亿”的热情，揭示了一个朴素却深刻的商业逻辑：IP的真正生命力，不在于短暂曝光，而在于用户愿意用行动投票的长期信任。这种逻辑，同样适用于2025年个人IP的增长突围。流量失效的真相：用户体验断层终结增长如今的IP运营者常陷入一个误区：疯狂追逐流量，却留不住用户。短视频投流成本翻倍，内容越做越多粉丝却不涨，好不容易成交的
Mac自定义右键功能东东旭huster macos
mac右键相对于Windows来说功能少很多，市场里也有一些好用的拓展软件，比如赤友，但是用一段时间又要收费了，作为一个白嫖党当然是自己做了。打开自动操作这个应用选择快速操作打开，再从实用工具中选择运行shell脚本这里我们添加一个用vscode打开的功能有几个点需要注意下1、工作流程选择文件或文件夹2、位于访达3、传递输入选择作为自变量编辑好后可以点运行试下，没问题command+S保存一下。在
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
GoView 强势入驻 GitCode：拖拽低代码，打造高颜值数据大屏 GitCode 代码君 gitcode 低代码开源
信息可视化时代，数字大屏日益成为展示核心KPI、运营状态、监控预警的主流形式。然而，用传统方式开发一个定制化数字大屏需要解决多少问题？1.繁复的数据源集成，各种不同的协议和格式……2.让人晕头转向的可视化逻辑，调动艰难的样式、布局、动画，和往往难以统一的风格3.牵一发而动全身的代码结构，就想换个主题色结果开启的全局CSS大冒险……现在，一个开源项目即可搞定上述问题——拖拽式低代码数字可视化平台Go
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
多态与虚函数详解 tkevinjd c++开发语言多态虚函数
多态（Polymorphism）是面向对象编程（OOP）的三大特性之一（另外两个是封装和继承）。多态的意思是“多种形态”，它允许不同的对象对同一消息作出不同的响应。简单来说，多态是指通过统一的接口调用不同的实现。1.多态的核心思想多态的核心思想是：同一操作作用于不同的对象，可以有不同的解释，产生不同的结果。例如，动物都会“叫”，但不同的动物（如猫、狗）的叫声是不同的。通过多态，我们可以用统一的“叫
家庭网络中的服务器怎么对外提供服务？行而不知服务器运维内网穿透 DDNS
家庭网络中的服务器怎么对外提供服务？方案1DDNS（家庭网络需要有公网ip）方案2内网穿透（需要有一台公网ip的服务器）方案1DDNS（家庭网络需要有公网ip）怎么判断是否有公网ip？大致的流程就是光猫改桥接，由光猫拨号改为路由器拨号，在路由器管理页面查看拨号获取的ip，用这个ip去ip查询网站验证，具体的操作可自行搜索，这里不进行赘述了。我们都知道，ip有两种，ipv4和ipv6 网络
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
《手机摄影从实战到精通》——多个技能多条路，手机拍摄技巧，着实过分实用了 Ann2015 智能手机程序人生学习生活风景
用小小的一部手机，就能拍大片？是的，手机摄影已不容小觑。近年来，一些手机厂商邀请知名导演使用手机拍大片，以彰显手机性能的强大，这也重新定义了我们对手机摄影的认知。相较于传统摄影设备，智能手机自带的“计算摄影”性能也降低了拍摄门槛，它可以将原本需要手动调节的各项参数指标进行自动调整和优化，使我们能轻松获得最佳拍摄效果。这也大大降低了拍摄的难度和门槛，让我们将重点放在内容创作上。手机与视频平台也密不可
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

论文Is Space-Time Attention All You Need for Video Understanding?阅读笔记

写在前面：

1.Introduction

2.TimeSformer model

2.1Joint Space-Time

2.2Divided Space-Time

2.3Other models

3.Experiments

3.1experiment 1 不同架构在K400与SSv2的精度比较

3.2experiment 2 joint space-time和divided space-time的成本比较

3.3experiment 3 与3D CNNS 的比较

3.4experiment 4增加帧数/增加patch个数对结果的影响

3.5experiment 5与SOTA的比较

3.6experiment 6Long-Term Video Modeling验证

3.7experiment 7额外的消融实验

3.8experiment 8 可视化结果

你可能感兴趣的:(自学用,论文阅读,transformer,自然语言处理,深度学习)