李加号pluuuus

【论文笔记】RAFT: Recurrent All-Pairs Field Transforms for Optical Flow（ECCV 2020）

关键词：光流估计、端到端训练、迭代优化、GRU

一种新的适用于光流的端到端可训练的模型。独特之处在于它使用大量轻量级、循环更新算子以单一分辨率运行。在各种数据集上实现了最好的精度，强大的跨数据集泛化能力，并且在推断时间、参数总数和训练迭代方面非常有效。

创新点：RAFT以高分辨率保持和更新单个固定的光流场；RAFT的更新算子是循环的、轻量级的，并且共享权重；更新算子由一个卷积GRU组成，在4D多尺度相关体上进行查找。引入了motion feature，而motion feature的计算通过金字塔4D关系矩阵均匀采样得来；引入了GRU概念进行迭代优化。

1. Abstract

背景

光流预测是估计视频帧之间的逐像素运动的任务，指在一帧视频图像中，代表同一目标的像素点到下一帧的移动量，用向量表示。根据光流的亮度恒定假设，同一物体在连续的帧间运动时，像素值不变（一只小鸟不会在运动时突然变成鸭或者飞机）。所以这个运动的过程，就像是光的“流动”过程，简称光流，预测光流的过程，就被称之为光流预测。目前被一些难题所制约，包括快速移动的物体、遮挡、运动模糊和无纹理表面等。经典光流预测算法都存在如上缺点，无论怎么优化，这些缺点都会因为框架的设计而一直存在。

先前方法

根据是否选取图像稀疏点（特征明显，梯度较大），可以将光流预测分为稀疏光流和稠密光流，如下图左和右。

稀疏光流：选取图像稀疏点进行光流估计。稠密光流：使用不同的颜色和亮度表示光流的大小和方向。针对这两种方法，目前有传统预测和基于深度学习的两种经典算法。

1、传统方法：稀疏光流估计算法

求解光流预测算法前，首先要知道孔径问题。比如发廊的旋转灯，灯上的条纹看起来总在往上走（其实没有）。

其中一种传统的Lucas-Kanade算法，求解稀疏光流，选取了一些可逆的像素点估计光流，这些像素点是亮度变化明显（特征明显）的角点，借助可逆相关性质，预测光流方向。

2、深度学习方法：FlowNet

CNN用于光流预测算法的经典例子。在损失设计上，对于每个像素，损失定义为预测的光流值和真实值之间的欧氏距离，称这种误差为EPE，全称End-Point-Error。

光流预测的经典数据集FlyingChairs（飞椅）。为了模拟目标的多种运动方式，飞椅数据集将虚拟的椅子叠加到背景图像中，并将背景图和椅子用不同的仿射变换，得到对应的另一张图。

基于深度学习的经典光流预测算法存在着几个缺点，无论怎么优化，这些缺点都会因为框架自身而一直存在。但在RAFT中，过往的3大缺点都被一一解决了：

1. 先前的框架普遍采用从粗到细的设计，也就是先用低分辨率估算流量，再用高分辨率采样和调整。

相比之下，RAFT以高分辨率维护和更新单个固定的光流场。这种做法带来了如下几个突破：低分辨率导致的预测错误率降低，错过小而快速移动目标的概率降低，以及超过1M参数的训练通常需要的迭代次数降低。

2. 先前的框架包括某种形式上的迭代细化，但不限制迭代之间的权重，这就导致了迭代次数的限制。例如，IRR使用的FlowNetS或PWC-Net作为循环单元，前者受网络大小（参数量38M）限制，只能应用5次迭代，后者受金字塔等级数限制。

相比之下，RAFT的更新运算是周期性、轻量级的：这个框架的更新运算器只有2.7M个参数，可以迭代100多次。

3. 先前框架中的微调模块，通常只采用普通卷积或相关联层。

相比之下，更新运算符是新设计，由卷积GRU组成，该卷积GRU在4D多尺度相关联向量上的表现更加优异。

优势：

state-of-the-art: 在KITTI上RAFT达到了目前最高的准确率。
有很强的泛化性，当只在生成的数据集上训练时RAFT也能有很好的效果。
高效，在1080Ti上能够以10帧每秒运行1088×436像素的图像。

2. 相关工作

3. 方法

目标：跳出原先的设计思路，设计一个性能更好、训练更容易并能很好地推广到新场景的新结构，同时实现如下要求：

1.网络输入为图片，输出为图片（端到端网络）；

2.光流估计是一个密集的任务，如果我们不对整个图像局部的光流进行约束，网络可能会沿着其他方向去拟合损失函数。尽管损失会降低，但最终的结果可能并不理想。因此，需要同时考虑局部和全局的特征来约束光流估计；

3.虽然光流的信息来自于前后帧间的运动信息，但光流估计也需要一定的纹理信息和上下文信息用于匹配像素点，光流图与原图轮廓也基本一致；

4.网络模块参数量太大，堆叠多个模块会导致网络计算成本太高，因此限制了层数不能太深；

5.延续经典的迭代优化思路。

流程：

1.特征提取：通过特征编码器从两个输入图像中提取每个像素的特征，通过上下文编码器从I1中提取特征；
2.计算视觉相似度：通过计算所有特征向量对的内积，构造一个4D W×H×W×H相关体，在4D体最后2维上进行多尺度池化，以构建一组多尺度体；
3.相关查找：定义查找算子LC，它通过从相关金字塔中索引生成特征图；
4.迭代更新：基于GRU的循环更新算子，从相关体中检索值并迭代更新初始化为零的光流场；
5.上采样：一个新颖的通过卷积层学习的上采样方式；
6.监督：计算伴随权重呈指数增长的预测光流和真实光流之间的l1距离。

RAFT光流计算模型

包含三个部分：

Feature Encoder：特征编码器，从像素中提取特征。以及仅从I1中提取特征的上下文编码器。
Correlation Layer：相关层。通过计算所有特征向量对的内积，构造一个4D W×H×W×H相关体。在4D体最后2维上进行多尺度池化，以构建一组多尺度体。建模图像上任意两个点之间的相似度。
Update Operator：基于门控循环网络GRU的更新算子，用来迭代更新最后生成的光流图。

RAFT结构是由传统的基于优化的方法推动的。特征编码器提取每个像素的特征。相关层计算像素之间的视觉相似性。更新算子模拟迭代优化算法的步骤。但与传统方法不同，特征和运动先验不是人工制作的，而是分别由特征编码器和更新算子学习的。

1.特征提取模块与context提取模块

作用：使用几层卷积层将原图缩小为原来的八分之一，减小后续网络的计算量，同时相当于进行编码操作。

feature encoder：提取输入第一帧、第二帧这两张图像中的特征。用于后续的光流估计。

Context encoder：只提取第一帧图像的上下文信息特征。分辨率都变为输入图像的1/8。对2张图片采用同一个网络进行特征提取。作用是保证估计出的光流图保持与原图相同的上下文信息以及位置对应。

encoder网络结构：

两个encoder具有相同的结构，唯一的区别是特征编码器使用实例归一化，而上下文编码器使用批归一化。

在RAFT-S中，用瓶颈残差单元替换残差单元。更新块使用上下文特征、相关特征和光流特征来更新潜在隐藏状态。更新后的隐藏状态用于预测光流更新。完整模型使用两个卷积GRU更新块，分别带有1x5过滤器和5x1过滤器，而小模型RAFT-S只使用一个3x3的GRU。

2 Correlation Layer模块

通过在所有输入图像对之间构造一个correlation volume(下称为相关性张量)来计算视觉相似性。

作用：将上述的两个编码器输出的结果进行融合。把Feature Encoder对两张图片编码的结果进行相似度的计算。

对两张图两两像素之间进行点积相似度计算，得到一个4D的，大小为H*W*H*W的相似度块C，如下图所示：

视觉相似性计算的是所有特征图对的内积，从而得到一个名为“相关体积”的四维张量，其中包含了关于大小像素位移的关键信息。此处计算的是两个特征图的全局相关性，没有任何固定大小的窗口，可以用下式表示：

其中C为相似度块， gθ是Feature Encoder。I1,I2分别为第一帧图像特征与第二帧图像特征，i,j：第一帧图像特征的高、宽索引。k,l：第二帧图像特征的高、宽索引。h为图像特征的通道维度索引。

将四维张量的后两维使用大小分别为 1 , 2 , 4 , 8的核进行池化，形成相关金字塔。利用相关金字塔建立多尺度图像相似性特征，使突变运动更为明显，也同时提供了关于大位移和小位移的信息。

(由于光流找到前两帧之间相似度最大的像素，并进行对应，该相似度并不仅仅是像素值的相似，也是描述子的相似，所以可以看做两张图提取出的特征相似，即Feature Encoder输出的编码结果中寻找相似的位置进行对应。所以作者使用了最简单的点积相似度衡量。)

相似度金字塔：用于关注到不同尺度的相似度。作者使用了四层金字塔，即通过Pool的方式将上述得到的相似度块分别缩小。体Ck的维度为H×W×H/2k×W/2k。这组体提供了关于大位移和小位移的信息；但是，通过保持前2个维度（I1的维度），可以保持高分辨率信息，同时保证微小运动和剧烈运动同时被观测到。

相关查询(Correlation Lookup)：

定义一个查询算子LC ，通过从相关金字塔中索引来生成特征图。

对于已经估计到的光流 (f1,f2)，可以将图像I1中的每个像素点(u,v)映射到I2中的对应点 x' = (u+f1(u),v+f2(v))，然后定义 x' 周围的局部网格：

即，x’ 周围，半径小于r的坐标集合。使用局部邻域 N(x′)r 从相关张量中索引，得到特征。由于 N(x′)r 是一组实数的网格，所以这里使用双线性采样。

在金字塔的所有层级上执行查询。如对于在 k 层的volume Ck ，使用网络 N(x′)r 来索引。每层使用索引的网格半径 r 不变，因此层级越低，感受野越大。比如对于最低的层级 k=4 ，若半径为 4，则在原始图像上对应256个像素。然后，每个级别的值被拼接成一个单一的特征图。

高效计算高分辨率图像

所有图像对的相关性的计算复杂度为 O(N^2) ，其中N是像素的数量。且相关张量只需要计算一次，并且在迭代的过程中保持不变。但是也存在一种计算复杂度仅为 O(NM) 的方法，该方法利用内积和平均池化的线性性质来加速。考虑到第m层的cost volume $C_{ijkl}^{m}$ ，和特征图 g(1)=gθ(I1),g(2)=gθ(I2) ：

这是在 2m×2m 网格内的相关响应的均值。这意味着 $C_{ijkl}^{m}$ 值可以这样被计算：特征向量 gθ(I1)和通过 2m×2m 卷积核池化后的特征 gθ(I2) 的内积。

在实现中，不预先计算相关，而是预先计算池化后的图像特征图。在每次迭代中，根据需要计算每个相关值——只在查找时计算。因此仅需要O(NM)的复杂度。

根据经验，预计算所有图像对很容易实现，而不是一个瓶颈，因为在gpu上高度优化的矩阵例程，即使对于1088x1920的视频，它也只需要总推理时间的17%。请注意，如果预计算计算瓶颈的话，则采用上面说的这种 O(NM)的方法。

3. 迭代更新

使用一个门控循环单元（GRU）序列，来结合之前获取的所有数据。

更新算子从初始起点f0=0开始，估计了一系列光流估计{ f1，…，fN }。每次迭代，它都会产生一个更新方向Δf，并应用于当前估计：fk+1=Δf+fk+1。

更新算子将光流、相关和潜在隐藏状态作为输入，并输出更新Δf和更新后的隐藏状态。我们设计更新算子结构的目的是模仿优化算法的步骤。因此，我们使用绑定权重并使用有界激活来促进收敛到一个固定点。我们训练更新算子来执行更新，使得序列收敛到一个固定点fk→f*。

初始化 ：默认情况下，将所有的光流场初始化为0。当应用于视频任务时，可以使用 warm-start 初始化，前一对帧的光流被向前投影到下一对帧，然后使用最近邻插值填充遮挡间隙。

输入：给定当前光流估计fk，使用该光流从相关金字塔中检索相关特征。接着相关特征被2个卷积层处理。此外，对光流应用2个卷积层来生成光流特征。最后，从context网络直接注入输入。最后的输入特征图是将相关特征、光流、context特征连接在一起。

更新：更新算子的核心组成部分是一个基于GRU单元的门控激活单元，其中将全连接层替换为卷积：

其中 xt 是前面定义的光流、相关特征、context特征的拼接。论文还实验了一个可分离的ConvGRU单元，其中用两个GRU替换3×3卷积: 一个用1×5卷积，一个用5×1卷积，以便在不显著增加模型大小的情况下增加感受野。

光流预测：将GRU输出的隐藏状态经过两个卷积层来预测光流的更新 Δ f \Delta \bold{f} Δf 。输出的光流的分辨率是输入图像的1/8。在训练和评估过程中，对预测的光流场进行上采样，以匹配ground-truth的分辨率。

上采样：该模块中利用卷积操作学习上采样权值，使当前1/8分辨率下的光流上采样到与输入图像同尺寸，具体形式如下图所示，其中w1-w9为利用卷积操作学习到的权重。也就是说，上采样之后的光流结果中每一像素点的值都与其周围的9个像素点有关。最后，输出每一次迭代过程生成的全分辨率光流结果，用于损失函数计算，更新模型中的参数。

结果：上采样模块提高了运动边界附近的精度，并且还让RAFT恢复小型快速移动物体的光流，例如图中所示的鸟类。

监督：在整个预测序列{ f1，…，fN }上，使用预测的光流和ground-truth光流之间的 L1 距离监督学习网络，使用指数增加的权重。给定gt光流，损失定义为：

RAFT模型中总共进行12次优化迭代，也就是说会产生12个全分辨率下的光流结果。迭代次数越多，光流计算精度越精确。RAFT模型采用的是监督算法，具体步骤可以表示为：通过求取12次光流迭代过程中的光流计算结果与光流真实值的L1范数，并且迭代的次数越多，对应L1范数结果的权值也就越大(说明该结果对整个损失函数的影响越大)，其中，N=12。

总结一下，RAFT的框架流程分为三步：对每个像素提取特征，计算所有像素对的相关性，高效迭代更新光流场。

4. 实验

在Sintel和KITTI上评估RAFT。

在FlyingChairs和FlyingThing上预训练，然后在数据集上进行特定微调。我们的方法在Sintel（clean和final pass）和KITTI上都取得了最好的性能。此外，在DAVIS数据集的1080p视频上测试以证明可以扩展到更高分辨率的视频中。

实现细节：RAFT在PyTorch中实现。所有模块都使用随机权重从头开始初始化。使用AdamW优化器并将梯度限制在[−1; 1]。对于每次更新Δf + fk，只通过Δf分支反向传播梯度，通过fk分支将梯度归零。

训练计划：使用两个2080Ti GPU训练RAFT。在FlyingThings上进行100k次迭代预训练，批量大小为12，然后在FlyingThings3D上迭代训练100k次，批量大小为6。对RAFT在Sintel上再微调100k，数据集结合了来自Sintel、KITTI-2015和 HD1K的数据，这类似于MaskFlowNet和PWC-Net+的做法。最后，使用在Sintel上微调后模型的权重，在KITTI-2015上进行了额外的50k次迭代微调。

Sintel

使用FlyingChairs→FlyingThings计划训练我们的模型，然后在Sintel数据集进行评估，使用拆分的训练数据作为验证集。结果如表1和图3所示，我们根据用于训练的数据拆分结果。C+T表示模型在FlyingChairs(C)和FlyingThings(T)上进行训练，而+ft表示模型在Sintel数据上进行了微调。与PWC-Net+和MaskFlowNet一样，在微调时我们使用包含来自KITTI和HD1K的数据。

表1：Sintel和KITTI数据集的结果。在FlyingChairs(C)和FlyingThing(T)进行训练后，在Sintel(train)上测试了泛化性能，在clean和final pass上都优于现有所有的方法。底部两部分显示了我们的模型在数据集特定微调后在公共排行榜上的性能。S/K包括在Sintel上进行微调时仅使用Sintel数据和在KITTI上进行微调时仅使用KITTI数据的方法。+S+K+H包括在Sintel进行微调时结合了KITTI、HD1K和Sintel的数据的方法。我们的（warm-start）在Sintel的clean和final pass中均排名第一，在KITTI的所有光流方法中排名第一。

图3：在Sintel测试集上的光流预测。

使用C+T进行训练时，我们的方法优于所有现有方法。在Sintel(train) clean pass上实现了1.43的平均EPE（端点误差），比FlowNet2的误差低29%。

泛化性更好的原因之一是我们的网络结构。通过将光流限制为一系列相同更新步骤的产物，让网络学习一个更新算子，该算子模仿一阶下降算法的更新。这限制了搜索空间，降低了过拟合的风险，并实现了更快的训练和更好的泛化性。

KITTI

在Sintel(test)集上进行评估时，我们在结合了KITTI、HD1K数据和训练集中clean pass和final pass组合上进行微调。我们的方法在Sintel clean和final pass中均排名第一，并且在clean pass上比之前的所有工作高0.9像素(36%)，在最终pass中高出1.2像素(30%)。我们评估我们模型的两个版本，Ours（two-frame）使用零初始化，而Ours（warp-start）通过向前投影的前一帧光流估计来初始化光流。由于我们的方法以单一分辨率运行，我们可以初始化光流估计以利用过去帧的运动平滑，这是使用粗糙到精细的模型不容易做到的。

还在KITTI上评估了RAFT，并在表1和图4中提供了结果。首先通过在Chairs(C)和FlyingThings(T) 训练后的模型在KITTI-15（train）划分集上验证来评估跨数据集的泛化性。我们的方法明显优于先前的工作，将EPE（端点误差）从8.36降低到5.04，这表明我们网络的基底结构有助于泛化性。在KITTI排行榜上在所有光流方法中我们的方法排名第一。

4.2. KITTI

在KITTI上评估了RAFT，并在表1和图4中提供了结果。我们首先通过在Chairs(C)和FlyingThings(T) 训练后的模型在KITTI-15（train）划分集上验证来评估跨数据集的泛化性。我们的方法明显优于先前的工作，将EPE（端点误差）从8.36降低到5.04，这表明我们网络的基底结构有助于泛化性。在KITTI排行榜上在所有光流方法中我们的方法排名第一。

消融实验

进行了一组消融实验来说明每个组成部分的相对重要性。所有消融版本都在FlyingChairs(C) + FlyingThings(T)上进行训练。

更新算子的结构：使用基于GRU单元的门控激活单元。我们使用一组具有ReLU激活的3个卷积层替换卷积GRU。通过使用GRU块我们获得了更好的性能，这可能是因为门控激活使一系列的光流估计更容易收敛。

权重绑定：默认情况下，在更新算子的所有实例中绑定权重。测试了另一个版本，其中每个更新算子分别学习权重。当权重绑定时精度会更好，并且参数总数明显降低。

上下文：通过训练没有上下文网络的模型来测试上下文的重要性。在没有上下文的情况下，我们仍然取得了不错的结果，优于在Sintel和KITTI上现有的所有工作。但是上下文很有帮助。将图像特征直接添加进更新算子可能在运动边界内能更好地聚合空间信息。

特征尺度：默认情况下，以单一分辨率提取特征。我们还尝试通过在每个尺度上分别构建相关体来提取多个分辨率的特征。单分辨率特征简化了网络结构，即使在大位移下也可以进行细粒度的匹配。

查找半径：在查找操作中查找半径指定使用的网格的尺寸。当使用半径为0时，在单个点检索相关体。令人惊讶的是，当半径为0时，我们仍然可以粗略估计光流，这意味着网络正在学习使用0阶信息。然而，随着半径的增加，我们看到了更好的结果。

相关池化：我们以单一分辨率输出特征，然后执行池化以生成多尺度体。在此，我们测试了移除池化时的影响。有池化的结果会更好，因为同时获得了大位移和小位移。

相关范围：我们还尝试仅为每个像素周围的局部邻域构建相关体，而不是所有对相关。我们尝试了32像素、64像素和128像素的范围。总体而言，当使用所有对时，我们得到了最好的结果，尽管128px的范围足以在Sintel上表现很好，因为大多数位移都在这个范围内。也就是说，all-pairs仍然是更合适的，因为它排除了指定范围的需要。实现起来也更方便：它可以使用矩阵乘法计算，从而让我们的方法在PyTorch中可以完全实现。

改进特征：我们通过在所有像素对之间构建相关体来计算视觉相似性。在这个实验中，我们尝试用形变层替换相关体，形变层使用当前的光流估计将特征从I2形变到I1，然后估计残差位移。与之前在Sintel上的工作相比虽然形变仍然具有竞争力，但相关的表现要好得多，尤其是在KITTI上。

上采样：RAFT以1/8分辨率输出光流场。我们比较了双线性上采样与我们学习的上采样模块。上采样模块产生更好的结果，尤其是在运动边界附近。

推断更新：在推断期间应用任意数量的更新。在表2中，我们提供了选定更新次数的数值结果，并测试了200次的极端情况，以表明我们的方法没有发散。我们的方法快速收敛，在3次更新后超过了PWC-Net，在6次更新后超过了FlowNet2，随着更多的更新效果继续提高。

实验结果：

最好的精度：在KITTI上，RAFT实现了5.10% 的F1-all误差，比已公布的最佳结果(6.10%)减少了16%的误差。在Sintel（final pass）上，RAFT获得了2.855 像素的EPE误差，比已公布的最佳结果（4.098像素）减少了30%的误差。

强泛化性：仅在合成数据上训练时，在KITTI上RAFT取得了5.04像素的端点误差，与在相同数据上训练的之前的最佳深度网络（8.36像素）相比，误差减少了40%。

高效率：在1080Ti GPU上RAFT以每秒10帧的速度处理1088×436视频。它训练的迭代次数比其他结构少10倍。具有1/5参数的较小版本的RAFT以每秒20帧的速度运行，然而在Sintel上仍然优于以前所有的方法。

效果

在Sintel测试集上的效果展示，最左边是真值，最右边是RAFT预测的光流效果，中间的VCN和IRR-PWC是此前效果较好的几种光流预测框架。

较于中间两个框架的预测效果，RAFT的预测不仅边界更清晰，而且运动的大小和方向准确（看颜色）。

此外，在KITTI数据集上的预测效果也非常不错。图左的几辆小车被清楚地预测了出来，而图右中，驾驶方向不同的车辆也能用不同的颜色（红、蓝）区分标记。

不仅小视频，在1080p的高分辨率视频（DAVIS数据集）中，光流预测的效果也非常不错。

有意思的是，在训练参数（下图横轴）几乎没有明显增加的情况下，RAFT在一系列光流预测框架中，EPE误差（下图纵轴）做到了最小。

图 5：比较参数总数、推断时间和训练迭代与精度的图表。

由上图可见，团队同时推出了5.3M参数量和1.0M轻量级的两个框架，EPE误差效果均非常好。从效果来看，在KITTI数据集上，RAFT的F1-all误差是 5.10%，相比此前的最优结果（6.10%）减少了16%；在Sintel数据集上，RAFT只有2.855像素的端点误差（End-Point-Error），相比先前的最佳结果（4.098 像素）减少了30%。

5. 结论

提出了RAFT—一种新的适用于光流的端到端可训练的模型。RAFT的独特之处在于它使用大量轻量级、循环更新算子以单一分辨率运行。我们的方法在各种数据集上实现了最好的精度，强大的跨数据集泛化能力，并且在推断时间、参数总数和训练迭代方面非常有效。

6. 代码

主代码


class RAFT(nn.Module):
    def __init__(self, args):
        super(RAFT, self).__init__()
        self.args = args
        self.flow_init: torch.Tensor = torch.Tensor()
        if args.small:
            self.hidden_dim = hdim = 96
            self.context_dim = cdim = 64
            args.corr_levels = 4
            args.corr_radius = 3

        else:
            self.hidden_dim = hdim = 128
            self.context_dim = cdim = 128
            args.corr_levels = 4
            args.corr_radius = 4


        if 'dropout' not in self.args:
            self.args.dropout = 0

        if 'alternate_corr' not in self.args:
            self.args.alternate_corr = False

        # feature network, context network, and update block
        if args.small:
            self.fnet = SmallEncoder(output_dim=128, norm_fn='instance', dropout=args.dropout)        
            self.cnet = SmallEncoder(output_dim=hdim+cdim, norm_fn='none', dropout=args.dropout)
            self.update_block = SmallUpdateBlock(self.args, hidden_dim=hdim)

        else:
            self.fnet = BasicEncoder(output_dim=256, norm_fn='instance', dropout=args.dropout)        
            self.cnet = BasicEncoder(output_dim=hdim+cdim, norm_fn='batch', dropout=args.dropout)
            self.update_block = BasicUpdateBlock(self.args, hidden_dim=hdim)

    def freeze_bn(self):
        for m in self.modules():
            if isinstance(m, nn.BatchNorm2d):
                m.eval()

    def initialize_flow(self, img:torch.Tensor):
        """ Flow is represented as difference between two coordinate grids flow = coords1 - coords0"""
        N, C, H, W = img.shape
        coords0 = coords_grid(N, H//8, W//8, device=img.device)
        coords1 = coords_grid(N, H//8, W//8, device=img.device)


        # optical flow computed as difference: flow = coords1 - coords0
        return coords0, coords1

    def upsample_flow(self, flow:torch.Tensor, mask:torch.Tensor):
        """ Upsample flow field [H/8, W/8, 2] -> [H, W, 2] using convex combination """
        N, _, H, W = flow.shape
        mask = mask.view(N, 1, 9, 8, 8, H, W)
        mask = torch.softmax(mask, dim=2)

        up_flow = F.unfold(8 * flow, [3,3], padding=1)
        up_flow = up_flow.view(N, 2, 9, 1, 1, H, W)

        up_flow = torch.sum(mask * up_flow, dim=2)
        up_flow = up_flow.permute(0, 1, 4, 2, 5, 3)
        return up_flow.reshape(N, 2, 8*H, 8*W)


    def forward(self, image1:torch.Tensor, image2:torch.Tensor,iters:int=12, upsample:bool=True, test_mode:bool=False)\
            ->typing.List[torch.Tensor]:
        """ Estimate optical flow between pair of frames """

        image1 = 2 * (image1 / 255.0) - 1.0
        image2 = 2 * (image2 / 255.0) - 1.0

        image1 = image1.contiguous()
        image2 = image2.contiguous()

        hdim = self.hidden_dim
        cdim = self.context_dim

        # run the feature network
        with autocast(enabled=True):
            fmap1, fmap2 = self.fnet([image1, image2],True)
        
        fmap1 = fmap1.float()
        fmap2 = fmap2.float()
        # if self.args.alternate_corr:
        #     corr_fn = AlternateCorrBlock(fmap1, fmap2, radius=self.args.corr_radius)
        # else:
        #    corr_fn = CorrBlock(fmap1, fmap2, radius=self.args.corr_radius)
        corr_fn = CorrBlock(fmap1, fmap2, radius=4)

        # run the context network
        with autocast(enabled=True):
            cnet = self.cnet([image1],False)[0]
        net, inp = torch.split(cnet, [hdim, cdim], dim=1)
        net = torch.tanh(net)
        inp = torch.relu(inp)

        coords0, coords1 = self.initialize_flow(image1)

        if self.flow_init == torch.Size([]):
            coords1 = coords1 + self.flow_init

        flow_predictions = []
        for itr in range(iters):
            coords1 = coords1.detach()
            corr = corr_fn(coords1) # index correlation volume

            flow = coords1 - coords0
            with autocast(enabled=True):
                #print("net.shape",net.shape)
                #print("inp.shape",inp.shape)
                #print("corr.shape",corr.shape)
                #print("flow.shape",flow.shape)
                net, up_mask, delta_flow = self.update_block(net, inp, corr, flow)

            # F(t+1) = F(t) + \Delta(t)
            coords1 = coords1 + delta_flow

            # upsample predictions
            if up_mask is None:
                flow_up = upflow8(coords1 - coords0)
            else:
                flow_up = self.upsample_flow(coords1 - coords0, up_mask)
            self.flow_init = coords1 - coords0
            
            flow_predictions.append(flow_up)

        #if test_mode:
        #    return coords1 - coords0, flow_up
            
        return flow_predictions

特征提取网络

class BasicEncoder(nn.Module):
    def __init__(self, output_dim: int = 128, norm_fn: str = 'batch', dropout: float = 0.0):
        super(BasicEncoder, self).__init__()
        self.norm_fn = norm_fn

        if self.norm_fn == 'group':
            self.norm1 = nn.GroupNorm(num_groups=8, num_channels=64)

        elif self.norm_fn == 'batch':
            self.norm1 = nn.BatchNorm2d(64)

        elif self.norm_fn == 'instance':
            self.norm1 = nn.InstanceNorm2d(64)

        elif self.norm_fn == 'none':
            self.norm1 = nn.Sequential()

        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3)
        self.relu1 = nn.ReLU(inplace=True)

        self.in_planes = 64
        self.layer1 = self._make_layer(64, stride=1)
        self.layer2 = self._make_layer(96, stride=2)
        self.layer3 = self._make_layer(128, stride=2)

        # output convolution
        self.conv2 = nn.Conv2d(128, output_dim, kernel_size=1)

        self.dropout = None
        if dropout > 0:
            self.dropout = nn.Dropout2d(p=dropout)

        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
            elif isinstance(m, (nn.BatchNorm2d, nn.InstanceNorm2d, nn.GroupNorm)):
                if m.weight is not None:
                    nn.init.constant_(m.weight, 1)
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)

    def _make_layer(self, dim: int, stride=1):
        layer1 = ResidualBlock(self.in_planes, dim, self.norm_fn, stride=stride)
        layer2 = ResidualBlock(dim, dim, self.norm_fn, stride=1)
        layers = (layer1, layer2)

        self.in_planes = dim
        return nn.Sequential(*layers)

    def forward(self, x_list: typing.List[torch.Tensor], isFnet: bool) \
            -> typing.List[torch.Tensor]:

        # if input is list, combine batch dimension
        x = x_list[0]
        batch_dim = 0
        if isFnet:
            batch_dim = x_list[0].shape[0]
            x = torch.cat(x_list, dim=0)

        x = self.conv1(x)
        x = self.norm1(x)
        x = self.relu1(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)

        x = self.conv2(x)

        if self.training and self.dropout is not None:
            x = self.dropout(x)

        if isFnet:
            return torch.split(x, [batch_dim, batch_dim], dim=0)
        else:
            return [x]

构造张量

class CorrBlock:
    def __init__(self, fmap1:torch.Tensor, fmap2:torch.Tensor, num_levels:int=4, radius:int=4):
        self.num_levels = num_levels
        self.radius = radius
        self.corr_pyramid = []

        # all pairs correlation
        corr = CorrBlock.corr(fmap1, fmap2)

        batch, h1, w1, dim, h2, w2 = corr.shape
        corr = corr.reshape(batch*h1*w1, dim, h2, w2)
        
        self.corr_pyramid.append(corr)
        for i in range(self.num_levels-1):
            corr = F.avg_pool2d(corr, 2, stride=2)
            self.corr_pyramid.append(corr)

    def __call__(self, coords:torch.Tensor):
        r = self.radius
        coords = coords.permute(0, 2, 3, 1)
        batch, h1, w1, _ = coords.shape
        #print(coords.shape)

        out_pyramid = []
        for i in range(self.num_levels):
            corr = self.corr_pyramid[i]
            dx = torch.linspace(-r, r, 2*r+1, device=coords.device)
            dy = torch.linspace(-r, r, 2*r+1, device=coords.device)
            delta = torch.stack(torch.meshgrid(dy, dx), dim=-1)

            centroid_lvl = coords.reshape(batch*h1*w1, 1, 1, 2) / 2**i
            delta_lvl = delta.view(1, 2*r+1, 2*r+1, 2)
            coords_lvl = centroid_lvl + delta_lvl

            corr = bilinear_sampler(corr, coords_lvl)[0]
            corr = corr.view(batch, h1, w1, -1)
            out_pyramid.append(corr)

        out = torch.cat(out_pyramid, dim=-1)
        return out.permute(0, 3, 1, 2).contiguous().float()

    @staticmethod
    def corr(fmap1:torch.Tensor, fmap2:torch.Tensor):
        batch, dim, ht, wd = fmap1.shape
        fmap1 = fmap1.view(batch, dim, ht*wd)
        fmap2 = fmap2.view(batch, dim, ht*wd) 
        
        corr = torch.matmul(fmap1.transpose(1,2), fmap2)
        corr = corr.view(batch, ht, wd, 1, ht, wd)
        return corr  / torch.sqrt(torch.tensor(dim).float())

光流初始化

def coords_grid(batch:int, ht:int, wd:int, device:torch.device)->torch.Tensor:
    coords = torch.meshgrid(torch.arange(ht, device=device), torch.arange(wd, device=device))
    coords = stack([coords[1],coords[0]], dim=0).float()
    return coords[None].repeat(batch, 1, 1, 1)


def initialize_flow(self, img:torch.Tensor):
        """ Flow is represented as difference between two coordinate grids flow = coords1 - coords0"""
        N, C, H, W = img.shape
        coords0 = coords_grid(N, H//8, W//8, device=img.device)
        coords1 = coords_grid(N, H//8, W//8, device=img.device)

更新

class BasicUpdateBlock(nn.Module):
    def __init__(self, args, hidden_dim:int=128, input_dim:int=128):
        super(BasicUpdateBlock, self).__init__()
        self.args = args
        self.encoder = BasicMotionEncoder(args)
        self.gru = SepConvGRU(hidden_dim=hidden_dim, input_dim=128+hidden_dim)
        self.flow_head = FlowHead(hidden_dim, hidden_dim=256)

        self.mask = nn.Sequential(
            nn.Conv2d(128, 256, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 64*9, 1, padding=0))

    def forward(self, net:torch.Tensor, inp:torch.Tensor, corr:torch.Tensor, flow:torch.Tensor, upsample:bool=True):
        motion_features = self.encoder(flow, corr)
        inp = torch.cat([inp, motion_features], dim=1)

        net = self.gru(net, inp)
        delta_flow = self.flow_head(net)

        # scale mask to balence gradients
        mask = .25 * self.mask(net)
        return net, mask, delta_flow

参考

【论文简述及翻译】RAFT: Recurrent All-Pairs Field Transforms for Optical Flow（ECCV 2020）_raft光流论文-CSDN博客

【精选】光流估计算法RAFT的论文和代码阅读_raft光流-CSDN博客

（论文解读）RAFT: Recurrent All-Pairs Field Transforms for Optical Flow_CyrilSterling的博客-CSDN博客

ECCV 2020最佳论文讲了啥？作者为ImageNet一作、李飞飞高徒邓嘉 - 知乎

你可能感兴趣的:(论文阅读,人工智能)

Python从0到100（十八）：面向对象编程应用是Dream呀 python 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
机器学习笔记有涯小学生赵卫东机器学习笔记机器学习人工智能
1概述1.1简介机器学习（MachineLearning）是计算机科学的子领域，也是人工智能的一个分支和实现方式。“对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序在从经验E学习。”（汤姆·米切尔（TomMitchell），1997，MachineLearning）1.2机器学习、人工智能、数据挖掘从本质上看，数据科学的目标是通过处理各
职坐标AIGC课程实战项目深度解析职坐标在线其他
内容概要在人工智能技术加速渗透各行业的背景下，职坐标IT培训体系中的AIGC课程以实战项目经验为核心，构建了从基础理论到产业落地的立体化培养框架。课程聚焦人工智能生成内容（AIGC）的核心技术链，涵盖自然语言处理、生成模型架构及多模态数据融合等模块，通过电商智能客服系统与新媒体文案生成工具两类典型场景的深度实践，强化学员对模型训练、参数调优及商业落地的综合能力。为适配行业需求，课程设计采用“三阶递
从入门到精通：清华DeepSeek全六版使用手册，AI学习的超强攻略指南 2501_90771553 pdf
从入门到精通：清华DeepSeek全六版使用手册，AI学习超强攻略指南在人工智能飞速发展、应用日益广泛的今天，越来越多的人渴望踏入AI学习的领域，探索其中的奥秘。然而，AI知识体系庞大复杂，从基础概念到前沿技术，想要快速掌握并非易事。此时，拥有一套系统、全面且权威的学习指南就显得尤为重要。今天，我们就为大家带来清华DeepSeek全六版使用手册，堪称AI学习的超强攻略指南，助力你从入门小白成长为A
智能驾驶：驶向未来的变革之路测试者家园人工智能质量效能智能驾驶人工智能质量效能机器人智能驾驶智能汽车无人汽车无人驾驶
在科技迅猛发展的今天，智能驾驶作为人工智能与交通运输深度融合的产物，正引领着汽车行业的革命性变革。从最初的驾驶辅助系统到如今的高度自动驾驶，智能驾驶技术的演进不仅改变了人们的出行方式，也对社会经济、法律法规等多个层面产生了深远影响。一、智能驾驶的技术演进与现状1.技术等级划分根据国际自动机工程师学会（SAE）的定义，自动驾驶技术被分为L0至L5六个等级：L0级：无自动化，完全由人类驾驶员控制。L1
深度学习揭秘：神经网络如何模拟人脑 shelly聊AI AI核心技术深度学习神经网络人工智能
大家好，我是Shelly，一个专注于输出AI工具和科技前沿内容的AI应用教练，体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具，拥抱AI时代的到来。AI工具集1：大厂AI工具【共23款】，一次性奉上，今天是百度和阿里AI工具集2：大厂AI工具【共12款】，一次性奉上，看看腾讯和字节的宝贝人工智能&AIGC术语100条Shelly聊AI-重磅发布一
DeepSeek vs Grok vs ChatGPT：大模型三强争霸，谁将引领AI未来？带上一无所知的我 chatgpt 人工智能 DeepSeek
DeepSeekvs.Grokvs.ChatGPT：大模型三强争霸，谁将引领AI未来？在人工智能领域，生成式模型的竞争已进入白热化阶段。DeepSeek、Grok和ChatGPT作为三大代表性工具，凭借独特的技术路径和应用优势，正在重塑行业格局。本文将从技术架构、核心功能、应用场景、性能成本等多维度展开深度对比，揭示其背后的竞争逻辑与未来趋势。一、技术架构：从知识图谱到通用智能的演进1.DeepS
呼叫智能体：AI时代下的智能交互革命 MARS_AI_ 人工智能自然语言处理信息与通信 nlp
在人工智能技术高速发展的今天，呼叫智能体（CallAgent）正成为企业服务升级的核心引擎。它不仅是传统呼叫中心的智能化延伸，更是融合语音克隆、多语种交互、智能体编排等前沿技术的综合解决方案。本文将从技术原理、行业挑战、应用场景三个维度，解析这一突破性技术。一、呼叫智能体的核心技术栈声音克隆与TTS进化通过深度学习模型（如VITS、FastSpeech2），系统可克隆特定人声音色，结合大语言模型生
AI 外呼产品架构解读：让智能外呼更精准高效 MARS_AI_ 人工智能架构自然语言处理信息与通信
在人工智能（AI）技术迅猛发展的今天，AI外呼系统已成为呼叫中心领域的新宠。本文将剖析AI外呼产品的基本架构，帮助读者理解其背后的技术逻辑和应用价值。一、支撑能力层：AI外呼的基石AI外呼系统的底层架构，即支撑能力层，为整个系统提供了坚实的技术基础。这一层主要包括以下三个核心组成部分：1.AI基础能力AI基础能力涵盖了语音识别（ASR）、自然语言处理（NLP）和语音合成（TTS）等技术。这些技术使
自然语言模型（NLP）介绍 Liudef06 Stable Diffusion 自然语言处理人工智能
一、自然语言模型概述自然语言模型（NLP）通过模拟人类语言理解和生成能力，已成为人工智能领域的核心技术。近年来，以DeepSeek、GPT-4、Claude等为代表的模型在技术突破和应用场景上展现出显著优势。例如，DeepSeek通过强化学习提升推理能力，其混合专家架构（MoE）显著优化了计算效率‌。二、核心技术解析1.DeepSeek模型架构混合专家模型（MoE）：DeepSeek-V3采用Mo
人工智能之数学基础：矩阵的秩每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵机器学习深度学习线性代数秩
本文重点矩阵的秩，作为矩阵理论中的一个核心概念，是连接矩阵性质与应用的重要桥梁。本文我们将学习矩阵秩的概念，通过矩阵的秩可以判断矩阵是否可逆等等，所以矩阵的秩是非常重要的一个概念。矩阵秩的概念秩定义为矩阵A的线性独立的行（或列）的最大数目。也就是说，如果把矩阵看成由行向量或列向量组成，那么矩阵的秩就是这些向量中极大线性无关组所含向量的个数。矩阵的秩定义为矩阵线性无关的行向量或者列向量的最大数量，表
清华出品DeepSeek六版手册，携全套AI资料，带你闯入AI的奇妙世界 2501_90771553 pdf
清华出品DeepSeek六版手册，携全套AI资料，带你闯入AI的奇妙世界在科技飞速发展的时代，人工智能（AI）已然成为引领变革的核心力量。无论是对AI充满好奇的初学者，还是在该领域深耕的专业人士，都在不断探寻着更优质、更全面的学习资源。现在，一份来自清华大学的厚礼——DeepSeek六版手册，带着全套AI资料震撼登场，将引领你走进AI的奇妙世界！DeepSeek系列手册，凭借清华大学深厚的学术底蕴
《深度学习实战》第12集：大模型的未来与行业应用带娃的IT创业者深度学习实战深度学习
深度学习实战|第12集：大模型的未来与行业应用随着深度学习技术的快速发展，大模型（如GPT、LLaMA、Bloom等）已经成为人工智能领域的核心驱动力。本篇博客将探讨大模型的发展趋势及其在医疗、金融、教育等行业的实际应用，并通过2个实战项目展示如何使用开源大模型构建问答系统。此外，我们还会分析大模型的前沿技术方向。图示：大模型发展历程与行业应用场景1.大模型发展历程图以下是大模型从早期到现在的关键
深度学习突破：LLaMA-MoE模型的高效训练策略人工智能大模型讲师培训咨询叶梓深度学习 llama 人工智能 Llama-Moe 大模型语言模型
在人工智能领域，大模型（LLM）的崛起带来了前所未有的进步，但随之而来的是巨大的计算资源需求。为了解决这一问题，Mixture-of-Expert（MoE）模型架构应运而生，而LLaMA-MoE正是这一架构下的重要代表。LLaMA-MoE是一种基于LLaMA系列和SlimPajama的MoE模型，它通过将LLaMA的前馈网络（FFNs）划分为稀疏专家，并为每层专家插入top-K个门，从而显著减小模
系统对接方案_浅谈RPA系统 weixin_39881760 系统对接方案
首先本文是有感而发，其次是我本身是大数据和人工智能领域产品多年从业者，并不局限于RPA领域，做过一些RPA项目也和客户沟通并且提供过顾问和咨询服务，所以有一定理解。从网上可见的大部分文章包括本问题下面的回答中，都可以看到，大部分是宏观回答，从狭义来说，RPA可以是一个软件工具、可以是一套系统也可以是一个平台；RPA可以让办公自动化、业务流程自动化。从广义来说，任何一个可被规则化且突发、未知情况少的
双盲机制（信念，欲望）：模型上下文通常会包含所有信，双盲机制屏蔽：每个智能体分别进行独立的模型调用 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力人工智能 android python 自然语言处理 pycharm
如何让人工智能生成的说服性对话更接近真实的日常交流目录如何让人工智能生成的说服性对话更接近真实的日常交流**一、核心创新点解析****1.双盲对话生成机制****2.因果心理理论指导****3.多智能体协作框架ToMMA****二、实验结论****三、论文贡献**怎么代码中实现Agent的双盲场景假设代码实现代码解释注意事项模型上下文通常会包含所有信，双盲机制屏蔽：每个智能体分别进行独立的模型调用
【Swift 算法实战】判断数组中是否存在重复元素网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python项目-基于深度学习的校园人脸识别考勤系统天天进步2015 Python项目实战 python
引言随着人工智能技术的快速发展，深度学习在计算机视觉领域的应用日益广泛。人脸识别作为其中的一个重要分支，已经在安防、金融、教育等多个领域展现出巨大的应用价值。本文将详细介绍如何使用Python和深度学习技术构建一个校园人脸识别考勤系统，该系统能够自动识别学生身份并记录考勤信息，大大提高了考勤效率，减轻了教师的工作负担。系统概述功能特点实时人脸检测与识别：能够从摄像头视频流中实时检测并识别人脸自动考
python常见面试题基础篇 (一) 航叔啦
Python基础篇1：为什么学习Python家里有在这个IT圈子里面，也想让我接触这个圈子，然后给我建议学的Python，然后自己通过百度和向有学过Python的同学了解了Python，Python这门语言，入门比较简单，它简单易学，生态圈比较强大，涉及的地方比较多，特别是在人工智能，和数据分析这方面。在未来我觉得是往自动化，人工智能这方面发展的，所以学习了Python2：通过什么途径学习Pyth
一次性了解OpenAI的“草莓”（Strawberry）超强实力金融街小单纯预测模型生成式人工智能人工智能
OpenAI预计在秋季推出的代号为“草莓”（Strawberry）的新AI模型，是其在AI推理领域的一项重要突破。该项目的成功也将为人类实现通用人工智能（AGI）目标迈出重要一步。使模型不仅能够生成查询答案，还能处理复杂的科学和数学问题，进行自主可靠的“深度研究”。“草莓”项目是OpenAI在AI推理领域的一项重要突破具备高级推理能力、长任务规划、超大规模训练等核心功能与技术特点。该项目的推出将进
Github 2024-09-30 开源项目周报 Top15 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本周(2024-09-30统计)共有15个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7JupyterNotebook项目2Dart项目1Ruby项目1HTML项目1C#项目1TypeScript项目1Rust项目1非开发语言项目1AutoGPT:人工智能革命的先锋创建周期：486天开发语言：Python协议类型：MI
免费分享，清华大学DeepSeek 1-6版教程全析，探索未知的技术新领域推文 qq_35008050 pdf
免费分享，清华大学DeepSeek1-6版教程全析，探索未知的技术新领域在科技飞速发展的今天，人工智能领域不断推陈出新，DeepSeek作为其中的一颗新星备受瞩目。如今，一份来自清华大学的珍贵礼物——DeepSeek1-6版教程，正免费向大家敞开知识的大门，助力我们深入探索未知的技术新领域。第一版：基础奠基，开启DeepSeek之旅对于初次接触DeepSeek的人来说，第一版教程就像是一座坚实的基
2025人工智能AI与电商革命：人工智能如何塑造在线市场的未来报告300+份汇总解读|附PDF下载数据挖掘深度学习人工智能算法
原文链接：https://tecdat.cn/?p=40894在当今数字化时代，电子商务与人工智能的融合正重塑商业格局。本报告汇总洞察基于Prosus、Dealroom.co发布的《TheAIxEcommerceRevolution：HowAIisshapingtheFutureofOnlineMarketplaces》及文末308份电子商务和人工智能行业研究报告的数据，报告合集已分享在交流群，阅
大模型中的Token究竟是什么？从原理到作用深度解析自然语言处理算法人工智能
引言在人工智能领域，大型语言模型（LLM）如GPT-4、Claude等系统性地改变了人机交互方式。这些模型处理文本的核心单元被称为"Token"，这个看似简单的概念实则蕴含复杂的工程设计和语言学原理。本文将深入解析Token的本质、技术实现及其在模型运作中的关键作用。Token化技术全景图核心处理流程原始文本→预处理→分词算法→词表映射→模型输入↓↓↓大小写转换子词拆分策略特殊Token添加标点规
ChatGPT与DeepSeek：开源与闭源的AI模型之争我们的五年游戏实现 chatgpt 人工智能
目录一、模型架构与技术原理二、性能能力与应用场景三、用户体验与部署灵活性四、成本与商业模式五、未来展望与市场影响六、总结随着人工智能技术的飞速发展，ChatGPT和DeepSeek作为两大领先的AI语言模型，成为了行业内外关注的焦点。它们在技术架构、应用场景、用户体验和成本等方面存在显著差异，尤其是开源与闭源的模式，使得两者在市场竞争中各有优势。本文将对ChatGPT和DeepSeek进行全面对比
郑州人工智能计算中心成果发布会成功举办埃文科技共建AI生态人工智能
2024年3月1日，由郑州市科学技术局主办，郑州联通、华为技术有限公司联合承办的郑州人工智能计算中心成果发布会在郑州隆重举行，郑州埃文科技有限公司（以下简称“埃文科技”）作为河南省人工智能领军企业受邀参会。大会以“全面拥抱智能化，共筑算力新底座”为主题，郑州市委副书记、代市长庄建球，河南联通党委书记、总经理华豫民等领导，以及300余位行业专家、企业代表齐聚一堂，共同见证中部地区首个政府主导的智能算
DeepSeek×博云AIOS：突破算力桎梏，开启AI普惠新纪元 deepseek
背景在全球人工智能技术高速迭代的背景下，算力成本高企、异构资源适配复杂、模型部署效率低下等问题，始终是制约企业AI规模化应用的关键。DeepSeek以创新技术直击产业痛点，而博云先进算力管理平台AIOS的全面适配，则为这一技术落地提供了坚实底座。两者的深度融合，正在重塑AI产业化的技术范式。DeepSeek：算法创新定义AI新范式DeepSeek凭借技术突破，为AI领域树立了新标杆：DeepSee
Transformer架构简略：DeepSeek 的底层基石 windwant 人工智能人工智能 transformer 架构
2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。它不仅在各种NLP任务上取得了突破性进展，更成为了当今人工智能领域最具影响力的架构之一。一、从RNN到Transformer：突破瓶颈，开创先河在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）是处理序列
Python 基本语法全解析：从安装到应用木觞清 7天熟练Python python 开发语言
Python是一种广泛使用的高级编程语言，因其简洁易懂的语法和强大的功能而受到开发者的喜爱。从数据分析到人工智能，Python都在各个领域占据着重要地位。如果你是编程新手，Python是一个非常适合入门的语言。本篇博客将带你从安装Python到理解其基础语法，再到实际应用中常见的内置函数、文件操作及第三方库的使用。1.Python安装与环境配置在开始编写Python程序之前，你首先需要在你的电脑上
大智能：大数据+大模型+大算力_大算力大数据大模型 AI学习不迷路大数据大模型人工智能语言模型 ai 产品经理算力
在近日举行的“2022中国人工智能产业年会”主论坛上，中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示，人工智能的发展已经历了数十年的过程，大模型ChatGPT在今年春节前后突然出现，大家还没有来得及深度思考就已经“扑面而来”。蒋昌俊大智能的研究进展科学技术的研究约分为两大范式，一是牛顿力学奠定了理论计算的范式，二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演，以及计算模拟、最
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: ken.wug@gmail.com 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多