李加号pluuuus

【论文阅读】SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Ta

SadTalker：学习逼真的3D动作系数，用于风格化的音频驱动单张图像说话人脸动画

code：

paper：

1 介绍

动机：生成说话头的方法都存在问题，耦合的2D运动场：不自然的头部动作、扭曲的表情和身份修改。显式使用3D信息：僵硬的表情和不连贯的视频等问题。

因此提出SadTalker，从音频中生成3D运动系数（头部姿态、表情），并隐式调节一种3D感知人脸渲染，用于生成说话人头部。提出了ExpNet来通过提取系数，和3D渲染人脸来学习准确的面部表情。至于头部姿态，设计了PoseVAE，通过条件VAE来合成不同风格的头部运动。最后，生成的3D运动系数被映射到所提出的人脸渲染的无监督3D关键点空间，并合成最终视频。

图1，SadTalker从输入音频和单个参考图像中产生多种逼真的同步谈话视频。

贡献：

提出了SadTalker，一种使用逼真3D运动系数的风格化音频驱动单张图像说话的新系统。
为了从音频中学习3DMM模型的逼真运动系数，分别提出了ExpNet和PoseVAE。
提出了一种新颖的语义解耦和3D感知人脸渲染器，用于生成逼真的说话人头部视频。
实验证明我们的方法在运动同步和视频质量方面达到了最先进水平。

2 背景

音频驱动的单张图像说话人脸生成。早期的研究[3, 30, 31]主要集中在通过感知鉴别器产生准确的嘴唇运动。由于真实视频包含许多不同的运动，ATVGnet [2]使用面部关键点作为中间表示来生成视频帧。MakeItTalk [52]提出了一种类似的方法，但它从输入音频信号中解耦了内容和说话人信息。由于面部关键点仍然是一个高度耦合的空间，最近也流行在解耦空间中生成说话人头部。PC-AVS [51]使用隐式潜变量代码对头部姿态和表情进行解耦。然而，它只能产生低分辨率的图像，并且需要来自另一个视频的控制信号。Audio2Head [39]和Wang等人 [40]受到视频驱动方法 [36] 的启发，用于生成说话人脸。然而，这些头部运动仍然不够生动，并且会产生具有不准确身份的扭曲面部。尽管一些先前的工作 [33, 49] 使用3DMM作为中间表示，但他们的方法仍然面临着表情不准确 [33] 和明显的伪影 [49] 的问题。

音频驱动的视频肖像。我们的任务也与视觉配音相关，其目标是通过音频编辑一个肖像视频。与音频驱动的单张图像说话人脸生成不同，这个任务通常需要在特定视频上进行训练和编辑。在之前的深度视频肖像工作[19]的基础上，这些方法利用3DMM信息进行面部重建和动画。AudioDVP [45]、NVP [38]、AD-NeRF [11]学习重新演绎表情以编辑嘴形。除了嘴唇运动，例如头部运动 [23, 48]、情感表达的说话人脸 [18] 也受到关注。在这些任务中，基于3DMM的方法起着重要的作用，因为从视频片段中拟合3DMM参数是可行的。尽管这些方法在个性化视频中取得了令人满意的结果，但它们无法应用于任意照片和野外音频。

视频驱动的单张图像说话人脸生成。这个任务也被称为面部复现或面部动画，旨在将源图像的动作转移到目标人物身上。最近已经广泛探索了这个任务[14, 29, 33, 36, 37, 41, 42, 44, 47, 50]。先前的工作还学习了源图像和目标之间的共享中间动作表示，可以大致分为基于关键点[41]和无监督基于关键点的方法[14,36,42,50]、基于3DMM的方法[7,33,47]以及潜在变量动画[25, 44]。这个任务比我们的任务容易得多，因为它包含了相同领域的运动。我们的人脸渲染器也受到无监督基于关键点方法 [42] 和基于3DMM的方法 [33] 的启发，通过映射学习的系数来生成真实视频。然而，他们并没有专注于生成逼真的运动系数。

3 方法

图2pipeline。使用3DMM的系数作为中间运动表示。首先从音频中生成逼真的3D运动系数(面部表情β，头部姿势ρ)，然后，通过ExpNet和PoseVAE分别生成逼真的3DMM运动系数。最后，提出3D感知的人脸渲染器来生成说话人头部视频。

第3.2节介绍了音频驱动的运动系数生成方法，第3.3节介绍了基于系数驱动的图像动画。

3.1 3D面部模型的预备知识

受单张图像深度3D重建方法 [5] 启发，将预测的3D可塑模型（3DMM）的空间，视为中间表示。在3DMM中，3D面部形状S可以解耦为：

其中，是3D面部的平均形状，Uid和Uexp是LSFM可塑模型 [1] 的身份和表情的正交基。系数α ∈ R^80和β ∈ R^64分别描述了个人身份和表情。为了保持姿势差异，系数r ∈ SO(3)和t ∈ R^3表示头部旋转和平移。为了实现与身份无关的系数生成 [33]，仅对运动参数{β，r，t}建模。从驱动音频中，单独学习头部姿态ρ = [r, t]和表情系数β。然后，这些运动系数用于隐式调节人脸渲染器进行最终的视频合成。

3.2 通过音频生成运动系数

如上所述，3D运动系数包含了头部姿态和表情，其中头部姿态是全局运动，表情相对局部。为此，如果同时学习所有内容会导致网络中的巨大不确定性，因为头部姿态与音频的关系相对较弱，而嘴唇运动则高度相关。我们使用提出的PoseVAE和ExpNet分别生成头部姿态和表情的运动，具体如下介绍。

ExpNet

由于两个原因，从音频中学习生成准确的表情系数是非常困难的：1）对于不同的身份来说，音频到表情并不是一对一的映射任务。2）表情系数中存在一些与音频无关的运动，会影响预测的准确性。

我们设计了ExpNet来减少这些不确定性。至于身份问题，通过第一帧的表情系数 β0 将表情运动与特定的人物连接起来。为了在自然说话时减少其他面部组件的运动权重，使用仅包含嘴唇运动的系数作为系数目标，通过预训练网络Wav2Lip [30] 和深度3D重建 [5]。然后，可以通过渲染图像上的额外关键点损失来利用其他次要面部运动（例如眨眼）。

图3. ExpNet的结构。引入了一个单目3D面部重建模型[5]（Re和Rd）来学习逼真的表情系数。Re是一个预训练的3DMM系数估计器，Rd是一个可微分的3D人脸渲染器，没有可学习参数。使用参考表情β0来减少身份的不确定性，并使用预训练的Wav2Lip [30]生成的帧和第一帧I0作为目标表情系数，因为它们只包含与嘴唇相关的运动。

如图3所示，从音频窗口生成t帧的表情系数，其中每帧的音频特征是一个0.2秒的mel频谱图。在训练过程中，首先设计了基于ResNet的音频编码器ΦA [12, 30]，将音频特征嵌入到潜空间中。然后，添加一个线性层作为映射网络ΦM来解码表情系数。同时还在生成过程中添加了来自参考图像的参考表情β0，以减少身份的不确定性。由于在训练中使用仅包含嘴唇运动的系数作为真实值，所以又添加了一个闪烁控制信号zblink∈[0, 1]和相应的眼睛关键点损失，以生成可控的眨眼动作。网络写为：

对于损失函数，首先使用来评估唇部运动系数与生成的β{1,...,t}之间的差异。只使用wav2lip的第一帧I0生成唇同步视频，这减少了姿势变异和除嘴唇运动外的其他面部表情的影响。还使用可微分的3D人脸渲染器Rd在显式面部运动空间中计算额外的感知损失。如图3所示，计算眼睛关键点损失Llks来衡量眨眼的范围和整体表情准确性。还使用预训练的唇读网络Φreader作为临时唇读损失Lread，以保持感知的唇部质量[9, 30]。

PoseVAE

如图4所示，设计了一个基于VAE [21]的模型，用于学习真实且具有身份感知的风格化头部运动 ρ ∈ R^6。在训练中，PoseVAE在固定的n帧上使用编码器-解码器结构进行训练。编码器和解码器都是两层MLP，输入包含连续的t帧头部姿态，并将其嵌入到一个高斯分布中。

解码器中，网络被训练生成从采样分布中得到的t帧姿态。与直接生成姿态不同，PoseVAE学习了第一帧条件姿态ρ0的残差，这使得我们的方法能够在测试时，在第一帧的条件下生成更长、更稳定和连续的头部运动。此外，根据CVAE [6]，我们添加了相应的音频特征和风格身份 Zstyle 作为节奏感知和身份风格的条件。

KL散度 LKL 用于衡量生成的运动分布。均方损失 LMSE 和对抗损失 LGAN 用于确保生成的质量。

图4. PoseVAE的流程。通过条件VAE结构学习输入头部姿态ρ0的残差。给定条件：第一帧ρ0，风格身份Zstyle和音频剪辑，学习残差头部姿态的分布。训练完成后，通过姿势解码器和条件（cond:）生成风格化的结果。

3.3 3D感知人脸渲染器

在生成逼真的3D运动系数之后，通过一个3D感知图像动画器来渲染最终的视频。face-vid2vid [42]中可以隐式地从单张图像中学习到3D信息，但是需要一个真实的视频作为驱动信号。我们的人脸渲染器通过3DMM系数使其可驱动。如图5所示，我们提出了mappingNet来学习明确的3DMM运动系数（头部姿态和表情）与隐式无监督的3D关键点之间的关系。mappingNet由几个1D卷积层构成。使用时间窗口内的临时系数进行平滑，类似于PIRenderer [33]。不同的是，我们发现PIRenderer中的面部对齐运动系数会极大地影响音频驱动视频生成的运动自然性，并在第4.4节中进行了实验证明。只使用表情和头部姿态的系数。

图5。FaceRender及其与facevid2vid的比较[42]。给定源图像Is和驱动图像Id, facevid2vid在无监督的三维关键点空间Xc、Xs和Xd中生成运动。然后，通过外观A0和关键点生成图像。由于我们没有驾驶图像，我们使用显式解纠缠3DMM系数作为代理，并将其映射到无监督的3D关键点空间。

训练包含两个步骤。首先按照原始论文中的方式，以自监督的方式训练face-vid2vid。第二步，冻结外观编码器、规范化关键点估计器和图像生成器的所有参数进行微调。然后以重构风格的方式，在真实视频的3DMM系数上训练mappingnet。用L1损失在无监督关键点的域中提供监督，并按照他们的原始实现生成最终的生成视频。

4 实验

4.1. 实现细节和评估指标

数据集：VoxCeleb [26]数据集来训练，包含1251个主体的超过10万个视频。按照之前的图像动画方法[36]对原始视频进行裁剪，调整为256×256。预处理之后，数据用于训练FaceRender。由于VoxCeleb中一些视频和音频不对齐，我们选择了46个主体的1890个对齐视频和音频来训练我们的PoseVAE和ExpNet。输入音频下采样到16kHz，并使用与Wav2lip [30]相同的设置转换为mel频谱图。测试：使用了HDTF数据集中346个视频的第一个8秒视频（总共约70,000帧），因为它包含了高分辨率和野外环境的说话人头部视频。这些视频也按照[36]进行了裁剪和处理，并调整大小为256×256进行评估。使用每个视频的第一帧作为参考图像来生成视频。

实现细节：ExpNet、PoseVAE和FaceRender都是分别训练的，在所有实验中使用Adam优化器 [20]。训练完成后，我们的方法可以以端到端的方式进行推断，无需手动干预。所有的3DMM参数都是通过预训练的深度3D人脸重建方法 [5] 提取的。

在8个A100 GPU上进行所有实验。ExpNet、PoseVAE和FaceRender的学习率分别为2e−5、1e−4和2e−4。对于时间考虑，ExpNet使用连续的5帧进行学习。PoseVAE通过连续32帧进行学习。FaceRender中的帧是逐帧生成的，使用连续5帧的系数以保持稳定性。

评估指标：

表1。与HDTF数据集上最先进方法的比较。我们评估了Wav2Lip[30]和PC-AVS[51]在一次性设置。Wav2Lip*实现了最好的视频质量，因为它只动画唇区域，而其他区域是相同的原始帧。PC-AVS**使用固定参考姿态进行评估，在某些样本中失败。

表3。ExpNet的消融。无论是初始表达β0，唇读损失Lread，都大大提高了性能。然而，当使用实系数时，唇同步度量下降了很多。

4.2. 与其他先进方法的比较

包括面部视频生成方法（MakeItTalk [52]、Audio2Head [39]和Wang等人 [40]）以及音频到表情生成方法（Wav2Lip [30]、PC-AVS [51]）。评估是直接在它们公开可用的检查点上进行的。如表1所示，所提出的方法在整体视频质量和头部姿态多样性方面表现更好，并且在唇同步度量方面与其他完全的说话人头部生成方法相当。我们认为这些唇同步度量指标对音频过于敏感，可能会给不自然的唇部运动打出更高的分数。然而，我们的方法达到了与真实视频类似的分数，这证明了我们的优势。

图6展示了不同方法的视觉结果。这里，我们提供了唇部参考来可视化我们方法的唇同步效果。从图中可以看出，我们的方法在视觉质量上与原始目标视频非常相似，并且具有我们预期的不同头部姿态。与其他方法相比，Wav2Lip [30]产生了模糊的半张脸。PC-AVS [51]和Audio2Head [39]在身份保持方面存在困难。Audio2Head只能生成正面说话的脸部。此外，MakeItTalk [52]和Audio2Head [39]由于2D变形而产生了扭曲的人脸视频。我们在补充材料中提供了视频比较，以展示更清晰的对比结果。

4.4. 消融研究

ExpNet的消融研究：对于ExpNet，我们主要通过唇同步度量评估每个组件的必要性。由于之前没有解耦的方法，我们考虑了一个基线（Speech2Gesture [10]，这是一个将音频转换为关键点的生成网络）来共同学习头部姿态和表情系数。如表3和图7所示，同时学习所有运动系数很难生成可信的说话人头部视频。然后，我们考虑了提出的ExpNet的变体，包括初始表情β0、唇读损失Lread以及仅使用嘴唇系数的必要性。图8显示了视觉比较结果，我们没有使用初始表情β0时，预期会出现巨大的身份变化。此外，如果我们使用真实系数替代我们使用的仅嘴唇系数，唇同步性能会大幅下降。

PoseVAE的消融研究：我们从运动多样性和音频节奏对齐方面评估了提出的PoseVAE。如表4所示，基线方法Speech2Gesture [10]在姿态评估中表现较差。至于我们的变体，由于我们的方法包含多个身份风格标签，为了更好地评估其他组件，我们首先考虑对我们的完整方法的一个固定独热风格进行消融研究（OurFull, Single Fixed Style）。我们设置的每个条件在运动多样性和节奏对齐方面都有益于整体运动质量。我们进一步报告了混合风格的完整方法的结果，该方法使用随机选择的身份标签作为风格，并展示了更好的多样性表现。由于姿态差异很难在图中显示出来，请参考我们的补充材料以进行更好的比较。

Face Render的消融研究：我们从两个方面对提出的人脸渲染器进行了消融研究。一方面，我们展示了与PIRenderer [33]相比的重建质量，因为两种方法都使用3DMM作为中间表示。如图9的第一行所示，由于稀疏无监督关键点的映射，提出的人脸渲染器显示出更好的表情重建质量。准确的表情映射也是实现唇同步的关键。此外，我们评估了PIRenderer [33]中使用的额外对齐系数引起的姿态不自然性。如图9的第二行所示，我们绘制了具有相同头部姿态和表情系数的生成视频的关键点轨迹图。使用固定或可学习的裁剪系数（作为我们poseVAE中的一部分姿态系数）将生成面部对齐的视频，这在自然视频中是奇怪的。我们去除它，并直接使用头部姿态和表情作为调制参数，得到更真实的结果。

图9。面部渲染的消融研究。在第一行中，我们直接将我们的方法与PIRenderer[33]进行人脸动画的比较，我们的方法显示出更好的表情建模。第二行是由相同运动系数生成的面部地标的轨迹图。使用额外的面部对齐系数作为运动系数的一部分[33]将产生不现实的对齐头部视频。

5 结论

局限性：由于3DMM无法对眼睛和牙齿的变化建模，Face Render中的mappingNet在某些情况下也难以合成逼真的牙齿。如图10所示，通过使用盲目人脸修复网络 [43] 可以改善这个限制。我们的工作的另一个局限性是我们只关注唇部运动和眨眼，而不考虑其他面部表情，例如情感和凝视方向。因此，生成的视频具有固定的情感，这也降低了生成内容的真实性。

本文提出了一种新的风格化音频驱动说话人头部视频生成系统。我们使用3DMM的运动系数作为中间表示，并学习它们之间的关系。为了从音频中生成逼真的3D系数，我们提出了ExpNet和PoseVAE来实现逼真的表情和多样的头部姿态。为了建模3DMM运动系数与真实视频之间的关系，我们提出了受图像动画方法 [42] 启发的新颖的3D感知人脸渲染器。实验结果证明了我们整个框架的优越性。由于我们可以预测逼真的3D面部系数，我们的方法也可以直接应用于其他领域，例如个性化的2D视觉配音 [45]、2D卡通动画 [52]、3D人脸动画 [8, 46] 和基于NeRF的4D说话人生成 [15]。

【论文阅读】MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型勤奋的小笼包论文阅读语言模型人工智能自然语言处理 chatgpt
MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型1.背景2.核心问题：3.方法：3.实验结果与优势4.技术贡献与意义5.结论MMedPO:AligningMedicalVision-LanguageModelswithClinical-AwareMultimodalPreferenceOptimizationMMedPO：用临床感知多模态偏好优化调整医学视觉语言模型gitgub:地址1.
论文阅读：Deep Stacked Hierarchical Multi-patch Network for Image Deblurring 行走的歌文献阅读图像处理计算机视觉机器学习深度学习图像去雨图像处理
这是一篇去模糊的文章，后来发现直接套用不合适，无法获取到相应的特征，遂作罢，简单记录一下。2019CVPR：DMPHN这篇文章是2019CVPR的一篇去模糊方向的文章，师兄分享的时候看了一下，后来也发现这个网络结构在很多workshop以及文章中都见过。文章：ArXiv代码：Github在去模糊领域，目前的多尺度和尺度循环模型存在一些问题：1)由粗到细方案中的去卷积/上采样操作导致运行时间昂贵;2
【论文阅读方法】沐神课程：如何读论文晴空对晚照论文阅读论文阅读
一篇论文的一般结构titleabstractintroductionmethodexperienceconclusion三明治论文阅读法第一遍：海选title+abstract+conclusion——确定要不要读第二遍：精读对整个文章过一遍，知道每一块在做什么可以从标题开始读到最后，注意不用咬文嚼字，不要太细节，公式、证明等很细节的部分可以忽略掉重点弄清楚每一个图表，算法在做什么，x轴y轴每一个
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读：Personalized Purchase Prediction of Market with Wasserstein-Based Sequence Matching Narcissus`小暮一步步来学大数据推荐系统
PersonalizedPurchasePredictionofMarketwithWasserstein-BasedSequenceMatching概述问题背景及陈述预测算法步骤一：itemembeddings步骤二：计算wassersteinDistance步骤三：Wasserstein-BasedDynamicTimeWarping预测实验评价标准数据集对比的baseline结论市场篮子的应
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读 EEG-TCNet Plan-C- 论文阅读
EEG-TCNet:AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度。EG-TCNET成功地推广了单个数据集，通过0.25的元效应优于MOABB的当前最新技术水平
论文阅读《Semantic Stereo Matching with Pyramid Cost Volumes》 cunese0088 深度学习
SSPCV-Net（语义立体匹配网络）目的：进一步捕捉视差的细节主要模块：数据集：SceneFlow,KITTI2012,KITTI2015,Cityscape(比较泛化能力)-------------------------------------------------------------------------------------------------------Concatevo
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
InternVL：论文阅读 -- 多模态大模型(视觉语言模型) XiaoJ1234567 LLM 论文阅读语言模型人工智能多模态大模型 internVL
更多内容：XiaoJ的知识星球文章目录InternVL:扩展视觉基础模型与通用视觉语言任务对齐1.概述2.InternVL整体架构1）大型视觉编码器：InternViT-6B2）语言中间件：QLLaMA。3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于
论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位（中国） MilkLeong 论文阅读空间计算
论文英文题目：AspatialinteractionmodelofQin-HanDynastyorganisationonthenorthernfrontierandthelocationoftheZhidaohighway(China)发表于：journalofarchaeologicalscience，影响因子：3.030论文主要是使用空间互动模型来对秦汉时期的北方边疆直道进行定位和重建。分析
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
【论文阅读】LayoutPrompter: Awaken the Design Ability of Large Language Models 进击的乔洋论文阅读语言模型人工智能
LayoutPrompter:AwakentheDesignAbilityofLargeLanguageModelsabstract条件图形布局生成是一种自动将用户约束映射为高质量布局的技术，目前受到了广泛关注。尽管最近的工作取得了很好的性能，但缺乏通用性和数据效率阻碍了它们的实际应用。本文提出Layout-Prompter，利用大型语言模型(llm)通过上下文学习来解决上述问题。LayoutPr
论文阅读方法某风吾起 work 哲学与人生论文阅读
文章目录步骤一：对论文进行自我判断阅读题目和关键词。阅读摘要阅读总结要点步骤二：阅读文章阅读图表和图表的注释阅读引言阅读实验部分阅读结果和作者对结果的讨论（创新点）要点步骤三：精度论文回答问题1回答问题2回答问题3要点步骤一：对论文进行自我判断阅读题目和关键词。观察这些关键词是否与你的研究的内容有关。如果不相干，可以随时停止，换篇文章看。阅读摘要摘要一般包含了整篇文章的主要内容，是非常非常重要的部
论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer 不会&编程图神经网络论文阅读论文阅读 transformer 深度学习图神经网络人工智能
RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN+Transformer的混合模型GraphTransformer)论文和代码地址论文地址：https://arxiv.org/pdf/2205.12454v4代码地址：https://git
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
Angular Superresolution of Real Aperture Radar for Target Scale Measurement 论文阅读青铜锁00 论文阅读 Radar 论文阅读
AngularSuperresolutionofRealApertureRadarforTargetScaleMeasurement1.研究目标与实际意义1.1研究目标1.2实际意义2.创新方法与模型设计2.1广义混合正则化（GHR）框架核心公式与传统方法对比2.2自适应迭代重加权（AIR）求解器算法设计复杂度分析3.实验设计与结果验证3.1仿真实验实验设置关键结果3.2实际数据验证4.未来研究方
Angular Superresolution of Real Aperture Radar Using Online Detect-Before-Reconstruct Framework 论文阅读青铜锁00 论文阅读 Radar 论文阅读
AngularSuperresolutionofRealApertureRadarUsingOnlineDetect-Before-ReconstructFramework1.论文的研究目标与实际问题意义1.1研究目标1.2实际问题与产业意义2.论文的创新方法、模型与公式分析（重点）2.1核心创新点2.2关键公式与模型2.2.1信号模型2.2.2稀疏正则化优化问题2.2.3坐标循环最小化2.2.4
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
[论文阅读]DAMO-YOLO——实时目标检测设计报告一朵小红花HH 知识蒸馏目标检测 YOLO 目标检测目标跟踪论文阅读人工智能
DAMO-YOLODAMO-YOLO:AReportonReal-TimeObjectDetectionDesign实时目标检测设计报告论文网址：DAMO-YOLO简读论文这篇论文介绍了一个名为DAMO-YOLO的新型目标检测方法,相比YOLO系列的其他方法有着更好的性能。该方法的优势来自于几项新技术:使用了MAE-NAS作为骨干网络,可以自动搜索出不同延迟预算下的优化网络结构。MAE-NAS被称
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
An Iterative Technique for the Rectification of Observed Distributions 论文阅读青铜锁00 论文阅读论文阅读
AnIterativeTechniquefortheRectificationofObservedDistributions-L.B.Lucy1.研究目标与实际意义1.1研究目标1.2实际意义2.新方法与公式分析2.1核心思路：基于贝叶斯定理的迭代框架2.1.1贝叶斯逆概率公式2.1.2迭代更新规则2.1.3多维推广2.2方法优势2.3对比传统方法3.实验验证3.1数值实验设计3.2关键结果4.雷
Azimuth Superresolution of Forward-Looking Radar Imaging Which Relies on Linearized Bregman论文阅读青铜锁00 论文阅读 Radar 论文阅读
AzimuthSuperresolutionofForward-LookingRadarImagingWhichReliesonLinearizedBregman1.论文的研究目标与意义1.1研究目标1.2实际应用意义2.论文提出的新方法、公式与优势（重点）2.1方法框架2.1.1贝叶斯建模2.1.2线性化Bregman算法2.2与传统方法的对比2.3公式总结3.实验设计与结果3.1点目标仿真3.
A Bayesian Angular Superresolution Method With Lognormal Constraint for Sea-Surface Target 论文阅读青铜锁00 论文阅读 Radar 论文阅读
目录1.研究背景与问题2.方法创新3.关键优势4.实验验证5.与传统方法对比6.结论与意义1.研究背景与问题核心挑战：实孔径雷达受限于天线孔径尺寸，导致角分辨率不足，影响海面目标（如船舶）的精细化探测。传统方法局限性：谱估计方法（如MUSIC、IAA）：依赖多快拍数据，机械扫描雷达难以满足。正则化方法（如TSVD、l1/l2约束）：假设噪声服从高斯分布，未考虑海杂波的非高斯特性（如Rayleigh
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
9、论文阅读：无监督的感知驱动深水下图像增强 Maker~ 图像增强论文阅读深度学习计算机视觉
Perception-DrivenDeepUnderwaterImageEnhancementWithoutPairedSupervision前言引言相关工作UIE模型基于非物理模型基于物理模型基于深度学习质量度量在图像增强中的应用方法论问题表述PQR模型PDD网络生成器损失函数实验A.数据集B.训练细节C.实验结果**PQR模型结果****定量UIE结果****定量UIE结果****可视化增强结
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方