zzfive

NUWA论文阅读

论文链接：NUWA: Visual Synthesis Pre-training for Neural visUal World creAtion

文章目录

摘要
引言
相关工作
- 视觉自回归模型
- 视觉稀疏自注意
方法
- 3D数据表征
- 3D Nearby Self-Attention
- 3D编码器-解码器
- 训练目标
实验
- 实现细节
- 与SOTA比较
- - T2I微调
  - T2V微调
  - V2V微调
  - Sketch-to-Image (S2I) 微调
  - Image Completion (I2I) zero-shot evaluation
  - Text-Guided Image Manipulation (TI2I) zero-shot evaluation
  - Sketch-to-Video (S2V) fine-tuning and Text-Guided Video Manipulation (TV2V) zero-shot evaluation
- 消融实验
结论

摘要

本文提出了一个统一的多模态预训练模型，称为NUWA，可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。为了在不同场景下同时覆盖语言、图像和视频，设计了一种3D Transformer编码器-解码器框架，该框架不仅可以将视频作为3D数据处理，还可以将文本和图像分别作为1D和2D数据处理。为了考虑视觉数据的性质，降低计算复杂度，提出了一种3D Nearby Attention(3DNA)机制。在8个下游任务上评估了N UWA。与几个强大的基线相比，NUWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外，它还在文本引导的图像和视频处理任务上显示出令人惊讶的良好zero-shot能力。项目仓库是https://github.com/microsoft/NUWA。

引言

如今，网络的视觉化程度越来越高，图像和视频已经成为新的信息载体，并在许多实际应用中得到了应用。在此背景下，视觉合成成为一个越来越受欢迎的研究课题，其目的是为各种视觉场景构建能够生成新的或操纵现有视觉数据(即图像和视频)的模型。

自回归模型在视觉合成任务中发挥重要作用，因为与GANs相比，自回归模型具有明确的密度建模和稳定的训练优势。早期的视觉自回归模型，如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer，以“逐像素”的方式进行视觉合成。然而，由于其在高维视觉数据上的计算成本高，这种方法只能应用于低分辨率的图像或视频，并且难以扩大规模。

最近，随着VQ-VAE作为一种离散视觉标记方法的出现，高效大规模的预训练可以应用于图像(如DALL-E和CogView)和视频(如GODIVA)的视觉合成任务。尽管取得了巨大的成功，但这种解决方案仍然存在局限性——它们将图像和视频分开处理，并专注于生成其中任何一个。这限制了模型从图像和视频数据中获益。

本文提出了一个统一的多模态预训练模型NUWA，旨在支持图像和视频的视觉合成任务，并进行了8个下游视觉合成实验，如图1所示。这项工作的主要贡献有三个方面：

提出NUWA，一个通用的3D Transformer 编码器-解码器框架，它同时涵盖语言，图像和视频，用于不同的视觉合成任务。它由一个以文本或视觉草图为输入的自适应编码器和一个由8个视觉合成任务共享的解码器组成
在框架中提出了一个3D Nearby Attention(3DNA)机制，以考虑空间和时间轴的局域性特征。3DNA不仅降低了计算复杂度，而且提高了生成结果的视觉质量
与几个强大的基线相比，NUWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外，NUWA不仅在文本引导的图像处理上，而且在文本引导的视频处理上都表现出令人惊讶的良好的zero-shot能力

图1 NUWA模型支持的8种典型视觉生成和操作任务示例

方法

3D数据表征

为了涵盖所有文本、图像和视频，将所有类型数据视为tokens，并定义一个统一的 3D 符号 $X ∈ R^{h×w×s×d}$ ，其中 $h$ 和 $w$ 分别表示空间轴（高度和宽度）上的tokens数， $s$ 表示时间轴中的tokens数， $d$ 是每个token的维度。下文介绍如何得到不同模态的统一表示。

文本自然是离散的，遵循 Transformer，使用小写字节对编码 (BPE) 将它们标记化并将它们嵌入到 $R^{1×1×s×d}$ 中。使用占位符 1，因为文本没有空间维度。

图像自然是连续的像素。输入高度为H、宽度W和通道C的原始图像 $I∈R^{H×W ×C}$ ，VQ-VAE训练一个可学习的码本，在原始连续像素和离散标记之间建立桥梁，由以下公式(1)、(2)表示：
$z_{i}^{(l)}=\underset{j}{\arg \min}||E((I)_{i}-B_{j}||^{2}, \tag{1}$
$\hat{I}=G(B[z]), \tag{2}$
其中 $E$ 是一个编码器，将 $I$ 编码为 $h \times w$ 个网格特征 $\in R^{h×w×d_{B}}$ ， $\in R^{N×d_{B}}$ 是一个具有 $N$ 个视觉tokens的可学习码本， $E (I)$ 中的每个网格都是从 $B$ 中计算相似度找到最相近的token搜索而来。搜索的结果 $z ∈ \{0, 1,., N − 1\}^{h×w}$ 由 $B$ 嵌入并由解码器 $G$ 重构回 $\hat{I}$ 。VQ-VAE的训练损失可表示为公式 (3)：

其中 $||I-\hat{I}||^2_2$ 严格约束 $I$ 和 $\hat{I}$ 之间的精确像素匹配，限制了模型的泛化能力。最近，VQ-GAN通过添加感知损失和GAN损失来增强VQ-VAE训练，以缓解 $I$ 和 $\hat{I}$ 之间的精确约束，并专注于高级语义匹配，如公式(4) 、(5)所示:

经过VQ-GAN的训练，最终使用 $B[z]∈R^{h×w×1×d}$ 作为图像的表示，使用占位符1，因为图像没有时间维度。

视频可以被视为图像的时间延伸，最近的作品如videopt和VideoGen将VQ-VAE编码器中的卷积从2D扩展到3D，并训练视频特定的表示。然而，这不能为图像和视频共享一个共同的代码本。本文证明了简单地使用二维VQ-GAN对视频的每帧进行编码也可以生成时间一致性视频，同时从图像和视频数据中受益。结果表示为 $R^{h×w×s×d}$ ，其中 $s$ 表示帧数。

对于图像草图，将它们视为具有特殊通道的图像。一个图像分割矩阵 $R^{H×W}$ ，其中每个值表示像素的类的值可以以 one-hot 方式 $R^{H×W ×C}$ 查看，其中 $C$ 是分割类的数量。通过训练一个额外的VQ-GAN进行图像草图，最终得到嵌入的图像表示 $R^{h×w×1×d}$ 。类似地，对于视频草图，表示是 $R^{h×w×s×d}$ 。

图2 NUWA结构概述；它包含一个支持不同条件的自适应编码器和一个受益于图像和视频数据的预训练解码器；对于图像补全、视频预测、图像处理和视频操作任务，输入的部分图像或视频直接送到解码器

3D Nearby Self-Attention

基于之前的 3D 数据表示定义了一个统一的 3D Nearby SelfAttention (3DNA) 模块，支持自注意力和交叉注意力。首先给出公式(6)中3DNA的定义，并在公式(7) ~(11)中引入详细的实现：
$\tag{6}$
其中 $\in R^{h×w×s×d^{in}}$ 和 $\in R^{h^{'}×w^{'}×s^{'}×d^{in}}$ 是3D数据表征。如果 $C = X$ ，3DNA表示对目标 $X$ 的自注意力计算，如果 $C \neq = X$ ，3DNA是目标 $X$ 在条件 $C$ 下的交叉注意力计算。 $W$ 表示可学习矩阵。从 $X$ 下的坐标 $(i, j, k)$ 开始引入 3DNA。通过一个线性映射，在条件 $C$ 下对应的坐标 $i^{'},j^{'},k^{'})$ 是 $(\lfloor i\frac{h^{'}}{h} \rfloor,\lfloor j\frac{w^{'}}{w} \rfloor,\lfloor k\frac{s^{'}}{s} \rfloor)$ 。然后，以 $i^{'},j^{'},k^{'})$ 为中心，宽度，高度，时间范围为 $e^w, e^h, e^s∈R^+$ 的局部邻域定义如公式(7)所示：

其中 $N^{i,j,k} \in R^{e^h×e^w×e^s×d^{in}}$ 是条件 $C$ 的子张量，由 $(i, j, k)$ 需要关注的相应附近信息组成。伴随三个可学习权值 $W^Q、W^K、W^V∈R^{d^{in} ×d^{out}}$ ，位置 $(i, j, k)$ 的输出张量如公式(8) ~(11)所示：

其中 $(i, j, k)$ 位置查询并收集 $C$ 中对应的附近信息。此也能处理 $C = X$ 的情况， $(i, j, k)$ 只查询自身附近的位置。3NDA不仅将完全注意的复杂度从 $O((hws)^2)$ 降低到 $O ((hws) (e^he^we^s))$ ，而且表现出了优越的性能。

3D编码器-解码器

基于 3DNA 构建 3D 编码-解码器。为了在 $C ∈ R^{h^′ ×w^′ ×s^′ ×d^{in}}$ 的条件下生成目标 $Y ∈ R^{h×w×s×d^{out}}$ ， $Y$ 和 $C$ 的位置编码由三个不同的可学习词汇表更新，分别考虑高度、宽度和时间轴，如公式(12)、(13)所示：

然后，将条件 $C$ 输入到一个编码器中，该编码器具有 $L$ 个3DNA层的堆栈，以对自注意相互作用进行建模，第 $l$ 层如公式(14)所示：

同样，解码器也由 $L$ 个3DNA 层的堆叠而成。解码器在生成结果上计算自注意力，在生成结果和条件之间的计算交叉注意力。第 $l$ 层计算如公式(15)所示：

其中 $< i ， < j ， < k$ 表示当前生成的tokens。初始令牌 $V^{(1)}_{0,0,0}$ 是在训练阶段学习的特殊 $< b os >$ token。

训练目标

在文本到图像 (T2I)、视频预测 (V2V) 和文本到视频 (T2V) 三个任务上训练模型。三个任务的训练目标是交叉熵，分别在公式(16)中表示为三个部分所示：

对于T2I和T2V任务， $C^{text}$ 表示文本条件。对于V2V任务，由于没有文本输入，改为获得特殊单词“None”的恒定 3D 表示 $c$ 。 $θ$ 为模型参数。

实验

首先在三个数据集上对NUWA进行预训练：用于文本到图像(T2I)生成的Conceptual Captions数据集，包括290万文本到图像对；用于视频预测(V2V)的Moments in Time数据集，包括727K条视频；用于文本到视频(T2V)生成的VATEX数据集，包括241K条文本到视频对。

实现细节

按前文介绍设置文本、图像和视频的3D表示的大小，如下所示。对于文本，3D表示的大小为 $1 \times 1 \times 77 \times 1280$ 。对于图像，三维表示的尺寸为 $21 \times 21 \times 1 \times 1280$ 。对于视频，3D表示的大小为 $21 \times 21 \times 10 \times 1280$ ，从2.5 fps的视频中采样10帧。尽管默认的视觉分辨率为 $336 \times 336$ ，但对不同的分辨率进行预训练，以便与现有模型进行比较。对于图像和视频的VQ-GAN模型，公式(1)中网格特征 $E (I)$ 的大小为 $441 \times 256$ ，码本 $B$ 的大小为 $12, 288$ 。

不同的稀疏程度用于不同的模态。对于文本，设置 $e^w, e^h, e^s) = (1, 1, ∞)$ ，其中 $\infty$ 表示全文始终用于注意力。对于图像和图像草图， $e^w, e^h, e^s) = (3, 3, 1)$ 。对于视频和视频草图， $e^w, e^h, e^s) = (3, 3, 3)$ 。

在 64 个 A100 GPU 上预训练两周，公式(14)中的层 $L$ 设置为24，使用Adam优化器，学习率为 $1 e - 3$ ，批量大小为128，预热 5% ，总共 50M 步。最终的预训练模型共有 870M 参数。

与SOTA比较

T2I微调

对MSCOCO数据集上的NUWA进行了定量比较(见表1)，定性比较(见图3)。遵循DALL-E设置，分别使用模糊FID评分(FID-k)和Inception score (IS)来评估质量和多样性；同时按照GODIVA，使用CLIPSIM指标，该指标结合了CLIP模型来计算输入文本与生成图像之间的语义相似度。为了公平比较，所有模型都使用 $256 \times 256$ 的分辨率。为每个文本生成60幅图像，并通过CLIP选择最佳图像。表1中，NUWA显著优于CogView，其FID-0为12.9，CLIPSIM为0.3429。尽管XMC-GAN报告了9.3的显著FID分数，但本文发现与XMC-GAN论文中完全相同的样本相比，NUWA生成的图像更真实(见图3)。特别是在最后一个例子中，男孩的脸部清晰，气球也正确生成。

表1 与MSCOCO (256×256)数据集上文本到图像(T2I)任务的最新模型进行定量比较

图3 MSCOCO数据集上文本到图像(T2I)任务与最新模型的定性比较

T2V微调

在Kinetics数据集上对NUWA进行了定量比较(见表2)，定性比较(见图4)。遵循TFGAN，使用FID-img和FID-vid指标上评估视觉质量，在生成视频的标签准确性上评估语义一致性。如表2所示，NUWA在上述所有指标上都达到了最佳性能。图4展示了基于未见文本“playing golf at swimming pool”或“running on the sea”等生成视频的强大zero-shot能力。

表2 与Kinetics数据集上文本到视频(T2V)任务的最先进模型的定量比较 ![在这里插入图片描述](https://img-blog.csdnimg.cn/849f881b944b4c3a977fd6c0a5a45410.png#pic_center) 图4 Kinetics数据集上文本到视频(T2V)任务与最新模型的定性比较

V2V微调

在表3中定量比较了BAIR Robot Pushing数据集上的NUWA。Cond.表示预测未来帧的帧数。为了公平比较，所有模型都使用 $64 \times 64$ 分辨率。尽管只给出一帧作为条件(Cond.)，但NUWA仍然显著地将最先进的FVD分数从94±2推到86.9。

表3 与BAIR(64×64)数据集上视频预测(V2V)任务的最先进模型的定量比较

Sketch-to-Image (S2I) 微调

图5中定性地比较了MSCOCO stuff上的NUWA。与Taming-Transformers和SPADE相比，NUWA生成了各种各样的真实巴士，即使是公共汽车窗口的反射也清晰可见。

图5 MSCOCO stuff数据集上Sketch-to-Image (S2I)任务的最先进模型的定性比较

Image Completion (I2I) zero-shot evaluation

在图6中以zero-shot的方式对NUWA进行定性比较。给定塔的上半部分图片，与Taming Transformers相比，NUWA对塔的下半部分表现出了更丰富的想象，包括建筑、湖泊、花、草、树、山等。

图6 与最先进的图像补全(I2I)任务模型在zero-shot方式的定性比较

Text-Guided Image Manipulation (TI2I) zero-shot evaluation

在图7中以zero-shot的方式对NUWA进行了定性比较。与Paint By Word相比，NUWA显示出强大的操作能力，在不改变图像其他部分的情况下，生成高质量的与文本一致性高的结果。例如，在第三排，由NUWA生成的蓝色消防车更加逼真，而后面的建筑则没有变化。这得益于对各种视觉任务的多任务预训练所学习到的真实世界的视觉模式。另一个优势是NUWA的推理速度，几乎50秒生成图像，而Paint By Words在推理过程中需要额外的训练，大约需要300秒才能收敛。

图7 与最先进的文本引导图像处理(TI2I)模型在zero-shot方式的定性比较

Sketch-to-Video (S2V) fine-tuning and Text-Guided Video Manipulation (TV2V) zero-shot evaluation

开放域S2V和TV2V是本文首次提出的任务。由于没有比较，将在消融研究中讨论。录中提供了更详细的比较，包括人工评估的样本。

消融实验

表4的上述部分显示了不同VQ-VAE (VQ-GAN)设置的有效性。在ImageNet和OpenImages上进行了实验。 $R$ 表示原始分辨率， $D$ 表示离散标记的数量。压缩率记作 $F_x$ ，其中 $x$ 是 $\sqrt{R}$ 除以 $\sqrt{D}$ 的商。比较表4的前两行，VQ-GAN显示出明显优于VQ-VAE的初始化距离(FID)和结构相似矩阵(SSIM)得分。比较第2-3行，发现离散tokens的数量是导致更高视觉质量的关键因素，而不是压缩率。虽然第2行和第4行具有相同的压缩率F16，但它们的FID评分不同，分别为6.04和4.79。因此，重要的不仅是对原始图像进行了多少压缩，还包括使用了多少离散的tokens来表示图像。这符合认知逻辑，用一个token来表示人脸太模糊了。实际上，发现162个离散的tokens通常会导致较差的性能，特别是对于人脸，而322个标记表现出最佳性能。然而，更多的离散tokens意味着更多的计算，特别是对于视频。最终在预训练中使用了一个折衷方法：212个令牌。通过在Open Images数据集上的训练，进一步将212版本的FID分数从4.79提高到4.31。

表4 不同VQ-VAE (VQ-GAN)设置的有效性

表4的下一部分显示了草图VQGAN的性能。MSCOCO上的VQ-GAN-Seg训练用于素描到图像(S2I)任务，VQ-GAN-Seg训练用于VSPW上的VQ-GAN-Seg训练用于素描到视频(S2V)任务。所有骨干网络在像素精度(PA)和频率加权交联(FWIoU)方面都表现出良好的性能，这表本文模型中使用的3D草图表示质量很好。图8还显示了 $336 \times 336$ 图像和草图的一些重构样本。

图8 VQ-GAN和VQ-GAN-Seg的重建样本

表5显示了文本到视频(T2V)生成任务的多任务预训练效果。本文研究了一个具有挑战性的数据集，MSR-VTT，具有自然描述和真实世界的视频。与只训练单一T2V任务(第1行)相比，同时训练T2V和T2I任务(第2行)将CLIPSIM从0.2314提高到0.2379。这是因为T2I有助于在文本和图像之间建立联系，从而有助于T2V任务的语义一致性。相比之下，T2V和V2V(第3行)的训练使FVD得分从52.98提高到51.81。这是因为V2V有助于学习一种常见的无条件视频模式，因此有助于T2V任务的视觉质量。作为NUWA的默认设置，在所有三个任务上进行训练可以达到最佳性能。

表5 MSRVTT数据集上文本到视频(T2V)生成任务多任务预训练的有效性

表6显示了在VSPW数据集上，3D Nearby Attention对Sketch-to-Video (S2V)任务的有效性。本文之所以研究S2V任务，是因为该任务的编码器和解码器都输入了3D视频数据。为了评估S2V的语义一致性，提出了一种名为Detected PA的新度量，它使用语义分割模型对生成的视频的每一帧进行分割，然后计算生成的片段与输入视频草图之间的像素精度。最后一行的默认NUWA设置，nearby编码器和nearby解码器，可以实现最佳的FID-vid和检测到的PA。如果将编码器或解码器中的任何一个替换为full attention，则性能会下降，这表明关注附近的条件和附近生成的结果比简单地考虑所有信息要好。在两层比较了邻近稀疏和轴向稀疏。首先，邻近稀疏的计算复杂度为 $O ((hws) (e^he^we^s))$ ，轴对称稀疏注意力为 $O ((h w s) (h + w + s))$ 。对于生成长视频(更大的视频)，nearby-sparse算法的计算效率更高。其次，在视觉生成任务中，邻近稀疏比轴稀疏具有更好的性能，这是因为邻近稀疏关注包含空间轴和时间轴相互作用的“nearby”位置，而轴稀疏则单独处理不同轴，只考虑同一轴上的相互作用。

表6 基于VSPW数据集的S2V (Sketch-to-Video)任务的三维邻近注意有效性

图9显示了本文提出的一个新任务，称之为“文本引导视频操作(TV2V)”。TV2V的目标是改变一个视频的未来，从一个选定的帧开始，以文本为指导。所有的采样从第二帧开始改变视频的未来。第一行显示的是原始视频帧，一个潜水员在水里游泳。将“The diver is swimming to the surface”输入到NUWA的编码器中，并提供第一视频帧后，NUWA成功生成了第二行潜水员向水面游去的视频。第三行显示了另一个成功的样本，让潜水员游到底部。如果想让潜水员飞向天空呢？第四行显示，NUWA也可以做到，潜水员像火箭一样向上飞行。

图9 同一视频中不同操作的样本

结论

本文提出NUWA作为一个统一的预训练模型，可以为8个视觉合成任务生成新的或操纵现有的图像和视频。这里做出了一些贡献，包括：

同时覆盖文本，图像和视频的通用3D编码器/解码器框架
考虑了空间轴和时间轴的邻近特征的邻近-稀疏注意机制
8项综合任务的综合实验

NL2SQL 优化之 Schema 编写标准 kakaZhui oracle 数据库 AIGC python llama chatgpt
写在前面在自然语言转SQL（NL2SQL，或Text-to-SQL）任务中，数据库Schema的质量和表示方式对模型的性能有着至关重要的影响。一个清晰、规范、易于理解的Schema能够帮助模型更好地理解数据库结构，从而生成更准确的SQL查询。相反，一个混乱、不规范的Schema会增加模型的理解难度，导致生成的SQL查询错误百出。本文将深入探讨NL2SQL任务中Schema的编写标准，详细介绍如何为
在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件 David WangYang 硬件工程
介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
常见Linux指令详解：新手入门指南 PS下载安装免费教程 Linux linux 网络服务器
一、文件和目录管理1.ls：列出目录内容功能：显示指定目录中的文件和文件夹。常用选项：-l：以详细列表形式显示-a：显示所有文件，包括隐藏文件-h：以人类可读的格式显示文件大小示例：ls-lh/home/user2.cd：改变当前工作目录功能：切换当前的工作目录。示例：cd/var/www3.mkdir：创建新目录功能：创建一个或多个新目录。示例：mkdirmy_projectmkdir-ppro
Centos离线安装gcc 为什么要做囚徒 linux运维 linux centos linux 运维
文章目录Centos离线安装gcc1.gcc是什么？2.gcc下载地址3.gcc的安装4.安装结果验证Centos离线安装gcc1.gcc是什么？GCC（GNUCompilerCollection）是GNU项目下的开源编译器套件，主要用于将C、C++等编程语言的源代码编译成可执行程序或库2.gcc下载地址gcc整体打包下载地址CentOS-7所有rpm包的仓库地址：bzip2-devel-1.0.
【免费】1952-2020年全国人均GDP数据 2501_90487648 数据 #全国全国人均GDP
1952-2020年全国人均GDP数据1、时间：1952-2020年2、来源：国家统计局、统计年鉴3、指标：全国人均GDP4、范围：全国层面5、指标解释：人均GDP（GrossDomesticProductpercapita）是指一个国家或地区在一定时期内（通常为一年）创造的国内生产总值（GDP）与该地区人口总数的比值。它是衡量国家经济发展水平和居民生活水平的重要指标之一。6、下载链接：1952-
【算法学习之路】12.DFS 零零时算法学习之路深度优先算法学习 c++开发语言数据结构全排列
DFS前言一.DFS简介二.思路三.缺点四.三种类型五.题目1.2前言我会将一些常用的算法以及对应的题单给写完，形成一套完整的算法体系，以及大量的各个难度的题目，目前算法也写了几篇，题单正在更新，其他的也会陆陆续续的更新，希望大家点赞收藏我会尽快更新的！！！一.DFS简介1.深度优先搜索，是一种用于遍历或搜索树或图的算法。所谓深度优先，就是说每次搜尝试向更深的节点走。2.在搜索算法中，该DFS常常
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
《解锁元宇宙构建：AI与云原生区块链的协同奥秘》程序猿阿伟人工智能云原生区块链
在科技飞速发展的今天，元宇宙已从最初的概念设想逐渐步入人们的视野，成为全球瞩目的焦点。元宇宙，这个融合了虚拟与现实、跨越时空界限的数字世界，正以其独特的魅力和无限的潜力，引领着新一轮的科技革命和产业变革。而在这场变革的背后，AI与云原生区块链技术宛如两颗璀璨的明星，交相辉映，为元宇宙的构建提供了不可或缺的关键支撑。AI：赋予元宇宙“智慧灵魂”智能内容生成，丰富元宇宙的“物质基础”在元宇宙的广袤世界
【C++】：位图（bitset） -元清- 重制C++版 c++开发语言 c语言数据结构算法
目录位图的概念位图的应用场景位图的构造函数位图的使用位图的概念位图（Bitmap）是一种基于二进制位（bit）的高效数据结构，用于表示一组布尔值（存在或不存在、真或假）。它的核心思想是：用每一个二进制位（0或1）来标记某个状态或资源是否被占用。第i位为1→表示第i个元素存在/被占用。第i位为0→表示第i个元素不存在/未被占用。关键特性：内存高效：每个布尔值仅占用1个二进制位（bit），而非传统布尔
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
Mininet树形拓扑解析漫谈网络网络技术进阶通途网络 mininet sdn nfv
在Mininet中，tree,depth,fanout用于定义树形拓扑的参数，其中：depth：树的深度（层数），包括根节点所在的层。fanout：每层节点的分叉数（每个节点连接的子节点数量）。对于tree,4,3，即深度为4，分叉数为3，其节点生成规则如下：一、拓扑参数定义depth=4：交换机的层级数（根为第1层，共4层交换机）。fanout=3：每台交换机（非最后一层）连接3台子交换机或主机
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
vue3当中使用Pinia的store的组件化开发模式堕落年代 vue vue.js
一、安装与初始化安装Pinianpminstallpinia#或yarnaddpinia目的：引入Pinia核心库，为状态管理提供基础支持。挂载Pinia实例在main.js中初始化并注入Vue应用：import{createApp}from'vue'import{createPinia}from'pinia'importAppfrom'./App.vue'constapp=createApp(A
MyBatisPlus 代码生成器如何使用？一篇文章学会它！！！程序猿ZhangSir Java 数据库 #MyBatis java spring 数据库
目录一.MP代码生成器简介二.准备工作2.1建立数据库和表2.1创建项目三.编写工具类3.1创建类3.2定义数据库连接变量3.3定义单表代码生成函数3.4扩展为任意表自动生成代码四.测试代码生成器4.1测试单表生成model方法一.MP代码生成器简介代码生成器是MyBatis-Plus提供的一个非常实用的功能，可以快速生成Entity、Mapper、MapperXML、Service、Contro
印度、马来股票K线接口与实时数据对接文档金融数据出海数据分析金融 python3.11 数据库
概述本文档旨在为开发者提供关于如何使用StockTVAPI获取特定股票或指数的K线数据（即OHLCV数据，包括开盘价、最高价、最低价、收盘价以及成交量），以及如何通过WebSocket(WS)获取实时市场数据的详细指南。通过本文档，您将了解到如何构造请求URL，解析返回的数据，以及一些实用的应用场景示例。K线接口说明请求方法GET请求URLhttps://api.stocktv.top/stock
Java开发者必看！零成本集成DeepSeek-R1打造AI办公神器，源码级实战教程让你效率翻倍！ Leaton Lee java 人工智能开发语言
目录开篇互动一、为什么是DeepSeek-R1？它凭什么碾压传统AI工具？二、手把手部署DeepSeek-R1本地环境（附避坑指南）步骤1：Docker一键部署步骤2：下载模型步骤3：验证部署三、Java整合DeepSeek-R1：从理论到实战1.添加HTTP客户端依赖（以SpringBoot为例）2.封装AI工具类（核心代码解析）3.实战场景1：自动生成周报（附Prompt技巧）四、高阶玩法：A
DeepSeek + 药物研发：解决药物研发周期长、成本高-降低80%、失败率高-减少40% Debroon 医疗大模型研发 +慢病逆转人工智能深度学习
DeepSeek+药物研发：解决药物研发周期长、成本高-降低80%、失败率高-减少40%论文大纲1.WHY——研究背景与现实问题1.1研究要解决的现实问题与提出背景1.2研究所要解决的问题类别1.3正反例对比关联：和前人的工作有什么关系？3.总结归纳3.1总结收获3.2探索思考4.WHAT——核心发现或论点5.HOW——研究过程、创新与关键数据6.HOWGOOD——理论贡献与实践意义解法拆解1.1
列出0 racle Forms配置文件？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
OracleForms配置文件OracleForms应用程序的配置涉及到多个文件，这些文件用于定义运行时环境、数据库连接、安全设置等。以下是与OracleForms相关的常见配置文件：1.formsweb.cfg位置：通常位于/forms/server/formsweb.cfg或WebLogic域中的指定目录。用途：此文件包含启动Forms应用所需的各种参数和属性，如表单模块名称、数据库连接字符串
【Kafka】Kafka写入数据此木|西贝 Kafka kafka 分布式
不管是把Kafka作为消息队列还是数据存储平台，总是需要一个可以往Kafka写入数据的生产者，一个可以从Kafka读取数据的消费者。生产者创建一个ProducerRecord对象，包含目标topic和发送的内容；另外可以指定键、分区、时间戳或标头对数据进行分区；如果没有显示指定分区，数据将会传给分区器，确定往哪个主题和分区发送数据。消息添加到一个消息批次，该批次所有的消息被发送到同一个主题和分区；
HTML音频、视频--课后作业实践 Heetun html5
浅学了web一段时间，用浅显的知识做了一个小小的实践，各位大佬们多多包涵，指正。主要知识重现：标记语法：src:设置媒体文件的路径width、height:设置媒体文件的宽度、高度autostart:逻辑值，true为自动播放；false为不自动播放loop:逻辑值，true自动循环播放；false不循环播放2.CSS的内部样式表选择器1{属性1：属性值1；属性2：属性值2；......}选择器2
Spring 导入 XML 配置文件：@ImportResource JiaHao汤 Spring spring xml java springboot spring boot 后端
@ImportResource是位于org.springframework.context.annotation包中的一个注解。@ImportResource用于导入XML配置文件，作用是让Spring容器加载指定的XML配置文件，并将其中定义的Bean注册到Spring容器中，以便在应用程序中使用。使用@ImportResource注解可以将一个或多个XML配置文件导入到Spring应用程序上下
深入理解 TypeScript 中的迭代器（Iterators）与生成器（Generators）念九_ysl typescript 前端 typescript
一、为什么需要迭代协议？在现代JavaScript/TypeScript开发中，我们经常需要处理各种集合型数据：数组、Map、Set甚至是自定义数据结构。ES6引入的迭代协议（IterationProtocols）正是为了解决统一遍历机制的问题。通过迭代器模式，我们可以：为不同的数据结构提供统一的访问接口实现惰性计算（LazyEvaluation）支持现代语言特性（for...of,扩展运算符等）
Neo4j GDS-02-graph-data-science 简单聊一聊图数据科学插件库后端java
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilter是什么？
程序员不用写代码？DeepSeek这个隐藏功能让我惊掉下巴后端
凌晨三点半，显示器蓝光映着我的黑眼圈。就在我第18次修改接口文档时，同事老王突然在微信甩来个神秘链接："用这个，今晚能睡个好觉"。我点开那个叫DeepSeek的页面，没想到接下来的三个小时，我经历了职业生涯最魔幻的加班夜。你见过会自己写测试用例的AI吗？那天晚上，我把项目需求文档往DeepSeek的对话框一扔，它竟然像资深架构师似的，先把需求拆解成模块，接着自动生成了带注释的接口文档。最绝的是，在
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
2025年从DeepSeek到Manus：AI如何重塑企业价值报告600+份汇总解读|附PDF下载
原文链接：https://tecdat.cn/?p=41172当前全球AI技术正从实验室走向产业化深水区，本报告以企业价值重构为核心，通过技术演进路径、行业竞争范式、落地实施策略三大维度，揭示AI如何从成本中心转变为价值引擎。数据显示，2025年生成式AI在中国创造的潜在经济价值达2万亿美元，其中制造业、电子行业生产力增益最为显著。本报告汇总解读基于《发布机构：华中科技大学数智管理与传播研究团队、
css知识点总结吃橘子的Crow css html 前端
1.css概述css是CascadingStyleSheets(级联样式表)css是一种样式表语言,用于为HTML文档控制外观,定义布局.可将页面的内容与表现形式分离,页面内容存放在HTML文档中,而用于定义白线形式的css在一个.css文件中或HTML文档的某一部分HTML如同网页的骨架,css如同修饰骨架的装饰品(样式)2.基本语法1.行内样式表行内样式表,又称内联样式、行间样式、内嵌样式。是
工业相机的主要参数及计算 51camera 工业相机
工业相机是机器视觉系统中的关键组件，其本质是将光信号转变为有序的电信号，进而实现数字图像的获取，广泛应用于工业生产、检测、测量等领域。其成像原理与小孔成像类似，但更为复杂。当被摄物体反射的光线通过工业镜头折射后，会投射到相机的感光传感器上，这个感光传感器通常是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。dalsanano系列工业相机1、工作原理图像采集：通过镜头收集被拍摄物体反射或透
实现音视频播放功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于Avplayer构建了一个音视频播放器，包括音视频的播放、暂停、全屏播放、倍速播放、快进等基本操作。实现音视频播放功能源码链接效果预览使用说明打开应用，展示视频播放器，选择不同按钮进行不同操作。切换音频，展示音频播放器，选择不同按钮进行不同操作。实现思路AVPlayer播放主流程播放的全流程包含：创建AVPlayer，设置播放资源，设置播放参数（音量/倍
高输出红外光源的特点及应用 51camera 工业光源红外光源机器视觉
我们都知道光源在机器视觉系统中起着重要作用，能够影响成像效果，今天我们来看看红外光源。红外光是指波长比可见光中的红光长并且肉眼看不到的光。与可见光的红光相比，红外光的散射率较低，但透射率较高，因此，可用于透过印刷图案或液体的成像。红外LED的优点LED照射的红外光仅拥有特定波长范围的能量,与卤素光源相比,照射热极少。因此,对象物不易因热能而受损。红外光源成像实例（以ccs光源为例）1、1000nm
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str