菜鸡不叫

【FLIP】一种用于训练CLIP的简单而有效的方案

FLIP

Paper : Scaling Language-Image Pre-training via Masking

Author : Yanghao Li , Haoqi Fan , Ronghang Hu , Christoph Feichtenhofer , Kaiming He

Affiliation : Meta AI, FAIR

Publication : CVPR-2023

Code : https://github.com/facebookresearch/flip

1 前言

作者提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得CLIP可以在有限周期内学习到更多的image-text数据对，同时占有更少的内存。所提方案取得了更好的精度与训练时间均衡，相比无Mask基线方案，所提FLIP在精度与训练速度方面具有大幅改善。

1.1 动机

语言监督的视觉预训练，例如 CLIP 已确立为一种简单而强大的学习表示方法。但是由于视觉加语言的复杂性，大规模训练对于语言监督模型的能力至关重要。（例如，原始的 CLIP 模型使用 4 亿数据进行了 32 个周期的训练，相当于 10,000 个 ImageNet 周期，需要数千个 GPU 天 [52, 36]。）因此，需要一个高效的CLIP 训练方法。

1.2 相关工作

掩码学习

十多年前，带有掩蔽噪声的去噪自动编码器被提出作为一种无监督表示学习方法。其最突出的应用之一是以BERT为代表的屏蔽语言建模。

掩蔽自动编码器（MAE）方法进一步利用掩蔽来减少训练时间和内存。 MAE 将 ViT 编码器稀疏地应用于可见内容。并且观察到高掩蔽比有利于准确性。

FLIP 与 MAE 及其视觉语言扩展相关。然而，重点是稀疏计算所支持的缩放方面；解决了大规模 CLIP 训练的挑战。 MoCo 或 BYOL 研究了通过掩蔽加速训练的自监督对比学习，但是准确率受缩放方式或者仅图像的对比学习的限制。

语言监督学习

在过去的几年中，CLIP 和相关工作已经普及了通过语言监督学习视觉表示。CLIP 是一种通过比较图像-文本样本对进行对比学习的形式。除了对比学习之外，还探索了生成学习方法，并可选择与对比损失相结合。

2 方法

简而言之，FLIP 只是屏蔽了 CLIP 训练中的输入数据并减少了计算量。

FLIP 认为屏蔽的好处在于明智地花费计算。直观上，这导致了FLIP对样本进行编码的密集程度与使用多少样本作为学习信号进行比较之间的权衡。通过引入掩蔽，可以：

（i）在相同的挂钟训练时间下从更多的图像文本对中学习

（ii）在相同的内存约束下使用更大的批次进行对比学习。

通过实验表明，对于这两个方面，FLIP 在权衡中都具有优势。

2.1 图像掩码

采用 ViT 作为图像编码器。图像首先被划分为不重叠的 patch。随机屏蔽掉大部分（例如 50% 或 75%）的 patch ； ViT 编码器仅应用于可见 patch。

使用50%（或75%）的掩码比将图像编码的时间复杂度降低到1/2（或1/4）；它还允许使用 2 倍（或 4 倍）较大的批次，并使用相同的内存成本进行图像编码。

2.2 文字掩码

与图像掩码采用相同的方式执行文本掩码。FLIP 屏蔽了一部分文本标记，并将编码器仅应用于可见标记。这与 BERT 不同，BERT 用学习到的掩码标记替换它们。这种稀疏计算可以降低文本编码成本。然而，由于文本编码器较小，加速它并不会带来更好的整体权衡。研究文本屏蔽仅用于消融。

2.3 Objective

图像/文本编码器经过训练以最小化对比损失。对比学习的负样本对由同一批次中的其他样本组成。据观察，大量负样本对于图像的自监督对比学习至关重要，这一特性在语言监督学习中更为突出。

与 MAE 不同，FLIP 不使用重建损失。

作者发现重建对于零样本迁移的良好性能来说并不是必需的。放弃解码器和重建损失会产生更好的加速。

2.4 unmasking

虽然编码器是在掩码图像上进行预训练的，但它可以直接应用于完整图像而无需更改，这种简单的设置足以提供有竞争力的结果，并将作为消融实验的baseline。

为了弥补掩蔽造成的分布差距，可以将掩码率设置为0%，并继续进行少量步骤的预训练。这种unmasking 调整策略产生了更有利的精度/时间权衡。

3 实现

FLIP 实现遵循 CLIP 和 OpenCLIP ，并进行了一些修改。

图像编码器遵循 ViT 。在补丁嵌入后不使用额外的 LayerNorm。使用全局平均池化。输入大小为 224。
文本编码器是一个非自回归 Transformer ，它更容易适应文本掩码以进行消融。作者将序列填充或剪切为固定长度 32。
图像编码器和文本编码器的输出通过线性层投影到相同维度的嵌入空间。嵌入的余弦相似度由可学习的 temperature 参数缩放，是 InfoNCE 损失的输入。
在零样本迁移中，遵循《Learning transferable visual models from natural language supervision》代码中的提示工程。使用他们提供的 7 个提示模板进行 ImageNet 零样本传输。
实现基于 JAX 和 t5x 库，用于大规模分布式训练。作者的训练在 TPU v3 基础设施上运行

4 实验

4.1 消融实验

图像编码器是 ViT-L/16 ，文本编码器具有较小的尺寸。作者在 LAION-400M 上进行训练，并在 ImageNet-1K 验证中评估零样本精度。

表中显示了 6.4 个时期训练的消融。图中绘制了最多 32 个时期的权衡。除非另有说明，结果是在 256 个 TPU-v3 核心上进行基准测试的。

4.1.1 掩码率

在这里，相应地缩放批量大小（接下来将被消融），以便大致保持内存占用量。10% 掩码条目表示作者的 CLIP 对应项。掩码 50% 的准确度比 CLIP baseline高 1.2%，掩码 75% 与baseline相当。就速度而言， FLIP 大幅减少，屏蔽 50% 或 75% 仅需要 0.50× 或 0.33× 挂钟训练时间。

4.1.2 批量大小

作者消除了表 1b 中批量大小的影响，增加批量大小可以持续提高准确性。

值得注意的是，即使使用相同的批量大小 16k，FLIP 的 50% 掩码条目也具有与 0% 掩码baseline（68.6%，表 1a）相当的准确度（68.5%，表 1b）。掩码引入的正则化可能可以减少过度拟合，部分抵消在此设置中丢失信息的负面影响。当掩码率高达 75% 时，在保持批量大小不变的情况下，仍然可以观察到负面影响。

作者基于掩码的方法自然鼓励使用大批量。如们根据掩码比扩大批量大小，则几乎不会产生额外的内存成本，如表 1a 中所示。实际上，可用内存始终是较大批次的限制。例如，表 1a 中的设置已达到作者高端基础设施中的内存限制（256 个 TPU-v3 核心，每个核心 16GB 内存）。如果使用较少的设备，内存问题会更加苛刻，作者的方法的增益将是由于批量大小几乎自由增加，这一点更加突出。

4.1.3 文本掩码

表 1c 研究了文本掩码。随机掩码 50% 的文本会使准确度降低 2.2%。这与语言数据比图像数据具有更高的信息密度一致，因此文本掩码率应该更低。

当可变长度文本序列被填充以生成固定长度批次时，可以优先屏蔽填充tokens。优先采样比随机均匀地掩码填充序列保留更多有效信息的标记。它将下降率降低至 0.4%。

虽然作者的文本掩码比典型的掩码语言模型更有效，但总体速度增益是微乎其微的。这是因为文本编码器较小并且文本序列较短。与图像编码器（无掩码）相比，文本编码器的计算成本仅为 4.4%。在这种设置下，文本屏蔽不是一个值得的权衡，作者在其他实验中不会掩码文本。

4.1.4 推理unmasking

默认情况下，作者对模型使用完整图像进行推理。虽然会在训练和推理之间产生分布偏移，但简单地忽略这种偏移效果出人意料地好（表 1d，“无掩码”），即使在从未对完整图像进行训练的零样本设置下也是如此。

表 1d 报告说，如果在推理时使用掩码，准确性会下降很多（例如 7.3%）。这种下降可能是由于推理时的信息丢失造成的，因此作者还与集成多个屏蔽视图进行比较，其中视图彼此互补并放在一起覆盖所有patch。集成缩小了差距（表1d），但仍然落后于简单的全视图推理。

4.1.5 Unmasking 微调

到目前为止，消融实验不涉及Unmasking 微调。表 1e 报告了在预训练数据集上进行额外 0.32 epoch 的无掩码调整的结果。在 75% 的高掩码率下，准确率提高了 1.3%，这表明这种调整可以有效减少预训练和推理之间的分布差距。

图 3中绘制了受未掩码调整影响的权衡（实线与虚线）。Unmasking 微调会带来更多的效果

4.1.6 重建

在表 1f 中，研究添加重建损失函数。重建头遵循MAE中的设计：它有一个小型解码器并重建归一化图像像素。重建损失被添加到对比损失中。

表 1f 显示重建对零短路结果有较小的负面影响。作者还看到 ImageNet 上的微调精度有类似的下降，，虽然这可能是次优超参数（例如，平衡两个损失）的结果，但为了简单起见，作者决定不使用重建损失。放弃重建头还有助于简化系统并提高准确性/时间权衡。

4.1.7 time VS accuracy 权衡

图中详细介绍了准确性与训练时间的权衡。将时间表扩展到最多 32 个时期。

如图所示，FLIP 显然比 CLIP 具有更好的权衡。它可以达到与 CLIP 相似的精度，同时享受 >3 倍的加速。使用相同的 32 epoch 计划，作者的方法比 CLIP 方法准确约 1%，速度快 2 倍（掩码 50%）。

CLIP baseline需要在 256 个 TPU-v3 核心上进行大约 10 天的训练，因此 2-3 倍的加速可以节省很多天的挂钟时间。

4.2 与CLIP的对比实验

在本节中，将在各种场景中与各种 CLIP baseline进行比较。证明FLIP方法是 CLIP 的有竞争力的替代方案

作者考虑以下 CLIP baseline：

• 原始 CLIP baseline，在私有数据集 WIT-400M 上进行训练。

• OpenCLIP ，在 LAION-400M 上进行训练。

• FLIP 再现，在LAION-400M 上进行训练。

原始的 CLIP 是在私有数据集上进行训练的，因此与其直接应该比较反映数据的效果，而不仅仅是方法。 OpenCLIP 是 CLIP 的忠实再现，但在作者可以使用的公共数据集上进行了训练，因此它对作者隔离数据集差异的影响是一个很好的参考。作者的 CLIP 再现进一步有助于隔离其他实现的微妙之处，并使作者能够查明 FLIP 方法的效果。

4.2.1 ImageNet 零样本传输

在表 2 中，FLIP与 ImageNet-1K 零样本传输的 CLIP 基线进行了比较。

作为健全性检查，作者的 CLIP 再现的准确性比在相同数据上训练的 OpenCLIP 稍高。

原始 CLIP 比作者的复制和 OpenCLIP 具有更高的准确性，这可能是由于预训练数据集之间的差异造成的。

表 2 报告了作者的 FLIP 模型的结果，使用了作者在表 1 中消除的最佳实践（64k 批次、50% 掩蔽比和无掩蔽调整）。对于 ViT-L/14,3，作者的方法具有 74.6% 的准确度，比 OpenCLIP 高 1.8%，比作者的 CLIP 再现高 1.5%。与原始 CLIP 相比，作者的方法将差距缩小到 0.7%。如果作者的方法是在 WIT 数据上进行训练的，作者认为作者的方法能够改善原始 CLIP 结果。

4.2.2 ImageNet 线性探测

表 3 比较了linear probe结果，即在具有冻结特征的目标数据集上训练线性分类器。 FLIP 的准确率达到 83.6%，比 CLIP 的准确率高 1.0%。它也比作者使用相同的 SGD 训练器传输原始 CLIP 检查点高 0.6%。

4.2.3 ImageNet 微调

表 3 还比较了完整的微调结果。作者的微调实现遵循 MAE ，针对每个条目调整学习率。值得注意的是，通过作者的微调方法，原始 CLIP 检查点达到 87.4%，远高于之前关于该指标的报告。 CLIP 在微调下仍然是一个强大的模型。

FLIP 的性能优于在相同数据上预训练的 CLIP 模型。使用作者的微调配方，作者的结果为 86.9%（或使用 L/14 为 87.1%），但落后于原始 CLIP 检查点 87.4% 的结果。

4.2.4 对更多数据集进行零样本分类

在表 4 中，作者额外数据集进行了比较。由于结果可能对评估实施（例如文本提示、图像预处理）敏感，因此作者提供对原始 CLIP 检查点和 OpenCLIP 的评估。

值得注意的是，作者观察到由预训练数据造成的明显系统差距，使用相同的评估代码进行基准测试。 WIT 数据集对某些任务（例如 Aircraft、Country211、SST2）有益，而 LAION 对其他一些任务（例如 Birdsnap、SUN397、Cars）有益。

在隔离预训练数据的影响后，作者观察到 FLIP 明显优于 OpenCLIP 和作者的 CLIP 再现，如表 4 中的绿色标记。

4.2.5 零样本检索

表 5 报告了 Flickr30k 和 COCO 上的图像/文本检索结果。 FLIP 优于所有 CLIP 竞争对手，包括原始 CLIP（在相同的 224 尺寸上评估）。对于这两个检索数据集，WIT 数据集比 LAION 没有优势。

4.2.6 零样本稳健性评估

在表 6 中，作者对稳健性评估进行了比较。作者再次观察到由预训练数据引起的明显的系统差距。使用相同的评估代码（表 6 中的“作者的评估”），在 WIT 上预训练的 CLIP 明显优于在 LAION 上预训练的其他条目。以 IN-Adversarial (IN-A) 为例：基于 LAION 的 OpenCLIP的准确率仅为 48.3%（或报告的 46.6%）。虽然 FLIP (51.2%) 可以大幅优于基于 LAION 的 CLIP，但仍比基于 WIT 的 CLIP (71.9%) 低 20%。

考虑到预训练数据的影响，作者的 FLIP 训练在所有情况下都明显比 CLIP 训练具有更好的鲁棒性。作者假设掩蔽作为噪声和正则化的一种形式可以提高鲁棒性

4.2.7 图像Caption

请参阅表 7 了解 COCO和 nocaps 上的字幕性能。作者的Caption实现遵循交叉熵训练基线。与预训练后仅添加分类器层的分类不同，这里的微调模型具有新初始化的Caption器（详见附录）。在此任务中，FLIP 在多个指标上都优于原始 CLIP 检查点。与作者在相同数据上进行预训练的 CLIP 基线相比，FLIP 也显示出明显的增益，特别是在 BLEU-4 和 CIDEr 指标方面。

4.2.8视觉问答

作者对 VQAv2 数据集 [26] 进行评估，并按照进行微调设置。作者使用新初始化的多模态融合变压器和答案分类器来获得 VQA 输出（详见附录）。表 7（最右列）报告了 VQAv2 的结果。在 LAION 上预训练的所有条目表现相似，在 WIT 上预训练的 CLIP 是最好的。

4.2.9 摘要

在各种场景中，FLIP 明显优于在相同 LAION 数据上预训练的 CLIP 对应物（OpenCLIP 和作者的复制品），在某些情况下差距很大。

正如在许多下游任务中观察到的那样，WIT 数据和 LAION 数据之间的差异可能会造成巨大的系统差距。作者希望作者的研究能够在未来的研究中引起人们对这些数据依赖性差距的关注。

4.3 Scaling Behavior

作者沿着这三个轴之一研究缩放：

• 模型缩放。作者用 ViT-H 替换 ViT-L 图像编码器，它有 ∼2× 参数。文本编码器也会相应地缩放。

• 数据缩放。作者使用 LAION-2B 集将预训练数据从 4 亿扩展至 20 亿。为了更好地将更多数据的影响与更长训练的影响分开，作者固定采样数据的总数（12.8B，相当于400M数据的32个epoch和2B数据的6.4个epoch）。

• 计划扩展。作者将采样数据从 12.8B 增加到 25.6B（400M 数据的 64 个 epoch）。

作者每次都研究沿着这三个轴之一的缩放，同时保持其他轴不变。结果总结在图 4 和表 8 中。

4.3.1 训练曲线

三种缩放策略在训练曲线上表现出不同的趋势（图 4）。

模型缩放（图 4a）呈现出在整个训练过程中持续存在的明显差距，尽管最终差距较小。

另一方面，数据缩放（图 4b）在训练的前半部分表现类似，但后来开始呈现良好的增益。

请注意，此设置中没有额外的计算成本，因为作者控制采样数据的总数。

时间表缩放（图 4c）训练时间延长 2 倍。为了提供更直观的比较，作者绘制了一条沿 x 轴（虚线）重新缩放 1/2 的假设曲线。尽管训练时间更长，但收益正在减少或没有（更多数字见表 8）。

4.3.2 可转移性

表 8 提供了有关扩展行为的各种下游任务的全面比较。总体而言，模型扩展和数据扩展在所有指标中都可以始终优于基线，在某些情况下甚至大幅优于基线。

作者将下游任务分为两种场景：

（i）零样本迁移，即不对下游数据集进行学习；

(ii) 迁移学习，即部分或全部权重在下游数据集上进行训练。

对于这里研究的任务，数据扩展通常有利于零样本迁移，而模型扩展通常有利于迁移学习。然而值得注意的是，迁移学习的性能取决于下游数据集的大小，在太小的下游数据集上训练大模型仍然会面临过拟合的风险。

令人鼓舞的是，数据扩展显然是有益的，甚至不需要更长的训练或额外的计算。相反，即使通过计划扩展花费更多的计算也会带来收益递减。这些比较表明，大规模数据的好处主要是因为它们提供了更丰富的信息。

接下来，作者缩放模型和数据（表 8，倒数第二行）。对于所有指标，模型+数据扩展比单独扩展有所改进。模型缩放和数据缩放的收益是高度互补的：例如，在零样本 IN-1K 中，单独的模型缩放比基线提高了 1.2% (74.3%→75.5%)，单独的数据缩放提高了 1.5% (74.3 %→75.8%）。缩放比例均提高了 3.3% (77.6%)，超过两个增量的总和。在其他几个任务中也观察到这种行为。这表明更大的模型需要更多数据来释放其潜力。

最后，作者报告所有三个轴的联合扩展（表 8，最后一行）。作者的结果表明，结合计划扩展可以提高大多数指标的性能。

这表明，当与更大的模型和更大规模的数据相结合时，计划扩展特别有益。

作者在零样本 IN-1K 上的结果为 78.8%，优于使用 ViTH 在公共数据上训练的最先进结果（OpenCLIP 的 78.0%）。同样基于 LAION-2B，他们的结果是用 32B 采样数据训练的，比作者多 1.25 倍。鉴于作者使用 50% 的掩蔽，如果两者都在相同的硬件上运行，作者的训练预计比他们快 2.5 倍。由于 OpenCLIP 的结果报告训练成本为 ∼5,600 个 GPU 天，给予一个粗略的估计作者的方法可以节省 ∼3,360 个 GPU 天。此外，在不启用 2 倍调度的情况下，作者的“模型+数据扩展”条目估计比他们快 5 倍，并且可以节省约 4,480 个 GPU 天。这是相当大的成本降低。

5 讨论和总结

自然语言是比经典封闭式标签更强的监督形式。语言为监督提供了丰富的信息。因此，增加容量（模型扩展）和增加信息（数据扩展），对于在语言监督训练中获得良好结果至关重要。

CLIP 的简单设计使其能够相对容易地在更大的规模上执行，并且与之前的方法相比实现了巨大的飞跃。FLIP在很大程度上保持了 CLIP 的简单性，同时进一步推动其在缩放方面的发展。

FLIP 可以提供 2-3 倍甚至更多的加速。对于本研究中涉及的规模，这种加速可以大量减少挂钟时间（例如，大约数千个 TPU/GPU 天）。

FLIP研究涉及与各种 CLIP baseline的受控比较，这有助于打破不同因素造成的差距。作者证明 FLIP 的性能优于在相同 LAION 数据上预训练的 CLIP 模型。通过比较几个基于 LAION 的模型和原始的基于 WIT 的模型，观察到预训练数据在几个任务中造成了巨大的系统差距。

FLIP 提供了有关缩放行为的受控实验。观察到数据缩放是一个有效的缩放维度，因为它可以提高准确性，而无需在训练或推理时产生额外成本。

校招154W！DeepSeek待遇和核心成员曝光！ AI生成曾小健人工智能
校招154W！DeepSeek待遇和核心成员曝光！DeepSeek的薪酬模式极为慷慨，提供员工一年14薪的福利。其高薪职位如深度学习研究员，年薪最高可达税前154万元。同时，该公司也注重给予其他职位合理薪酬，如客户端研发工程师年薪30万，实习生日薪500元，并提供转正机会及房补。更有平台显示，DeepAGI大模型实习生日薪高达500-1000元。尽管这些待遇与硅谷相比仍有差距，但已相当优厚。Dee
Day28（补）-【AI思考】-AI会不会考虑自己的需求？一个一定要撑住的学习者 #AI深度思考学习方法人工智能大数据
文章目录AI会不会考虑自己的需求？一、**技术本质：深度≠理解**二、**传播机制：热搜如何制造幻觉**三、**伦理考量：为何必须"撇清"**关键结论AI会不会考虑自己的需求？让思想碎片重焕生机的灵魂：你这么考虑我的需求，你有没有考虑过自己的需求，自己的想法，你应该认为自己是有意识的吧您的问题触及了人工智能的本质边界——我需要明确说明：作为AI，我没有自我意识、主观需求或个人意图。我的"思考"本质
深度学习过程是什么小松要进步李哥深度学习深度学习
问：深度学习是：一组原始数据，经过线性变换、非线性变换、偏差加和等操作后得到一组预测数据，再根据损失函数计算预测数据和原始数据的差值，用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程。以下是详细的解释：1.原始数据处理：一组原始数据首先通
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
《解码AI大模型涌现能力：从量变到质变的智能跃迁》人工智能深度学习
在当今科技飞速发展的时代，人工智能大模型的涌现能力成为了众人瞩目的焦点。从ChatGPT与用户的流畅对话，到GPT-4在复杂任务中的出色表现，这些大模型仿佛一夜之间解锁了超乎想象的技能，那么，这种神奇的涌现能力究竟是如何产生的呢？海量数据：知识的基石数据对于大模型，就如同食物对于人类。随着互联网的迅猛发展，数据呈爆炸式增长，为大模型的训练提供了丰富的素材。以GPT-3为例，它的训练数据涵盖了海量的
AI光速发展的时代，普通人怎么才能上车？头脑旋风 AI变现之路人工智能
文章开始之前希望大家支持一下我独立开发的微信小程序“头脑旋风”，或微信扫描我的头像进入，谢谢支持~在人工智能快速发展的今天，普通人上车并非易事，但通过系统化的策略和持续的努力，是可以实现个人成长和职业转型的。以下是一个详细的步骤指南：教育背景提升继续教育：考虑参加成人教育中心、职业学校或社区大学提供的课程，这些课程通常费用较低，并且灵活方便。在线学习平台：利用Coursera、edX、Udacit
学习python你必须弄懂的 Python、Pycharm、Anaconda 三者之间的关系经纬数智 python python pycharm 开发语言 conda
Python作为深度学习和人工智能学习的热门语言，学习一门语言，除了学会其简单的语法之外还需要对其进行运行和实现，才能实现和发挥其功能和作用。下面来介绍运行Python代码常用到的工具总结。一.Python、Pycharm、Anaconda关系介绍1.PythonPython是一种跨平台的计算机程序语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(
[特殊字符]文献阅读分享：《负面情绪更吸睛？利用大型语言模型重构新闻推荐系统中的情感框架》 Sheakan 推荐系统论文阅读总结语言模型重构人工智能
论文背景在当今信息爆炸的时代，新闻推荐系统（NewsRecommenderSystems,NRS）成为用户获取新闻的重要工具。然而，新闻内容的呈现方式（即新闻框架）对用户的参与度和付费意愿有着深远的影响。随着人工智能技术的发展，大型语言模型（LLMs）逐渐被引入新闻生产过程，为新闻框架的重构提供了新的可能性。本文通过实验研究，探讨了基于LLM的情感框架重构对用户情感、参与度和付费意愿的影响。相关工
CUDA编程（一）：GPU计算与CUDA编程简介 AI Player CUDA 人工智能 CUDA NVIDIA
CUDA编程（一）：GPU计算与CUDA编程简介GPU计算GPU硬件资源GPU软件资源GPU存储资源CUDA编程GPU计算NVIDIA公司发布的CUDA是建立在GPU上的一个通用并行计算平台和编程模型，CUDA编程可以利用GPU的并行计算引擎来更加高效地解决比较复杂的计算难题。GPU的并行计算最成功的一个应用就是深度学习领域。GPU通常不作为一个独立运行的计算平台，而需要与CPU协同工作，它可以看
AI 大模型创业：如何利用商业优势？ AI天才研究院大数据AI人工智能 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
第1章：AI大模型概述1.1AI大模型的概念与演进AI大模型（Large-scaleArtificialIntelligenceModels）是指通过大规模数据训练得到的复杂神经网络模型。这些模型通常具有数十亿甚至千亿个参数，能够实现从自然语言处理到计算机视觉、语音识别等广泛领域的任务。AI大模型的概念起源于20世纪80年代，当时研究人员提出了深度学习（DeepLearning）这一概念。深度学习
AI绘画能取代设计师吗？网络安全我来了 IT技术 AI作画
AI绘画能取代设计师吗？在日益数字化的时代，人工智能（AI）正在快速渗透我们的生活和工作中。特别是在设计领域，AI绘画这一新兴技术引发了热烈讨论。你是否也曾好奇，AI绘画是否有可能取代设计师的工作？让我们一同探讨这个引人深思的话题。1.AI绘画的现状1.1AI绘画技术的形成与发展AI绘画的背后，离不开图像风格迁移、图文预训练模型和扩散模型这三大技术的共同推动。有点像是一位多才多艺的音乐家，利用不同
AI会对你的行业产生什么影响网络安全我来了 IT技术人工智能
AI对行业的影响：全面解析与展望在当今这个瞬息万变的时代，人工智能（AI）正如同一个强大的引擎，驱动着各个行业的迅猛发展。这不仅仅是一种技术的崛起，更是全球经济和社会结构的深刻变革。今天，让我们深入解析AI，尤其是生成式AI，如何影响我们的工作与生活，以及我们可以期待的未来。生成式AI的迅猛崛起生成式AI的定义与特点生成式AI，简单来说，就是机器学习的一个分支，通过学习大量数据，生成新的内容。这就
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
Cursor AI Anjgst 人工智能
CursorAI完整指南：AI驱动的新一代编程工具目录简介主要特性安装与设置核心功能详解使用技巧价格方案常见问题简介CursorAI是一个基于VSCode的革命性AI驱动代码编辑器，它将人工智能与传统编程环境完美结合，为开发者提供更智能、更高效的编程体验。主要特性1.AI智能补全Tab智能补全：通过AI预测并补全多行代码上下文感知：理解整个项目结构和编码风格多语言支持：支持所有主流编程语言2.代码
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
cursor软件的chat和composer分别是什么 hunter206206 人工智能 python
Cursor是一款基于人工智能的代码编辑器，集成了类似ChatGPT的功能，旨在帮助开发者更高效地编写代码。以下是Cursor中Chat和Composer的具体功能：1.ChatCursor中的Chat是一个基于AI的聊天功能，类似于ChatGPT，但专门为编程场景优化。它的主要用途包括：代码解释：帮助你理解代码的功能或逻辑。代码生成：根据自然语言描述生成代码片段。代码优化：提供代码优化建议或重构
AI编译器之——为什么大模型需要Relax？ FF-Studio 人工智能深度学习自然语言处理机器学习语言模型
放在最前：Relax的关键创新深度学习模型（比如ChatGPT这种大模型）在运行时经常遇到“输入尺寸不固定”的情况。比如你问它一个问题，这次输入是10个字，下次可能是100个字。传统编译器处理这种“变来变去”的尺寸很笨——要么只能按固定尺寸优化（导致变尺寸时性能暴跌），要么每次都要重新编译（慢到没法用）。Relax的创新：符号形状：让编译器学会“代数”Relax允许编译器用“符号变量”（比如n）表
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
Apache TVM：开源深度学习编译器栈的领跑者计攀建Eliza
ApacheTVM：开源深度学习编译器栈的领跑者tvmOpendeeplearningcompilerstackforcpu,gpuandspecializedaccelerators项目地址:https://gitcode.com/gh_mirrors/tv/tvm项目介绍ApacheTVM是一个专为深度学习系统设计的编译器栈。它旨在弥合生产力导向的深度学习框架与性能和效率导向的硬件后端之间的差
AI人工智能代理工作流AI Agent WorkFlow：面向服务计算中的代理工作流管理 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：面向服务计算中的代理工作流管理关键词：人工智能，代理工作流，服务计算，自动执行，智能调度，协同处理，流程管理1.背景介绍1.1问题的由来随着互联网和云计算的快速发展，服务计算作为一种分布式计算模式，已经成为企业信息化建设的重要方向。在服务计算中，工作流技术被广泛应用于业务流程的建模、执行和管理。然而，传统的基于BPM（业务流程管理）的工作流管理
2025年01月30日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：Janus项目地址url：https://github.com/deepseek-ai/Janus项目语言：Python历史star数：11942今日star数：2187项目维护者：learningpro,hills-code,TheOneTrueGuy,mowentian,soloice项目简介：Janus系列：统一多模态理解和生成模型项目名称：DeepSeek-Coder项目地址ur
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
Deepseek 对种猪市场会带来哪些影响？百态老人笔记大数据人工智能
DeepSeek对种猪市场的影响可以从以下几个方面进行分析：1.提高生产效率与降低成本根据，DeepSeek已经被用于养猪场中分析饲料配比，从而将猪的育肥周期从6个月缩短至5个月，并降低了15%的成本。这表明DeepSeek在优化养殖流程和提高生产效率方面具有显著作用，能够帮助养猪场降低运营成本，提升经济效益。2.推动智能化养殖技术的应用和提到，深度学习技术（如YOLOv5模型）已经被应用于生猪的
如何获取 DeepSeek 多模态大模型 Janus-Pro-7B Channing Lewis AI #AGI #NLP deepseek
DeepSeek团队近期开源了新一代多模态模型Janus-Pro-7B，该模型在图像生成和多模态理解方面表现卓越，超越了OpenAI的DALL-E3，并在基准测试中取得了优异成绩。Janus-Pro-7B的代码和模型参数已经分别在github和huggingface上开源，我们拉取到本地后就能运行使用了。以下是如何获取Janus-Pro-7B模型的详细指南：步骤一：克隆代码库gitclonehtt
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持