yuyuyu_xxx

NLP论文阅读记录 - | 文本生成的动量校准

文章目录

前言
0、论文摘要
一、Introduction
- 1.1目标问题
- 1.2相关的尝试
- 1.3本文贡献
二.相关工作
三.本文方法
- 3.1 神经文本生成
- 3.2 动量校准
四实验效果
- 4.1数据集
- 4.2 对比模型
- 4.3实施细节
- 4.4评估指标
- 4.5 实验结果
- 4.6 消融实验
五总结

前言

Momentum Calibration for Text Generation（2212）

0、论文摘要

大多数文本生成任务的输入和输出可以转换为两个标记序列，并且可以使用 Transformers 等序列到序列学习建模工具对其进行建模。这些模型通常通过最大化输出文本序列的可能性来训练，并假设在训练期间给出输入序列和所有黄金前置标记，而在推理过程中，模型会遇到暴露偏差问题（即，它只能访问其先前预测的在波束搜索期间使用代币而不是金代币）。在本文中，我们提出用于文本生成的MoCa（动量校准）。 MoCa 是一种在线方法，它使用带有波束搜索的动量移动平均生成器动态生成缓慢演变（但一致）的样本，并且 MoCa 学习将这些样本的模型分数与其实际质量对齐。对四个文本生成数据集（即 CNN/DailyMail、XSum、SAMSum 和 Gigaword）的实验表明，MoCa 使用普通微调持续改进了强大的预训练 Transformer，并且我们在 CNN/DailyMail 和SAMSum 数据集。

一、Introduction

1.1目标问题

文本生成是给定一定输入生成文本序列的任务，并且输入通常可以转换为另一个文本序列，这是典型的序列到序列（Seq2Seq）学习问题[33]。大型预训练序列到序列 Transformer 模型（例如 T5 [28]、BART [14] 和 PEGASUS [40]）已成为文本生成的默认建模工具，因为它在各种生成任务上都取得了令人印象深刻的结果，例如摘要 [14, 40]、数据/关键字到文本生成 [15] 以及机器翻译 [18]。这些大型模型首先在大规模未标记数据集上进行预训练，然后针对特定任务在标记数据集上进行微调。

1.2相关的尝试

微调的主要方法是最大化黄金输出序列的可能性（MLE；最大似然估计）。通过应用链式法则，在给定所有黄金之前的令牌和输入序列的情况下，它本质上最大化了输出序列中每个令牌的概率。上面的训练损失是单词级别的。然而，在测试期间，模型需要使用波束搜索（贪婪搜索可以视为波束大小为 1 的波束搜索）从头开始（贪婪地）预测整个输出序列。与训练期间不同，模型只能访问自己的预测（而不是黄金前缀）。训练和推理之间的这种差异称为暴露偏差 [29]（即模型永远不会暴露于其自身的预测误差 [38]）。由于训练和推理差异而导致的另一个问题是损失评估不匹配[38]，其中在训练期间采用令牌级 MLE 损失，而在推理期间通常使用序列级指标（例如 BLEU [27]）。

1.3本文贡献

为了解决上述问题，在训练期间需要来自模型分布的样本，以便随着训练的进行“纠正”这些样本中的潜在错误。 [29, 7] 建议通过将生成样本的 BLEU [27] 或 ROUGE [16] 分数视为奖励，利用强化学习来指导模型训练。在计划采样[2]中，黄金目标序列中的一些标记在 MLE 训练的后期被模型预测替换。然而，我们认为上述所有这些方法仍然无法解决训练和推理之间的差异。因为[29,7,2]中模型中的样本是单独处理的，而在集束搜索中，我们在每个步骤中比较多个假设（并选择前 K 个）。换句话说，在波束搜索过程中，不同样本的相对质量比它们的绝对质量更重要。因此，我们生成的样本的概率应与其实际质量保持一致（即，我们的模型应将较高质量的样本分配给较高的概率）。其次，我们的方法应该是在线的，以确保我们模型中的样本可以在训练过程中实时表示其模型分布。同时，这些样本应该是从相似的模型生成的，以便它们的风格一致，这可能有助于使学习过程更容易。为此，我们使用动量模型来生成样本。

根据这些设计原则，我们提出了用于文本生成的 MoCa（动量校准），它通过将样本的概率与其质量对齐来校准使用 MLE 损失训练的模型。在 MoCa 中，我们有一个生成器模型和一个在线模型。生成器是在线模型的动量移动平均值，生成缓慢演变的样本。然后使用评估模型评估这些样本并估计它们的质量。我们最终使用排名损失将评估分数与在线模型分数对齐。为了进一步减少训练和推理之间的差异，我们提出了专为波束搜索定制的新在线模型评分函数。对四个文本生成数据集（即 CNN/DailyMail、XSum、SAMSum 和 Gigaword）的实验表明，MoCa 使用普通微调持续改进强大的预训练 Transformer，我们在 CNN/DailyMail 和SAMSum。

二.相关工作

Seq2Seq 模型通常通过词级 MLE 损失进行训练，而在测试期间，模型使用波束搜索根据其之前的预测来预测下一个标记。为了解决这个问题，首先在结构预测的背景下探索了在训练期间显示模型自身预测的方法[6]。在序列到序列学习中，计划采样[2]提出在训练后期用自己的模型预测替换目标序列中的一些黄金标记。 [29,7,1]在训练过程中生成整个候选目标序列，生成的序列被视为强化学习（RL）中的动作序列，使用 BLEU 或 ROUGE 作为奖励。他们的模型使用 REINFORCE 算法进行优化 [37]，因为 BLEU 或 ROUGE 分数是不可微分的。 [38]引入了一种在训练期间优化波束搜索过程的方法，通过鼓励黄金前缀出现在具有边际基础损失的波束中。上述方法中的候选样本是单独查看的，并且将高模型分数分配给与其黄金样本更相似的样本。在我们的方法中，我们比较给定相同输入的多个样本，并鼓励我们的模型为质量更好的样本分配更高的分数。此外，我们的方法是可微分的，可以避免 REINFORCE 中的优化挑战。
对比学习已应用于文本生成[26,3,39,4]。他们还为每个输入生成多个候选样本，但这些样本用作硬负例，正例是黄金输出序列。对比目标旨在为正例分配较高的模型分数，为负例分配较低的分数。与我们的方法不同，负例的相对模型分数没有建模，这对于波束搜索很重要。
我们的方法还与基于两阶段重排序的文本生成方法相关[32,25,36,21,13,19]，因为我们的模型尝试使用排名目标。 [19]建议使用基于 RoBERTa [17] 的重新排序器对基于 BART [14]（或 PEGASUS [40]）的神经文本生成模型中的候选者进行重新排序。与上述方法不同，我们的重新排序器和文本生成模型共享模型参数。 [20]和[42]使用类似的排名目标作为我们的方法，并且它们的生成模型和重新排名器的参数也被共享。然而，[20]和[42]都是离线方法，它们的候选样本在训练过程中是固定的，随着训练的进展，这些样本可能会变得过时。通过动量更新生成器，我们的方法可以生成缓慢演化的候选样本，这些样本可以代表当前模型在整个过程中的建模能力培训过程。此外，我们还发现模型评分中使用的对数概率不是最优的，并且我们提出了为波束搜索解码量身定制的新评分函数。

三.本文方法

3.1 神经文本生成

其中 θ 是模型参数，y
在测试期间，模型预计将使用波束搜索从头开始生成整个文本序列，这与其训练不同（即，根据先前的标记预测下一个标记）黄金代币）。因此，模型在训练过程中永远不会暴露于其自身的错误，这称为暴露偏差[29]。下面我们介绍如何解决曝光偏差。

3.2 动量校准

假设我们已经有一个使用 3.1 节中描述的 MLE 目标训练的 Seq2Seq Transformer 模型。使模型能够产生合理的输出。为了解决推理过程中使用波束搜索遇到的曝光偏差问题，如图 1 所示，我们首先从预训练的生成器模型生成输出样本，这些样本代表模型分布。然后，我们用评估模型对这些样本进行评估，并获得这些样本的排名。通常，这些排名 w.r.t.评估模型与排名不同。模型概率，这就是我们需要进行校准的原因。因此，我们使用排名损失强制模型概率与评估模型输出保持一致。最后我们更新了生成器模型，我们的方法上线了。在 MoCa 中，我们有两个 Seq2Seq Transformer 模型：参数为 θ 的在线模型 M (θ) 和参数为 xi 的生成器模型 G(xi)。它们共享相同的模型架构，但有自己的参数。在训练开始时，我们设置 ψ = θ。
样本生成 我们的方法旨在模拟训练期间的波束搜索推理。因此，给定输入序列 X，我们首先生成 K 个样本 ̃ Y1, ̃ Y2,…。。。 , ̃ YK 来自我们的生成器 G(xi)，使用波束搜索 (BS) 或其变体多样化波束搜索 (DBS) [35]，这些样本随后将用于修复曝光偏差。除了波束搜索中使用的归一化对数概率之外，多样化波束搜索还考虑了波束组之间的差异，并且它生成的样本在质量和多样性之间具有良好的权衡。我们没有使用抽样或核抽样[10]，因为它们生成的样本质量不如BS和DBS（样本的ROUGE上限、平均值和下限都较低）。此外，我们还发现核采样生成的样本有很大一部分是重复的。

评估和校准 在此步骤中，我们使用上面生成的样本来校准我们的在线模型M（θ）。一旦我们获得这些样本 ̃ Y1, ̃ Y2,… 。。 , ̃ YK，我们可以使用评估模型 E( ̃ Yk, Y ) 针对黄金输出序列 Y 来评估这些样本。 E 可以是非参数模型，例如 ROUGE [16] 或 BLEU [27] 和/或参数模型，例如 BERTScore [41]。然后我们对这些样本进行排序。评估模型并获得排序样本列表 ̃ Y′ 1, ̃ Y′ 2,…, ̃ Y′ K 使得 E( ̃ Y′ i ,Y ) < E( ̃ Y′ j , Y ) ∀我 < j。
直观上，一个好的模型应该为评估分数较高的样本分配较高的概率。我们的模型 M (θ) 最初是通过 MLE 损失进行训练的（参见第 3.1 节），并不总是分配与评估分数一致的样本概率。我们使用以下基于间隔的成对排名损失[11, 43]来调整我们的模型，以便它可以将高评估分数的样本排名更高：

其中 sθ(X, ̃ Y ′) 是模型 M (θ) 为输入 X 和样本 Y ′ 之一分配的分数。 (j − i) ∗ λ 是 ̃ Y′ i 和 ̃ Y′ j 分数之间的动态余量，并且 λ 是超参数。由于我们的校准过程模拟了集束搜索搜索推理，自然地 sθ(X, ̃ Y ′) 被定义为归一化对数概率（即集束搜索中使用的评分函数）：

其中 ̃ Y ′ = ( ̃ y′ 1, ̃ y′ 2, …, ̃ y′ | ̃ Y ′|)，α 是超参数（类似于波束搜索中的长度惩罚）和位置权重在普通波束搜索中，函数是常数（即 γt = 1）。给定一个由 MLE 损失训练的模型，我们观察到该模型通常在后面的位置具有较低的词级预测准确性（w.r.t. gold）。可能是因为模型需要记住更多的过程标记才能进行预测。
为了让模型专注于后面的位置（模型容易出错的位置），我们提出了针对不同位置的单调递增权重函数。

我们使用上面的函数是因为 Σ t ̃ γt 有一个上限，并且里面没有额外的超参数。注意 limn→∞ Σn i=1 1 i2 = π2/6。为了确保所得的 sθ(X, ̃ Y ′) 和普通波束搜索中使用的 sθ(X, ̃ Y ′) （即 γt = 1）具有相同的尺度，我们用它们的平均值和由此产生的位置加权函数为：

请注意，当使用 MLE 损失训练的模型的位置精度在后面的位置下降时，使用上述位置加权函数。否则，我们使用恒定的位置权重函数 γt = 1。在最终的模型损失中，我们在 MLE 目标上放置了一个小的权重（参见方程 2），我们打算提醒模型在第一阶段 MLE 中学到了什么培训（第 3.1 节）：

动量更新使用等式（7）中的训练损失，可以更新在线模型M（θ）的参数。但生成器模型 G(xi) 的参数保持不变，因为波束搜索过程是不可微分的。然而，保持 Ψ 不变是不合理的，因为随着训练的进行和 M(θ) 变得更强，从 G(Ψ) 预测候选样本的正确排名对于 M(θ) 来说可能太容易了。事实上，在实验中我们观察到，当保持 M (θ) 不变时，模型收敛得非常快（通常在一个时期内）。另一种方法是在每次模型更新后重置 ϵ = θ。在这种情况下，我们的方法就变成了完全在线的方法。也许由于生成器 G(xi) 及其生成的样本的快速变化，训练损失很高（也许是因为它太难学习），我们没有获得很好的结果。为了克服快速收敛和训练不稳定的问题，我们最终选择对生成器 G(xi) 的参数进行动量更新：

其中 m 是动量系数。请注意，反向传播中仅更新 θ。我们在实验中观察到需要相对较大的动量系数（例如，m = 0.99），这表明生成器 G(xi) 的稳定性很重要。

四实验效果

4.1数据集

我们对跨不同领域、具有不同输入和输出长度的四个不同文本生成数据集进行了初步实验。它们是 CNN/DailyMail（CNNDM；Nallapati 等人 22）、XSum [24]、SAMSum Corpus [8] 和 Gigaword [23]。

4.2 对比模型

4.3实施细节

我们使用 PEGASUS [40]（568M 参数）作为 XSum 上的主干，BART [14]（400M 参数）是其他数据集上的主干。我们使用 Adam [12] 来优化我们的模型，并在验证集上调整学习率和预热步骤。我们在训练期间使用不同的波束搜索 [35] 生成 16 个候选样本。等式(3)中的余量系数λ被设置为0.001。我们使用 ROUGE 评分 [16] 作为我们的评估模型，因为它的计算速度比基于模型的方法（例如 BERTScore [41]）更快。我们的在线模型评分函数中的长度归一化项 α 在 XSum 上设置为 0.6，在其他数据集上设置为 2.0。我们将 MLE 损失 β 的权重设置为 0.01（公式 7）。一般来说，我们发现需要较大的动量系数 m（例如，m ≥ 0.99），并且对于收敛速度较慢的数据集应使用较大的动量。我们在CNNDM上设置m=0.995，在其他数据集上使用m=0.99。

4.4评估指标

4.5 实验结果

我们的主要结果如表 1 所示。在第一个块中，我们将 MoCa 与使用普通微调的大型预训练 Transformer 进行比较。 PEGASUS [40] 和 BART [14] 使用间隙句子预测和文本填充目标在无监督文本数据上进行预训练，其中分别包含 400M 和 568M 参数。 Z-Code++ [9]（710M 参数）和 ST-MoE [44]（268B 参数）均采用损坏的跨度预测目标 [28]，而 Z-Code++ 利用附加替换的令牌检测目标 [5]。尽管只有 400M 或 568M 参数，MoCa 在 XSum 上的表现优于除 ST-MoE 之外的所有其他模型。请注意，ST-MoE 比 MoCa 大 470 倍。我们还与在第二个块中使用高级微调的模型进行比较。 BRIO（400M或568M参数）[20]和SLiC（2B参数）[42]也尝试将模型得分与评估指标对齐，就像我们的方法MoCa一样，但它们是离线方法，并且它们的模型评分函数与我们的不同。我们使用与 BRIO 相同的主干模型，并且在所有数据集上始终优于 BRIO，这表明频繁更新候选样本和使用波束搜索定制评分函数非常重要。 SLiC 比我们的模型大四倍左右，但我们在 CNNDM 和 SAMSum 上的表现仍然优于它们。与我们自己在第三个块中实现的普通微调方法（Finetuned）相比，MoCa 在所有数据集上都明显优于它，这表明 MoCa 可以很好地替代普通微调。

4.6 消融实验

在本节中，我们评估了我们提出的在线模型评分函数以及 CNNDM 和 SAMSum 数据集上的动量更新策略的有效性。当我们使用普通在线评分函数（γt = 1）并且不使用生成器模型的在线动量更新时，我们的方法类似于 BRIO [20]（参见表 2 中的离线 (BRIO) 行）。请注意，我们重新实现的 BRIO 取得了比 [20] 更好的结果（另见表 1）。如表 2 所示，利用我们提出的位置加权函数（第 3 节中的公式 6），我们在 SAMSum 上获得了更好的结果，而在 CNNDM 上获得了更差的结果（离线 + 评分）。如第 3 节所述，位置加权函数旨在解决 MLE 损失（MoCa 初始化所在）训练的模型中的位置精度下降问题。如图 2 所示，CNNDM 上的位置精度在不同位置上都很稳定，而 SAMSum 上的位置精度随着位置索引变大而下降（特别是从位置 0 到 50）。因此，我们在存在位置精度问题的数据集（例如 SAMSum）上使用等式（6）中的加权函数，在其他数据集（例如 CNNDM）上使用恒定位置加权函数（γt = 1）。当线下方式升级到线上时，我们发现动量更新很重要。没有动量的纯在线方法（在线 w/ m = 0）有时会带来伤害，而具有动量（动量）的在线方法始终优于离线方法。我们观察到，一种评分函数可能比另一种表现更好。通过适当的位置加权函数，可以进一步改进动量方法（MoCa）。

五总结

我们提出用于文本生成的 MoCa，这是一种在线方法，旨在解决分配给候选样本的模型概率与其质量之间的差异。跨不同数据集的实验表明，MoCa 持续改进了大型预训练 Transformer 的 MLE 损失的普通微调。我们还展示了在线的重要性，并使用专为波束搜索量身定制的评分功能。 MoCa目前应用于英文文本生成任务。我们希望我们的方法可以用于多语言文本生成任务，例如机器翻译和跨语言文本摘要，以及文本之外的生成任务（例如文本到图像生成和文本到语音合成）。

AGI框架探索另一只又死又活的猫
开发十年，就只剩下这套Java开发体系了>>>随着对机器学习领域的深入探索，我渐渐迷上了AGI通用人工智能。所以，闲暇时就对AGI框架进行了深入的了解，看看哪些AGI框架与个人的理念相符，方便做进一步的研究之用。朋友给我分享了一篇收集和汇总AGI技术的文章，正好，我就以此为索引，对里面的每一个框架进行了考察：50个杀手级人工智能项目：https://mp.weixin.qq.com/s/qafBW
联邦学习优化驱动医疗诊断新突破智能计算研究中心其他
内容概要医疗人工智能的发展长期面临数据孤岛与隐私合规的双重挑战，传统集中式训练模式难以满足多机构协作需求。联邦学习技术通过构建分布式训练框架，使医疗机构在不共享原始数据的前提下，实现跨域模型的协同优化。这一技术突破为医学影像识别、病理特征分析等场景提供了新的技术路径，特别是在肿瘤筛查领域，通过迁移学习实现跨病种知识迁移，配合超参数自动调优机制，可使模型在有限标注数据下达到95%以上的病灶识别准确率
DeepSeek高能AI：低成本高效应用突破智能计算研究中心其他
内容概要DeepSeek高能AI系统通过混合专家架构（Mixture-of-Experts）实现了技术范式的突破，其670亿参数的模型规模在保证计算效率的同时，构建了多模态处理能力的技术护城河。该系统整合自然语言处理与视觉语言理解的双通道架构，使文本生成、图像解析和跨模态推理形成协同效应。在应用层面，该模型通过动态路由机制实现功能模块的精准调度，为学术研究、商业运营和技术开发提供多场景解决方案。核
A100核心加速：高效计算方案解析智能计算研究中心其他
内容概要在人工智能与高性能计算领域，A100核心加速技术通过多维度的架构创新，重新定义了算力效率的边界。本文将从硬件设计、资源调度、算法优化及场景适配四个维度展开，系统解析其核心技术原理与落地实践路径。对于企业级计算场景而言，架构设计与资源管理策略的协同优化往往比单一性能指标更具实际价值。建议技术团队在部署前，优先完成工作负载特征分析与集群拓扑规划。第三代TensorCore架构的突破性设计，不仅
人工智能的崛起与未来发展趋势分析智能计算研究中心其他
内容概要人工智能作为一项颠覆性技术，近年来发展迅猛，正逐渐渗透到我们生活的每个角落。它不仅改变了人类的工作方式，还在医疗、金融、教育、交通等多个领域展现了巨大的应用潜力。通过理解人工智能的现状，我们可以更清晰地识别当前技术进展和市场需求，以及面临的挑战。领域应用实例发展现状医疗智能诊断、药物研发提高诊断准确率，缩短研发周期金融风险评估、智能投顾实现个性化服务与高效决策教育自适应学习系统提供个性化学
‌挖数据平台对接DeepSeek推出一键云端部署功能：API接口驱动金融、汽车等行业智能化升级 wapi-API接口挖数据 API 接口金融汽车 php python java 人工智能
云端部署引言：当数据生产力遇上云端智能化2025年2月23日，国内领先的数据服务商挖数据平台宣布与人工智能巨头DeepSeek达成战略合作，正式推出“一键云端部署”功能。这一功能以API（应用程序接口）为核心，通过云端自动化配置能力，将企业数据服务的部署周期从数周缩短至分钟级，标志着数据服务行业正式迈入“开箱即用”的智能化时代。在金融风控、汽车智能驾驶、供应链管理等场景中，API正成为驱动行业数字
神经网络与深度学习入门：理解ANN、CNN和RNN shandianfk_com ChatGPT AI 神经网络深度学习 cnn
在现代科技日新月异的今天，人工智能已经成为了我们生活中的重要组成部分。无论是智能手机的语音助手，还是推荐系统，背后都有一项核心技术在支撑，那就是神经网络与深度学习。今天，我们就来聊一聊这个听起来高大上的话题，其实它也没那么难懂！什么是神经网络？首先，我们要了解什么是神经网络。神经网络（ArtificialNeuralNetwork，简称ANN）是模拟人脑神经元连接方式的一种算法。它由一层层的“神经
还不会用DeepSeek？看这篇就懂啦 t0_54coder 【AI】人工智能实用技术人工智能
在人工智能飞速发展的今天，DeepSeek作为一款强大的工具崭露头角。很多小伙伴可能听说过它，却不知道怎么用。别着急，这篇文章就手把手教你，保证通俗易懂，还有超多实用案例，让你快速上手！一、认识DeepSeekDeepSeek是一家专注通用人工智能（AGI）的中国科技公司，致力于大模型的研发与应用。它开源的推理模型DeepSeek-R1非常厉害，性能和OpenAI-o1正式版相当，而且可以免费商用
深度学习与搜索引擎优化的结合：DeepSeek的创新与探索 m0_74825634 面试学习路线阿里巴巴深度学习搜索引擎人工智能
目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek的深度学习架构4.1?查询解析与语义理解4.2?搜索排名与相关性排序4.3?个性化推荐与用户行为分析5、总结引言随着人工智能（AI）技术的迅速发展，深度学习（DeepLearning）
Topaz Photo AI 人工智能图像处理降噪甜于酸图像处理人工智能图像处理
介绍TopazPhotoAIMac版是一款人工智能图像处理软件，利用先进的AI技术为图像作品带来前所未有的提升。核心功能在于其智能降噪与细节增强能力，能够自动识别并去除照片中的噪点，同时保留并增强图像的细节和纹理，使照片更加清晰、细腻。具备图像分辨率提升特性，利用机器学习技术，分析并重建图像的细节，从而保持图像质量同时，显著提高图像的分辨率。提供自动调整色彩分布与对比度优化功能，使照片的色彩更加饱
2025预测趋势：AI知识库工具挑选指南知识库知识库管理知识库软件
随着人工智能技术的飞速发展，AI知识库工具已成为企业和个人管理知识资产的重要手段。本文将探讨2025年AI知识库工具的预测趋势，并推荐六款精选工具，帮助用户挑选最适合的AI知识库解决方案。1.AI知识库的智能化：趋势预计到2025年，AI知识库工具将更加智能化，通过深度学习和自然语言处理技术，实现更精准的语义搜索和智能问答功能。这些工具将能够理解用户的查询意图，提供更准确和相关的信息。2.实时自动
探秘智能指令的奇幻大陆：ULTRAIF引领模型自我进化之旅步子哥 AGI通用人工智能人工智能
在浩瀚的人工智能领域中，每一次技术革新都犹如在无垠星空中挖掘出一颗璀璨的新星。而最近，一项名为ULTRAIF的技术方案正悄然崛起，成为指令跟随领域的一股清流。本文将以通俗易懂、风趣幽默的叙述方式，带你走进这片奇幻大陆，探索ULTRAIF如何在开放数据与自我校准中引领智能大模型的进化。接下来，就让我们踏上这段妙趣横生的探索之旅吧！初识ULTRAIF：指令跟随的变革曙光当人们第一次尝试教会计算机理解复
【Swift 算法实战】利用 KMP 算法高效求解最短回文串网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
一文讲清楚 AI Agent（智能体）网络风云人工智能
AIAgent（人工智能代理，一般直接叫做智能体）以各种形态存在于我们生活的方方面面，大家比较熟知的有Siri、小爱同学等虚拟助手，但其实在自动驾驶、教育、娱乐、医疗、科研、智能家居等等到处都有它们的身影。它是能够感知环境、做出决策并执行行动以实现特定目标的智能实体。AIAgent的核心特点是自主性、适应性和交互性，它可以在复杂的环境中独立完成任务，并根据环境变化调整策略。AIAgent广泛应用于
2025年计算机工程与3D技术国际会议（ICCEDT 2025） s_academic 理科会议 3d 计算机网络
2025年计算机工程与3D技术国际会议（ICCEDT2025）2025InternationalConferenceonComputerEngineeringand3DTechnology会议将聚焦计算机工程与3D技术在各个领域的深度融合与创新应用。在主题演讲环节，行业领军人物将分享他们对未来发展的前瞻性见解，探讨如何利用3D技术为计算机工程领域带来新的突破和机遇。如在人工智能与3D技术的结合方面
能力模型迁移：专业教育从「知识掌握度」转向「提示工程能力」由数入道 AI辅助教学提示词工程人工智能
概念：“能力模型迁移：专业教育从「知识掌握度」转向「提示工程能力」”这句话深刻地揭示了在人工智能（AI）技术飞速发展的时代背景下，专业教育领域正在经历一场重要的范式转变。它指出，传统的专业教育模式主要关注学生对知识的掌握程度，例如事实、理论、概念等，并通过考试和评估来衡量。然而，随着以大型语言模型（LLMs）为代表的生成式AI技术的崛起，仅仅掌握知识已经远远不够，提示工程能力逐渐成为更核心、更关键
在 Centos7 上部署 ASP.NET 8.0 + YOLOv11 的踩坑实录桑榆肖物 ASP.NET 运维 asp.net YOLO 后端
本文将详细记录我在CentOS7上部署ASP.NET8.0结合YOLOv11目标检测项目过程中遇到的问题及解决方案，旨在为有类似需求的开发者提供参考。1.背景随着人工智能技术的迅猛发展，目标检测成为了众多应用场景中的核心技术之一。YOLO（YouOnlyLookOnce）系列作为实时目标检测领域的代表，已经发展到了YOLOv11版本。同时，.NET平台也在不断迭代升级，最新版本已发布至.NET9。
安全见闻笔记 freesec 安全笔记
安全见闻包含了网络安全，网络技术，拓展知识面“不识庐山真面目，只缘身在此山中”编程语言:C语言：一种通用的、面向过程的编程语言，广泛应用于系统软件和嵌入式开发。C++：在C语言基础上发展而来，支持面向对象编程，常用于游戏开发、高性能计算等领域。Java：一种广泛使用的面向对象编程语言，具有跨平台性，应用于企业级应用开发等。Python：简洁易学，拥有丰富的库，适用于数据分析、人工智能、Web开发等
零基础学习Python之保留字_我的学习Python记录3 灏瀚星空人工智能 python 学习经验分享笔记
零基础学习Python之保留字_我的学习Python记录3学习背景在ChatGPT引爆AI革命的今天，Python以"人工智能第一语言"的身份成为技术圈宠儿。作为零基础小白，我决定用CSDN博客记录学习历程，通过输出倒逼输入，与广大网友共同成长！今日重点攻克——Python保留字。一、Python保留字速查表（共35个）以下为Python3.10版本所有保留字及简明释义：保留字释义基础用法示例（新
从嵌入式到 AI：如何从零开始进入人工智能行业嵌入式Jerry AI 人工智能嵌入式硬件物联网 YOLO 数据挖掘
你是否在嵌入式开发中遇到了瓶颈？是否希望结合AI技术提升自己的竞争力？本篇博文将从零开始，详细讲解如何从嵌入式软件工程转向AI，并提供实战建议，让你更顺畅地进入AI领域。1.为什么嵌入式开发者适合进入AI领域？随着人工智能（AI）的快速发展，智能设备、物联网（IoT）、自动驾驶、机器人等领域对AI结合嵌入式系统的需求越来越大。那么，为什么嵌入式开发者适合进入AI领域呢？✅硬件和软件结合能力：嵌入式
Meta官宣Llama3：迄今为止最强大的开源大模型人工智能开源
4月18日，Meta在官方博客官宣了Llama3，标志着人工智能领域迈向了一个重要的飞跃。此版本具有经过预训练和指令微调的语言模型，具有8B(80亿)和70B(700亿)参数，可以支持广泛的用例。Llama3在各种行业基准上展示了最先进的性能，并提供了新功能，包括改进的推理能力。领先的性能新的8B和70B参数Llama3模型是Llama2模型的重大飞跃，为这些规模的LLM模型确立了新的先进水平。得
【带你 langchain 双排系列教程】0. 走进大模型与 LangChain 的奇妙世界夜里慢慢行456 双排人工智能 python langchain
文章目录引言大模型的发展历史当前最火热的大模型技术LangChain架构及学习其的重要意义结语引言在当今数字化时代，人工智能技术飞速发展，大模型更是成为了科技领域的热门话题。它们正在改变着我们的生活和工作方式，从智能聊天机器人到自动文本生成，从图像识别到语音助手，大模型的应用无处不在。而LangChain作为构建大模型应用的强大框架，为我们打开了通往这一奇妙世界的大门。本文将带领初学者了解大模型的
【DeepSeek零基础入门】从零开始：如何训练自己的AI模型 Evaporator Core DeepSeek进阶开发与应用 #DeepSeek快速入门 deepseek应用开发实例 deepseek
从零开始：如何训练自己的AI模型在人工智能的世界里，训练一个属于自己的AI模型，就像是在培养一个新生儿。你需要耐心、技巧，以及对数据的深刻理解。今天，我们将一起探索如何从零开始，训练一个AI模型，并通过一个具体的案例来加深理解。第一步：明确目标与选择框架在开始之前，首先要明确你的AI模型需要解决什么问题。是图像识别、自然语言处理，还是预测分析？明确目标后，选择一个合适的机器学习框架至关重要。Ten
RAG+Agent人工智能平台：RAGflow实现GraphRAG知识库问答，打造极致多模态问答与AI编排流体验汀、人工智能 AI Agent LLM工业级落地实践人工智能 ragflow GraphRAG 多智能体 AI Agent 智能编排
RAG+Agent人工智能平台：RAGflow实现GraphRAG知识库问答，打造极致多模态问答与AI编排流体验1.RAGflow简介最近更新：2024-09-13增加知识库问答搜索模式。2024-09-09在Agent中加入医疗问诊模板。2024-08-22支持用RAG技术实现从自然语言到SQL语句的转换。2024-08-02支持GraphRAG启发于graphrag和思维导图。2024-07-
秒杀ChatGPT ？国产之光DeepSeek探究南风过闲庭搜索引擎 ai 科技人工智能大数据 chatgpt
1.DeepSeek公司概况1.1成立背景与发展历程DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月17日，由知名量化资管巨头幻方量化创立。幻方量化为DeepSeek的技术研发提供了强大的硬件支持，使其成为大厂外唯一一家储备万张A100芯片的公司。自成立以来，DeepSeek专注于开发先进的大语言模型（LLM）和相关技术，取得了显著的成果。2023年11月2日，
ollama安装(ubuntu20.04) 名栩 #ollama大模型实战 LLM ollama 安装
Ollama是一款开源的自然语言处理工具，它可以帮助开发者快速构建文本处理应用。ollama官网:https://ollama.ai/一、ollama自动安装linux统一采用sh脚本安装，一个命令行搞定。curl-fsSLhttps://ollama.com/install.sh|sh二、ollama手动安装ollama自动安装是通过github拉取下载包（现在安装包已经1G以上），在国内经常下
DeepSeek赋能学术论文写作 CodeJourney. 人工智能数据库算法架构
在学术研究领域，论文写作是一项至关重要且复杂的任务，它贯穿了从选题构思到最终答辩的漫长过程，每个环节都需要严谨对待和精心雕琢。随着人工智能技术的飞速发展，大语言模型如DeepSeek为学术论文写作带来了全新的机遇和变革。本文将深入剖析借助DeepSeek完成论文写作各关键环节的方法，详细解读文中提供的16个指令，并探讨其在实际应用中的优势、挑战及未来发展趋势。一、DeepSeek助力学术论文写作的
DeepSeek在MATLAB上的部署与应用 CodeJourney. 数据库人工智能算法架构
在科技飞速发展的当下，人工智能与编程语言的融合不断拓展着创新边界。DeepSeek作为一款备受瞩目的大语言模型，其在自然语言处理领域展现出强大的能力。而MATLAB，作为科学计算和工程领域广泛应用的专业软件，拥有丰富的工具包和高效的算法环境。将DeepSeek部署在MATLAB上，能够充分发挥两者的优势，为众多领域带来全新的解决方案和无限可能。本文将深入探讨如何在MATLAB上部署DeepSeek
深度剖析 DeepSeek V3 技术报告：架构创新与卓越性能表现 m0_74823947 面试学习路线阿里巴巴架构人工智能
随着人工智能（AI）技术的不断发展，各种大规模语言模型（LLM）层出不穷，DeepSeekV3作为其中的一员，凭借其出色的性能表现和创新的架构设计，吸引了广泛关注。本文将通过对官方发布的DeepSeekV3技术报告的深入解析，从多个维度剖析DeepSeekV3如何通过先进的技术手段，在保持性能卓越的同时优化计算和内存开销。一、性能卓越，超越同行DeepSeekV3在多个权威基准测试中展现了强大的性
为什么词向量和权重矩阵dot运算就能得到想要的效果呢？ cjl30804 矩阵线性代数 nlp
最近在学习NLP算法的时候，进入到了深水区以后，发现了弄懂这个才是核心中的核心，抓住了主要矛盾了。特意拿出来跟大家分享。词向量（WordEmbeddings）和权重矩阵的点积运算之所以能够帮助我们实现特定的效果，主要是因为它们在神经网络架构中扮演的角色以及背后的数学原理。具体来说，在自然语言处理任务中，这种操作通常出现在如Transformer模型中的自注意力机制里。让我们深入探讨一下为什么这种方
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，