sjx_alo

DiffRate详解：高效Vision Transformers的可微压缩率

0. 引言
1. 相关内容介绍
- 1.1 Transformer Block
- 1.2 令牌修剪和合并
- 1.3 修剪和合并的统一
2 DiffRate中的创新点
- 2.1 令牌排序
- 2.2 压缩率重参数化
- 2.3 训练目标
3. 算法流程
4. 简化版理解
5. 总结

0. 引言

就当前的Vision Transformers(例如vit)而言，模型是大规模的。有学者提出使用令牌压缩的方法，即通过修剪(删除)或合并令牌来加速模型训练。尽管最近的先进方法取得了巨大的成功，但是仍需要对令牌的压缩比进行手动设置且数值是固定的。从压缩率出发，作者提出了DiffRate的概念。整篇文章的创新点分为三个部分：

压缩比是可训练的。DiffRate可以将损失函数的梯度传播到压缩比上，压缩比在以前的工作中被认为是一个不可微的超参数。在这种情况下，不同的层可以自动学习不同的压缩率，而不需要额外的开销。
修剪和合并令牌可以同时进行。而在以往的作品中，它们是相互隔离的。
DiffRate达到了SOTA。大量的实验表明，DiffRate达到了最先进的性能。例如，通过将学习到的分层压缩率应用于现有的ViT-H (MAE)模型，实现了40%的FLOPs减少和1.5倍的吞吐量提高，在没有微调的情况下，在ImageNet上的精度下降了0.16%，甚至优于以前的方法。

论文名称：DiffRate : Differentiable Compression Rate for Efficient Vision Transformers
论文地址：https://arxiv.org/abs/2305.17997
代码地址：https://github.com/opengvlab/diffrate

1. 相关内容介绍

首先，为了方便大家理解。先介绍相关内容。

1.1 Transformer Block

在 Vit 的Transformer Block中，输入数据经过 Attention 块后经过线性层得到对应的输出 (注意：Transformer Block 不包含Embedded Patches 部分)。整体网络结构如下所示。

假设第 l 个Transformer Block的输入token为 $X^l\in R^{N\times D}$ ，其中 $N$ 表示 token 的长度； $D$ 表示 token 的维度。则变压器块的前向传播表示为:
$\hat X^l = X^l + Attention(X^l) \\\ X^{l+1} = \hat X^l +MLP( \hat X^l)$
其中， $l \in L$ ， $L$ 为网络深度。其中， $A tt e n t i o n$ 和 $M L P$ 分别表示变压器块中的自注意模块和MLP模块； $\hat X^l$ 为注意力模块的输出 token。

1.2 令牌修剪和合并

如图2所示，现有的 Token 压缩方法通常位于 Transformer Block中的 Attention模块后，即对 $\hat X^l$ 进行修剪或合并操作。
$\hat X^l_p \leftarrow f_p(\hat X^l, \alpha^l_p) \\\ \hat X^l_m \leftarrow f_m(\hat X^l, \alpha^l_m) \\\$ 其中， $f_p,f_m$ 分别表示修剪和合并操作； $\alpha^l_p, \alpha^l_m$ 分别表示对应操作的压缩率； $\hat X^l_p \in R^{N^l_p \times D}, \hat X^l_m \in R^{N^l_m \times D}$ 分别表示对应操作的输出，然后被输入到 Transformer Block中的 MLP 模块中。因此，每个块的剪枝压缩率和合并压缩率分别定义为 $\alpha^l_p = (N−N^l_p)/N$ 和 $\alpha^l_m = (N−N^l_m)/N$ 。
现有的方法取得了巨大的成功。如：EViT 保留了重要的令牌，同时在重要性指标的指导下融合了注意力和 MLP 之间的不重要令牌（Token 合并）。ToMe 在前景和背景中合并了类似的 Xl 标记（Token 合并）。注意：DynamicViT 在MLP之后修剪令牌，实验结果发现它在注意之后也能很好地工作。然而，它们仍需要谨慎使用手工制作压缩率块，这是繁琐的，并导致次优性能，如下图所示。

1.3 修剪和合并的统一

DiffRate 实现了令牌修剪和合并的统一，通过最优搜索选择最佳的压缩率。给定一个 pre-trained 模型 $W^*$ ，令牌压缩的目的是最小化训练集上的分类损失 $L_{cls}$ 在目标 FLOPs T 内。这个问题可以总结为一个优化问题，用公式表示为：
$\alpha^*_p,\alpha^*_m = argmin_{\alpha_p, \alpha_m} L_{cls}(W^*(X),Y|\alpha_p, \alpha_m) \\\ s.t. F(\alpha_p, \alpha_m) \leq T, 0 \leq \alpha^l_p, \alpha^l_m \leq 1 \\\ \hat X^l = f_c(\hat X^l, \alpha^l_p, \alpha^l_m) ,l\in [L]$ 其中， $\alpha_p = \{\alpha^l_p \}^L_{l=1}$ 和 $\alpha_m = \{\alpha^l_m \}^L_{l=1}$ 分别表示所有块的修剪和合并的压缩率。 $F(\alpha_p , \alpha_m)$ 表示相应的FLOPs，可以表示为压缩率的一种可微方式。最后，通过 DiffRate 中微分学习得到 $\alpha^*_p,\alpha^*_m$ 。

通过统一的令牌压缩公式，DiffRate 有足够的能力表达各种压缩方法。当 $f_c = f_p， α^l_m = 0$ 时，DiffRate 表示令牌剪枝，剪枝压缩率 $α^l_p$ 可微。当 $f_c = f_m， α^l_p = 0$ 时，DiffRate变为可微令牌合并。在这项工作中，设置 $f_c = f_m◦f_p$ ，这意味着先修剪令牌，然后合并令牌。在这种情况下，DiffRate通过可微分压缩率无缝集成令牌修剪和令牌合并。

问题：然而，求解上述等式中的优化问题具有一定的挑战性。上述优化目标的等式与基于梯度的方法的压缩率是不可微的。像通道修剪那样直接学习0-1的token掩码是不可行的，因为每个图像可能会丢失不同数量的token。这使得很难并行化计算。例如，DynamicViT 和SPViT 为每个输入图像维护一个掩码向量，但它们仍然需要手动设计压缩率，以确保所有图像保留相同数量的令牌。下一节将介绍一种用于压缩率可微搜索的新技术。

2 DiffRate中的创新点

在 DiffRate 中，引入了一种称为可微分离散代理(DDP)的新方法，它包括两个关键组件:一个标记排序过程，用标记重要性度量来识别重要标记，一个重新参数化技巧，通过梯度反向传播来优化选择top-K重要标记。DDP的整体流水线如下图所示。

2.1 令牌排序

在 DiffRate 中，为了找到 top-K 重要性令牌，作者通过令牌重要性度量对令牌进行排序。在这里，作者使用了同EViT的重要度测量 class attention $A_c∈R^{1×N}$ 。 class attention 和 image tokes 之间的关系可以用下列式子表示：
$A_c = Softmax(q_cK^T/\sqrt{D}), and X_c = A_cV,$ 其中， $q_c∈R^{1×D} K∈R^{N×D} V∈R^{N×D} 和 X_c∈R^{1×D}$ 分别表示类令牌、键矩阵、值矩阵、自关注层类令牌的查询向量。class attention $A_c$ 衡量每个图像令牌对类令牌的贡献。关注度越高，对应的图像标记对最终输出的影响越显著，意味着其重要性越大。

如上图（a）所示，在第1个变压器块中修剪 $Nα_p$ 个不重要的符号。之后，使用余弦相似性来度量 $N(α_m - α_p)$ 个不重要标记与其余标记之间的相似性。对于相似的令牌对，通过直接平均它们来生成一个新的令牌。通过上述排序-修剪-合并管道，在DiffRate 中以可学习的压缩率最优地确定每个块中需要修剪和合并的令牌数量。
因此，DiffRate可以无缝地集成令牌修剪和合并。

2.2 压缩率重参数化

DDP使用重参数化技巧使剪枝和合并压缩率可微。通过使用单个变量α来表示两种压缩率来简化符号。

离散速率的再参数化。从本质上讲，使压缩率可微就是确定在保证最优性的情况下应该丢弃多少令牌。

为了解决这个问题，作者将压缩率重新参数化为多个候选压缩率的可学习组合。具体来说，作者引入一个离散的压缩率集，表示为 $C = \{ C_1, C_2，…， C_N\}$ ，其中 $C_k = \frac{k−1}{N}$ 表示应该删除的最重要的(k−1)个标记。通过将可学习概率 $ρ_k$ 分配给每个候选压缩率 $C_k$ ，使 $\sum^N_{k=1}ρ_k =1$ ，压缩率可以写成
$\sum^{N}_{k=1}C_kρ_k \ \ \ \ \ \ \ \ （7）$
通过使用离散的各个候选压缩率的集合，将学习压缩率的优化问题可以转化为概率ρk的学习问题。

如上图 (b) 所示，在 $C_k$ 和 $ρ_k$ 下，第 $k$ 个重要令牌被压缩的概率可计算为
$π_1 = 0， π_k = ρ_{N+2 - k} +···+ ρ_{N−1} + ρ_N, k≥2 \ \ \ \ \ \ \ \ (8)$ 其中 $π_1 = 0$ 表示最重要的令牌始终被保留。容易看出 $π_k≤π_{k+1}$ 。因此，带有 DDP的 DiffRate 符合这样一个事实，即不太重要的令牌应该具有更大的压缩概率。为了使训练和推理一致，将 $π_k$ 转换为0-1掩码，公式为:
$m_k =\begin{cases} 0，π_k≥α，\\ 1，π_k < α，\end{cases} \ \ \ \ \ \ \ \ (9)$ 其中， $m_k = 1$ 表示保留第 $k$ 个令牌，反之亦然。
在每个视觉转换块中，通过实例化了两个独立的重参数化模块来学习剪枝和合并压缩率。因此，它生成两个令牌级掩码，即修剪掩码和合并掩码，每个令牌分别表示 $m^p_k$ 和 $m^m_k$ 。注意，在上一个块中删除的令牌也必须在这个块中压缩。因此，最终的掩码定义为
$m_k = m_k·m^p_k·m^m_k， \ \ \ \ \ \ \ \ (10)$ 其中右边的 $m_k$ 是最后一个块中第 $k$ 个令牌的掩码。

为了保持梯度反向传播链，作者在公式(10)中使用掩码 $m_k$ 将令牌下降转换为注意掩蔽。继 DynamicViT 之后。为了实现这一点，作者构建了一个与每个自操作操作的注意图具有相同维度的注意掩码:
$M_{i,j} =\begin{cases} 1,i = j, \\ m_j, i = j \end{cases} \ \ \ \ \ \ \ \ (11)$ 注意掩码防止所有压缩令牌和其他令牌之间的交互，除了它自己。然后作者使用这个掩码修改下一个自关注模块中的Softmax操作:
$=\frac{QK^T}{\sqrt D}, \\ \hat S_{i,j} = \frac {exp(S_{i,j})M_{i,j}}{ \sum^N_{k=1} exp(S_{i,k})M_{i,k}} \ \ \ \ \ \ \ \ (12)$ 其中， $Q∈R^{N×D}$ 是查询矩阵， $S∈R^{N×N}$ 是Softmax之前的原始注意映射，而 $\hat S_{i,j}$ 实际上是用来更新令牌的。等式(11-12)使得损失函数的梯度传播到 mask m上。

2.3 训练目标

通过最小化总损耗解决了上文所述的优化问题：
$L = L_{cls} + λ_fL_f (α_p， α_m)， \ \ \ \ \ \ \ \ (13)$ 其中， $L_f = (F(α_p， α_m)−T)^2$ 是约束FLOPs的损耗。超参数 $λ_f$ 平衡了两个损耗项，在实验中将其默认设置为5。

在网络反向传播过程中，作者利用直通估计器(straight-through-estimator, STE)来计算等式(11)的梯度。因此，可以使用链式法则来计算 $L$ 相对于 $ρ_k$ 的梯度:
$\frac{∂_L}{∂_{ρ_k}} =\sum^N_{j=1} \frac{∂_L}{∂_{m_j}} \frac{∂_{m_j}}{∂_{π_j}} \frac{∂_{π_j}}{∂_{ρ_k}} ≈ \sum^N_{j=1} \frac {∂_L}{∂_{m_j}} \frac{∂_{π_j}}{∂_{ρ_k}} \ \ \ \ \ \ \ \ (14)$ 由于 $ρ_k$ 可通过等式(14)微分，压缩率 $α$ 可以用梯度反向传播方程 (7) 进行优化。

3. 算法流程

算法1给出了 DiffRate 的整体训练算法。它包括三个步骤:带 $ρ_k$ 的正向模型(第2-6行)，计算优化目标(第7-9行)，反向传播和 DDP 中的 $ρ_k$ 更新(第10-11行)。DiffRate算法通过将 $ρ_k$ 更新为可微的形式来找到最优压缩率，得到的压缩率可以直接应用于现成的模型。

4. 简化版理解

可能看了上述的内容，大家对于 DiffRate 的整体还是不太理解。这里对文章内容进行口语式解答来帮助大家理解文章内容。

DiffRate 这篇文章整体而言就是提供了一个 令牌剪枝和合并相融合的方案，并提出了 将参数压缩率可微化的方案。
就令牌剪枝和合并而言。首先，根据每个图像令牌对类令牌的贡献保留 Top K 个令牌；然后，使用余弦相似性来度量不重要标签与其余标记的相似性，将两个相似的求取平均值进行合并。这里说的不重要标签指的是对于合并操作来说，在保留的 Top K 之外的标签（注意：对于剪枝和对于合并而言，分别拥有 Top K的概念，且两者参数是不同的，具体的请看下面程序）。

	# 判断剪枝操作保存的K 是否小于 当前的token_number 如果小于的话再进行操作
     if prune_kept_num < last_token_number:        # make sure the kept token number is a decreasing sequence
         prune_mask = self.prune_ddp.get_token_mask(last_token_number)
         mask = mask * prune_mask.expand(B, -1)
	#	更新token_number   取当前token_number 和 剪枝操作保留的num中的最小值
     mid_token_number = min(last_token_number, int(prune_kept_num)) # token number after pruning
         
     # merging
     merge_kept_num = self.merge_ddp.update_kept_token_number()
     self._diffrate_info["merge_kept_num"].append(merge_kept_num)

	#	判断合并操作保留的 K 是否小于最小的token——number
     if merge_kept_num < mid_token_number:
         merge_mask = self.merge_ddp.get_token_mask(mid_token_number)
         x_compressed, size_compressed = x[:, mid_token_number:], self._diffrate_info["size"][:,mid_token_number:]
         merge_func, node_max = get_merge_func(metric=x[:, :mid_token_number].detach(), kept_number=int(merge_kept_num))
         x = merge_func(x[:,:mid_token_number],  mode="mean", training=True)
         # optimize proportional attention in ToMe by considering similarity
         size = torch.cat((self._diffrate_info["size"][:, :int(merge_kept_num)],self._diffrate_info["size"][:, int(merge_kept_num):mid_token_number]*node_max[..., None]),dim=1)
         size = size.clamp(1)
         size = merge_func(size,  mode="sum", training=True)
         x = torch.cat([x, x_compressed], dim=1)
         self._diffrate_info["size"] = torch.cat([size, size_compressed], dim=1)
         mask = mask * merge_mask

     self._diffrate_info["mask"] = mask

就将参数压缩率可微化而言。DiffRate 模型通过将压缩率定义成了一组参数：学习概率 $ρ_k$ 。然后通过反向传播更新这组参数进而得到了可学习的压缩率。其中，学习概率参数在代码中的定义如下所示：

self.kept_token_candidate =  nn.Parameter(torch.arange(patch_number, 0,-1*granularity).float())
self.kept_token_candidate.requires_grad_(False)
self.selected_probability =  nn.Parameter(torch.zeros_like(self.kept_token_candidate))   
self.selected_probability.requires_grad_(True)

5. 总结

实验结果表明，即使没有对模型进行微调，DiffRate也可以与以前最先进的令牌压缩方法相当或更好的方法想媲美。此外，DiffRate具有很高的数据效率，因为它仅使用1,000张图像就可以确定适当的压缩率。
总的来说，所提出的DiffRate框架通过揭示压缩率的重要性，为令牌压缩提供了一个新的视角。

如果有什么疑问欢迎在评论区提出，对于共性问题可能会后续添加到文章介绍中。

Boltz-2：革命性生物分子模型，加速药物发现的新引擎花生糖@ AIGC学习资料库 Boltz-2 生物模型 AI
在药物研发领域，预测蛋白质与其他分子间的结合强度（BindingAffinity）始终是核心挑战之一。传统方法如自由能微扰法（FEP）虽然精确，但计算成本极高，难以大规模应用。如今，Boltz-2的诞生打破了这一瓶颈——这是首个开源的深度学习模型，其结合强度预测准确度接近FEP方法，却将速度提升了1000倍，成为药物早期筛选的“加速器”。项目简介Boltz-2是由jwohlwend团队开发的生物分
人工智能在医疗领域的应用：技术革新与未来展望
人工智能（AI）技术正在重塑医疗行业的面貌。从辅助诊断到药物研发，从健康管理到手术机器人，AI的广泛应用不仅提升了医疗效率，还为精准医疗和个性化治疗提供了新可能。根据2025年多份研究报告及政策文件，全球AI医疗市场正以39.4%的年复合增长率高速扩张，预计到2025年，中国市场规模将达349亿元，全球规模则可能突破千亿美元18。本文将从应用场景、技术驱动、挑战与政策支持等维度，探讨AI在医疗领域
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
大语言模型（LLM）课程学习（Curriculum Learning）、数据课程（data curriculum）指南：从原理到实践
在人工智能的浪潮之巅，我们总会惊叹于GPT-4、Llama3.1、Qwen2.5这些顶尖大语言模型（LLM）所展现出的惊人能力。它们似乎无所不知，能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是：它们是如何“学”会这一切的？大多数人会回答：“用海量数据喂出来的。”这个答案只说对了一半。如果你认为只要把互联网上能找到的所有数据（比如15万亿个token）随机打乱，然后“一锅烩”地喂给模型，
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
为什么让AI洗碗比写诗难百倍？清华教授揭秘具身智能鸿沟 Loving_enjoy 计算机学科论文创新点机器学习人工智能 facebook 课程设计
>**人类小脑数亿年进化出的运动智慧，成了AI最难破解的密码**2025年3月，一位网友困惑地发问：“我想让人工智能替我洗碗做饭洗衣服，没想到现在的AI反而在画画、写歌、搞创作……”对此，全国政协委员、中国科学院自动化研究所研究员赵晓光一针见血地指出：**“大模型没有创新能力，想让AI干体力活还要靠具身智能的发展。”**这个看似矛盾的现象背后，隐藏着人工智能发展进程中一个惊人的认知盲区。清华大学心
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
2025主流AI大模型终极指南：横向对比+实战测评+官方注册教程 AI新视界 AI工具全指南：从入门到精通解锁高效生产力人工智能
《2025主流AI大模型终极指南：横向对比+实战测评+官方注册教程》在人工智能技术飞速发展的今天，大型语言模型(LLM)已成为推动数字化转型的核心引擎。作为CSDN资深AI技术专家，我将通过本文为您全面剖析2025年主流大模型的技术特点、应用场景和性能差异，并提供详细的官方注册和使用指南，帮助您快速掌握这些强大的AI工具。一、2025年主流大模型全景概览1.1大模型技术发展现状2024-2025年
AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025） Liudef06小白 AIGC 人工智能 AI作画语言模型
一、引言：从实验工具到产业引擎的跃迁人工智能生成内容（AIGC）技术正经历从文本向多模态的范式转移。2023-2025年间，文生图、图生图与视频生成垂直模型逐步跨越技术奇点，从实验室玩具进化为工业化生产力工具。这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
深度 |AI高质量数据集交易爆发式增长数智前沿数字化转型人工智能数据集
AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进，人工智能三大基本要素之一数据，面临的高质量数据不足问题却凸显。财联社记者最新从业内获悉，目前各大模型企业迫切希望获得更多更好的高质量数据集，需求集中于头部企业行业知识底座构建，人工智能高质量数据集的需求量、交易量激增，已成为数据流通最活跃的领域。不过，高质量数据集的建设、流通环节均面临诸多问题，目前数据交易所并非模型语料最主要的采购途径。需求
轻量化分布式AGI架构：基于区块链构建终端神经元节点的互联网智脑探客木木夕分布式 agi 人工智能架构区块链
在2025年的技术发展背景下，轻量化分布式AGI架构正成为人工智能领域的重要突破方向。通过将终端设备转化为神经元节点，结合区块链技术构建去中心化的互联网智脑，不仅能够突破传统AGI开发的算力瓶颈，还能实现数据安全共享与价值分配。**这一架构将重塑人工智能的发展范式，使AGI能力从中心化实验室扩散至全球终端设备网络，最终形成一个去中心化、自演进、高可用的互联网级智能系统**。研究显示，通过知识密度提
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

DiffRate详解：高效Vision Transformers的可微压缩率