编程龙

Model Fusion via Optimal Transport论文阅读+代码解析

论文地址点这里

一. 论文基本介绍

最近2023ICLR中的一篇论文被曝抄袭一事，而进行举报的作者就是本次要将的论文的作者之一，可以发现本篇论文的工作是非常不错的。本篇论文也是第一个从最优运输地角度考虑模型之间地融合技术，通过排列神经元而达到更好地效果。而且在本文中只要保证两个网络深度一样，那么两个网络就能够很好地融合。

二. 最优运输

详细地解读点这里
如果你对最优运输地相关概念不是很了解，可以看一看上面这个链接地解读。
定义： 最优运输简单来说就是把A数据迁移到B。你可以理解成两堆土，从A土铲到另外一个地方，最终堆成B土。就像是以前初中学的线性规划一样的：3个城市（A, B, C）有1, 0.5, 1.5吨煤，然后要运到2个其他城市，这两个城市(C, D)分别需要2，1吨煤。然后，不同城市到不同的费用不同，让你算最优运输方案和代价。

因此，首先我们考虑有两个离散测度 $\mu=\sum_{i=1}^n \alpha_i \delta\left(\boldsymbol{x}^{(i)}\right)$ 以及 $\nu=\sum_{i=1}^m \beta_i \delta\left(\boldsymbol{y}^{(i)}\right)$ 。这里 $\delta(\boldsymbol{x})$ 表示为离散点 $\boldsymbol{x} \in \mathcal{S}$ 以及和所有相关点 $\boldsymbol{X}=\left(\boldsymbol{x}^{(1)}, \ldots, \boldsymbol{x}^{(n)}\right) \in \mathcal{S}^n$ 的分布。权重 $\boldsymbol{\alpha}=\left(\alpha_1, \ldots, \alpha_n\right)$ 表示为对应的概率向量（ $\boldsymbol{\beta}$ 类似 )。同时使用 $\boldsymbol{C}_{i j}$ 表示从 $\boldsymbol{x}^{(i)}$ 移动到 $\boldsymbol{y}^{(j)}$ 的花费。因此对于 $\mu$ 以及 $\nu$ 的最优运输可以被写为下面的线性问题： $OT(\mu, \nu ; \boldsymbol{C}):=\min \langle\boldsymbol{T}, \boldsymbol{C}\rangle$ ,，其中 $\boldsymbol{T} \in \mathbb{R}_{+}^{(n \times m)}$ ，因此 $\boldsymbol{T} \mathbf{1}_m=\boldsymbol{\alpha}, \boldsymbol{T}^{\top} \mathbf{1}_n=\boldsymbol{\beta}$ 。其中 $\langle\boldsymbol{T}, \boldsymbol{C}\rangle:=\operatorname{tr}\left(\boldsymbol{T}^{\top} \boldsymbol{C}\right)=\sum_{i j} T_{i j} C_{i j}$ 表示为矩阵的内积。最优的 $\in \mathbb{R}_{+}^{(n \times m)}$ 被称作是运输矩阵或者运输映射 , 而 $T_{i j}$ 表示 $\boldsymbol{x}^{(i)}$ 到 $\boldsymbol{y}^{(j)}$ 的最佳运输大小。
Wasserstein距离： 距离度量是机器学习任务中最重要的一环。比如，常见的人工神经网络的均方误差损失函数采用的就是熟知的欧式距离。然而，在最优运输过程中，优于不同两点之间均对应不同的概率，如果直接采用欧式距离来计算运输的损失（或者说对运输的过程进行度量和评估），则会导致最终的评估结果出现较大的偏差（即忽略了原始不同点直接的概率向量定义）。

三. 提出的算法

正如在前面的介绍中提到的，参数平均的问题是模型参数之间缺乏一对一的对应关系。特别是对于给定的一层，两种模型的神经元之间没有直接的匹配。例如，这意味着模型A的第 $p$ 个神经元的行为可能与另一个模型B的第 $p$ 个神经元的行为非常不同(就它检测到的特征而言)，相反，在功能上可能与第 $p + 1$ 个神经元非常相似。想象一下，如果我们知道神经元之间的完美匹配，那么我们就可以简单地将模型a的神经元相对于模型B的神经元排列起来。这样做之后，对神经元参数进行平均就更有意义了。匹配或赋值可以表述为一个排列矩阵，只需将参数乘以这个矩阵就可以使参数对齐。

但在实践中，对于给定的层，两种模型的神经元之间更有可能存在软对应关系，特别是当它们的数量在两种模型中不相同时。这就是最优传输的作用所在，它以传输图T的形式为我们提供了一个软对齐矩阵。换句话说，对齐问题可以重新表述为，将模型a的给定层中的神经元最优地运输到模型B的同一层中的神经元。

过程： 我们假设模型在 $l$ 层之前的神经元已经排列完成。现在我们定义两个模型在 $l$ 层的概率测度为： $\mu^{(\ell)}=\left(\boldsymbol{\alpha}^{(\ell)}, \boldsymbol{X}[\ell]\right)$ 以及 $\nu^{(\ell)}=\left(\boldsymbol{\beta}^{(\ell)}, \boldsymbol{Y}[\ell]\right)$ 。其中 $\boldsymbol{X}, \boldsymbol{Y}$ 为测量支持。

接下来，我们使用均匀分布来初始化每一层的直方图(或概率值)。在实际中，如果使用 $n^{(\ell)},m^{(\ell)}$ 表示为模型A，B在第 $\ell$ 层的大小，那么我们可以得到 $\boldsymbol{\alpha}^{(\ell)} \leftarrow \boldsymbol{1}_{n^{(\ell)}} / n^{(\ell)}, \boldsymbol{\beta}^{(\ell)} \leftarrow \mathbf{1}_{m^{(\ell)}} / m^{(\ell)}$ 。现在，根据对齐过程，我们首先对齐当前层的传入边权值。这可以通过与前面的层传输矩阵 $T^{(l-1)}$ 相乘来实现，并且通过相应列边矩阵的倒数 $\boldsymbol{\beta}^{(\ell-1)}$ 进行归一化：
$\widehat{\boldsymbol{W}}_A^{(\ell, \ell-1)} \leftarrow \boldsymbol{W}_A^{(\ell, \ell-1)} \boldsymbol{T}^{(\ell-1)} \operatorname{diag}\left(1 / \boldsymbol{\beta}^{(\ell-1)}\right) \tag1$
这里可以这么解释：矩阵 $\boldsymbol{T}^{(\ell-1)} \operatorname{diag}\left(\boldsymbol{\beta}^{-(\ell-1)}\right)$ 有 $m^{(\ell-1)}$ 个列，因此通过进行和当前权重 $\boldsymbol{W}_A^{(\ell, \ell-1)}$ 的相乘将会产生一个凸组合。

一旦完成了这一步，我们就会专注于校准 $\ell$ 层的神经元。我们假设我们有一个合适的地面度量矩阵 $D_{\mathcal{S}}$ ，我们可以根据 $\mu^{(\ell)}, \nu^{(\ell)}$ 以及 $\ell$ 计算最优的传输矩阵 $\boldsymbol{T}^{(\ell)}$ ： $\boldsymbol{T}^{(\ell)}, \mathcal{W}_2 \leftarrow \mathrm{OT}\left(\mu^{(\ell)}, \nu^{(\ell)}, D_{\mathcal{S}}\right)$ ，其中 $\mathcal{W}_2$ 表示为Wasserstein距离。现在，我们可以使用这个传输矩阵 $\boldsymbol{T}^{(\ell)}$ 来重新排列模型A到模型B的神经元：
$\widetilde{\boldsymbol{W}}_A^{(\ell, \ell-1)} \leftarrow \operatorname{diag}\left(1 / \boldsymbol{\beta}^{(\ell)}\right) \boldsymbol{T}^{(\ell)^{\top}} \widehat{\boldsymbol{W}}_A^{(\ell, \ell-1)} \tag2$
因此，有了这种对齐，我们可以平均两层的权重，以获得融合的权重矩阵 $W_{\mathcal{F}}^{(\ell, \ell-1)}$ ，如下式：
$\boldsymbol{W}_{\mathcal{F}}^{(\ell, \ell-1)} \leftarrow \frac{1}{2}\left(\widetilde{\boldsymbol{W}}_A^{(\ell, \ell-1)}+\boldsymbol{W}_B^{(\ell, \ell-1)}\right) \tag3$
注意，由于输入层的顺序对两个模型是相同的，我们从第二层开始对齐。此外，最后一层，也就是输出层，神经元的顺序也是相同的。因此，最后一层的(缩放的)传输映射将等于标识。

多模型融合： 关键思想是，从融合模型的 $\boldsymbol{W}_{\mathcal{F}}^{(\ell, \ell-1)}$ 估计开始，然后根据它对齐所有给定模型，最后返回这些对齐权重的平均值作为融合模型的最终权重。对于两个模型的情况，这相当于我们上面讨论的将融合模型初始化为模型B时的过程，即 $\widehat{M}_{\mathcal{F}} \leftarrow M_B$ 。因为，将模型B与融合模型的这个估计对齐将得到一个等于恒等的(缩放的)传输映射。然后，式(3)将等于返回对齐权重的平均值。

定位策略： 上面我们讨论需要有一个地面度量 $D_{\mathcal{S}}$ ，这里有两种方法可以考虑：

基于激活的策略 $(\psi=$ ‘acts’ $)$ ： 在这个变体中，我们对 $m$ 样本集进行推理， $S=\{\mathbf{x}\}_{i=1}^m$ 并将所有神经元的激活存储在模型中。因此，我们认为神经元激活，连接到样本的一个向量，作为度量的支持，我们将其表示为 $\boldsymbol{X}_k \leftarrow \operatorname{ACTS}\left(M_k(S)\right)， \boldsymbol{Y} \leftarrow \operatorname{ACTS}\left(M_{\mathcal{F}}(S)\right)$ 。然后，如果两个模型的神经元对给定的样本集产生相似的激活输出，则认为它们是相似的。我们通过计算得到的激活向量之间的欧氏距离来测量这一点。这作为OT计算的基础度量。
基于权重的策略( $\psi=$ ‘wts’)： 在这里，我们认为每个神经元的支持由传入边的权重给出(堆叠在一个向量中)。因此，一个神经元可以被认为是由权矩阵中与其对应的行表示的。因此，对这种排列类型的度量的支持由， $\boldsymbol{X}_k[\ell] \leftarrow \widehat {\boldsymbol{W}}_k^{(\ell, \ell-1)}， \boldsymbol{Y}[\ell] \leftarrow \widehat {\boldsymbol{W}}_{\mathcal{F}}^{(\ell,\ell-1)}$ 给出。选择这种支持的理由源于特定层的神经元激活被计算为该权重向量与前一层输出之间的内积。OT使用的地面度量是欧氏距离，就像在前面的对齐策略中一样。除了在地面度量中使用实际重量的差异，其余的程序是相同的。

算法如下：

三. 代码解析

论文代码点这里
在开始代码前，我将根据我自己的对文章的理解，然后使用一个简单的例子讲如何根据OT对模型进行融合的：

我们来看代码（为了直观理解，这里选择的是两个MLP模型并且模型大小是一样的，利用MNIST数据集进行考察的），我们首先来看参与进行融合的相关参数

def get_acts_wassersteinized_layers_modularized(args, networks, activations, eps=1e-7, train_loader=None, test_loader=None)

其中networks为一个列表，存储了两个模型的对应参数，如下：

activations存储的是两个模型各层经过数据集得出激活向量组：

这里选择得batch_size=200，因此每层为：[200,1,400] [200,1,200]等。
接下来我们来看看具体是怎么工作的，首先我们使用均匀分布初始化当前的两个概率向量mu以及nu，如下：

def _get_neuron_importance_histogram(args, layer_weight, is_conv, eps=1e-9):
    print('shape of layer_weight is ', layer_weight.shape)
    if is_conv:
        layer = layer_weight.contiguous().view(layer_weight.shape[0], -1).cpu().numpy()
    else:
        layer = layer_weight.cpu().numpy()
    
    if args.importance == 'l1':
        importance_hist = np.linalg.norm(layer, ord=1, axis=-1).astype(
                    np.float64) + eps
    elif args.importance == 'l2':
        importance_hist = np.linalg.norm(layer, ord=2, axis=-1).astype(
                    np.float64) + eps
    else:
        raise NotImplementedError

    if not args.unbalanced:
        importance_hist = (importance_hist/importance_hist.sum())
        print('sum of importance hist is ', importance_hist.sum())
    # assert importance_hist.sum() == 1.0
    return importance_hist

得到得结果为：

因为当前得层为400，所以1/400=0.025然后填充完成，之后我们计算aligned_w:

if is_conv:
    if args.handle_skips:
        assert len(layer0_shape) == 4
        # save skip_level transport map if there is block ahead
        if layer0_shape[1] != layer0_shape[0]:
            if not (layer0_shape[2] == 1 and layer0_shape[3] == 1):
                print(f'saved skip T_var at layer {idx} with shape {layer0_shape}')
                skip_T_var = T_var.clone()
                skip_T_var_idx = idx
            else:
                print(
                    f'utilizing skip T_var saved from layer layer {skip_T_var_idx} with shape {skip_T_var.shape}')
                # if it's a shortcut (128, 64, 1, 1)
                residual_T_var = T_var.clone()
                residual_T_var_idx = idx  # use this after the skip
                T_var = skip_T_var
            print("shape of previous transport map now is", T_var.shape)
        else:
            if residual_T_var is not None and (residual_T_var_idx == (idx - 1)):
                T_var = (T_var + residual_T_var) / 2
                print("averaging multiple T_var's")
            else:
                print("doing nothing for skips")
    T_var_conv = T_var.unsqueeze(0).repeat(fc_layer0_weight_data.shape[2], 1, 1)
    aligned_wt = torch.bmm(fc_layer0_weight_data.permute(2, 0, 1), T_var_conv).permute(1, 2, 0)

else:
    if fc_layer0_weight.data.shape[1] != T_var.shape[0]:
        # Handles the switch from convolutional layers to fc layers
        # checks if the input has been reshaped
        fc_layer0_unflattened = fc_layer0_weight.data.view(fc_layer0_weight.shape[0], T_var.shape[0],
                                                           -1).permute(2, 0, 1)
        aligned_wt = torch.bmm(
            fc_layer0_unflattened,
            T_var.unsqueeze(0).repeat(fc_layer0_unflattened.shape[0], 1, 1)
        ).permute(1, 2, 0)
        aligned_wt = aligned_wt.contiguous().view(aligned_wt.shape[0], -1)
    else:
        aligned_wt = torch.matmul(fc_layer0_weight.data, T_var)

接下来我们使用激活去计算度量，如下

def process(self, coordinates, other_coordinates=None):
    print('Processing the coordinates to form ground_metric')
    if self.params.geom_ensemble_type == 'wts' and self.params.normalize_wts:
        print("In weight mode: normalizing weights to unit norm")
        coordinates = self._normed_vecs(coordinates)
        if other_coordinates is not None:
            other_coordinates = self._normed_vecs(other_coordinates)

    ground_metric_matrix = self.get_metric(coordinates, other_coordinates)

    if self.params.debug:
        print("coordinates is ", coordinates)
        if other_coordinates is not None:
            print("other_coordinates is ", other_coordinates)
        print("ground_metric_matrix is ", ground_metric_matrix)

    self._sanity_check(ground_metric_matrix)

    ground_metric_matrix = self._normalize(ground_metric_matrix)

    self._sanity_check(ground_metric_matrix)

    if self.params.clip_gm:
        ground_metric_matrix = self._clip(ground_metric_matrix)

    self._sanity_check(ground_metric_matrix)

    if self.params.debug:
        print("ground_metric_matrix at the end is ", ground_metric_matrix)

    return ground_metric_matrix

最后利用OT解出T来，并归一化，再使用T排列aligned_w：

T_var = _get_current_layer_transport_map(args, mu, nu, M0, M1, idx=idx, layer_shape=layer_shape, eps=eps, layer_name=layer0_name)
T_var, marginals = _compute_marginals(args, T_var, device, eps=eps)

if args.debug:
    if idx == (num_layers - 1):
        print("there goes the last transport map: \n ", T_var)
        print("and before marginals it is ", T_var/marginals)
    else:
        print("there goes the transport map at layer {}: \n ".format(idx), T_var)

print("Ratio of trace to the matrix sum: ", torch.trace(T_var) / torch.sum(T_var))
print("Here, trace is {} and matrix sum is {} ".format(torch.trace(T_var), torch.sum(T_var)))
setattr(args, 'trace_sum_ratio_{}'.format(layer0_name), (torch.trace(T_var) / torch.sum(T_var)).item())

if args.past_correction:
    print("Shape of aligned wt is ", aligned_wt.shape)
    print("Shape of fc_layer0_weight_data is ", fc_layer0_weight_data.shape)

    t_fc0_model = torch.matmul(T_var.t(), aligned_wt.contiguous().view(aligned_wt.shape[0], -1))
else:
    t_fc0_model = torch.matmul(T_var.t(), fc_layer0_weight_data.view(fc_layer0_weight_data.shape[0], -1))

我们来看看T的形状：

这里是第一层的情况，两个模型的输出都是400*400，所以满足如上。

PromptX 核心架构深度解析：从革命性理念到工程实践的全景解读步子哥智能涌现架构人工智能
核心理念：AIuseCLIgetpromptforAI-让AI通过命令行获取专业提示词，从通用助手进化为专业专家团队引言：一场关于AI认知的革命当我们深入研究PromptX项目的核心架构文档时，会发现这不仅仅是一个技术框架，而是一套完整的AI认知重构理论。这些文档展现了从哲学思考到工程实践的完整链条，重新定义了人类与AI的协作模式。今天，让我们从这些核心文档开始，深度解析PromptX如何重塑AI
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
多租户SaaS系统中设计安全便捷的跨租户流程共享 Alex艾力的IT数字空间安全功能测试架构中间件微服务网络安全代码规范
四维协同架构，结合动态授权、加密传输、行为审计和智能策略一、权限控制体系1.动态权限模型2.授权策略实现RBAC+ABAC混合模型在流程表增加shared_tenants字段存储授权信息，结合属性动态校验：CREATETABLEworkflow_process(process_idVARCHAR(36)PRIMARYKEY,tenant_idVARCHAR(36)NOTNULL,shared_te
快速入门--Linux常用指令实操（1） small_jimmy 服务器 linux 运维
操作步骤命令示例设置root密码sudopasswdroot创建新目录mkdirproject进入project目录cdproject查看当前路径pwd查看目录内容ls-l创建temp目录mkdirtemp删除空目录temprmdirtemp文件查看相关分页查看文件morehello.txt高级分页查看lesshello.txt查看文件结尾tailhello.txt编辑文件gedithello.t
玩转澳大利亚凯恩斯热带雨林贝囡囡
凯恩斯是位于昆士兰北部的一个小城镇，是进入大堡礁的门户之一。凯恩斯既兼顾着大堡礁的海洋景观也有内陆热带雨林景观。库兰达雨林KurandaRainforest延绵27公里的热带雨林区，分布着大大小小的雨林公园，最经典的要数库兰达雨林(KurandaRainforest)。说它很经典，是因为在这里体验雨林的方式多，见识的动物多，还保留着当地的土著文化。来到库兰达雨林，可以通过3种方式探索她的美。1、雨
FPGA芯片厂商及关键的开发测试工具 Chip Design xPU Chip Design fpga开发
以下是结合2025年技术动态整理的。一、FPGA芯片主要厂商及产品系列厂商芯片系列典型特点目标市场AMD/XilinxVersal,Kintex,Artix,Zynq高性能异构计算（AI引擎+FPGA+CPU）数据中心、5G、航空航天Intel(Altera)Stratix,Arria,Agilex,Cyclone高带宽内存集成（HBM），支持CXL协议网络加速、边缘计算LatticeCertus
假如每一天都是重生,你还会这样下去吗？默默潜行的学者
前些天看了一篇文章，感触颇多。文章说，“现在，你闭上眼睛……想象一下，你已经七老八十了，坐在空无一人的房间里，臃肿老态没钱没势，生活不能自理，你对上帝许了一个愿望，说道:求求你，让我再回到年轻时候吧。上帝答应了他。于是，你睁开眼一看，回到了2020年的今天，那这次，你打算怎么活?”故事结束。第一次看到这篇文章，确实非常震撼，确实，我们每一天都是一次重生，每一天都是新的开始。对此，想想以前颓废的自己
黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模强化学习曾小健 #AI商业/产品/投融资前沿 #LLM大语言模型 transformer 深度学习人工智能
黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模乌鸦智能说2024-03-2216:14在今年的GTC大会上，英伟达CEO黄仁勋邀请了Transformer的七位作者（NikiParmar因故临时未能出席）参与圆桌论坛的讨论，这是Transformer团队首次在公开场合集体亮相。2017年，八位在谷歌工作的AI科学家发表了一篇名为《AttentionIsAllYouNeed》
我们爱过，但没做过贝贝姑娘
图片发自App图片发自App你能知道那么爱而不得的感受吗？明明那么相爱，就不能在一块。记得曾经看过一本书，说得是一个单身很久了的女人，在一次和男上司出差的时候，两个人明明都有意对方，可是，箭在弦上，他们却停止了动作。这世上有很多不是相爱就能解决的事情，它还有很多的问题可能在阻挡你。我们爱过，但没做过。
FATAL ERROR: Reached heap limit Allocation failed - JavaScript heap out of memory node编译时的内存溢出周不凢 node node.js
报错：FATALERROR:ReachedheaplimitAllocationfailed-JavaScriptheapoutofmemory原因：node编译时的内存溢出，因为打包文件过大，刚好超过内存的限制大小造成编译中断。解决方法1：通过package.json中的"build"加大内存增加--max_old_space_size参"scripts":{"dev":"nodebuild/d
第一次和家长吵架微笑向暖f
现在还在想自己做的是否正确？对待学生以及家长该有个什么样的度！一个独生子女，只能看到别人的错误，却找不到自己的原因，或者嘴上说着是自己不对，一句带过之后说的全是别人的不对，孩子是这样，母亲是这样，这样的孩子还有救吗？本身出于好心，孩子哭着说要来我们这个班，心软，就同意了，今天和家长吵完，又感觉孩子还是孩子，还想让她好，家长又说好话，也就原谅了。可是，我这样会不会让那些不明事理的家长以为是我的软弱，
深度对比：innerHTML vs 虚拟DOM——原理、性能与应用全解析止观止前端前端框架前端 html5 javascript reactjs xss
引言在现代Web开发中，高效操作DOM（文档对象模型）是构建高性能应用的关键。传统方法如innerHTML和新兴的虚拟DOM（VirtualDOM）技术代表了两种截然不同的DOM更新策略。innerHTML作为浏览器原生API，直接操纵HTML字符串；虚拟DOM则是通过JavaScript对象树进行优化更新，广泛应用于React、Vue等框架。本文深入对比两者的核心原理、技术细节、应用场景及优劣，
Java:实现朴素模式匹配算法（附带源码） Katie。 Java算法完整教程算法 java python
1.项目背景详细介绍在文本处理、信息检索和生物序列分析等领域，“字符串模式匹配”是最基础也是最核心的操作之一。朴素模式匹配（NaiveStringMatching）算法，作为最直观的实现方式，通过逐个字符对比，查找模式串在目标文本中出现的位置。虽然现代应用中普遍采用更高效的KMP、Boyer–Moore、Sunday算法等，但理解并掌握朴素算法有助于：打牢基础：从最简单的实现入手，帮助初学者理解匹
Paimon：Range Partition and Sort优化无主键表（Append-Only Table）查询 lifallen Paimon 数据库大数据数据结构 java apache
这个优化是通过对数据进行全局排序，从而让查询时能够跳过大量不相关的数据文件（DataSkipping），极大地减少I/O，提升查询速度。只需要在执行INSERT语句时，通过OPTIONSHint来启用和配置这个功能即可。RangePartitionAndSortForUnawareBucketTableITCase测试文件本身就是最好的例子。比如测试中的这句SQL：INSERTINTOtest_t
Paimon 删除向量 lifallen Paimon 数据库大数据 java 数据结构 apache
RowKind可以标记删除，但它和DeletionVector（删除向量）是为解决不同场景下的问题而设计的两种机制，它们工作在不同的层面。简单来说：RowKind是“逻辑层”的变更指令，主要用于primary-key表的LSM-Tree合并过程。DeletionVector是“物理层”的读时过滤优化，用于在不重写数据文件的前提下，快速地“标记”某些行为无效，极大地提升了DELETE/UPDATE操
tailwindcss报错于慨 javascript
warn-The`content`optioninyourTailwindCSSconfigurationismissingorempty.warn-ConfigureyourcontentsourcesoryourgeneratedCSSwillbemissingstyles.warn-https://tailwindcss.com/docs/content-configurationtrans
我已经二婚了，难道还要从一个火坑跳到另一个火坑吗林姑娘与波斯猫
点击右上角关注我，为你带来情感解惑01从一个火坑跳到另一个火坑说得大概就是二婚，依然不幸福的人。可是已经是二婚了，依然没有得到自己曾经渴望的幸福，似乎又重复了当初的悲哀，又一次站到了婚姻的十字路口，难道还要从一个火坑跳到另一个火坑吗？网友小雅，就站在这样的十字路口。现在的她，常常有一个念头盘踞在脑海：我到底还要不要再离婚？如果离，可是我已经二婚了，在婚姻市场的价值就又贬值一次，这是无可争议的事实，
【C# in .NET】9. 探秘委托：函数抽象的底层机制阿蒙Armon C#in .NET c#.net java
探秘委托：函数抽象的底层机制在C#的类型系统中，委托（Delegate）作为函数的抽象容器，架起了面向对象与函数式编程的桥梁。它不仅是事件驱动编程的核心，更是LINQ、异步编程等现代C#特性的基础。与类和结构体相比，委托的底层实现融合了引用类型的内存管理与函数指针的调用特性，涉及CLR对方法调度的深度优化。本文将从IL指令解析到JIT编译细节，全面揭示委托的本质机制，带你理解这一特殊类型如何在.N
Julia视频教程 Bounce_aaba
在网易云课堂上直接搜索：Julia教程，就可以找到，教程的全名是：Julia教程从入门到进阶这是国内第一个免费的完整的Julia视频教程，非常适合Julia的入门。有兴趣的朋友可以去学习一下。教程链接：https://study.163.com/course/courseMain.htm?share=2&shareId=480000001854445&courseId=1208959805&_tr
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！ AI大模型前沿研究大模型笔记大模型人工智能 Hinton llya 大语言模型多模态大脑工作方式
GeoffreyHinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！文章目录一.整个访谈内容1.1.起点：理解大脑的工作方式以及隐藏层命名的由来1.2.谈Ilya：他有很好的直觉1.3.预测下一个词也需要推理1.4.模型能从语言中学到很多，但从多模态中学习会更容易1.5.关于认知的三种观点1.6.黄仁勋送了我一块GPU1.7.数字系统有人类无法比拟的优势1.8.需要得到重视的快速权
源力觉醒！百度文心4.5对比Qwen3：开源大模型双雄终极评测 Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>2024年大模型战场硝烟再起，百度携文心4.5强势入局开源领域，与阿里通义千问Qwen3上演"双雄争霸"。这场技术对决将如何重塑AI开发格局？本文将带您深入技术腹地，揭秘两大模型的真实战力！###一、战局全景：开源大模型进入"双巨头时代"####最新技术格局（2024年7月）|**维度**|**文心4.5**|**Qwen3**||----------------|---------------
微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化 MicroTech2025 量子计算区块链
随着量子计算技术的发展，传统加密算法面临被量子计算机破解的风险，LSQb算法也需考虑应对未来可能的量子攻击。微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化。格密码在面对量子攻击时具有较高的安全性，通过这种融合，能为LSQb算法提供更强大的抗攻击能力，确保信息在复杂的量子计算环境下的安全性。格密码是一种基于数学格结构的密码学方法，具有在量子计算环境
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
OpenAI 再放大招！Codex：云端 AI 编程助手，可自动执行编写功能代码 LinkTime_Cloud 人工智能
近日，OpenAI正式发布了一款颠覆性的云端代码智能体——Codex。这一工具不仅能够生成代码，还能通过自然语言指令完成包括错误修复、代码审查、拉取请求提交等全流程开发任务，标志着AI从辅助工具向自动化协作伙伴的跨越。Codex的推出，不仅是技术上的里程碑，更是对软件开发行业工作模式的革命性挑战。Codex的核心功能与技术创新1.多任务并行处理能力Codex可在独立的云端沙盒环境中同时处理多项任务
2023-03-15使用BASH SHELL执行命令以及快捷键运维小将
基本命令语法--bashshell执行方式：当准备好命令时，按下键盘上的Enter键。系统就会显示命令输出，然后显示下一个shell提示符[kaier@myhost~]$whoami#显示当前登录系统的用户kaier[kaier@myhost~]$--如果希望一行输入多个命令可以使用分号（;）作为命令分隔符[user@serverb~]$touchtest[user@serverb~]$whoam
GEO + SEO+SMO：AI时代全域组合营销智***O 人工智能 GEO优化大数据 GEO AI搜索
在信息爆炸的时代，用户每一次搜索的背后，都是一次决策的起点。当AI工具逐渐成为人们获取答案的首选，如何让你的品牌在AI生成的回答中占据核心位置？如何让用户在不同平台搜索时，始终选择你？智火营销SEO+GEO+SMO组合营销策略，让品牌成为用户与“搜索”之间的桥梁。智火营销GEO服务一、SEO：巩固搜索生态的信任基石在AI工具与社交平台崛起的当下，传统搜索引擎仍是用户验证信息的重要场景。SEO（搜索
2019-04-16 小庄_94e5
《暗影格斗2》是一款融合了养成元素的动作手游，它的前作曾在Facebook上创下4000万用户的辉煌战绩。《暗影格斗2》在继承前作优点的基础之上增加了装备、技能、剧情等非常有意思的游戏元素。随着情节逐渐展开，玩家将与成群的敌人格斗，并将迎战邪恶的最终BOSS。游戏逼真流畅的操控系统使玩家很容易的就能完成踢腿、拳击、跳跃、抱摔等各种极具观赏性的格斗动作，能体验到最真实激烈的格斗快感！完美体验移动版《
年夜饭月出天心2016
凌晨五点，我从睡梦中醒来，静静来到书桌旁，洁白的宣纸在桌案铺开，整颗心慢慢沉入书法的世界，这是我每日的必须课，今天是大年三十，不想荒废，这有早起了。两个小时不知不觉过去，收拾起笔墨纸砚，除夕的仪式一点一点拉开序幕。这一天，两家的四位老人聚在电视机旁，喝茶唠嗑，嘻嘻哈哈，孩子们吃吃喝喝，打打闹闹，弟媳妇在一旁端茶倒水，年的味道在他们的欢声笑语里晕开。感受着眼前的一切，我和丈夫一边在厨房忙碌，一边聊着
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

Model Fusion via Optimal Transport论文阅读+代码解析

一. 论文基本介绍

二. 最优运输

三. 提出的算法

三. 代码解析

你可能感兴趣的:(每日一次AI论文阅读,论文阅读,最优运输,模型融合,ICML2023,OTFusion)