travis_cloud

（元迁移学习）《Meta-Transfer Learning for Few-Shot Learning》论文总结

文章目录

Meta-Transfer Learning for Few-Shot Learning
- 一、先验知识
- - 1.迁移学习
  - - 1）迁移学习概念
    - 2）领域自适应
    - 3）UDA（无监督领域自适应）
    - 4）基于MMD的邻域自适应方法
  - 2.元学习
  - - 1）元学习概念
    - 2）元学习方法分类
    - 3）自注意力机制
- 二、问题背景
- 三、论文工作
- - 1.论文主要工作
  - 2.元学习阶段介绍
  - - 1）元训练阶段（Meta-training）
    - 2）元测试阶段（Meta-testing）
  - 3.少样本学习技术流程
  - 4.少样本学习三阶段
  - - 1）大规模数据DNN训练
    - 2）元迁移学习
    - 3）Hard task meta-batch
- 四、实验
- - 1.实验数据集
  - 2.实验结果
  - - miniImageNet
- 五、论文总结

个人博客地址：https://travis1024.github.io/

Meta-Transfer Learning for Few-Shot Learning

一、先验知识

1.迁移学习

1）迁移学习概念

随着越来越多的机器学习应用场景的出现，而现有表现比较好的监督学习需要大量的标注数据，标注数据是一项枯燥无味且花费巨大的任务，所以迁移学习受到越来越多的关注。然而实际使用过程中不同数据集可能存在一些问题，比如数据分布差异、标注数据过期等等，如何充分利用之前标注好的数据（废物利用），同时又保证在新的任务上的模型精度，这就是迁移学习所要解决的问题。

迁移学习的目标是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中，从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。

2）领域自适应

领域自适应是迁移学习中的一种代表性方法，他的定义是将不同领域（比如两个不同的数据集）的数据特征映射到同一个特征空间，这样可利用其它领域数据来增强目标领域训练。

举个商品评论情感分析的例子来说，两个不同的产品领域：books 图书领域和 furniture 家具领域；在图书领域，通常用“纸张较好”、“字体清晰”等词汇来表达正面情感，而在家具领域中却由“稳固”、“重量适中”等词汇来表达正面情感。可见此任务中，不同领域的不同情感词多数不发生重叠、存在领域独享词、且词汇在不同领域出现的频率显著不同，因此会导致领域间的概率分布失配问题。

有时在一个感兴趣的领域中有一个分类任务，但是在另一个感兴趣的领域中只有足够的训练数据，在这种情况下，如果成功地进行知识迁移，就可以避免昂贵的数据标记工作，从而大大提高学习性能。

再次举例来说明，假设训练数据集是各种英短蓝猫，而想训练得到可以区分田园猫的模型，该模型相比于英短蓝猫识别情况性能会下降。当训练数据集和测试数据集分布不一致的情况下，通过在训练数据集上按经验误差最小准则训练得到的模型在测试数据集上性能不佳，因此引入了域适应技术。

源域（source domain）和目标域（target domain）共享相同的特征和类别，但是特征分布不同，如何利用信息丰富的源域样本来提升目标域模型的性能。源域表示与测试样本不同的领域，具有丰富的监督标注信息；目标域表示测试样本所在的领域，无标签或者只有少量标签。源域和目标域往往属于同一类任务，但是分布不同。

3）UDA（无监督领域自适应）

无监督领域自适应的任务是利用源域中已有的知识或者说标签信息去学习目标域的样本的类别；源域Ds和目标域Dt的数据经验分布不一样，在UDA任务中，同样需要寻找一种源域和目标域之间的共有特征。

假设现在有一个特征抽取器
$f:\mathcal{X}\mapsto \mathcal{Z}$
可以抽取出“共有特征”，则根据这个f，可以构建出两个新的数据集，
$\mathcal{D}_s=\{(z^s_i=f(x^s_i),y^s_i)\}_{i=1}^{m}\\ \mathcal{D}_t=\{z^t_j=(x^t_j)\}_{j=1}^{n}$
采用这个特征抽取器的原因就是要找到一种共有特征
$\mathcal(z^s_i) \mathcal(z^t_j)$
这些共有特征符合共同的经验分布，下面这是一个特征分类器：

4）基于MMD的邻域自适应方法

此方法的整体流程图如下：

模型的基本结构很简单，包括一个特征抽取器和一个特征分类器
$G_f:\mathcal{X}\mapsto \mathcal{Z}\\ G_y:\mathcal{Z}\mapsto\mathcal{Y}$
输入源域数据xs，经过Gf变成特征zs，然后经过Gy变成分类概率ys，源域有真实的标签ys，所有可以构建一个分类loss函数，其中L是交叉熵损失。这个与传统的分类任务没有任何区别。
$L_y=\frac{1}{m}\sum_{i=1}^{m}L(f(x_i^s),y_i^s)$
在这方法中比较重要的一部分就是特征提取器部分，即对于邻域不变特征的提取，经过特征抽取器Gf，需要把所有的源域样本和目标域样本映射到特征空间，
$Z^s=\{z^s_1,z^s_2,\cdots,z^s_m\}\sim P\\ Z^t=\{z^t_1,z^t_2,\cdots,z^t_n\}\sim Q$
目标是寻找一种领域不变特征，即让分布P和Q之间的“距离”越来越少，让两个分布一样，即可说明找到了源域和目标域一个共同的表示空间。过程就如下图所示。

可以用MMD来衡量P和Q之间的距离，并希望在训练过程中，GfGf能学习这样一组特征，使得MMD越来越小，所以可以构造这样一个loss函数,联合以上两个loss，可以联合训练一个简单的领域自适应模型。
$L_A = MMD(Z^s,Z^t)\\ L=\frac{1}{m}\sum_{i=1}^{m}L(f(x_i^s),y_i^s) + \lambda MMD(Z^s,Z^t)$
整个方法主要分为两个部分：即特征提取和特征分类部分。

2.元学习

1）元学习概念

元学习（Meta Learning）或者叫做“学会学习”（Learning to learn），它是要“学会如何学习”，即利用以往的知识经验来指导新任务的学习，具有学会学习的能力。元学习的意图在于通过少量的训练实例设计能够快速学习新技能或适应新环境的模型。

当前的深度学习大部分情况下只能从头开始训练。使用参数微调来学习新任务，效果往往不好，而元学习就是研究如何让神经玩两个很好的利用以往的知识，使得能根据新任务的调整自己。

传统的机器学习研究模式是：获取特定任务的大型数据集，然后用这个数据集从头开始训练模型。很明显，这和人类利用以往经验，仅仅通过少量样本就迅速完成学习的情况相差甚远。（人类可以从少量样本中快速学习获取很大的认知能力，但算法模型则需要在大规模的数据集上得到训练才有可能达到人的识别能力）

一个良好的元学习模型能够很好地推广到在训练期间从未遇到过的新任务和新环境。最终，改编的模型可以完成新任务。这就是元学习也被称为学习如何学习的原因。

2）元学习方法分类

1、基于记忆Memory的方法。
基本思路：因为要通过以往的经验来学习，那就可以通过在神经网络中添加Memory来实验。

2、基于预测梯度的方法。
基本思路：Meta Learning的目的是实现快速学习，而实现快速学习的关键点是神经网络的梯度下降要准和快，那么就可以让神经网络利用以往的任务学习如何预测梯度，这样面对新的任务，只要梯度预测的准，那么学习就会快。

3、利用Attention注意力机制
基本思路：训练一个Attention模型，在面对新任务时，能够直接的关注最重要部分。

4、借鉴LSTM的方法
基本思路：LSTM内部的更新非常类似于梯度下降的更新，那么能否利用LSTM的结构训练处一个神经网络的更新机制，输入当前网络参数，直接输出新的更新参数

5、面向RL的Meta Learning方法
基本思路：既然Meta Learning可以用在监督学习，那么增强学习上又可以怎么做呢？能否通过增加一些外部信息的输入比如reward，和之前的action来实验。

6、通过训练一个base model的方法，能同时应用到监督学习和增强学习上
基本思路：之前的方法只能局限在监督学习或增强学习上，能否做出一个更通用的模型。

7、利用WaveNet的方法
基本思路：WaveNet的网络每次都利用了之前的数据，那么能否照搬WaveNet的方式来实现Meta Learning呢？就是充分利用以往的数据。

8、预测Loss的方法
基本思路：要让学习的速度更快，除了更好的梯度，如果有更好的Loss，那么学习的速度也会更快，因此，可以构建一个模型利用以往的任务来学习如何预测Loss

3）自注意力机制

自注意力机制实际上被广泛应用在自然语言处理中，是注意力机制的一种特殊情况，如果想要了解自注意力机制的推导过程和公式，可以研读一下《Attention is all you need》这篇论文，以便能够更加深入的了解自注意力机制和公式的含义，注意力机制（Attention）简单来说就是给定一个查找（query）和一个键值表（key-value pairs)，将查找映射到正确的输入的过程，由于查找、键、值和最后的结果都是向量的形式，所以输出常为加权求和的形式。

二、问题背景

传统上我们需要很多的训练数据才能训练出一个好的模型。但是在很多任务上，如：自动驾驶，无人机等，我们就需要快速地应对一些未见过的情形。

迁移学习通过在其他数据集上的大量训练，然后将其训练出的模型复制到目标任务上，最后在目标任务上通过少量标注数据对模型进行微调。但是这个基于梯度下降的方法在新任务上依然需要很多的标注数据。

元学习则是指一类只关注学习本身的学习算法。元学习在任务空间进行训练，而不是在（像迁移学习一样）实例空间进行训练。迁移学习在单个任务上进行优化，但是元学习会在任务空间里采样多个任务，然后在多个任务上学习。因此元学习模型理所应当的在未知任务上表现地更好。虽然元学习确实在few-shot learning上表现良好，但是当目标任务上可训练的样本较多时，元学习的性能就不太好了。比如可能随着时间的推移，我们积累了越来越多的标注数据，我们当然想要不断地提高我们的性能啦！但是随着数据的增多，元学习可能就不work了。还有一种情形是，目标任务的类别太多时，元学习的表现也不太好。

由此论文就想到了要结合元学习和迁移学习之优势，以弥补各自的不足。

三、论文工作

1.论文主要工作

1）提出了一种新的元迁移方法，该方法学习转移大规模预先训练的DNN权重来解决少样本学习任务；

2）提出了一种新颖的HT元批量学习策略，强制元迁移“在艰难中成长得更快更强”；

3）对两个少样本学习基准进行实验，并得出实验结果。

2.元学习阶段介绍

元学习主要包括两个阶段：元训练阶段（Meta-training）和元测试阶段（Meta-testing）

1）元训练阶段（Meta-training）

元训练阶段主要目标是学习到一个最优的w。为了实现这一目的，元学习假定我们可以获取一些任务，它们采样自任务分布p(T)，组成Source Dataset。Source Dataset由M个数据集组成，每个数据集对应于一个任务。

2）元测试阶段（Meta-testing）

元测试阶段主要目的是为了验证元知识的效果。类似地，在这个阶段，也从任务分布中采样Q个任务，构成Target Dataset。于是，在meta-testing阶段，我们可以基于Meta-training阶段求出的w*，为Target Dataset中的每个任务，在其训练集上进行训练，然后，用这些模型在相应的测试集上的测试结果来评估meta-leaner的总体性能。

3.少样本学习技术流程

少样本学习方法的技术路线如下图所示：

该流程中主要可以划分为三个阶段：

①大规模数据的DNN训练，即使用所有训练数据点，同时将低层固定为特征提取器；

②元迁移学习基于预训练的特征提取器学习缩放和移动参数，为了提高总的学习效果，作者使用了Hard-task meta-batch策略；

③执行测试阶段；

4.少样本学习三阶段

1）大规模数据DNN训练

这个阶段类似于经典的预训练阶段，在这一阶段中，我们不考虑来自其他数据集的数据/领域适应，并且在少样本学习基准中容易获得的数据上进行预训练，允许与其他少样本学习方法进行公平的比较。具体来说，对于一个特定的少样本数据集，我们合并所有类别的数据进行预处理。

首先初始化一个特征提取器（比如ResNets中的卷积层）和一个特征分类器（比如ResNets最后的全连接层），然后通过梯度下降对其进行优化，公式及损失函数如下所示：

这个阶段将学习出特征抽取器Θ。它将在下面的元训练和元测试阶段被固定住，而学习出的分类器θ将被丢弃，因为接下来的任务中将包含不同的分类目标，比如5-class分类而不是训练时的64-class分类。

2）元迁移学习

MTL模型

通过Hard-Task meta-batch训练来优化”缩放和移动“操作（缩放和移动操作，即Scaling and Shifting (SS)可以简洁的表示为α X + β）。下图展示了通过SS和Fine-Tunning操作进行更新的区别。
SS操作

给定一个任务，其损失函数用于通过梯度下降来优化当前基础分类器，当前base-learner的参数θ‘的更新方法为公式如下所示：

其中公式中的θ以与等式中相同的学习速率γ进行更新：

接下来，Φ应用于固定的神经元，给定训练后的Θ，它的第l层包含K个神经元，我们有K对参数，分别为权重和偏置，假定X为输入，公式为：

阶段一、二算法过程如下图所示：大规模深层神经网络的训练（第1-5行）、元-迁移学习（第6-22行）、Hard Task meta-batch的重采样和连续训练阶段（第16-20行）

3）Hard task meta-batch

传统情况下的meta-batch由随机采样的任务组成。作者将模型预测错误的样本收集在一起重新组成一个更难的任务，然后重新训练。这就是hard task meta-batch。

SS操作的参数通过T的损失进行优化。我们可以得到模型在T上分别对M个类别的准确率，然后根据准确率大小进行排序。作者将学习设置成动态的在线学习，所以我们将从准确率较低的类别中重新对任务进行采样和训练。

单个任务上的学习过程：

四、实验

1.实验数据集

论文在两个数据集上进行试验：miniImageNet 和 Fewshot-CIFAR100数据集。

miniImageNet有100个类别，每个类别有600个样本，这100个类别被划分为：64,16,20类，分别用于meta-trianing, meta-validation和meta-test阶段。
Fewshot-CFAR100包括100个类别，每个类别有600个样本，每个样本的尺寸是32 × 32。这100个类别属于20个超类。超类的划分为12 : 4 : 4 ，分别用于训练，验证和测试。

2.实验结果

miniImageNet

上表展示了各个方法在miniImageNet数据集上的实验结果。可以看到MTL+SS+Hard task meta-batch方法取得了最好的实验结果。

Fewshot-CFAR100

五、论文总结

本文提出了MTL模型，并使用Hard task meta-batch的课程学习策略进行训练。MTL模型独立于任何特定的网络，它可以被很好的进行拓展，而且Hard task meta-batch策略可以很容易地在在线迭代中使用。实验证明，MTL在预先训练的DNN神经元上的关键操作对于学习经验应用在看不见的任务上非常有效。在miniImageNet和Fewshot-CFAR100这两个实验中，论文提出的方法具有良好的性能。这种设计独立于任何特定的模型，只要任务的难度易于在线迭代评估时，方法的适应性就表现地较为良好。

AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？ 985小水博一枚呀深度学习学习笔记迁移学习人工智能机器学习域适应
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？文章目录【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？1.背景介绍2.理论基础2.1分布差异（DomainShift）2.2迁移学习理论（TransferLearningTheory）2.3领域不变特征（Domain-invariantFeatures）
迁移学习基础知识 zhooooooou 深度学习迁移学习人工智能机器学习
简介使用迁移学习的优势：1、能够快速的训练出一个理想的结果2、当数据集较小时也能训练出理想的效果。注意：在使用别人预训练的参数模型时，要注意别人的预处理方式。原理：对于浅层的网络结构，他们学习到的角点信息和纹理信息都是通用的，将学习好的浅层网络的信息迁移到新的网络中，这样新的网络也拥有了识别底层通用特征的能力，从而能加快网络学习新的数据集的高维特征。常见的迁移学习的方式：1、载入权重后训练所有参数
迁移学习入门 EmbodiedTech 人工智能大模型迁移学习人工智能机器学习
迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only:只要解码器部
开启行业智变新征程，腾讯云架构师技术沙龙邀你解锁DeepSeek实战应用 deepseek
引言从2025开年的惊艳登场，到逐步落地的价值兑现，DeepSeek正以实战为突破点，推动AI技术落地的深水区变革。随着其工程化能力与行业场景的深度耦合，DeepSeek已从“技术验证”迈入“场景攻坚”阶段，互联网、金融、制造等行业的标杆案例接连涌现，一场由实战驱动的行业智变浪潮正席卷而来。当技术红利转化为生产力，企业如何应对算力瓶颈与场景碎片化的双重挑战？从系统工程化集成到跨模态迁移学习，Dee
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
【大模型学习】第十九章什么是迁移学习好多渔鱼好多 AI大模型人工智能大模型 AI 机器学习迁移学习
目录1.迁移学习的起源背景1.1传统机器学习的问题1.2迁移学习的提出背景2.什么是迁移学习2.1迁移学习的定义2.2生活实例解释3.技术要点与原理3.1迁移学习方法分类3.1.1基于特征的迁移学习（Feature-basedTransfer）案例说明代码示例3.1.2基于模型的迁移（Model-basedTransfer）案例说明BERT用于情感分析的例子3.1.3基于实例的迁移（Instanc
《高效迁移学习：Keras与EfficientNet花卉分类项目全解析》机器学习司猫白深度学习迁移学习 keras 分类 tensorflow efficientnet 性能优化
从零到精通的迁移学习实战指南：以Keras和EfficientNet为例一、为什么我们需要迁移学习？1.1人类的学习智慧想象一下：如果一个已经会弹钢琴的人学习吉他，会比完全不懂音乐的人快得多。因为TA已经掌握了乐理知识、节奏感和手指灵活性，这些都可以迁移到新乐器的学习中。这正是迁移学习（TransferLearning）的核心思想——将已掌握的知识迁移到新任务中。1.2深度学习的困境与破局传统深度
模型优化前沿趋势与行业应用实战智能计算研究中心其他
内容概要模型优化技术正经历从理论研究到产业落地的关键跃迁。随着自动化机器学习（AutoML）与边缘计算技术的深度融合，模型开发范式正从人工调参转向自动化、自适应优化。以联邦学习为代表的数据隐私保护技术，正在重构跨机构协作的模型训练范式，而量子计算与神经架构搜索（NAS）的结合，为超参数优化开辟了新维度。在应用层面，医疗影像识别准确率突破99%的突破性成果，验证了迁移学习在跨领域知识迁移中的巨大潜力
一学就会的深度学习基础指令及操作步骤（6）迁移学习小圆圆666 深度学习迁移学习人工智能卷积神经网络
文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。优势：节省训练时间，提高模型性能，尤其在小数据场景下效果显著。核心是利用源域的知识来帮助目标域任务，比如在ImageNet上预训练的模型用于医疗影像分类。源域（SourceDomain）：已有知识的领域（如ImageNet图像库）。目标域（
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
OpenAI O1在跨语言生成中的应用：从多语言处理到文化适应性喵手 AIGC AIGC
全文目录：开篇语前言目录1.OpenAIO1的多语言生成技术概述O1模型的架构大规模预训练与迁移学习2.O1如何处理语言文化差异语言的隐性差异与文化背景文化敏感内容生成3.O1在多语言环境中的应用跨语言生成自动翻译与多语言理解全球化内容创作4.O1在全球化内容创作中的作用多语言营销与定制化内容本地化与个性化创作5.自动翻译与跨语言理解的前景6.总结与未来展望文末开篇语哈喽，各位小伙伴们，你们好呀，
PyTorch 中结合迁移学习和强化学习的完整实现方案小赖同学啊人工智能 pytorch 迁移学习人工智能
结合迁移学习（TransferLearning）和强化学习（ReinforcementLearning,RL）是解决复杂任务的有效方法。迁移学习可以利用预训练模型的知识加速训练，而强化学习则通过与环境的交互优化策略。以下是如何在PyTorch中结合迁移学习和强化学习的完整实现方案。1.场景描述假设我们有一个任务：训练一个机器人手臂抓取物体。我们可以利用迁移学习从一个预训练的视觉模型（如ResNet
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
matlab连接散射点,使用小波散射做信号分类死月絲卡蕾特 matlab连接散射点
在时间序列信号的深度学习第二部分，我们将介绍一下怎样使用小波散射做信号分类。本视频将分为两部分。第一部分中我们已经简单介绍一下深度学习，包括它的概念和工作流程等。并且我们演示了如何用时频变换，和基于卷积神经网络的迁移学习来做心电图信号的分类。第二部分中我们将首先介绍什么是小波散射，之后将聚焦在怎样使用小波散射技术也就是不变散射卷积网络做自动特征提取，和使用长短期记忆网络也就是LSTM(LongSh
深度学习模型优化与医疗诊断应用突破智能计算研究中心其他
内容概要近年来，深度学习技术的迭代演进正在重塑医疗诊断领域的实践范式。随着PyTorch与TensorFlow等开源框架的持续优化，模型开发效率显著提升，为医疗场景下的复杂数据处理提供了技术基座。当前研究聚焦于迁移学习与模型压缩算法的协同创新，通过复用预训练模型的泛化能力与降低计算负载，有效解决了医疗数据样本稀缺与硬件资源受限的痛点问题。与此同时，自适应学习机制通过动态调整网络参数更新策略，在病理
跨框架模型演进与行业应用路径智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，模型框架的演进与行业应用的深度融合已成为推动产业智能化升级的核心驱动力。本文系统性梳理TensorFlow、PyTorch、MXNet等主流框架的技术发展脉络，重点分析其从通用计算架构向多模态、轻量化方向的转型路径。同时，针对模型优化技术领域，深入探讨迁移学习、超参数调优及模型压缩等方法的创新突破，揭示其在降低计算资源消耗、提升推理效率方面的关键作用。在行业
联邦学习优化驱动医疗诊断新突破智能计算研究中心其他
内容概要医疗人工智能的发展长期面临数据孤岛与隐私合规的双重挑战，传统集中式训练模式难以满足多机构协作需求。联邦学习技术通过构建分布式训练框架，使医疗机构在不共享原始数据的前提下，实现跨域模型的协同优化。这一技术突破为医学影像识别、病理特征分析等场景提供了新的技术路径，特别是在肿瘤筛查领域，通过迁移学习实现跨病种知识迁移，配合超参数自动调优机制，可使模型在有限标注数据下达到95%以上的病灶识别准确率
DeepSeek模型微调的原理和方法 alankuo 人工智能
DeepSeek模型微调的原理迁移学习基础DeepSeek模型微调基于迁移学习的思想。预训练模型在大规模通用数据上进行了无监督或有监督的训练，学习到了丰富的语言知识、语义表示和通用模式。这些知识和模式具有一定的通用性，可以迁移到其他相关的任务中。在微调时，我们利用预训练模型已经学到的这些通用知识，针对特定的目标任务进行进一步的调整和优化，使得模型能够更好地适应新任务的需求。微调的参数更新机制在微调
【深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习】生活De°咸鱼 AIGC Java 深度学习大数据 AIGC
深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习1.深度学习基础概述1.1深度学习的核心概念1.2常见深度学习模型1.3大模型的挑战与解决方案2.数据准备2.1数据处理示例：CIFAR-103.构建深度学习模型4.训练模型5.使用预训练模型（迁移学习）6.Transformer架构6.1Transformer的核心原理6.2Transformer的基本组件6.3Trans
给你的数据加上杠杆：文本增强技术的研究进展及应用实践熵简科技Value Simplex
作者信息：文本出自熵简科技NLP算法团队，团队利用迁移学习、少样本学习、无监督学习等深度学习领域最新的思想和技术，为熵简科技各大业务线提供底层AI技术支持和可落地的解决方案，包括前沿算法的领域内落地以及持续部署的后台支持等。导读：本文摘自熵简科技NLP团队的内部技术沙龙，文章系统性地回顾了自然语言处理领域中的文本增强技术在近几年的发展情况，重点列举和讨论了18年、19年中人们常用的五类文本增强技术
DeepSeek如何重塑我的编程学习：计算机新生的AI实践 EnigmaCoder DeepSeek 学习人工智能
目录前言邂逅DeepSeek：从困惑到惊喜初学编程的困境DeepSeek的优势️DeepSeek在编程学习中的运用注释算法逐步分析调试帮助跨语言迁移学习AI时代学习方法论革新知识获取方式转变新型学习能力培养反思与展望反思展望总结前言大家好！我是EnigmaCoder，本文我将介绍我的AI编程学习之旅。春节期间，DeepSeek横空出世，迅速登顶热榜。它功能强大，精准答疑、高效创作，瞬间点燃大众热情
【自然语言处理|迁移学习-08】：中文语料完型填空爱学习不掉头发深度学习自然语言处理（NLP）自然语言处理迁移学习人工智能
文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax进行单标签多分类2数据集加载及处理数据介绍：数据文件有三个train.csv，test
蓝耘服务器与DeepSeek的结合：引领智能化时代的新突破 Lethehong 热点时事服务器运维 deepseek python
嗨，我是Lethehong！立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页AI目录蓝耘服务器与DeepSeek的结合：引领智能化时代的新突破一、蓝耘服务器的技术优势1、高性能计算能力2、可扩展性与高效存储3、绿色节能设计二、DeepSeek：智能算法的引擎1、高效的深度学习训练与推理2、自适应学习与迁移学习3、多任务学习三、蓝耘服务器与DeepSeek结合的优
大语言模型常用微调与基于SFT微调DeepSeek R1指南知来者逆 LLM 深度学习人工智能自然语言处理 DeepSeek SFT 微调
概述大型语言模型（LLM，LargeLanguageModel）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好。微调是迁移学习的一种常见方法，能够显著提升模型在特定任务上的性能。在大型语言模型（LLM）的微调中，有几种常见的方法，包括SFT（监督微调）、LoRA（低秩适应）、P-tuningv2和**Fre
【python语言应用】最新全流程Python编程、机器学习与深度学习实践技术应用（帮助你快速了解和入门 Python）赵钰老师 python 机器学习深度学习 python 机器学习深度学习数据分析人工智能
近年来，人工智能领域的飞速发展极大地改变了各个行业的面貌。当前最新的技术动态，如大型语言模型和深度学习技术的发展，展示了深度学习和机器学习技术的强大潜力，成为推动创新和提升竞争力的关键。特别是PyTorch，凭借其灵活性和高效性，成为科研人员和工程师的首选工具。理解和掌握深度学习的基础知识，深入了解其与经典机器学习算法的区别与联系，并系统掌握包括迁移学习、循环神经网络（RNN）、长短时记忆网络（L
仅用10张图片，AI就能学会识别万物？多模态小样本学习颠覆传统！沃恩智慧人工智能深度学习人工智能学习深度学习
小样本学习与多模态结合是当前人工智能领域的热门研究方向，旨在通过结合多模态数据（如视觉、语言、音频等）来提高模型在数据稀缺情况下的学习效率和性能。例如，ZS-DeconvNet方法在Nature上发表，展示了其在极低训练数据需求下，将图像分辨率提升超过1.5倍衍射极限的能力。此外，CPE-CLIP和MMFL等方法通过利用预训练模型和冻结的大规模视觉语言模型，实现了跨会话的迁移学习和快速适应新样本。
基于PyTorch框架实现，展示如何使用ResNet50进行特征提取，并结合MMD用于领域适应，迁移学习在轴承故障诊断中的应用 QQ_767172261 轴承类 pytorch 迁移学习人工智能
基于PyTorch框架实现，展示如何使用ResNet50进行特征提取，并结合MMD用于领域适应，迁移学习在轴承故障诊断中的应用_迁移学习轴承诊断DAN:ResNet50-MMD以下文字及代码仅供参考。文章目录1.环境准备2.数据准备3.模型定义4.训练过程1.导入必要的库2.定义模型3.数据准备4.训练过程5.运行代码6.注意事项附说明：、pytorch版本，ResNet50进行特征提取，mmd最
迁移学习 Transfer Learning 有人给我介绍对象吗模块迁移学习人工智能机器学习
迁移学习（TransferLearning）是什么？迁移学习是一种机器学习方法，它的核心思想是利用已有模型的知识来帮助新的任务或数据集进行学习，从而减少训练数据的需求、加快训练速度，并提升模型性能。1.为什么需要迁移学习？在深度学习任务（如目标检测、分类）中，通常需要大量数据和计算资源来训练一个高性能模型。然而，在某些场景下，我们面临以下挑战：数据有限：有些领域（如医学影像、多光谱图像）很难收集足
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的