imyLove7

Multi-task Learning and Beyond: 过去，现在与未来

本文经授权转载自知乎

标题：Multi-task Learning and Beyond: 过去，现在与未来

原文：https://zhuanlan.zhihu.com/p/138597214

作者：刘诗昆

Multi-task Learning 的两大研究分支

Multi-task Learning Network Design / What to share? [网络设计]

Multi-task Learning Loss Function Design / How to learn? [损失函数设计与梯度优化]

Auxiliary Learning -- Not all tasks are created equal [辅助学习]

总结

近期 Multi-task Learning (MTL) 的研究进展有着众多的科研突破，和许多有趣新方向的探索。这激起了我极大的兴趣来写一篇新文章，尝试概括并总结近期 MTL 的研究进展，并探索未来对于 MTL 研究其他方向的可能。

这篇文章将顺着我 18 年硕士论文：Universal Representations: Towards Multi-Task Learning & Beyond 的大体框架，并加以补充近期新文章的方法，和未来新方向的讨论。

Disclaimer: 在硕士论文里提及的自己的文章均为当时未发表的 preliminary results，对于任何人想要了解论文里的细节请直接参看发表的 conference 文章。

Multi-task Learning 的两大研究分支

在绝大部分情况下，MTL 的研究可以归类为以下两个方向，一个是 MTL Network 网络设计；另一个是 MTL Loss function 损失函数设计。我们以下对于这两个方向进行详细解读。

Multi-task Learning Network Design / What to share? [网络设计]

在起初，MTL 的网络设计通常可以列为两种情况：Hard parameter sharing 和 soft parameter sharing。

Hard-parameter sharing -- 现在是几乎所有做 MTL 不可缺少的 baseline 之一，就是将整个 backbone 网络作为 shared network 来 encode 任务信息，在最后一层网络 split 成几个 task-specific decoders 做 prediction。Hard-parameter sharing 是网络设计参数数量 parameter space 的 (并不严格的，假设不考虑用 network pruning) lower bound，由此作为判断新设计网络对于 efficiency v.s. accuracy 平衡的重要参考对象。

Soft-parameter sharing -- 可以看做是 hard-parameter sharing 的另外一个极端，并不常见于现在 MTL 网络设计的比较。在 soft-parameter sharing 中，每一个任务都有其相同大小的 backbone network 作为 parameter space。我们对于其 parameter space 加于特定的 constraint 可以是 sparsity, 或 gradient similarity, 或 LASSO penalty 来 softly* constrain 不同任务网络的 representation space。假设我们不对于 parameter space 加以任何 constraint，那么 soft-parameter sharing 将塌缩成 single task learning。

任一 MTL 网络设计可以看做是找 hard 和 soft parameter sharing 的平衡点：1. 如何网络设计可以小巧轻便。2. 如何网络设计可以最大幅度的让不同任务去共享信息。

MTL network design is all about sharing.

Cross-Stitch Network

Cross-Stitch Network 是过去几年内比较经典的网络设计，也已常用于各类 MTL 研究的baseline 之一。其核心思想是将每个独立的 task-specific 网络使用 learnable parameters (cross-stitch units) 以 linear combination 的方式连接其中不同任务的 convolutional blocks。

Multi-task Learning and Beyond: 过去，现在与未来_第2张图片

Visualisation of Cross-Stitch Networ

启发于 Cross-stitch 的设计，NDDR-CNN 也有类似的思路。然而不同的是，对于中间层的 convolutional block 的信息融合，他们采用了 concatenate 并通过 [1 x 1] 的 convolutional layer 来 reduce dimensionality。这样的设计使得每个任务的 channel 都可以与其他不同 index 的 channel 交融信息，而规避了原始 Cross-stitch 只能 infuse 相同 channel 信息的局限性。当 NDDR 的 convolutional layer weights 的 non-diagonal elements 是 0 的话， NDDR-CNN 则数学上等价于 Cross-Stich Network。

Cross-Stitch Network 和 NDDR-CNN 的最大弱势就是对于每个任务都需要一个新的网络，以此整个 parameter space 会对于任务的数量增加而线性增加，因此并不 efficient。

Multi-task Attention Network

基于 Cross-stitch Network efficiency 的缺点，我后续提出了 Multi-task Attention Network (MTAN) 让网络设计更加小巧轻便，整个网络的 parameter space 对于任务数量的增加以 sub-linearly 的方式增加。

MTAN 的核心思想是，assume 在 shared network encode 得到 general representation 信息之后，我们只需要少量的参数来 refine task-shared representation into task-specific representation, 就可以对于任意任务得到一个很好的 representation. 因此整个网络只需要增加少量的 task-specific attention module，两层 [1 x 1] conv layer，作为额外的 parameter space 来 attend 到 task-shared represenation。整个模型的参数相对于 Cross-Stitch Network 来说则大量减少。

AdaShare
AdaShare 则更是将 MTL 网络设计的 efficiency 做到的极致。与其增加额外的 conv layer 来 refine task-shared representation，AdaShare 将单个 backbone 网络看做 representation 的整体，通过 differentiable task-specific policy 来决定对于任何一个 task，否用去更新或者利用这个网络的 block 的 representation。

Multi-task Learning and Beyond: 过去，现在与未来_第5张图片

Visualisation of AdaShare

由于整个网络是应用于所有任务的 representation，因此 network parameter space 是 agnostic 于任务数量，永远为常数，等价于 hard-parameter sharing。而搭接的 task-specific policy 是利用 gumbel-softmax 对于每一个 conv block 来 categorical sampling "select" 或者 "skip" 两种 policy，因为整个 MTL 的网络设计也因此会随着任务的不同而变化，类似于最近大火的 Neural Architecture Search 的思想。

MTL + NAS

MTL-NAS 则是将 MTL 和 NAS 结合的另外一个例子。他搭载于 NDDR 的核心思想，将其拓展到任意 block 的交融，因此网络搜索于如何将不同 task 的不同 block 交融来获得最好的 performance。

Multi-task Learning and Beyond: 过去，现在与未来_第6张图片

Visualisation of MTL-NAS

我个人更偏向 Adashare 的搜索方式，在单个网络里逐层搜索，这样的 task-specific representation 已经足够好过将每一个 task 定义成新网络的结果。由此， MTL-NAS 也躲不掉网络参数线性增加的特点，不过对于 MTL 网络设计提供了新思路。

MTL + NAS 和传统的 single-task NAS 会有着不同需求，和训练方式。

MTL+NAS 并不适合用 NAS 里最常见的 two-stage training 方式：以 validation performance 作为 supervision 来 update architecture 参数，得到 converged architecture 后再 re-train 整个网络。因为 MTL 的交融信息具备 training-adaptive 的性质，因此 fix 网络结构后，这样的 training-adaptive 信息会丢失，得到的 performance 会低于边搜边收敛的 one-stage 方式。换句话说，训练中的 oscillation 和 feature fusion 对于 MTL 网络是更重要的，而在 single task learning 中，并没有 feature fusion 这个概念。这间接导致了 NAS 训练方式的需求不同。
MTL+NAS is task-specific. 在 NAS 训练中，要是 dataset 的 complexity 过大，有时候我们会采用 proxy task 的方式来加快训练速度。最常见的情况则是用 CIFAR-10 作为 proxy dataset 来搜好的网络结构，应用于过大的 ImageNet dataset。而这一方式并不适用于 MTL，因为对于任一任务，或者几个任务的 pair，他们所需要的 feature 信息和任务特性并不同，因此无法通过 proxy task 的方式来加速训练。每一组任务的网络都是独特和唯一的。

我相信在未来 MTL 网络设计的研究中，我们会得到更具备 interpretable/human-understandable 的网络特性，能够理解任务与任务之间的相关性，和复杂性。再通过得到的任务相关性，我们可以作为一个很好 prior knowledge 去 initialise 一个更好的起始网络，而由此得到一个更优秀的模型，一种良性循环。

A better Task Relationship <==> A better Mutil-task Architecture

Multi-task Learning Loss Function Design / How to learn? [损失函数设计与梯度优化]

平行于网络设计，另外一个较为热门的方向是 MTL 的 loss function design, 或者理解为如何去更好得 update 网络里的 task-specific gradients。

鉴于该部分含有较多公式，因此，详细内容请见原文：[刘诗昆] Multi-task Learning and Beyond: 过去，现在与未来，

Auxiliary Learning -- Not all tasks are created equal [辅助学习]

跟 MTL 高度相关的一个方向被称之为 Auxiliary learning (AL, 辅助学习)：他的训练过程与 MTL 完全一致。唯一的不同是，在 Auxiliary Learning 里，只有部分任务的 performance 是需要被考虑的 (primary task)，其他（辅助）任务 (auxiliary task) 的存在的意义是，帮助那部分需要被考虑的任务学习到更好的 representation。

Supervised Auxiliary Learning

Auxiliary Learning 存在的普遍性其实远超于我们的想象。比如，MTL 其实就是一种特殊形式的 AL，我们可以把其中任意一个 task 作为 primary task，其他剩余的 task 看作为 auxiliary task。在 MTL 里，我们默认所有 task 与 task 存在一种 mutual beneficial 的关系，因此所有 learning tasks 都 benefit 到这种相关性。

Auxiliary Learning 还应用在很多领域里，比如这篇文章发现在训练 depth 和 normal prediction 的同时，可以有效的帮助 object detection 的精确度。或者这篇文章发现在做 short sequence 的重建时，可以帮助 RNN 更有效的训练 very long sequence。

在 supervised auxiliary learning 的 setting 中，整个网络和任务的选择非常依赖于人类的先验知识，并不具备绝对的普遍性。

Meta Auxiliary Learning

考虑 supervised auxiliary learning 对于任务选择的局限性，我后续提出了一种基于 meta learning 的方法来自动生成 auxiliary task，我把这种方法称之为 Meta Auxiliary Learning (MAXL)。

在传统的 supervised auxiliary learning，我发现有这样如下两个规律：

假设 primary 和 auxiliary task 是在同一个 domain，那么 primary task 的 performance 会提高当且仅当 auxiliary task 的 complexity 高于 primary task。
假设 primary 和 auxiliary task 是在同一个 domain，那么 primary task 的最终 performance 只依赖于 complexity 最高的 auxiliary task。

这里对于 task 的 complexity 的定义比较 tricky 并不 general，目前我只考虑了最简单的图片分类的情况：细分类任务的 complexity 是高于粗分类任务。

比如在下图，我们看到猫，狗两类的分类的信息，直觉上一定低于细分类，约克夏，波斯猫之类更为细节的信息。而分类猫狗所需要的信息是分类细分类的子集，因此得出了规律 2.

再由于规律 2，我们只需要考虑最简单的两个任务训练的情况： primary task 和 auxiliary task 各为一个任务。因此在这里，我们”生成“一个好的 auxiliary task的问题，也就可转化为对任意输入图片，我们需要有一个好的网络去生成好的细分类标签。

因此在 MAXL 框架里，我们有两个网络：一个网络是 multi-task network 类同于 hard parameter sharing 来做 multi-task training。另外一个网络是 label-generation network 来生成细分类标签，给 multi-task network 作为 auxiliary task 的 prediction label。

在 label-generation network 里还存在一个 hyper-parameter φ 代表人类定义的 dataset hierarchy。假设我们在做简单的二分类，那么 φ=【2，3】则意味着将第一个类再细分成 2 类，第二个类再细分成 3 类。那么 label-generation network 就以这样的 hierarchy 通过 masked version of softmax 来生成相应的合适的 auxiliary label。于是 multi-task network 就在进行两个分类任务： primary task 是二分类，auxilairy task 是五分类。

通过 MAXL，我们发现他可以对这样的图片分类任务有着一定的效果提升。我们后续 visualize 生成的标签，发现在一些简单的数据集里有着人类可理解的 clustering 含义。

在上图中，上半部分是 CIFAR-100 的分类，下半部分是 MNIST 的分类。其中这三类 auxiliary class 中的图片是通过 label-generation network 生成在这个 class 里 5 个 confidence 最高的图片。

在较为复杂的 CIFAR-100 数据集中，我们很难理解 MAXL 的分类到底在干什么。而在 MNIST 中，我们可以发现不同粗细的数字 3，不同方向的数字 9，有无中间的 horizontal bar 的数字 7 cluster 到了一起。这种有趣的现象开拓了一个新颖的方向，对自动化辅助任务生成的探索。

总结

终于到总结了！近些年来 MTL 的研究出现了很多新颖且有价值的工作，但是对于任务自身的理解，和任务之间关系的理解还是有很大的不足和进步空间。在 Taskonomy 里，作者尝试了上千种（大量 CO2 排放）任务的组合来绘制出不同任务之间的关系图。但是真实 MTL 训练中，我相信这种关系图应该随着时间的变化而变化，且依赖网络本身。因此，如何更好得通过任务之间的关系去优化网络结构还是一个未解之谜，如何设计/生成辅助任务并通过 MTL 更好得帮助 primary task 也并未了解透彻。希望在后续的研究中能看到更多文章对于 MTL 的深入探索，实现 universal representation 的最终愿景。

时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
GNN多任务预测模型实现（二）：将EXCEL数据转换为图数据走的远一些神经网络知识分享知识备份人工智能深度学习
目录一.引言二.加载和检查数据三.提取特征和标签四.标准化特征五.构建节点索引六.构建边及其特征七.总结八.结语一.引言在图神经网络（GraphNeuralNetworks,GNNs）的多任务学习场景中，数据预处理是至关重要的一步。尤其是当我们的数据存储在表格格式（如Excel文件）中时，如何有效地将其转换为图数据格式，是搭建GNN模型的基础。二.加载和检查数据第一步是加载数据并检查其格式。我们通
探索多任务学习的新维度：Cross-stitch Networks 计蕴斯Lowell
探索多任务学习的新维度：Cross-stitchNetworksCross-stitch-Networks-for-Multi-task-LearningATensorflowimplementationofthepaperarXiv:1604.03539项目地址:https://gitcode.com/gh_mirrors/cr/Cross-stitch-Networks-for-Multi-t
【推荐系统】多任务学习之ESMM模型山顶夕景推荐算法深度学习推荐算法深度学习
学习总结ESMM首创了利用用户行为序列数据在完整样本空间建模，并提出利用学习CTR和CTCVR的辅助任务，迂回学习CVR，避免了传统CVR模型经常遭遇的样本选择偏差和训练数据稀疏的问题，取得了显著的效果。ESMM解决了真实场景中CVR中的SSB和DS问题。CVR（Conversionrate）转化率：衡量CPA广告效果的指标，用户点击广告到成为一个有效的激活（如注册额或者成为付费用户）的转化率，所
AIGC 与 Whisper：推动语音技术进步 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC whisper ai
AIGC与Whisper：推动语音技术进步关键词：AIGC（生成式人工智能）、Whisper、语音识别、多模态交互、大语言模型、语音合成、多任务学习摘要：本文深度解析生成式人工智能（AIGC）与OpenAI开源的Whisper语音识别系统如何协同推动语音技术进步。通过剖析AIGC的生成能力与Whisper的多语言、多任务处理优势，结合技术原理、算法细节、实战案例与应用场景，揭示两者在语音理解、合成
多任务学习概述+Vision Transformer+多模态 passion_up 科研Python相关学习
MTL多任务：多任务学习（MTL，multi-tasklearning）最早可以追溯到1997年的一篇文章，它描述的是一种学习范式——多个任务的数据一起来学习，学习的效果有可能要比每个任务单独学习的结果要好。本质上是利用多个任务的共享信息来提高在所有任务上的泛化性。多任务的核心优势在于通过不同任务的网络参数共享，实现1+1>2的提升。为什么需要MTL？多任务学习能发挥任务之间的关系，同时学习多个模
前沿论文汇总（机器学习/深度学习/大模型/搜广推/自然语言处理）小天才才一起看paper学AI 机器学习深度学习自然语言处理人工智能
文章目录1前言2大模型/自然语言处理2.1FreeAL：在大模型时代实现无需人工的主动学习2.2COLD：中文攻击性语言检测基准2.3将词汇的对比信息融入词嵌入以实现反义词-同义词区分3搜索/推荐/营销3.1PLE：一种面向个性化推荐的新型多任务学习模型3.2MMoE：多任务学习中的任务关系建模4机器学习4.15深度学习5.11前言本篇博客主要总结一下博主看过的人工智能领域的一些前沿论文，期待
多目标建模总结 zhiyong_will 深度学习Deep Learning 算法人工智能
1.概述在推荐系统中，通常有多个业务目标需要同时优化，常见的指标包括点击率CTR、转化率CVR、GMV、浏览深度和品类丰富度等。为了能平衡最终的多个目标，需要对多个目标建模，多目标建模的常用方法主要可以分为：多模型的融合多任务学习底层共享表示的优化任务序列依赖关系建模多模型的融合是根据不同的指标训练不同的模型，最终对多个模型的结果做融合；多任务学习是目前处理多目标建模使用较多的方法，相较于多模型的
使用 TensorFlow 实现自定义训练循环（Custom Training Loop） 2501_91537435 人工智能 tensorflow 人工智能 python
使用TensorFlow实现自定义训练循环（CustomTrainingLoop）默认的model.fit()已足够应对大多数任务，但在一些复杂场景下，如多任务学习、自定义损失函数、梯度裁剪等，我们就需要更细粒度的控制——这正是自定义训练循环的用武之地。✨自定义训练循环的核心优势更灵活的控制训练流程支持复杂的模型结构与损失函数可调试性更强（便于插入打印、日志记录等）适合研究性、创新性项目主要组成结
MLP多层感知机学习笔记 AI算法网奇深度学习宝典 mlp多层感知机
目录多层感知机（MLP）的优点和缺点：pytorch实现mlpcvpr2022的mobileformer中用到了mlp多层感知机，就来学习一下多层感知机（MLP）的优点和缺点：优点：非线性建模：MLP通过引入非线性激活函数，能够更好地适应和捕捉数据中的复杂关系。适用性广泛：由于其灵活性，MLP可以用于各种任务，包括分类、回归和其他机器学习任务。多任务学习：MLP可以被轻松地调整以处理多个输出任务，
【神经网络与深度学习】端到端方法和多任务学习如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
引言端到端方法和多任务学习是机器学习和深度学习领域中的两种重要技术，它们各自适用于不同的应用场景，并在模型设计、数据要求和训练过程等方面有着显著区别。端到端方法通过直接将输入数据映射到输出结果，从而简化了处理流程；而多任务学习则通过共享特征提升模型的性能及其对新任务的泛化能力。本文将对两种方法的定义、结构及应用场景进行简要分析，以帮助读者更好地理解和选择适合的技术。对比端到端方法和多任务学习是机器
人工智能丨DeepSeek、文心一言、Kimi、豆包、可灵……谁才是你的最佳AI助手？霍格沃兹测试开发学社测试人社区人工智能文心一言软件测试测试开发 deepseek
从技术层面对比和分析多个AI平台，DeepSeek、文心一言、可灵、即梦、豆包、Kimi等AI工具，总结了以下几个方面：1.模型架构与算法DeepSeek：可能基于Transformer架构，注重深度学习和多任务学习能力，适合复杂场景下的数据分析和推理任务。文心一言：基于百度的ERNIE系列模型，强调对中文语言的理解和生成能力，尤其在中文语境、成语、文化背景的处理上表现突出。可灵、即梦、豆包：这些
【人工智能的数学基础】寻找多目标优化问题的帕累托最优解 AI天才研究院自然语言处理人工智能语言模型 python 开发语言
文章目录1.建模多目标优化问题2.求解多目标优化问题⚪无约束的梯度下降⚪带约束的梯度下降3.优化求解过程⚪梯度内积⚪共享编码4.主次型多目标优化⚪主次型多目标优化的应用寻找多目标优化问题的帕累托最优解.paper：Multi-TaskLearningasMulti-ObjectiveOptimization多目标优化是指同时优化多个相关任务的目标，多任务学习是一个典型的多目标优化问题，其总目标函数
搜广推校招面经八十一 Y1nhl 搜广推面经开发语言机器学习人工智能深度学习推荐算法搜索算法 pytorch
OPPO搜广推一面面经一、介绍一下PLE模型在多任务学习（Multi-TaskLearning,MTL）中，多个任务共享部分模型结构，以提升整体效果。然而，不同任务间存在任务冲突（TaskConflict）问题，即不同任务对参数的优化方向不一致，导致性能下降。论文：Tang,Hongyan,etal.“ProgressiveLayeredExtraction(PLE):ANovelMulti-Ta
一段式端到端自动驾驶：UniAD：Planning-oriented Autonomous Driving 机械心端到端自动驾驶自动驾驶人工智能机器学习一段式端到端
论文地址：https://arxiv.org/pdf/2212.10156代码地址：https://github.com/OpenDriveLab/UniAD1.摘要现代自动驾驶系统通常由一系列按顺序执行的模块任务构成，例如感知、预测和规划。为了完成多种任务并实现高级别的智能化，当前的方法要么为每个任务部署独立模型，要么采用带有多个任务头的多任务学习范式。然而，这些方法可能面临误差累积或任务协调不
思维与算法共舞：AIGC语言模型的艺术与科学云边有个稻草人热门文章算法开发语言什么是语言模型？多任务学习与多模态生成客户服务与聊天机器人自适应生成与定制化文本预训练与微调
云边有个稻草人-个人主页热门文章_云边有个稻草人的博客-本篇文章所属专栏~目录引言：AIGC与文本生成概述一、AIGC基础：语言模型的基本原理1.什么是语言模型？2.预训练与微调二、AIGC的应用领域：文本生成的具体应用1.内容创作2.客户服务与聊天机器人3.自动摘要4.翻译与语言转换三、前沿突破：AIGC文本生成技术的最新进展与未来方向1.多任务学习与多模态生成2.生成对抗网络（GANs）与文本
微调中的多任务学习 CarlowZJ AI开发学习多任务学习
一、概念讲解1.什么是多任务学习？多任务学习（Multi-TaskLearning,MTL）是一种机器学习方法，它同时处理多个相关任务，共享模型的某些部分，从而提高学习效率和性能。在微调中，多任务学习可以通过同时优化多个任务的目标函数，使模型在多个任务上表现更优。2.多任务学习的优势知识共享：不同任务之间共享模型的某些部分，从而提高模型的泛化能力。减少过拟合：通过同时处理多个任务，减少模型在单一任
深度学习 Deep Learning 第15章表示学习 odoo中国人工智能深度学习学习人工智能表示学习
深度学习DeepLearning第15章表示学习内容概要本章探讨了表示学习的核心概念及其在深度学习中的重要性，重点分析了无监督预训练（尤其是贪婪逐层预训练）如何通过共享表征提升模型性能，并讨论了其在多任务学习、跨模态处理和小样本场景中的应用价值与理论依据。主要内容表示学习的基本概念表示学习通过将数据映射到不同的表示空间，使得某些任务（如分类）变得更加容易。一个好的表示应该在保留输入信息的同时，具有
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
python 使用microsoft-Florence-2-base进行图片描述生成哦里哦里哦里给 AI 大语言模型实战 python microsoft 开发语言
目录一、Florence-2简介二、代码实践三、多语言模型一、Florence-2简介Florence-2是一个先进的视觉基础模型，采用基于提示（prompt）的方式，处理广泛的视觉和视觉-语言任务。Florence-2能够解析简单的文本提示，执行如图像描述、物体检测和分割等任务。该模型利用FLD-5B数据集，该数据集包含54亿个注释，涵盖1.26亿张图像，用于掌握多任务学习。模型的序列到序列架构
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
蓝耘服务器与DeepSeek的结合：引领智能化时代的新突破 Lethehong 热点时事服务器运维 deepseek python
嗨，我是Lethehong！立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页AI目录蓝耘服务器与DeepSeek的结合：引领智能化时代的新突破一、蓝耘服务器的技术优势1、高性能计算能力2、可扩展性与高效存储3、绿色节能设计二、DeepSeek：智能算法的引擎1、高效的深度学习训练与推理2、自适应学习与迁移学习3、多任务学习三、蓝耘服务器与DeepSeek结合的优
运用python进行多任务学习过程中，手动调整权重时，如何选择项目并确定合适的权重值？大懒猫软件 python 学习 pytorch 重构
在手动调整多任务学习中不同任务的损失权重时，确定合适的权重值是一个需要细致考虑的问题。以下是一些基于最新研究和实践的方法和策略：第一部分：手动调整权重确定合适的权重值1.基于任务的重要性方法：根据任务的重要性手动分配权重。例如，如果一个任务对最终性能的影响更大，可以给予更高的权重。示例：在文本纠错任务中，检测错别字的任务可能比纠正错别字的任务更重要，因此可以给予检测任务更高的权重。2.基于损失值的
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
Time-LLM ：超越了现有时间序列预测模型的学习器福安德信息科技 AI预测大模型学习人工智能 python 大模型时序预测
AI预测相关目录AI预测流程，包括ETL、算法策略、算法模型、模型评估、可视化等相关内容最好有基础的python算法预测经验EEMD策略及踩坑VMD-CNN-LSTM时序预测对双向LSTM等模型添加自注意力机制K折叠交叉验证optuna超参数优化框架多任务学习-模型融合策略Transformer模型及Paddle实现迁移学习在预测任务上的tensoflow2.0实现holt提取时序序列特征TCN时
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
百度Ernie大模型是什么？会飞的岛格酱 AIGC AIGC 百度人工智能
百度的Ernie模型（EnhancedRepresentationthroughkNowledgeIntegration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成能力。它通过整合大规模语料和知识图谱，采用多任务学习和分层预训练策略，在多个自然语言处理任务上取得了显著的性能提升。Ernie模型的不断发展和优化，使其
梯度提升树系列9——GBDT在多任务学习中的应用 theskylife 数据挖掘学习数据挖掘机器学习 python 人工智能
目录写在开头1.多任务学习的基础知识1.1多任务学习的概念和优势1.1.1概念1.1.2优势1.2GBDT在多任务学习中的角色1.2.1GBDT的基本原理1.2.2GBDT在多任务学习中的应用2.实际应用案例和最佳实践2.1如何设计多任务学习模型2.2成功案例分享2.2.1推荐系统2.2.2金融风控2.2.3自然语言处理（NLP）3.挑战与解决方案3.1面临的技术挑战和解决策略3.1.1挑战1：任
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

Multi-task Learning and Beyond: 过去，现在与未来

Multi-task Learning 的两大研究分支

Multi-task Learning Network Design / What to share? [网络设计]

Multi-task Learning Loss Function Design / How to learn? [损失函数设计与梯度优化]

Auxiliary Learning -- Not all tasks are created equal [辅助学习]

总结

你可能感兴趣的:(多任务学习)