小李好好学

【多任务学习】多任务学习中的自动任务选择和自动混合（AUTOSEM: Automatic Task Selection and Mixing in Multi-Task Learning）（二）

多任务学习（MTL）已经在许多问题领域上取得了成功，其目的是使用一些与主任务相关的辅助任务来提高主任务的性能。但是，当辅助任务的有用性比较低时，主要任务得不到有效的先验信息。MTL模型的成功取决于这些辅助任务的正确选择，以及在替代训练期间这些任务的平衡混合比。这两个问题可以通过对所有任务组合进行手动选择或超参数调整来解决，但是当候选辅助任务的数量非常大时，这会导致诱导偏差或不可实现。为了解决这些问题，提出了一个双步MTL流水线AUTOSEM方法，第一阶段通过贝塔伯努利多臂限制与Thompson Sampling自动选择最有用的辅助任务，第二阶段学习通过基于高斯过程的贝叶斯优化框架训练这些所选辅助任务的混合比。同时对GLUE语言理解任务进行了几次MTL实验，并表明AUTOSEM框架可以成功找到相关的辅助任务并自动学习它们的混合比例，从而在几个主要任务上实现显着的性能提升。

1、简介

多任务学习（MTL）（Caruana，1997）是一种归纳迁移机制，它利用相关任务的信息来改善主要模型的泛化性能。它通过在共享特征表示的同时并行训练多个任务来实现此目标，其中来自辅助任务的训练信号可以帮助改善主要任务的性能。尽管其性能令人印象深刻，但多任务学习系统的设计并非易事。想要使用来自其他辅助任务的知识来改善主要任务的绩效需要面临两个主要挑战：包括选择最相关的辅助任务以及学习平衡混合比，用于协同训练这些任务。人们可以通过所有任务组合进行手动选择或超参数调整来实现这一目标，但这会引入人为归纳偏差，或者当候选辅助任务的数量过大时难以实现。
在AUTOSEM框架中，第一阶段解决了从辅助任务池中选择自动任务的问题。为此，本文中使用非固定多臂赌博控制器（MAB），在训练循环内动态地交替选择任务，并最终返回每项任务对主要任务辅助效果的估计。我们将每个任务的效果建模为Beta分布，其预测值可以解释为每个任务对主要任务的训练性能做出非负贡献的概率。此外，我们将观察结果建模为伯努利变量，以便后验分布也是β分布的。我们使用Thompson抽样来进行权衡利用和探索。之后第二阶段使用在第一阶段选择出的辅助任务，并通过贝叶斯优化框架自动学习这些任务的训练混合比，通过将每个混合比率的性能建模为高斯过程（GP）从而搜索最佳值（Rasmussen，2004; Snoek等，2012）。对于GP中的协方差函数，我们使用Matern内核，该内核由平滑度超参数进行参数化，以便控制来自GP的样本的可微分性水平。此外，继霍夫曼等人之后（2011年），我们使用基于乐观和改进的决策组合作为提取函数（Shahriari等，2016），从GP搜索空间中选择下一个样本点。

2、模型

设s1和s2是我们分类任务中的输入句子对，我们通过双向LSTM-RNN对这些句子进行编码，类似于Conneau等人的工作（2017年）。接下来，我们对两个编码器的输出隐藏状态进行最大池化，其中u和v分别是s1和s2的max-pooing层的输出。稍后，我们将这两个表示（u和v）映射到单个富密集表示向量h中

$\mathrm{h}=[\mathrm{u} ; \mathrm{v} ; \mathrm{u} * \mathrm{v} ;|\mathrm{u}-\mathrm{v}|]$

[;]表示相关性质，表示u和v的元素乘法。我们将这个最终表示h投影到标签空间以对给定的句子对进行分类（参见图1）。我们还在我们的模型中使用ELMo（Peters等，2018）表示字嵌入。为此，我们为每个句子对提取三个ELMo层表示，并使用它们的加权和作为ELMo输出表示，其中权重是可训练的。

图2

3、多任务学习

在这项工作中，我们专注于改进任务（主要任务），允许它通过多任务学习（MTL）与相关辅助任务共享参数。设 $\left\{D_{1}, \ldots, D_{N}\right\}$ 为一组N个任务，我们将D1设置为主要任务，其余设置为辅助任务。我们可以通过增加具有N个投影层的模型，同时在这N个任务中共享其余模型参数，将我们的单任务学习基本模型（参见3.1节）扩展到多任务学习模型中（参见图1）。

我们基于混合比率 $\eta_{1} : \eta_{2} : \ldots : \eta_{N}$ 在备用小批量中使用MTL训练这些任务，类似于先前的工作（Luong等人，2015），其中我们优化批次的任务i并转到下一个任务。

在MTL中，选择适当的辅助任务并适当调整混合比对于多任务模型的性能非常重要。尝试所有任务选择组合的天真方式难以处理。为了解决这个问题，我们在下一节中提出了AUTOSEM，这是一个两级流水线。在第一阶段，我们自动找到相关的辅助任务（在给定的N-1选项中），这些任务可以提高主要任务的性能。在找到相关的辅助任务后，在第二阶段，我们将这些选定的任务与主要任务一起进行，并自动学习他们的训练混合比例。

随着辅助任务的数量变得非常大，调整MTL中N个任务的混合比率会变得更加困难。但是，在大多数情况下，只有少数这些辅助任务可用于改进手头的主要任务。手动搜索相关任务的这种最佳选择是棘手的。因此，在这项工作中，我们提出了一种通过Thompson Sampling的多臂匪徒自动选择任务的方法（参见图2的左侧）。

设 $\left[a_{1}, \dots, a_{N}\right]$ 表示我们的多任务设置中赌博控制器的N个臂组（对应于任务组 $\left\{D_{1}, \ldots, D_{N}\right\}$ ），其中控制器选择序列在目前的培训轨迹上的行动/臂，以最大化预期的未来收益。在每轮 $t_{b}$ ，控制器基于噪声值估计选择臂并观察所选臂的奖励 $r_{t b}$ 。设 $\theta_{k}$ ∈[0,1]为任务k的效用（有用性）。最初，选择器首先对 $\theta_{k}$ 有独立的先验信念。我们将这些先验分布认为是带有两个参数 $\alpha_{k}, \beta_{k}$ 的β分布，先验分布概率方程为：

$\mathrm{p}\left(\theta_{k}\right)=\frac{\Gamma\left(\alpha_{k}+\beta_{k}\right)}{\Gamma\left(\alpha_{k}\right) \Gamma\left(\beta_{k}\right)} \theta_{k}^{\alpha k-1}\left(1-\theta_{k}\right)^{\beta_{k}-1}$

其中Γ表示伽马函数。我们在第 $t_{b}$ 轮在伯恩利变量上得到奖励 $r_{t b}$ ∈{0,1}，其中动作k产生为1的奖励（有概率为 $\theta_{k}$ ，奖励为1，有概率为1- $\theta_{k}$ ，奖励为0）。任务k的真实效用，即 $\theta_{k}$ ，是未知的，并且可以或可以不随时间改变（基于任务效用的静止与非静止）。我们将奖励定义为对任务k进行抽样是否改进（或维持）主要任务的验证度量。

$r_{t b}=\left\{\begin{array}{c}{1, \text { if } R_{t_{b}} \geq R_{t_{b}-1}} \\ {0, \text { otherwise }}\end{array}\right.$

其中 $R_{\mathrm{t}_{b}}$ 表示在时间 $t_{b}$ 的主要任务的验证性能。通过上面的我们的上述设置，每个任务（ $\theta_{k}$ ）的作用可以直观地解释为具有任务k的多任务学习可以改善（或维持）主要任务的性能的概率。由于Beta分布的共轭性质我们更新数据也同样可以服从Beta分布，其参数可以使用简单的贝叶斯规则更新，其定义如下（Russo等，2018），

$\begin{array}{l}{\mathrm{p}(\theta | \mathrm{r}) \propto \operatorname{Bern}_{\theta}(r) \operatorname{Beta}_{\alpha, \beta}\left(\theta_{k}\right)} \\ {\mathrm{p}(\theta | \mathrm{r}) \propto \operatorname{Beta}_{\alpha+r, \beta+1-r}\left(\theta_{k}\right) \quad(4)} \\ {\left(\alpha_{k}, \beta_{k}\right)=\left\{\begin{array}{c}{\left(\alpha_{k}, \beta_{k}\right) \quad \text { if } x_{t_{b}}^{s} \neq k} \\ {\left(\alpha_{k}, \beta_{k}\right)+\left(r_{t b}, 1-r_{t b}\right) \quad i f x_{t_{h}}^{s}=k}\end{array}\right.}\end{array}$

其中 $x_{t_{h}}^{s}$ 是圆形 $t_{b}$ 处的采样任务。最后，在训练结束时，我们按如下方式计算每个臂的预期值:

$\mathbb{E}_{p}=\frac{\alpha_{k}}{\alpha_{k}+\beta_{k}}$

这里，期望通过对该任务进行采样来测量改善（或维持）主要任务的概率。为了决定下一步采取的行动，我们应用Thompson Sampling（Russo等，2018;Chapelle和Li，2011）来进行权衡利用（最大化立即绩效）和探索（投资以积累新的信息，可能会改善未来的表现。在Thompson Sampling（Russo et al。，2018）中，我们不是采取最大化预期的动作k（即 $\arg \max _{k} \quad \mathbb{E}_{p}\left[\theta_{k}\right]$ ），而是从后验分布 $\theta_{k} \sim \mathrm{p}\left(\theta_{k}\right)$ 中随机抽取主要任务改进概率 $\theta_{k}$ 。，并采取最大化采样主要任务来改进概率的动作k，即 $\operatorname{larg} \max _{k} \theta_{k}$ 。在训练结束时，任务选择可以通过期望阈值进行，也可以执行前K任务，并使用所选任务子集作为辅助任务运行第2阶段（详见第3.4节）

图2的右侧说明了我们的高斯过程控制器，用于自动学习MTL训练混合比（参见3.2节中的定义）。鉴于上一节中选择的辅助任务，下一步是找到一个适当的混合比率，训练这些选定的任务以及主要任务。通过对超参数值的大网格搜索手动调整此混合比率是非常消耗时间并且计算成本很高（即使所选辅助任务的数量很小）。因此，在我们的第二阶段，我们改为应用非参数贝叶斯方法来搜索近似最佳混合比。特别是，我们使用“高斯过程”通过自动折衷开采和勘探来顺序搜索混合比率。接下来，我们将详细描述高斯过程优化方法。

高斯过程（Rasmussen，2004;Snoek等，2012;Shahriari等，2016）， $\mathrm{GP}\left(\mu_{0}, \mathrm{k}\right)$ ，是一个非参数模型，完全由平均函数 $\mu_{0} : \chi \longmapsto \mathbb{R}$ 和正定核或协方差函数k： $\chi \times \chi \mapsto \mathbb{R}$ .设 $\mathbf{x}_{1}, \mathbf{x}_{2}, \dots, \mathbf{x}_{n}$ 表示n个点的任何有限集合，其中每个 $\mathbf{x}_{i}$ 表示混合比的选择（即，第3.2节中描述的比率 $\eta_{1}, \eta_{2}, \ldots, \eta_{n}$ ，并且 $\mathrm{f}_{i}=\mathrm{f}\left(\mathrm{x}_{i}\right)$ 是在 $\mathbf{x}_{i}$ 处评估的（未知）函数值（给定选择的混合比率的模型的真实性能）。设 $\mathrm{y}_{1}, \mathrm{y}_{2}, \ldots, \mathrm{y}_{n}$ 是相应的噪声观测值（训练结束时的验证性能）。在GP回归（GPR）的背景下， $\mathrm{f}=\left\{\mathrm{f}_{1}, \ldots, \mathrm{f}_{n}\right\}$ 被认为是联合高斯（Rasmussen，2004）， $\mathrm{f} | \mathrm{X} \sim \mathrm{N}(\mathrm{m}, \mathrm{K})$ 其中， $\mathrm{m}_{i}=\mu_{0}\left(\mathrm{x}_{i}\right)$ 是平均向量， $\mathrm{K}_{i, j}=\mathrm{k}\left(\mathrm{x}_{i}, \mathrm{x}_{j}\right)$ 是协方差矩阵。然后噪声观测 $\mathrm{y}=\mathrm{y}_{1}, \mathrm{y}_{2}, \ldots, \mathrm{y}_{n}$ 正常分布在f周围如下： $\mathrm{f} | \mathrm{X} \sim \mathrm{N}\left(\mathrm{f}, \sigma^{2} \mathrm{I}\right)$ 。

给定 $D=\left(x_{1}, y_{1}\right), \ldots,\left(x_{n 0}, y_{n 0}\right)$ ，随机初始观察的集合， $\mathbf{X}_{i}$ 表示混合比率， $\mathbf{Y}_{i}$ 表示相应模型的验证性能。接下来，我们基于如上所述的这些初始观察对GP进行建模。我们从该GP中采样下一个点 $x_{n 0+1}$ （在我们的例子中为混合比）并获得其相应的模型性能$$，并且现在考虑到n0+1点再次更新GP（Rasmussen，2004）。我们继续这个过程以进行固定的步骤。接下来，我们将讨论我们如何执行采样（基于采集函数）和用于cal-2Note的内核。

采集方程 在这里，我们描述了用于决定下一个采样位置的采集方程。虽然人们可以选择最大化平均功能的点，但这并不总能带来最好的结果（Hoffman等，2011）。由于我们还有估计的方差以及每个点的平均值，我们可以将此信息合并到优化中。在这项工作中，我们使用GP-Hedge方法（Hoffman等，2011;Auer等，1995），其概率性地选择三个获取函数之一：改进概率函数，预期改进函数和上限置信度函数。改进采集功能的概率测量采样混合比率到目前为止 $(\tau) \quad P\left(f\left(x_{i}\right)>\tau\right)$ 的最佳观测值的改进的概率。预期的改进还包括改进量 $\mathrm{E}[(\mathrm{f}(\mathrm{xi})-\tau) \mathrm{I}(\mathrm{f}(\mathrm{xi})>\tau)]$ 。对于某些超参数λ，高斯过程上置信界（GP-UCB）算法测量采样混合比的乐观性能上限（Srinivas等，2009）， $\mu_{i\left(x_{i}\right)}+\lambda \sigma_{i}\left(x_{i}\right)$ 。

马特恩核 协方差函数（或kerel）定义了高斯过程中两点的接近度或相似度。在这里，我们使用自动相关性确定（ARD）Matern kernel（Rasmussen，2004），其通过ν>0参数化来控制平滑度。特别是来自具有这种核的GP的样本是可微分的。当ν是半整数时（即对于非负整数p，ν=p+1/2），协方差函数是指数p和p阶多项式的乘积。在机器学习的背景下，ν的通常选择包括3/2和5/2（Shahriari等，2016）

4、训练细节

我们使用预先训练的ELMo来获取句子表示作为我们模型的输入（Peters等，2018），实现基于Scikit-Optimize的高斯过程，我们大多数配置使用默认配置。我们使用准确性作为所有任务的验证标准。对于除QNLI和SST-2之外的所有实验，我们将早期停止应用于验证性能平台。当主要任务是分类时，候选任务组包括所有2句分类任务。当主要任务是单个句子的分类时，它由两个句子组成，而它包括所有两句话和单句子分类任务。由于多臂赌博控制器的效用估计是含有噪声的的，我们选择前两个基于预期任务效用估计的任务，如果其效用估计值高于0.5，则包括其他任务。除非明确提到，否则报告的所有结果都是具有两次运行（具有不同随机种子）的相同实验的集合。我们使用隐藏单元大小为1024的两层LSTM-RNN用于RTE，512个单元用于其余模型，并且使用AdamOptiizer（Kingma和Ba，2014）。阶段1中每个任务的先前参数设置为 =1， =1，这些参数通常用于其他阶段。对于阶段1，赌博控制器在训练期间迭代地选择来自不同任务的批量数据，以了解每个辅助任务的近似重要性（Graves等，2017）。在阶段2（高斯过程）中，我们依次绘制混合比例样本并在完全训练后评估每个样本（Snoek等，2012）。在没有太多调整的情况下，我们使用了大约200轮用于基于阶段1赌博的方法，其中每轮由大约10个小批量的优化组成。对于第二阶段，我们用15和20作为绘制样本的数量进行了实验，发现MRPC的15个样本和其余任务的20个样本运行良好。这使得我们的两级流水线的总计算成本大约为（15+1）x和（20+1）x，其中x表示为给定任务运行基本模型模型所花费的时间。这比基于网格搜索的手动调整混合比设置（它可以根据任务数量指数扩展）显着更有效。

TicTacToe Module W_X_99515681 python 开发语言
Homework2Releasev5.016/02/2025CONTENTS1TicTacToe12Contents32.1TicTacToeModule............................................32.2ReinforcementLearningPlayer.....................................62.3Require
46-886 Machine Learning Fundamentals W_X_99515681 机器学习人工智能
46-886MachineLearningFundamentalsHW1Homework1Due:Sunday,March23,11:59pm•UploadyourassignmenttoCanvas(onlyonepersonperteamneedstosubmit)•Includeawriteupcontainingyouranswerstothequestionsbelow(andyourt
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
初识HTTP 思考的橙子后端 http 网络协议网络
HTTP概念:HyperTextTransferProtocol，超文本传输协议，规定了浏览器和服务器之间数据传输的规则HTTP协议特点:1.基于TCP协议:面向连接，安全2.基于请求-响应模型的:一次请求对应一次响应3.HTTP协议是无状态的协议:对于事务处理没有记忆能力。每次请求-响应都是独立的。缺点:多次请求间不能共享数据。优点:速度快HTTP-请求数据格式请求数据分为3部分:1.请求行:请
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting 于初见月 paper 计算机视觉
AbstractWeintroduceStyleGaussian,anovel3Dstyletransfertechniquethatallowsinstanttransferofanyimage’sstyletoa3Dsceneat10FPS.Leveraging3DGS,StyleGaussianachievesstyletransferwithoutcompromisingitsreal-t
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
pcie bar空间region [disable]无法访问格局视界 PCIE arm开发
现象没有截图，下图[virtual]时需要重启host，为[disable]时可以用解决方案的命令解决方案setpcie-s01:00.0COMMAND=0x02解释thiswillenablememorymappedtransfersforyourpciedevice.In4.8kernelsomethingischanges,sodriversdoesnotenablemmtransfersb
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
【总结】常用API架构类型软件测试 API
引言在现代软件开发中，API(应用程序编程接口)已经成为各类系统之间交互的核心。不同的API架构类型适用于不同的业务需求和技术场景，选择合适的架构可以提高系统的性能、可维护性和扩展性。本文将介绍几种常见的API架构类型，并分析它们的特点、适用场景及优缺点。1.RESTfulAPI简介REST(RepresentationalStateTransfer)是一种基于HTTP协议的架构风格，强调使用标准
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
ACI EP Learning Whitepaper 1. ACI EP组件 m0_54931486 思科 ACI 网络思科 ACI Endpoint ACI fabric Nexus EP 学习
1.ACIEndpointACI网络架构的Endpoint表整合了传统MAC地址表和ARP表的功能。其核心机制是通过硬件层直接学习数据包的源MAC地址与IP地址映射关系，摒弃了传统ARP协议依赖广播请求获取下一跳MAC地址的模式。这种设计优化体现在两方面：1）减少控制面ARP流量处理带来的资源消耗；2）基于终端实际流量即可实时感知主机IP/MAC地址的拓扑迁移，无需依赖GARP通告即可实现终端移动
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
springboot独立邮件服务器,后端篇-SpringBoot–自定义域名发送邮件洋莞成
前言最近的一个小项目用到了邮件发送的功能，由于自己实现一套SMTP比较复杂，于是借助第三方如QQ邮箱或网易邮箱或Gmail等邮件系统实现此功能，在开发过程中我使用了网易邮箱，并申请了免费的网易企业邮箱实现自定义域名发送邮件。邮件协议SMTPSMTP(SimpleMailTransferProtocol)即简单邮件传输协议是一个在互联网上传输电子邮件的标准。POPPOP(PostOfficeProt
推测未来Agentic形态：Dynamic Cognitive Contextual Agent with Reinforcement Learning (DCCA-RL) weixin_40941102 语言模型
在AIAgent设计模式领域，我们见证了从简单的ReAct到复杂的LATS的演进，这些模式通过反思、工具使用、规划和多代理协作，极大地提升了AI的自主性和智能性。然而，随着任务复杂度和动态性需求的增加，现有模式逐渐显现出局限性——多Agent协作带来的联合误差和单Agent设计的适应性不足。为此，我们基于对现有模式的全面分析，提出了一个更先进的单Agent框架：DynamicCognitiveCo
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
根据论文复现大模型方法以及出错处理技巧 Ai玩家hly 从0倒1 论文复现大模型复现 Ai大模型复现
复现一篇论文中的大模型搭建涉及以下几个关键步骤：理解论文的模型架构、数据集处理、超参数设置以及实验环境的搭建。这里给出一个基本的实现方法示例，假设我们选择复现一个图像分类任务中的经典模型，例如ResNet。实现步骤示例1.理解论文和模型架构选择一篇关于ResNet的论文作为示例，例如《DeepResidualLearningforImageRecognition》（Heetal.,2015）。2.
集成学习（Ensemble Learning）基础知识1 代码骑士 #机器学习集成学习机器学习人工智能
文章目录一、集成学习1、基本概念2、回顾:误差的偏差-方差分解3、为什么集成学习有效？4、基学习器：“好而不同”5、集成学习的两个基本问题（1）如何训练出具有差异性的多个基学习器？（2）如何将多个基学习器的预测结果集成为最终的强学习器预测结果？二、自助法（Bagging）1、Bagging2、BootstrapBootstrap采样的数学性质3、Bagging:集成学习的两个基本问题（1）如何训练
Chainlink 预言机的原理解析 Chainlink资讯预言机 Chainlink 智能合约
本文来自于8月19日Chainlink开发者社区中国负责人Frank，在DAppLearning分享会上对于Chainlink预言机的原理的讲解，以下是这节分享会的总结内容。有兴趣的小伙伴可以结合视频一起学习：为什么区块链无法主动获取外界数据区块链的特点区块链是一个封闭的确定性系统，每一笔交易都需要不同节点共识，只有超过一定数量的节点共识成功，交易才会被真正认可，并写入区块链。因为对于外部API的
DMA的工作模式详解浩瀚之水_csdn #嵌入式高速总线研究 DMA
DMA（直接内存访问）通过不同的工作模式管理数据传输过程，以适应各种应用场景的需求。以下是其核心工作模式及特点：1.单次传输模式（SingleTransferMode）特点：每次传输仅完成指定数据量的搬运（如1024字节），完成后自动停止。需要CPU重新配置并启动下一次传输。适用场景：非连续或一次性数据传输（如文件单次读写、传感器单次采样）。示例配置（STM32）：hdma.Init.Mode=D
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？ 985小水博一枚呀深度学习学习笔记迁移学习人工智能机器学习域适应
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？文章目录【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？1.背景介绍2.理论基础2.1分布差异（DomainShift）2.2迁移学习理论（TransferLearningTheory）2.3领域不变特征（Domain-invariantFeatures）
https握手过程给我个面子中不 https 网络协议 http
HTTPS（HyperTextTransferProtocolSecure）是HTTP的安全版本，它通过SSL/TLS协议对通信内容进行加密，确保数据在传输过程中的机密性、完整性和身份验证。以下是HTTPS握手过程的详细说明，以及它是如何保证信息安全的。1.HTTPS的核心机制HTTPS的安全性主要依赖于以下技术：加密：使用对称加密和非对称加密结合的方式，确保数据在传输过程中不被窃听。身份验证：通
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

【多任务学习】多任务学习中的自动任务选择和自动混合（AUTOSEM: Automatic Task Selection and Mixing in Multi-Task Learning）（二）

1、简介

2、模型

3、多任务学习

4、训练细节

你可能感兴趣的:(transfer,learning,MTL)