Wanderer001

深度学习中的正则化(一)、参数范数惩罚

参考深度学习中的正则化 - 云+社区 - 腾讯云

一、正则化

没有免费午餐定理暗示我们必须在特定任务上设计性能良好的机器学习算法。我们建立一组学习算法的偏好来达到这个要求。当这些偏好和我们希望算法解决的学习问题吻合时，性能会更好。至此我们具体讨论修改学习算法的方法，只有通过增加或减少学习算法可选假设空间的函数来增加或减少模型的容量。所列举的一个具体示例是线性回归增加或减少多项式的次数。到目前为止讨论的观点都是过度简化的。

算法的效果不仅很大程度上受影响于假设空间的函数数量，也取决于这些函数的具体形式。我们已经讨论的算法(线性回归)具有包含其输入的线性函数集的假设空间。对于输入和输出确实接近线性相关的问题，这些线性函数是很有用的。对于完全非线性的问题它们不太有效。例如，我们用线性回归，从x预测sin(x)，效果不会好。因此我们可以通过两种方式控制算法的性能，一是允许使用的函数种类，二是这些函数的数量。在假设空间中，相比于某一个学习算法，我们可能更偏好另一个学习算法。这意味着两个函数都是符合条件的，但是我们更偏好其中一个。只有非偏好函数比偏好函数在训练数据集上效果明显好很多时，我们才会考虑非偏好函数。

例如，可以加入权重衰减(weight decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化训练集上的均方误差和正则项的和可以看作拟合训练数据和偏好小权重范数之间的权衡。这会使得解决方案的斜率最小，或是将权重放在较少的特征上。我们可以训练具有不同 $\large \lambda$ 值的高次多项式回归模型。

更一般地，正则化一个学习函数 $\large f(x;\theta)$ 的模型，我们可以给代价函数添加被称为正则化项(regularizer)的惩罚。在权重衰减的例子中，正则化项是 $\large \Omega(w)=w^Tw$ 。表示对函数的偏好是比增减假设空间的成员函数更一般地控制模型容量的方法。我们可以将去掉假设空间中的某个函数看作对不赞成这个函数的无限偏好。在权重衰减的示例中，通过在最小化的空间中额外增加一项，我们明确地表示了偏好权重较小的线性函数。有很多其他方法隐式或显式地表示对不同解的偏好。总而言之，这些不同的方法都被称为正则化。正则化时指修改学习算法，使其降低泛化误差而非训练误差。正则化时机器学习领域的中心问题之一，只有优化能够与其重要性相提并论。没有免费午餐定理已经清楚地阐释了没有最优的学习算法，特别是没有最优的正则化形式。反之，我们必须挑选一个非常适合于我们所要解决的任务的正则形式。深度学习中普遍的理念是大量任务(例如所有人能做的只能任务)也许都可以使用非常通用的正则化形式来有效解决。

机器学习中的一个核心问题是设计不仅在训练数据上表现好，而且能在新输入上泛化的算法。在机器学习中，许多策略被显示地设计来减少测试误差(可能会增加训练误差为代价)，这些策略被统称为正则化。在实践中，过于复杂的模型族不一定包括目标函数或真实数据生成的过程，甚至也不包括近似过程。我们几乎从未知晓真实数据的生成过程，所以我们永远不知道被估计的模型族是否包含生成过程。然而，深度学习算法的大多数应用都是针对这样的情况，其中真实数据的生成过程几乎肯定在模型族之外。深度学习算法通常应用于记为复杂的领域，如图像、音频序列和文本，本质上这些领域的真实生成过程涉及模拟整个宇宙。从某种程度上来说，我们总是持方枘(数据生成过程)而欲内圆凿(模型族)。

这意味着控制模型的复杂度不是找到合适规模的模型(带有正则的参数个数)这样一个简单的事情。相反，我们可能会发现，或者说在实际的深度学习场景中我们几乎总是会发现，最好的拟合模型(从最小泛化误差的意义上)是一个适当正则化的大型模型。

二、深度学习中的正则化

1、参数范数惩罚

正则化在深度学习的出现前就已经被使用了数十年、线性模型，如线性回归和逻辑回归，可以使用简单、直接、有效的正则化策略。许多正则化方法通过对目标函数 $\large J$ 添加一个参数范数惩罚 $\large \Omega (\theta)$ ，限制模型(如神经网络、线性回归或逻辑回归)的学习能力。我们将正则化后的目标函数记为 $\tiny \hat{J}$ ：

$\large \hat{J}(\theta;X,y)=J(\theta;X,y)+\alpha\Omega(\theta)$

其中 $\large \alpha\in[0,\infty)$ 是权衡惩罚项 $\large \Omega$ 和标准目标函数 $\large J(X;\theta)$ 相对贡献的超参数。将 $\large \alpha$ 设为0表示没有正则化。 $\large \alpha$ 越大，对应正则化惩罚越大。当我们的训练算法最小化正则化后的目标函数 $\large \hat{J}$ 时，它会降低原始目标函数 $\large \hat{J}$ 关于训练数据的误差并同时减小在某些衡量标准下参数 $\large \theta$ (或参数子集)的规模。选择不同参数范数 $\large \Omega$ 会偏好不同的解。在探究不同范数的正则化之前，需要说明一下，在神经网络中，参数包括每一层放射变换的权重和偏置，我们通常只对权重做惩罚而不对偏置做正则惩罚。精确拟合偏置所需的数据通常比拟合权重少得多，每个权重会指定两个变量如何互相作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅控制一个单变量。这意味着，我们不对其进行正则化也不会导致太大的方差。另外，正则化偏置参数可能会导致明显的欠拟合。因此，我们使用向量w表示所有应受范数惩罚影响的权重，而向量 $\large \theta$ 表示所有参数(包括w和无须正则化的参数)。在神经网络的情况下，有时希望对网络的每一层使用单独的惩罚，并分配不同的 $\large \alpha$ 系数。寻找合适的多个超参数的代价很大，因此为了减少搜索空间，我们会在所有层使用相同的权重衰减。

1、 $\large L^2$ 参数正则化

这个正则化策略通过向目标函数添加一个正则项 $\large \Omega(\theta)=\frac{1}{2}||w||^2_2$ ，使权重更加接近原点。 $\large L^2$ 也被称为岭回归正则化。我们可以通过研究正则化后目标函数的梯度，洞察一些权重衰减的正则化表现。为了简单期间，我们假定其中没有偏置参数，因此 $\large \theta$ 就是 $\large w$ 。这样一个模型具有以下总的目标函数：

$\large \hat{J}(w;X,y)=\frac{\alpha}{2}w^Tw+J(w;X,y)$

与之对应的梯度为

$\large \bigtriangledown _w\hat{J}(w;X,y)=\alpha w+\bigtriangledown _wJ(w;X,y)$

使用单步梯度下降更新权重，即执行以下更新：

$\large w\leftarrow w-\varepsilon (\alpha w + \bigtriangledown _w J(w;X,y))$

换种写法就是

$\large w\leftarrow (1-\varepsilon \alpha)w-\varepsilon\bigtriangledown _wJ(w;X,y)$

我们可以看到，加入权重衰减后会引起学习规则的修改，即在每部执行通常的梯度更新之前先收缩权重向量(将权重向量乘以一个常数因子)。这是一个单个步骤发生的变化。但是在训练的整个过程会发生什么呢？

我么进一步简化分析，令 $\large w^*$ 为为正则化的目标函数取得最小训练误差时的权重向量，即 $\large w^*=argmin_wJ(w)$ ，并在 $\large w^*$ 的邻域对目标函数做二次近似。如果目标函数确实是二次的(如以均方误差拟合线性回归模型的情况)，则该近似是完美的。近似的 $\large \hat{J}(\theta)$ 如下

$\large \hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

其中 $\small H$ 是 $\small J$ 在 $\small w^*$ 处计算的 $\small Hessian$ 矩阵(关于 $\large w$ )。因为 $\large w^*$ 被定义为最优，即梯度消失为0，所以该二次项近似中没有一阶项。同样地，因为 $\large w^*$ 是 $\large J$ 的一个最优点，我们可以得出是半正定的结论。

当 $\hat{J}$ 取得最小值时，其梯度

$\large \bigtriangledown _w\hat{J}{w}=H(w-w^*)$

为0。

为了研究权重衰减带来的影响，我们在上式中添加权重衰减的梯度。现在我们探讨最小正则化后的 $\large \hat{J}$ 。我们使用变量 $\large \hat{w}$ 表示此时的最优点：

$\large \alpha\hat{w}+H(\hat{w}-w^*)=0$

$\large (H+\alpha I)\hat{w}=Hw^*$

$\large \hat{w}=(H+\alpha I)^{-1}Hw^*$

当 $\large \alpha$ 趋向于0时，正则化的解 $\large \hat{w}$ 会趋向 $\large w^*$ 。那么当 $\large \alpha$ 增加时会发生什么呢？因为是实对称的，所以我们可以将其分级为一个对角矩阵 $\small \Lambda$ 和一组特征向量的表征正交基 $\large Q$ ，并且有 $\small H=Q\Lambda Q^T$ ，将其应用到上式并分解可得，

$\hat{w}=[Q\Lambda Q^T + \alpha I]^{-1}Q \Lambda Q^T w^*=[Q(\Lambda+\alpha I)^{-1}]Q\Lambda Q^T w^*=Q(\Lambda+\alpha I)^{-1}\Lambda Q^T w^*$

我们可以看到权重衰减的效果是沿着由 $\large H$ 的特征向量所定义的轴缩放 $\large w^*$ 。具体来说，我么会根据 $\large \lambda_i/(\lambda_i+\alpha)$ 因子缩放与 $\large H$ 第 $\tiny i$ 个特征向量对齐的 $\large w^*$ 的分量。沿着 $\large H$ 特征值较大的方向(如 $\large \lambda_i> > \alpha$ )正则化的影响较小，而 $\large \lambda_i<<\alpha$ 的分量将会收缩到几乎为零。只有在显著减小目标函数方向上的参数会保留相对完好。在无助于目标函数减小的方向(对应Hessian矩阵较小的特征值)上改变参数不会显著增加梯度。这种不重要方向对应的分量会在训练过程中因正则话而衰减掉。

目前为止，我们讨论了权重衰减对优化一个抽象通用的二次代价函数的影响。这些影响具体是怎么和机器学习关联的呢？我们可以研究线性回归。它的真实代价函数时二次的，因此我们可以使用相同的方法分析。再次应用分析，我们会在这种情况下得到相同的结果，但这次我们使用训练数据的术语表达。线性回归的代价是平方误差之和：

$\large (Xw-y)^T(Xw-y)$

我们添加正则项后，目标函数变为

$\large (Xw-y)^T(Xw-y)+\frac{1}{2}\alpha w^Tw$

这将正则方程的解从

$\large w=(X^TX)^{-1}X^Ty$

变为

$\large w=(X^TX+\alpha I)^{-1}X^Ty$

2、 $\large L^1$ 正则化

$\large L^2$ 权重衰减是权重衰减最常见的形式，我们还可以使用其他的方法限制模型参数的规模。一个选择是使用 $\large L_1$ 正则化。形式地，对模型参数 $\large w$ 的 $\large L_1$ 正则化被定义为：

$\large \Omega(\theta)=||w||_1=\sum_i |w_i|$

即各个参数的绝对值之和。接着我们将讨论 $\large L_1$ 正则化对简单线性回归模型的影响，与分析 $\large L^2$ 正则化时一样不考虑偏置参数。我们尤其感兴趣的是找出 $\large L^1$ 和 $\large L^2$ 正则化之间的差异。与 $\large L^2$ 权重衰减类似，我们也可以通过缩放惩罚项 $\large \Omega$ 的正超参数 $\large \alpha$ 来控制 $\large L^1$ 权重衰减的强度。因此，正则化的目标函数

$\large \hat{J}(w;X,y)=\alpha ||w||_1 + J(w;X,y)$

对应的梯度(实际上是次梯度)：

$\large \bigtriangledown _w\hat{J}(w;X,y)=\alpha sign(w)+\bigtriangledown _wJ(w;X,y)$

其中sign(w)只是简单地取w各个元素的正负号。

观察上式，我么立刻发现 $\large L^1$ 的正则化效果与 $\large L^2$ 大不一样。具体来说，我们可以看到正则化对梯度的影响不再是线性地缩放每个 $\large w_i$ ：而是添加了一项同号的常数。使用这种形式的梯度之后，我们不一定能得到 $\large J(X,y;w)$ 二次近似直接算术解( $\large L^2$ 正则化时可以)。简单线性模型具有二次代价函数，我们可以通过泰勒级数表示。或者我们可以假设。这是逼近更复杂模型的代价函数的截断泰勒级数，在这个设定下，梯度有下式给出

$\large \bigtriangledown _w \hat{J}(w)=H(w-w^*)$

同样， $\large H$ 是 $\large J$ 在 $\large w^*$ 处的Hessian矩阵。

由于 $\large L^1$ 惩罚项在完全一般化的Hessian的情况下，无法得到直接清晰的代数表达式，因此我们将进一步简化假设Hessian是对角的，即 $\large H=diag([H_{1,1},...,H_{n,n}])$ ，其中每个 $\large H_{i,i}>0$ 。如果线性回归问题中的数据被预处理，除去了输入特征之间的相关性，那么这一假设成立。我们可以将 $\large L^1$ 正则化目标函数的二次近似分解成关于参数的求和：

$\large \hat{J}(w;X,y)=J(w^*;X,y)+\sum_i\left [ \frac{1}{2}H_{i,i}(w_i-w^*_i)^2 + \alpha\left | w_i \right | \right ]$

如下列形式的解析解(对每一维 $\large i$ )可以最小化这个近似代价函数：

$\large w_i=sign(w_i^*)max\left \{ |w^*_i|-\frac{1}{H_{i,i}},0 \right \}$

如下列形式的解析解(对每一维 $\tiny i$ )可以最小化这个近似代价函数：

$\large w_i=sign(w_i^*)max\left \{ |w_i^*|-\frac{\alpha}{H_{i,1}},0 \right \}$

最每个 $\large i$ ，考虑 $\large w^*_i>0$ 的情形，会有两种可能：

(1) $\small w_i^*\leqslant \frac{\alpha}{H_{i,i}}$ 得到情况。正则化后目标中的 $\large w_i$ 最优值是 $\large w_i=0$ 。这是因为在方向 $\large i$ 上 $\large J(w;X,y)$ 对 $\large \hat{J}(w;X,y)$ 的贡献被抵消， $\large L^1$ 正则化项将 $\large w_i$ 推至0。

(2) $w^*_i> \frac{\alpha}{H_{i,i}}$ 的情况。这这种情况下，正则化不会将 $\large w_i$ 的最优值推至0，而仅仅在那个方向上移动 $\frac{\alpha}{H_{i,i}}$ 的距离。

相比正则化，正则化会产生更稀疏的解。此处稀疏性指的是最优值中的一些参数为0。和 $\large L^2$ 正则化相比， $\large L^1$ 正则化的稀疏性具有本质的不同。如果我们使用Hessian矩阵 $\large H$ 为对角正定矩阵的假设(与 $\tiny L^1$ 正则化分析时一样)，重新考虑这个等式，会发现 $\large \hat{w}_i=\frac{H_{i,i}}{H_{i,i}+\alpha}w^*_i$ 。如果 $\large w^*_i$ 不是零，那么 $\large w^*_i$ 也会保持非零。这表明 $\large L^2$ 不会使参数变得稀疏，而 $\large L^1$ 正则化可能有足够大的 $\large \alpha$ 实现稀疏。由 $\large L^1$ 正则化导出的稀疏性质不会使参数变得稀疏，而 $\large L^1$ 有可能通过足够大的 $\large \alpha$ 实现稀疏。由 $\large L^1$ 正则化导出的稀疏性质已经被广泛应用于特征选择机制。特征选择从可用的特征子集选择出有意义的特征，简化机器学习问题。从著名的LASSO模型将 $\large L^1$ 惩罚和线性模型结合，并使用最小二乘代价函数。 $\large L^1$ 惩罚使部分子集的权重为零，表明相应的特征可以被安全地忽略。

AscendC从入门到精通系列（一）初步感知AscendC 人工智能深度学习
1什么是AscendCAscendC是CANN针对算子开发场景推出的编程语言，原生支持C和C++标准规范，兼具开发效率和运行性能。基于AscendC编写的算子程序，通过编译器编译和运行时调度，运行在昇腾AI处理器上。使用AscendC，开发者可以基于昇腾AI硬件，高效的实现自定义的创新算法。算子开发学习地图：2从helloworld出发感受AscendC2.1使用AscendC写核函数包含核函数的
ATB是什么？人工智能深度学习
1ATB介绍AscendTransformerBoost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为AscendAI处理器，专门为Transformer类模型的训练和推理而设计。ATB加速库采用了一系列优化策略，包括算法优化、硬件优化和软件优化，能够显著提升Transformer模型的训练和推理速度，同时降低能耗和成本。具体来说，ATB加速库通过优化矩阵乘法等核心算子和注意力
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
服务稳定性保障的五大误解运维sre
在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日，这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念，期望有一天大家沟通时不是鸡同鸭讲，各说各话。误解一：服务可用性听过很多技术分享，看过很多平台的承诺，上来都是讲我们的服务稳定性99.9xx%，但似乎都“忘记”了提供这个稳定性的具体算法和解读。如果没有明确的定义，这个数值其实毫无意义。服务稳定性目标
mindspore编译报错小乐快乐深度学习神经网络
1、重新创建个工程后无法正常运行，2、使用代码为：华为提供的机器学习监督学习中的代码[quote][size=2][url=forum.php?mod=redirect&goto=findpost&pid=1364937&ptid=165780][color=#999999]回复：HS12发表于2021-10-3018:16[/color][/url][/size]报错信息
ai照片放大python源码_AI新时代-大牛教你使用python+Opencv完成人脸解锁（附源码）... weixin_39639505 ai照片放大python源码
好吧，伙计们，我回来了。说我拖更不写文章的可以过来用你的小拳拳狠命地捶我胸口....那么今天我们来讲关于使用python+opencv+face++来实现人脸验证及人脸解锁。代码量同样不多，你可以将这些代码运用在其它一些智能领域，如智能家居，进门的时候判断你是谁，也可以加入机器学习判断来的人是客人还是熟人。在讲之前我们会先适当的拓扑一下关于人脸识别的知识点。OK废话少说下面开始正是话题。解锁原理：
一个简单的麻将算法长心了么算法 python windows
这个算法主要是帮助计算胡的什么牌跟给一些策略，给出几个测试样例自己体会一下就好了，能够比较快的计算出怎么胡牌，如何快速胡牌，无聊写着玩的。#使用1-9表示筒子，11-19表示条子，21-29表示万子，31表示红中，32表示发财，33表示白板，41-44表示东南西北#样例1:hand=[6,6,7,7,7,8,8,8]#样例2:hand=[6,7,7,7,8,8,8,2]#样例3:hand=[2,3
线性回归：从基础到进阶的全面解析 tester Jeffky 大模型线性回归机器学习算法
线性回归：从基础到进阶的全面解析线性回归是机器学习中最基本的算法之一，广泛应用于预测和分析。本文将详细介绍线性回归的基本概念、数学原理、实现方法以及在实际应用中的注意事项。我们将通过丰富的代码示例来展示如何从头开始构建一个简单的线性回归模型，并逐步深入到更复杂的场景。1.线性回归的基本概念1.1什么是线性回归？线性回归是一种用于建模两个或多个变量之间关系的统计方法。它假设因变量（目标变量）与一个或
华为OD机试E卷 --跳马--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述马是象棋（包括中国象棋和国际象棋）中的棋子，走法是每步直一格再斜一格，即先横着或者直者走一格，然后再斜着走一个对角线，可进可退，可越过河界，俗称"马走日"字。给定m行n列的棋盘（网格图），棋盘上只有棋子象棋中的棋子“马”，并且每个棋子有等级之分，等级为k的马可以跳1~k步（走
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
SpringBoot使用令牌桶算法+拦截器+自定义注解+自定义异常实现简单的限流 Java精选算法 spring boot 前端后端 java
令牌桶在高并发的情况下，限流是后端常用的手段之一，可以对系统限流、接口限流、用户限流等，本文就使用令牌桶算法+拦截器+自定义注解+自定义异常实现限流的demo。令牌桶思想大小固定的令牌桶可自行以恒定的速率源源不断地产生令牌。如果令牌不被消耗，或者被消耗的速度小于产生的速度，令牌就会不断地增多，直到把桶填满。后面再产生的令牌就会从桶中溢出。最后桶中可以保存的最大令牌数永远不会超过桶的大小。然后每个访
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
递归算法实践--到仓合单助力京东物流提效增收程序员
作者：京东物流李硕#一、背景京东物流到仓业务「对商家」为了减少商家按照京东采购单分货备货过程，对齐行业直接按照流向交接，提升商家满意度；「对京东」揽收操作APP提效；到仓合单功能应运而生；二、问题一次批量采购单（一次50或者100个采购单）需要根据不同的规则合并成多个订单；每一个采购单可以是不同的来源类型（自营和非自营）、不同的收货类型，每一个采购单会有多个SKU，同一个SKU只有一个等级，一批采
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
pythonsvm模型优化_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39878698 pythonsvm模型优化
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。(用遗传算法也可以，下面会给出效果比较)首先简单回顾一下Python高性能实用型遗传和进化算
差分进化算法_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39747075 差分进化算法
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。（用遗传算法也可以，下面会给出效果比较）首先简单回顾一下Python高性能实用型遗传和进化算
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔” ningaiiii 机器学习与深度学习神经网络 php 人工智能
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔”1.引言径向基函数网络（RadialBasisFunctionNetwork,RBF）是一种特殊的前馈神经网络，它的核心思想是通过“灯塔”来照亮数据的分布。RBF网络使用径向基函数（如高斯函数）作为隐层神经元的激活函数，能够快速学习数据的局部特征，特别适合分类和函数逼近问题。2.算法原理2.1网络结构RBF网络的基本组成包括：输入层：接收原
数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
差分进化算法DE DroidMind 智能算法与机器学习差分进化算法
差分进化算法DE属于进化算法，这里算法还包括依次遗传算法、进化策略、进化规划。差分进化算法包括三个基本的操作：变异操作、交叉（重组）操作和选择操作。一、算法建模：1、假设我们希望得到函数f(x)的最优解，这个函数有D个解。2、为函数f(x)设置一个解的组数N，N至少为4。3、这样我们就得到了N组并且每组解的个数为D的集合，它可以使用N个D维参数向量来表示。因为它类似于遗传算法进化一样，是一代一代的
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
差分进化算法(Differential evolution,DE)(附详细注释的Python代码) XijueJa 算法 python 开发语言
概念与基本原理差分进化算法（DifferentialEvolution，简称DE）是一种基于种群的随机优化算法，由Storm和Price在1995年提出。它主要应用于解决非线性、非凸、连续和离散的优化问题。DE算法以其简单性、鲁棒性和高效性而受到广泛关注。差分进化算法的基本思想是通过模拟自然进化过程中的遗传和变异机制来寻找问题的最优解，类似于遗传算法。通过变异、交叉与选择，使得初始化的种群不断朝最
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
力扣刷题之——旋转矩阵 say-input 矩阵 leetcode 算法
给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]作者：力扣(LeetCode)链接：https://leetcode.cn/leetbook/read/array-an
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

深度学习中的正则化(一)、参数范数惩罚

一、正则化

二、深度学习中的正则化

1、参数范数惩罚

1、参数正则化

2、正则化

你可能感兴趣的:(机器学习理论,深度学习,机器学习,算法)

1、 $\large L^2$ 参数正则化

2、 $\large L^1$ 正则化