Miracle8070

逻辑回归、优化算法和正则化的幕后细节补充

1. 写在前面

今天开始，开始尝试进行机器学习算法的一些查缺补漏知识的整理，主要还是之前没有注意的一些点吧，之前的一篇补充了线性回归与梯度下降算法的一些细节，这篇文章主要是对逻辑回归算法模型的细节梳理，以及常用的两种优化算法，包括梯度下降和拟牛顿法，最后就是L1和L2正则。

这次梳理以重点知识为主，白话为辅了哈哈，因为这些细节部分都是面试中容易出现的一些身影，所以先初步整理一下，到时候再简单复习回顾，这次得严肃一点

大纲如下：

逻辑回归算法(要点，来历）
常用的优化算法（梯度下降算法和拟牛顿法）
正则（L1和L2正则的区别再次梳理）

Ok, let’s go!

2. 逻辑回归算法

2.1 要点说明

逻辑回归是在线性回归的基础上加了一个 Sigmoid 函数（非线形）映射，使得逻辑回归称为了一个优秀的分类算法。本质上来说，两者都属于广义线性模型，但他们两个要解决的问题不一样，逻辑回归解决的是分类问题，输出的是离散值，线性回归解决的是回归问题，输出的连续值。

模型： 线性模型加入sigmoid函数就是逻辑回归模型，所以理解起来就是这样：
$y = sigmoid(w_0+w_1x_1+w_2x_2+....w_nx_n)$
而sigmoid函数，我们已经非常了然了吧：
$\frac{1}{1+e^{-x}}$

这个函数的图像长下面这样：

sigmoid函数的性质：

将任意input压缩到了(0, 1)之间
1/2处导数最大
如果 $f (x) = s i g m o i d (x)$ ，那么导数 $f (x) (1 - f (x))$
两边的梯度趋于饱和（这在神经网络中是个不好的地方）
不以原点为中心
单调性

基于这几点性质，才使得逻辑回归适合二分类问题，上面这些是基本常识了。当然sigmoid也是有来历的，不是凭空出来的，后面的广义线性模型里面会提到这点。

损失函数以及由来： 关于逻辑回归的损失函数，这里先上结论

这就是大名鼎鼎的交叉熵损失，那么这个东西是怎么来的呢？这个才是重点了，哈哈。

逻辑回归模型是这样的，它假设样本服从的是伯努利分布，伯努利分布就是概率论里面学的多次抛硬币试验的那个，每次试验两个结果，每次试验互不干扰，那么假设y_pred表示y=1的概率，则给定X， Y的概率结果就是0和1，如果y=1是y_pred, 那么y=0就是1-y_pred, 即下面的这个式子：

$\mid X)=\left\{\begin{array}{l} y_{-} \text {pred }, y=1 \\ 1-y_{-} \text {pred }, y=0 \end{array}\right.$

这个不用过多解释，如果把这两个式子合并成一个，就成了下面这个：
$y_{-} \operatorname{pred}^{y}\left(1-y_{-} \operatorname{pred}\right)^{1-y}$

也就是说，给定我一个样本，我预测它属于某一类的概率就是上面这个式子，注意，这个式子里面对于某一个样本只会有一个概率，因为y要么等于1，要么等于0。如果是等于1，那么我们的预测概率是y_pred，我们希望这个越大越好，因为他越大，就越接近1，而如果等于0，我们预测概率是1-y_pred, 我们依然希望这个越大越好，也就是说对于一个样本，上面的这个式子越大，我们预测的分类就会越准确。

那么多个样本呢？就是它了：
$\prod y_{-} \operatorname{pred}_{i}^{y_{i}}\left(1-y_{-} \operatorname{pred}_{i}\right)^{1-y_{i}}$

我们依然是希望这个概率最大，这就是极大似然的思想。概率最大，才说明我们的模型预测的更加准确。但是这个函数呢，有连乘，不太好优化，所以取对数，然后取负号，就变成了loss的形式了：

这就是逻辑函数的损失函数的推导过程，主要有两个要点：

假设样本服从的分布：伯努利
损失函数的由来：伯努利分布的极大似然估计

那么应该怎么求解参数 $w$ 呢？

这时候就用到了梯度下降算法。关于梯度下降算法的细节补充，可以参考前面梳理的这个梯度下降算法的细节补充, 要明确下面几个概念：

梯度下降算法属于优化算法，另外一个常见的优化算法是牛顿法
梯度下降法要优化的参数是w，也就是自变量
梯度下降法中的“梯度”针对的是损失函数loss

下面看一下逻辑回归模型中梯度的推导过程：

可以发现一个很有意思的事情，竟然这个梯度等于了每一个样本的预测误差乘以样本的特征值本身。

有了参数，就可以进行更新：
$W_{t+1}=W_{t}-\alpha\left(\sum_{i}\left(f(w, x)-y_{i}\right) x\right)$

关于逻辑回归，还需要知道：

逻辑回归对于高维稀疏类别的特征有比较好的拟合效果
由于特征的稀疏性，还间接的起到了特征选择的作用，因为某些特征非常稀疏，会有很多的0，这时候，参数的更新基本上就只更新那几个对于loss非常重要的特征，使得w0+w1*x1…这一长串很多值都是0
离散化比如说对某个特征进行分桶，这样可以增加模型的鲁棒性，不容易被某个特征给带偏，比较稳定，类似于归一化
分桶之后，也相当于引入了非线性

2.2 指数族分布与广义线性模型

这里算是一个拓展知识吧，毕竟有些东西知其然，知其所以然才有意思，我们上面埋了一个伏笔就是说sigmoid函数并不是凭空出现的，而是有一定来历的，那么这个东西到底是怎么来的呢？

答： sigmoid函数是又对数线性模型推过来的，但是啥子叫对数线性模型？在介绍这个之前，得需要知道几率比的定义。

几率比：一件事发生与不发生的概率比就是几率比，用 $\frac{p}{1-p}$ 来表示。
对数线性模型：对几率比取对数后可用线性模型来表达，即 $\frac{p}{1-p} = w_0 + w_1x_1 + w_2x_2.....$ $

有了这个对数线性模型，通过化简就可以得到sigmoid函数了：
$\begin{array}{l} \log \frac{p}{1-p}=\theta^{T} X \Rightarrow \frac{p}{1-p}=e^{\theta^{T} X} \Rightarrow p\left(1+e^{\theta^{T} X}\right)=e^{\theta^{T} X} \\ \Rightarrow p=\frac{1}{1+e^{-\theta^{T} X}} \end{array}$

但是突然出现了这么一个东西，又是非常的玄幻和疑问吧，尤其是这个对数线性模型，为啥要取对数？为啥取对数之后可用线性模型来表达？感觉是在故意凑这个玩意呢？哈哈。下面刨根问底一下。

2.2.1 指数族分布

这个就得先从指数族分布说起，指数族分布(The exponential family distribution),区别于指数分布（exponential distribution)。在概率统计中，若某概率分布满足下式，我们就称之属于指数族分布
$\mathrm{p}(\mathrm{y} ; \eta)=\mathrm{b}(\mathrm{y}) \exp \left(\eta^{T} \mathrm{T}(\mathrm{y})-\mathrm{a}(\boldsymbol{\eta})\right)$
这就是指数族分布的通式，其中 $\eta$ 表示自然参数， $T (y)$ 是充分统计量，一般情况下等于 $y$ , $exp^{-\alpha (\eta)}$ 起到归一化作用，确定了 $T, a, b$ 我们就可以确定某个参数为 $\eta$ 的指数族分布了。

关于指数族分布，典型的有：泊松， gamma分布， beta分布， 伯努利分布，正态分布。而逻辑回归，我们说正好假设样本服从伯努利分布，所以对上了哈哈。

那么为啥伯努利分布是指数族分布呢？我们可以看看它公式的化简：
$\begin{aligned} p(y ; \phi)=\phi^{y}(1-\phi)^{1-y} & =\exp [y \log \phi+(1-y) \log (1-\phi)] =\exp \left[y \log \frac{\phi}{1-\phi}+\log (1-\phi)\right] \end{aligned}$

这时候令
$\begin{array}{c} T(y)=y \\ \eta=\log \frac{\phi}{1-\phi} \\ a(\eta)=-\log (1-\phi)=\log \left(1+e^{\eta}\right) \\ b(y)=1 \end{array}$
就是上面指数族分布的通式形式了。

为啥要讲这个东西呢？首先从上面我们知道了逻辑回归模型的假设分布是一个指数型分布，然后我们再来看看广义线性模型。

2.2.2 广义线性模型

首先，广义线性模型的代表：

逻辑回归（拟合的伯努利分布）
线性回归（拟合的高斯分布）

这个是不是又和前面对上了，考虑一个分类或回归问题，我们就是想预测某个随机变量y, y是某些特征x的函数，为了推导广义线性模型，我们必须做出如下三个假设：

上面说的白话一下就是：

第一条说的就是我们要拟合的这个随机变量y的分布，并且是一个指数族分布，而逻辑回归拟合的伯努利分布是不是正是这个？
第二条说的就是怎么去拟合这个分布，也就是拟合这个分布的哪些统计量能代表这个分布。这里拟合的就是这个分布的期望
第三条就是线性的含义，为啥是广义线性，这个地方指出来了

有了上面的理论，下面就可以深层剖析LR里面的sigmoid：
LR是个二分类问题，并且假设了样本服从伯努利分布，即 $\mid x ; \theta) \sim$ Bernoulli $(\phi)$ ，那么：
$\begin{aligned} h_{\theta}(x) &=E[y \mid x ; \theta] \\ &=\phi \\ &=\frac{1}{1+e^{-\eta}} \\ &=\frac{1}{1+e^{-\theta^{T} x}} \end{aligned}$

因为根据指数族分布里面伯努利分布的那个推导公式
$\eta=\log \frac{\Phi}{1-\Phi} \Rightarrow \Phi=\frac{1}{1+e^{-\eta}}$
而又根据广义线性模型的第三条：
$\eta=\theta^{T} X$
所以最后就推出了sigmoid函数。其实是这样出来的，而前面讲的几率比，对数几率回归等都是基于指数族分布，广义线性模型的理论推导出来的。

说完了逻辑回归，下面再来说说优化算法了。

3. 常用的优化算法

优化算法包括梯度法和牛顿法。

3.1 梯度法

梯度法比较简单，更新公式也整理过多遍，这里不再多解释。这里重点依然是那个问题：为何沿着梯度的方向下降就是最快的？

之前整理的时候，白话太多，导致知识点不连贯，这里直接上重点：

当我们在某个要优化的函数，这里设为f(x), 我们在x点处，然后沿着方向v进行移动，到达f(x+v)，看下面图：

此图显示了从A点移动到B点的过程，那么v方向是什么的时候，局部下降的最快呢？化成数学的语言就是， $f (x + v) - f (x)$ 的值在 $v$ 是什么的时候，达到最大？

这里开始划重点：泰勒公式
$f(x+\Delta x) \approx f(x)+\Delta x f^{\prime}(x)+\frac{1}{2} \Delta x^{2} f^{\prime \prime}(x)+O(\Delta x)$

下面我们对 $f (x + v)$ 在 $v$ 处进行Taylor一阶展开：
$\approx f(x)+\nabla f(x)^{T} v$
进行化简得：
$\approx-\nabla f(x)^{T} v$

即 $f (x + v) - f (x) = d f (x) * v$ ，则我们可以得出： $d f (x) v$ 为函数值的变化量，注意的是df(x)和v均为向量， $d (f x) v$ ，也就是两个向量的点积，而向量进行点积的最大值，也就是两者共线的时候，也就是说 $v$ 的方向和 $d f (x)$ 的方向相同的时候，点积值最大，这个点积值也代表了从A点到B点的上升量。

而 $d f (x)$ 正是代表函数值在x处的梯度，前面又说明了 $v$ 的方向和 $d f (x)$ 的方向相同的时候，点积值(变化值)最大，所以说明了梯度方向是函数局部上升最快的方向。也就证明了梯度的负方向是局部下降最快的方向。

3.2 牛顿法

关于牛顿法，先摆结论，然后给出证明，更新公式长下面这个样子：
$x_{t+1}=x_{t}-\frac{f^{\prime}\left(x_{t}\right)}{f^{\prime \prime}\left(x_{t}\right)}$
也可以加入步长。可以对比一下梯度下降法，那个是只涉及到了一阶导数，而这个加入了二阶导数。

下面是证明，依然是泰勒：
$\begin{array}{l} f(x+\Delta x) \approx f(x)+\Delta x f^{\prime}(x)+\frac{1}{2} \Delta x^{2} f^{\prime \prime}(x)+O(\Delta x) \\ f(x)=f\left(x_{0}\right)+\left(x-x_{0}\right) f^{\prime}\left(x_{0}\right)+\frac{1}{2}\left(x-x_{0}\right)^{2} f^{\prime \prime}\left(x_{0}\right)+O(\ldots) \end{array}$
我们把f(x)展开到二阶，然后两边同时对x(变量)求梯度：
$\begin{array}{c} f(x)=f\left(x_{0}\right)+\left(x-x_{0}\right) f^{\prime}\left(x_{0}\right)+\frac{1}{2}\left(x-x_{0}\right)^{2} f^{\prime \prime}\left(x_{0}\right)+O(\ldots) \\ f^{\prime}(x)=f^{\prime}\left(x_{0}\right)+\left(x-x_{0}\right) f^{\prime \prime}\left(x_{0}\right) \end{array}$
这时候，由于我们是在求极值，令f’(x)=0，就可得到结论：
$x_{t+1}=x_{t}-\frac{f^{\prime}\left(x_{t}\right)}{f^{\prime \prime}\left(x_{t}\right)}$

关于牛顿法，计算太慢了，所以目前用的比较少，因为这些x可不是1个数，这些都是向量，并且二阶导这里是一个海塞矩阵，而分母上的话就涉及到了矩阵求逆的问题了。所以计算量太大了，并且也不一定逆矩阵存在。所以更多的时候用的拟牛顿法。

最后，再来看看正则。

4. 正则化

正则化的目的：减小模型参数大小或者参数的数量，缓解过拟合。正则化其实就是在原来的目标函数的基础上又加了一项非负项，并且这个非负项是 $w$ 的函数。这样的话target不变的基础上得让这个loss变得小一点，相当于对其产生了一种约束。比如之前的时候，我要拟合100，我又10个 $w$ ，假设特征是1，那么这时候，我每个 $w$ 要是10，而如果后面加了个非负，相当于我10个 $w$ 拟合的值不足100了，那么要么去 $w$ ，要么w都变得小一点。这正好对应了L1和L2的方式。

正则化的通用形式：
$\text { Loss }_{-} \text {with }_{-\text {regularization}}=\operatorname{loss}(w, x)+\lambda f(w)$
此处的 $\lambda$ 为正则化系数。关于正则化：

正则化恒为非负
正则化项又称为惩罚项，惩罚的是模型的参数
正则化系数调节惩罚的力度，越大则惩罚力度越大。

正则化的方法： L1正则和L2正则

L2正则化：对参数进行二次约束
$\text { Loss }_{-} \text {with }_{-} L 2_{-} \text {regularization }=\operatorname{loss}(w, x)+\lambda\|W\|_{2}^{2}$
特性：参数W变小，但不为0， 不会形成稀疏解。
L1正则化：对参数进行一次约束， 会形成稀疏解
$\text { Loss }_{-} \text {with }_{-} L 1_{-} \text {regularization }=\operatorname{loss}(w, x)+\lambda |W|$

注意一点：无论L1、L2正则化方法，本质上都是乘法参数w使其等于或者趋向于0，但有没有可能有一种正则化方法会使其参数w趋向于非零值呢？可以这样做。
$\text { Loss }_{-} \text {with }_{-} XX_{-} \text {regularization }=\operatorname{loss}(w, x)+\lambda\|W-A\|_{2}^{2}$

下面又是画重点，即L1和L2分别形成稀疏和非稀疏解的原因。

第一个角度，就是图像的角度

直观感受：黄色区域表示正则项限制，蓝色区域表示优化项的等高线，要满足在两者交点上的点才符合最优解 $w *$ ，故：但 $w$ 的等高线逐步向正则限制条件区域扩散的时候，前者交点大多在非坐标轴上，后者在坐标轴上。关于这个的详细解释，可以参考我整理的Pytorch正则化那部分。这里主要是整理一下第二个角度。

第二个角度，求导。
从表达式上来看， L2和L1分别如上图表示，我们想要求最小值，很直观的一个方法就是求导，那么不妨看看L1和L2正则化下的目标函数的导数。

下面解释一下为啥稀疏和不稀疏：

如果我们看L2的导数，如果想是极值点，就是 $\lambda w=0$ , 这时候如果L2想产生稀疏解，也就是 $w$ 等于0了，那么 $L^{'} (w)$ 就必须是0的时候，才会产生稀疏的解。但是 $L^{'} (w)$ 是0的概率是很小的，哪有那么巧的事情？所以L2不太容易产生稀疏的解（当然不是不能）
再看L1的导数，由于L1带有绝对值，所以这个时候，得分开讨论。也就是下面这三种情况，但
- $w > 0$ 的时候，绝对值号可以直接去掉， $L^{'} + l a m b d a = 0$ ， $L^{'} = - l a m b d a$ 。
- $w < 0$ 的时候， $L^{'} = l a m b d a$ ，
  这两种情况都不是稀疏解。但是这时候又是L’是个固定的值，这种情况很少的。所以不是稀疏解的可能性很小。而要产生稀疏解的时候，也就是 $w = 0$ ，这时候是没有导数的，只能拿一个次梯度来代替，也就是 $L^{'}$ 在上面那个范围里面，这个是非常有可能的。所以才容易稀疏解。

关于逻辑回归，优化算法和正则化就先补充这么多，后面如果发现还有重要的，会再进行补充。上面这些点，可以一些面试中常考的点。关于更多逻辑回归的东西，可以参考下面这篇文章。

【机器学习】逻辑回归（非常详细）- 阿泽哥这篇文章梳理的透透的了

逻辑回归是面试非常喜欢问的一个模型，关于面试的重点，可以参考下面这篇文章：
逻辑回归的常见面试点总结

【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
【人工智能面经第五期：模型训练与优化核心面试深度问答】码上有前 Pytorch Python 深度学习人工智能面试职场和发展
作者：“码上有前”文章简介：人工智能面经欢迎小伙伴们点赞、收藏⭐、留言模型训练与优化核心面试深度问答摘要围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。目录训练技巧-正则化策略相关问题
【机器学习笔记Ⅰ】10 特征工程
特征工程（FeatureEngineering）详解特征工程是机器学习和数据科学中的核心环节，旨在通过对原始数据的转换、组合和提取，构建更适合模型的高质量特征。其质量直接决定模型性能上限（“数据和特征决定了模型的上限，而算法只是逼近这个上限”）。1.特征工程的核心目标提升模型性能：增强特征与目标变量的相关性。降低计算成本：减少冗余特征，加速训练。改善泛化能力：避免过拟合，提高鲁棒性。2.特征工程的
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比（逻辑回归 vs 决策树）蓝婷儿 python python 数据分析逻辑回归
✅今日目标回顾整个本周数据分析&建模流程学会训练第二种模型：决策树（DecisionTree）掌握多模型对比评估的方法与实践输出综合对比报告：准确率、精确率、召回率、F1等指标为后续模型调优与扩展打下基础一、本周流程快速回顾步骤内容第1天高级数据操作（索引、透视、变形）第2天缺失值和异常值处理第3天多表合并与连接第4天特征工程（编码、归一化、时间）第5天数据集拆分（训练集/测试集）第6天逻辑回归模
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
【数据分析】Python实现线性回归和多元线性回归（全代码）干了这一碗BUG 线性回归回归算法
老规矩，涉及到的数学原理，想深入了解的可以自行查阅相关资料，这里直接上干货用Python实现。目录逻辑回归中涉及的术语线性回归Python实现多元线性回归Python实现逻辑回归中涉及的术语以下是逻辑回归中一些常见的术语：自变量：应用于因变量预测的输入特征或预测因子。因变量：逻辑回归模型中的目标变量，即我们试图预测的变量。逻辑函数：用于表示自变量和因变量之间关系的公式。逻辑函数将输入变量转换为0到
python实现多元线性回归算法 (附完整源码) 源代码大师 python算法完整教程算法 python 线性回归
python实现多元线性回归算法1.使用正规方程实现多元线性回归代码说明运行结果示例2.使用梯度下降法实现多元线性回归代码说明运行结果示例进一步优化与注意事项下面是使用Python从头实现多元线性回归算法的完整源码。这个实现利用了numpy进行矩阵运算，并展示了如何训练模型、进行预测以及评估模型性能。为了更全面，代码中还包含了一个使用梯度下降法（GradientDescent）优化参数的实现。多元
CHAIN（GAN的一种）训练自己的数据集这张生成的图像能检测吗优质GAN模型训练自己的数据集生成对抗网络人工智能神经网络深度学习 pytorch 算法
简介简介：作者针对数据有限场景下GANs训练中的判别器过拟合问题，提出了CHAIN（Lipschitz连续性约束归一化）方法。作者首先从理论角度分析了GAN泛化误差，发现减少判别器权重梯度范数对提升泛化能力至关重要。然后深入研究了批归一化（BN）在GAN判别器中应用困难的根本原因，通过理论分析证明BN的中心化和缩放步骤会导致梯度爆炸。基于这些发现，CHAIN设计了两个核心模块：用零均值正则化替代中
LL面试题11 三月七꧁ ꧂ 破题·大模型面试语言模型 gpt 人工智能自然语言处理 prompt llama
物流算法实习面试题7道GLM是什么？ GLM(GeneralizedLinearModel)是一种六义线性模型，用于建立变量之间的关系。它将线性回归模型推广到更广泛的数据分布，可以处理非正态分布的响应变量，如二项分布（逻辑回归）、泊松分布和伽玛分布等。GLM结合线性模型和非线性函数，通过最大似然估计或广义最小二乘估计来拟合模型参数。SVM的原理？怎么找到最优的线性分类器？支持向量是什么？
【AI大模型面试八股文】大模型训练中如何应对灾难性遗忘问题？一叶千舟 AI大模型应用【八股文】人工智能深度学习
目录✅面试回答模板：一、什么是灾难性遗忘？举个通俗的例子：二、灾难性遗忘是怎么发生的？常见触发情境：三、我们为什么要关注灾难性遗忘？四、主流解决方案汇总✅1.固定部分参数（FeatureExtraction）✅2.正则化策略（Regularization）✅3.回放机制（Rehearsal/Replay）✅4.参数隔离（ParameterIsolation）✅5.使用提示学习（PromptLear
逻辑回归详解：从原理到实践
在机器学习的广阔领域中，逻辑回归（LogisticRegression）虽名为“回归”，实则是一种用于解决二分类（0或1）问题的有监督学习算法。它凭借简单易懂的原理、高效的计算性能以及出色的解释性，在数据科学、医学诊断、金融风控等诸多领域中得到了广泛应用。接下来，我们将从多个维度深入剖析逻辑回归，带你揭开它的神秘面纱。一、逻辑回归的基本概念在回归分析中，线性回归是通过构建线性方程来预测连续值，例如
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
【机器学习】什么是逻辑回归？从入门到精通：掌握逻辑回归与二分类问题的解决之道宸码模式识别机器学习机器学习 python 逻辑回归分类人工智能算法
从入门到精通：掌握逻辑回归与二分类问题的解决之道引言1.1逻辑回归简介1.2逻辑回归的应用场景逻辑回归基本原理2.1逻辑回归概述逻辑回归的基本思想预测类别的概率2.2线性模型与Sigmoid函数线性模型Sigmoid函数Sigmoid函数的性质为什么选择Sigmoid函数2.3逻辑回归的输出：概率值分类决策代价函数与优化数学基础3.1逻辑回归的假设与目标假设目标3.2对数似然函数概率模型对数似然函
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》