追一科技

TFSEQ PART III: Batch size大小，优化和泛化

本文作者：追一科技算法工程师 Tony

文章目录

**TFSEQ** PART III: Batch size大小，优化和泛化
- 前言
- TLDR：分布式训练的 Recipe
- 1. 机器学习问题的简单拆解
- - 1.1 简单的概率论符号
  - 1.2 机器学习和泛化
  - 1.3 优化的限制
  - 1.4 误差的拆解[[Bottou et al, 2008]](https://papers.nips.cc/paper/3323-the-tradeoffs-of-large-scale-learning.pdf)
  - 1.5 小结和符号的简化
- 2. 对$R_N(\theta )$的优化: SGD [[Bottou et al, 2018]](https://arxiv.org/abs/1606.04838)
- - 2.1 梯度下降的动机
  - 2.2 梯度估计噪声的控制：Stochastic, Mini-batch Stochastic 和 Full-batch
  - 2.3 噪声下 SGD 的收敛性
  - 2.4 比梯度更好的更新：二阶方法的动机
  - 2.5 调整$R _N(\theta)$的 Lipschitz 常数$L$
  - 2.6 小结
- 3. Large Batch Training 和 Generalization Gap
- - 3.1 Generalization Gap 提法的由来
  - 3.2 Gap 并不存在：更新量不足
  - 3.3 减少迭代次数：Linear Scaling
  - 3.4 更大的 Batch Size: Layer-wise Adaptive Rate Scaling
  - 3.5 训练噪声和泛化
  - 3.6 小结
- 4. 总结
- 5. 参考文献

前言

TFSEQ 这个系列总结了笔者在使用 tensorflow 进行自然语言处理的一些经验和思考。计划写三篇文章：

分布式训练的方案和效率对比
序列模型的实现细节
Batch size大小，优化和泛化

此为第三篇。

在介绍完分布式训练后，为了将故事讲完整，本文涉及的内容其实是绕不开的。本文会以综述和简介的方式，将笔者读过的东西串成一条线，希望能为读者提供一些实践中使用的 tricks 的动机。如有事实上的错误，希望能够指出并赐教。

本文由于信息量比较密集，且有部分来回引用，推荐在电脑屏幕上细读。知乎并不支持页内跳转，所以文中引用对应的链接可以直接打开论文的网页。为了方便读者阅读，每个部分结束时都会带上简单的小结。本文重在直观结论，公式和符号的存在是为了更精确地表达概念，所以跳过部分公式也不会造成理解上的困难，文中也并没有太多推导。

TLDR：分布式训练的 Recipe

计算的实现方面：

分布式训练的方案和效率对比：使用 allreduce 的同步更新。ring-allreduce 是简单的实现，如果集群较大，switch 层级较多，可以根据拓扑结构选择其他 allreduce 算法。为了减少节点异构带来的阻塞，尽量平衡各个计算节点的 workload，在单机多卡的场景下可以构建全局的 data pipeline 来实现。
序列模型的实现细节：为了减少 GPU 因等待数据预处理或者 batch 内长序列计算而浪费的计算资源，可以使用 Tensorflow 的 data pipeline 以及 bucketing 的实现。

算法的设计方面：

本文内容：使用 linear scaling[Goyal et al, 2017] 同时增大 batch size 和 learning rate，以充分利用多节点的计算资源。使用 learning rate warmup[Goyal et al, 2017] 来避免测试效果变差。使用 LARS [You et al, 2017] 来达到更大的 batch size。batch size 的增大受到模型结构的限制。我们可以加入 skip connection 和 batch normalization，以及将模型变宽变浅去缓解这种限制。

1. 机器学习问题的简单拆解

1.1 简单的概率论符号

遵从一般的习惯，我们用大写字母 $X$ 代表随机变量，小写字母 $x$ 代表随机变量的特定取值。 $X$ 的每个取值区间对应了样本空间(sample space)里的一个事件(event)。这里的随机变量可以是一个标量(scalar)，也可以是一个向量(vector)，这里不做区分。随机变量 $X$ 的概率分布 $P (X)$ 定义了每个取值区间对应的概率值。

记 $E_{X}[g(X)]$ 为随机变量 $X$ 的函数 $g (X)$ (也是一个随机变量) 在分布 $P (X)$ 中的期望(均值)。可以认为期望 $E_X[g(X)]$ 抹去了变量 $X$ 的随机性，转用一个常量来描述在分布 $P (X)$ 中变量 $g (X)$ 的性质(平均取值/中心点)。

联合概率分布 $P (X, Y)$ 描述了两个随机变量 $(X, Y)$ 的概率分布。在联合概率分布的基础上可以定义条件概率分布 $\frac{P(X,Y)}{P(X)}$ ，表示给定 $X$ 的取值后 $Y$ 的概率分布 – 样本空间随着 $X$ 取值的确定而改变了。在条件概率分布的基础上可以定义条件期望 $E_Y[Y|X]$ 。

1.2 机器学习和泛化

机器学习里最典型的问题是监督学习(Supervised learning)：给定输入 $X$ ，预测输出 $Y$ 。产生输入 $X$ 和输出 $Y$ 的机制通常用一个联合概率分布 $P (X, Y)$ 描述。给定输入 $X$ 后， $Y$ 的分布转由条件概率分布 $P (Y ∣ X)$ 描述。我们通常会使用条件期望 $E_Y[Y|X]$ 去描述这个分布，这是一个关于 $x$ 的确定性函数(deterministic function)。

我们通常用一个函数(通常称为 Hypothesis function) $h$ 来近似 $E_Y [Y|X]$ ， $\hat y= h(x)$ 。

为了刻画 $h$ 对 $E_Y [Y|X]$ 近似的好坏，我们通常会定义一个损失函数(loss function/cost function) $l (h (x), y)$ 来描述产生的近似错误：当 $h (x)$ 离输出 $y$ 比较远时值比较大，反之比较小。在二分类任务中， $y$ 为 0-1 标签，我们可以用 $\textrm{I}(h(x)\neq y)$ ，其中 $\textrm{I}[h(X)\neq Y]$ 为指示函数，当 $h(x)\neq y$ 时为 1，否则为 0。

有了在单个取值上的损失函数后，我们可以定义期望风险(Expected Risk) $R(h) = E_{XY}[l(h(X),Y)]$ ，描述 $h$ 在分布 $P (X, Y)$ 下的平均近似错误。 $R (h)$ 比较低时，我们会说 $h$ 的泛化性能好。

有了评价指标后，我们自然想要找出最小化 $R (h)$ 的函数 $h$ 。然而我们并没有分布 $P (X, Y)$ 的全部信息(否则就没机器学习什么事了)。但我们可以采集到分布 $P (X, Y)$ 产生的一系列样本 $x_i, y_i)$ 。假设我们有 $N$ 个样本，我们可以通过这些样本的平均错误对 $R (h)$ 进行估计: $R_N(h) = \frac{1}{N} \sum_{i=1}^N l(x_i, y_i))$ ， $R_N(h)$ 被称作是经验风险(Empirical Risk)，对应的样本称为训练集。在机器学习文献中， $R_N(h)$ 有时也被叫做 Loss。

我们只能找到最小化 $R_N(h)$ 的函数 $h$ ，并期待对应的 $R (h)$ 比较小。这种做法叫做 ERM(Empirical Risk Minimization)。用经验风险去估计期望风险，这是机器学习间接性的一种体现。

但最小化 $R_N(h)$ 不一定能带来比较小的 $R (h)$ ：假设我们找到的函数 $h$ 为 "记住所有样本 $x_i, y_i )$ ，我们可以让 $R_N(h)$ 变得很小，但是 $R (h)$ 的值却没法保障。 $R(h) -R_N(h)$ 也被称为泛化误差(Genaralization Error)，是一个关于 $h$ 的函数。机器学习的核心问题之一**泛化(Genaralization)**就是定量确定影响泛化误差的因素。

我们通常会用一个与训练集不相交的样本集，即测试集去估计 $R (h)$ 。在固定 $R_N(h)$ 并比较 $R (h)$ 时，泛化性能和泛化误差 $R(h) - R_N(h)$ 在讨论中表达的意思是一致的。

1.3 优化的限制

优化(Optimization)算法对问题的定义也有一定的限制。

通常我们会要求 $l (h (x), y)$ 对 $h (x)$ 可导，从而可以用上基于梯度的优化算法。然而上述二分类问题的损失函数 $\textrm{I}(h(x)\neq y)$ 对 $h (x)$ 不可导，所以我们通常用一个可导的函数，如 cross entropy 或者 hinge loss 来作为二分类的损失函数。这是机器学习间接性的另一种体现。

我们还需要对搜索的范围做限制。以所有可能的函数作为搜索空间会带来优化算法设计的困难。我们往往会根据问题的类型确定一个模型(Model)，从而定义以向量 $\theta$ 为参数(Parameter)的一族函数 $h_\theta \in \mathcal{H}^\theta$ 。给定模型后参数 $\theta$ 和函数 $h_\theta$ 一一对应。

模型的确定通常还需要其他不参与训练的参数，如模型层数的多少，隐层的维度等，我们称之为超参数(Hyper-Parameter)。

1.4 误差的拆解[Bottou et al, 2008]

出于种种原因，我们往往没办法找到最优化 $R (h)$ 的函数 $h$ 。定义以下符号：

- $h^*$ 为最小化期望风险 $R (h)$ 的函数。这是我们想要找到的函数
- $h^*_\theta$ 为模型中最小化期望风险 $R (h)$ 的函数
- $h_{N,\theta}^*$ 为模型中最小化经验风险 $R_N(h)$ 的函数
- $\hat h^*_{N,\theta}$ 为利用优化算法在模型中找到的最小化经验风险 $R_N(h)$ 的函数

机器学习的误差可以拆解成以下三点：

近似误差(Approximation error) $\varepsilon _{\textrm{app}} = R(h^*_\theta) - R(h^*) \geq 0$ 。 $h^*$ 不一定在模型定义的函数族内
估计误差(Estimation error) $\varepsilon _{\textrm{est}} = R(h_{N,\theta}^*) - R(h^*_\theta) \geq 0$ 。 $R_N$ 并不能完美估计 $R$
优化误差(Optimization error) $\varepsilon _{\textrm{opt}} = R(\hat h^*_{N,\theta}) - R(h_{N,\theta}^*) \geq 0$ ：优化算法不一定能找到全局最小

我们找到的是 $\hat h^*_{N,\theta}$ ，但想要的是 $h^*$ ，这中间的误差便为：

$R(\hat h_{N,\theta}^{*}) - R(h^{*}) = \varepsilon _{\textrm{app}} + \varepsilon _{\textrm{est}}+ \varepsilon _{\textrm{opt}} =R(\hat h^{*}_{N,\theta}) - R(h_{N,\theta}^{*}) + R(h_{N,\theta}^{*}) - R(h^{*}_\theta) + R(h^{*}_\theta) - R(h^{*})$

在传统机器学习中，我们 trade-off 的是近似误差和估计误差，优化误差基本上可以忽略不计。但在深度学习中，通常会认为近似误差可以忽略不计，我们 trade-off 的主要是估计误差和优化误差。

模型的设计控制着模型的表达能力，这决定了近似误差 $\varepsilon _{\textrm{app}}$ 。设计中归纳偏差(inductive bias) 的使用使得不同模型有着不同的样本复杂度(sample complexity)，这决定了在有限数据集下估计误差 $\varepsilon _{\textrm{est}}$ 的大小，以及模型优化的难度。部分模型无法使用梯度下降的优化方法，只能使用 EM 算法(Expectation-Maximization)，极端情况下甚至只能用黑箱优化方法；而即使能使用梯度下降， $R_N(h)$ 对应的 Loss surface 的光滑程度也受模型设计影响(见 2.5 节)，这也决定了梯度下降(见 2.1 节)的收敛性和稳定性(见 2.3 节)。

模型的训练方案决定了估计误差 $\varepsilon _{\textrm{est}}$ 和优化误差 $\varepsilon _{\textrm{opt}}$ 。通常我们不会让模型收敛到 $R_N(h)$ 最低的点，因为这会带来比较大的估计误差 $\varepsilon _{\textrm{est}}$ 。trick 和超参数的选择，如 learning rate schedule 的方法，batch size，optimizer，normalization，early stop 的轮数和 dropout 等，在影响优化误差 $\varepsilon_{\textrm{opt}}$ 的同时，也是在做估计误差 $\varepsilon_{\textrm{est}}$ 和优化误差 $\varepsilon _{\textrm{opt}}$ 间的 trade-off。

1.5 小结和符号的简化

至此我们介绍完机器学习问题的定义。

1.2 中我们谈到机器学习的目标是找到最小化期望风险(Expected risk) $R (h)$ 的函数。由于我们没有数据生成分布的信息，只能通过优化算法找到最小化经验风险(Empirical risk) $R_N(h)$ 的函数。1.3 中提到由于优化算法的限制，我们只能定义一个模型，并在模型定义的函数族内搜索最优解。

在 1.4 中我们将机器学习任务的误差拆解成了三部分：近似误差、估计误差和优化误差，并简单分析了传统机器学习以及深度学习的不同之处。

下面的讨论中我们着重关注模型的训练方案带来的影响，并把重点放在优化方法上。为了讨论方便，我们对符号做一定的简化，以突出机器学习中优化问题的核心。

在上面的讨论中，随机变量 $X, Y$ 总是成对出现，我们可以把它们合成一个随机变量 $\Psi \leftrightarrow (X,Y)$ ，其取值对应为 $\psi \leftrightarrow(x,y)$ ，作为损失函数 $l$ 随机性的来源。给定模型后， $h_\theta$ 完全由 $\theta$ 决定。

综合这些考虑，我们将损失函数 $l (h (x), y)$ 改写成 $l(\psi;\theta)$ 。损失函数 $l$ 同时受确定性变量(Deterministic variable) $\theta$ 和随机变量(Random variable) $\Psi$ 影响，是关于 $\theta$ 的随机函数(Stochastic function)。

对应的经验风险为:

$R_N(\theta) =\frac{1}{N} \sum_{i=1}^N l(\psi_i;\theta)) \leftrightarrow R_N(h) = \frac{1}{N} \sum_{i=1}^N l(x_i, y_i))$

对应的期望风险为：

$R(\theta) = E_{\Psi}[l(\Psi;\theta)]\leftrightarrow R(h) = E_{XY}[l(h(X),Y)]$

Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
Deepseek 个性化决策输出 meisongqing DeepSeek 个性化
Deepseek个性化决策输出：基于用户画像的定制化内容生成在教育场景中，通过构建动态用户画像与智能决策模型，教育数字人可基于学生水平实时调整讲解深度，实现精准化、个性化的学习支持。以下是核心实现框架与关键步骤：1.用户画像构建：多维度数据融合数据采集：显性数据：年龄、学科成绩、测试结果、学习时长、知识点掌握进度。隐性数据：交互行为（如答题犹豫时间、回放次数）、情绪识别（语音/表情分析）、认知负荷
我与DeepSeek读《大型网站技术架构》- 总结诺亚凹凸曼架构
文章目录读后感一、总结二、反思三、创新四、展望当代大型网站架构一、架构分层模型二、关键组件与技术选型三、架构演进策略四、架构突破口读后感一、总结架构演化优先于设计大型网站架构不是预先设计的产物，而是通过反复迭代和试错演化形成的。技术选型的核心动机是对业务需求的深刻理解，而非盲目模仿。典型案例包括淘宝架构因业务爆发力被迫转型为分布式系统。开放与协作的价值互联网的开放生态通过API经济（如淘宝Open
【Unity网络同步框架 - Nakama研究】归海_一刀 Unity unity 游戏引擎 Nakama 网络同步
Unity网络同步框架-Nakama研究介绍如果你现在被委托了一个需求，要求调研并且撰写一份关于Unity网络同步框架方面的报告，你会如何做我知道，现在AI这么多，我马上打开DeepSeek进行光速搜索，那么好，如下是一部分关于这方面的咨询反馈：Mirror性能：性能表现良好，适合中小规模的多人游戏。易用性：上手难度较低，尤其是对于有UNet经验的开发者。功能完整性：功能较为全面，但扩展性有限。社
Cursor44.11 无限续杯攻略：持续畅享 AI 编程利器不会算法的小灰人工智能编辑器 vscode AI编程经验分享
一、引言在当今数字化快速发展的时代，高效的编程工具对于开发者来说如同珍宝。Cursor作为一款基于VSCode二次开发的强大AI编程编辑器，凭借其内置的多种AI大模型，如GPT-4、GPT-4o、Claude-3.5以及近期热门的DeepSeek满血版R1，为开发者提供了前所未有的编程体验。它能够快速生成代码、精准修复错误、智能优化逻辑等，极大地提升了编程效率。然而，新用户注册Cursor虽可获得
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？羊不白丶大模型算法
引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具
1.✨学习系统浅探 *TQK* 自我认知规划（不让别人看）认知提升
不要过于苛求完美，允许自己偶尔放松，保持积极心态。长期坚持比短期高强度更重要，尤其是为三年后的考研做准备，需要持续的努力而不是一时的冲刺。定期复盘，调整计划。如果某天状态不好，可以适当减少任务量，保持弹性。同时，保证足够的睡眠和运动，这对维持多巴胺水平和整体精力很重要。一、系统构建一Deepseek指令我的大一下学期已经开始了，这一学期我又有新的计算机课程。上一学期我学了C语言，基础知识掌握的还可
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
Orange 开源项目 - 集成DeepSeek大模型 mmd0308 Orange 开源项目开源 Deepseek orange AI编程
1DeepSeek大模型DeepSeek是一家专注实现AGI的中国公司，如果你还想了解更多关于DeepSeek的信息，可以前往【官方网站】查询2集成DeepSeek大模型2.1获取API-KEY获取DeepSeekAPI-KEY,请参考DeepSeek官网「获取DeepSeekAPI-KEY」2.2集成对话模型(ChatModel)publicclassDeepSeekChatModelServi
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
燃爆！程序员如何借助 AI 大模型冲破编程效率枷锁？（以DeepSeek，ChatGPT为例）羑悻的小杀马特. AI学习 chatgpt deepseek AI大模型开发语言
AI大模型已成为程序员提升效率的有力助手。本文聚焦DeepSeek和ChatGPT，探讨程序员如何借其冲破编程效率枷锁。在代码编写阶段，它们能快速生成基础框架、实现特定功能及复杂算法代码；调试时，精准分析错误并给出优化建议；文档生成方面，为函数、类及项目文档助力。程序员需掌握高效交互技巧，结合自身经验，合理利用AI大模型，全面提升编程效率，开启高效编程新境界。目录一·本篇背景：二、AI大模型简介2
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
Summernote个性化定制使用帮助(一) 秦岭熊猫前端
DeepdiveInitializationoptionsCustomizebyInitializingvariousoptionsandmodules.Customtoolbar,popoverSummernoteallowsyoutocustomisethetoolbar.$('#summernote').summernote({toolbar:[//[groupName,[listofbut
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址江上_酒开发环境及工具配置 TensorFlow CUDA cuDNN
TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu-2.9.03.7-3.10MSVC2019Bazel5.0.08.111.2tensorflow_gpu-2.8.03.7-3.10MSVC2019Bazel4.2.18.111.
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

TFSEQ PART III: Batch size大小，优化和泛化