Naruto_Q

斯坦福大学深度学习公开课cs231n学习笔记（8）神经网络学习过程中的检查事项和参数调优

在这节课中，主要讲述了神经网络的检查事项（例如梯度检查，合理性检查和学习过程中对损失函数、权重、每层的激活函数与梯度分布等的检查等）和神经网络的参数调优实现方法（例如：随机梯度下降方法，动量方法，学习率退火方法等等）

-----------第一部分：检查事项----------

梯度检查：

课中提出当使用有限差值来近似计算数值梯度的时候，下面的公式方法是不可行的：

（1）

而在实际中常使用下面的中心化梯度计算公式：

（2）

公式2的结果要比公式1更准确，公式1的误差近似为O(h)，第二个公式的误差近似为O(h^2)，

另外，在进行误差比较时，应该使用下面的相对误差比较法：

（3）

公式3比较误差时是计算的两者的差值占两个梯度绝对值较大值（分母取的是两个梯度绝对值的最大值）的比例，分母也可以是两个梯度绝对值的和。这样做可以防止当其中一个梯度等于0时，分母为0的情况（这种情况在ReLU中经常发生），所以还需要注意当两个梯度都为零时并且通过了梯度检查的情况。老师给出了在实践中的几种情形：

相对误差>1e-2，通常意味着梯度可能出错了。
1e-2>相对误差>1e-4，这个结果也不是很好。
相对误差<1e-4，这个结果对于含有不可导点的目标函数是可以的；但如果目标函数不存在kink（例如使用tanh和softmax），那么相对误差还是有点大。
相对误差<1e-7，或者更小，表示这是好的结果。

在多层神经网络中，误差时逐层累积的。对于一个可微分函数，如果误差为1e-2，通常就是梯度计算出错了。

另外，梯度检查时所用的数值精度也会影响到结果，例如，可能出现使用单精度数的相对误差为1e-2，但使用双精度数时的相对误差为1e-8的情况。还需要注意保持浮点数的有效范围，在论文《What Every Computer Scientist Should Konw About Floating-Point Artthmetic》描述了多种可能因为浮点数值计算导致的错误。老师建议将原始的解析梯度和数值梯度数据打印出来，以确保用来比较的数值不要太小（通常绝对值小于1e-10是很坏的情况）。但是如果出现确实过小的情形，可以借助一个常数将损失函数的数值范围暂时扩展到一个更“好”的范围，使得浮点数变得更加密集；比较理想的数值范围是在1.0的数量级上，即浮点数指数为0。

还有一种情况是：目标函数存在不可导点（kinks）。

不可导点是指目标函数不存在导数的部分，ReLU、SVM损失函数、Maxout神经元等都存在kinks点。以ReLU函数为例，当x=0时，函数不可导，即是函数的一个kinks点，下图1是ReLU的函数曲线：

图1

在x=e-6处，理论梯度应该是0，但当使用上面公式（2）求梯度时，如果h>e-6，求出的梯度结果并不为0，因为 f(x+h) 越过了不可导点。而在实际应用中，上述情况是很常见。例如，用CIFAR-10训练的SVM中，样本数为50000个，每个样本产生9个 max(0,x) 式子，所以共有 450,000个式子，所以遇到很多的不可导点是正常现象。

针对上面的情形，课中给出的建议是：

（1）使用少量的数据点。因为含有不可导点损失函数的数据点越少，出现的不可导点就越少，在计算有限差值近似时越过不可导点的概率就越小；并且这还可以使得检查过程变得高效。

（2）谨慎设置步长 h 。步长值并不是越小越好，当h过小时，可能会遇到上面说的数值精度问题。如果梯度检查无法进行，可以尝试将 h 调到1e-4或者1e-6。

（3）需要注意梯度检查的时机。最好让神经网络学习一小段时间，等到损失函数开始下降的以后再进行梯度检查。因为如果从一开始就进行梯度检查，此时梯度可能正处于不正常的边界。

另外，梯度检查还需要注意的三点有：

（1）计算数据损失时注意正则化损失的影响，不要让正则化损失掩盖数据损失。

由于损失函数包括数据损失和正则化损失两部分，所以可能存在正则化损失吞没数据损失的风险。建议做法是：先关掉正则化部分，而是对数据损失做单独检查，然后再对正则化损失做单独检查。

对正则化做单独检查的方法有：1. 修改代码，去掉其中数据损失的部分； 2.提高正则化强度，确认其效果在梯度检查中能否忽略。

（2）注意随机失活和数据扩张的不确定影响。

这可能给计算梯度结果带来不确定的误差影响。如果关闭这些操作，则无法对它们进行梯度检查（例如随机失活的反向传播可能存在错误），所以更好的解决方法是在计算 f(x+h) 和 f(x-h) 前强制增加一个特定的随机种子，在计算解析梯度时也采取这个方法。

（3）检查少量的维度。

在实际应用中，神经网络可能有上百万的参数，在这种情况下只能检查部分维度。但需要注意的是，选取的参数应该从所有不同的参数中选取部分检查，避免出现从参数向量中随机选取出的参数可能只是偏置参数的情况。

进行学习之前的合理性检查技巧：

参数调优的过程是费时费力的，所以在开始之前，下面的技巧是很有必要的：

（1）原文中“Look for correct loss at chance performance”，这里的chance performance指的是不是统计概率中的得分的意思（我不确定，如果有清楚的还望告知！）。当使用小参数初始化时，确保得到的损失值与期望的损失值是一样的。最好的方式是单独对数据损失进行检查（正则化强度置零）。

（2）当增大正则化强度时，查看损失值是否跟着变大。

（3）在整个数据集进行训练之前，先在一个很小的数据集上进行训练（比如20个数据），并设置正则化强度为0，确保此时的损失值为0。只有这个检查通过，整个数据集的训练才有意义。

学习过程中的检查：

在神经网络训练过程中，有许多有用的参数（例如损失函数值，验证集和训练集的准确率，权重的更新比例等）需要监控，这些参数对于不同超参数的设置和调优具有指导意义。

（1）损失函数值

图2

上图2中，x轴表示周期。左面是不同学习率对应的损失函数值曲线；右图是一个典型的损失函数值随时间的变化曲线。从左图中，我们发现，学习率设置过高时，损失值并不单调了，而红色曲线对应的是较好的学习率。

另外，损失函数值的震荡程度还与批尺寸（batch size）有关：当批尺寸为1时，震荡相对会比较大；当批尺寸是整个数据集时，震荡会比较小，因为每个梯度的更新都在单调地优化损失函数（学习率过高除外）。

（2）训练集和验证集的准确率

图3

上图3中，蓝色的验证集曲线表明相比于训练集/验证集的准确率低了很多，两者中间的缝隙程度也能模型过拟合的程度。此时应该增大正则化强度（更大的权重惩罚，更多的随机失活等）或者收集更多的数据。如果遇到验证集曲线和训练集曲线近乎重合的情况，说明模型容量不够大，此时应该通过增加参数的数量使得模型容量更大些。

（3）权重的更新比例

这个之前课中也提过，这个参数指的是每次训练后有更新的权重占所有权重的比例。经验性的结论是这个比例应该在1e-3左右，如果小于此值，表明学习率可能设置的过小；如果大于此值，表明学习率可能设置的过大。

（4）课中还给出了几种判别学习过程是否出现问题的方法

输出网络中所有层的激活数据和梯度分布的柱状图。例如，使用tanh的神经元的激活数据的值，应该分布在整个[-1,1]区间内，但如果出现神经元的输出全部是0，或者集中在-1和1上，那么就表明有问题了。
如果数据是图像像素数据，可以把第一层特征可视化。

图4

上图是将将神经网络的第一层权重可视化的例子。左边的特征充满了噪音，表明网络可能出现了以下问题：网络不收敛，学习率设置不恰当，正则化惩罚的权重过低等。右边的特征比较平滑，干净而且种类多，表明训练过程良好。

-----------第二部分：参数调优----------

参数更新：

优化算法是通过改善训练方式，来最小化(或最大化)损失函数的过程。优化算法分为两大类：
1. 一阶优化算法。为了计算多变量函数的导数，会用梯度取代导数，使用偏导数来计算梯度。

2. 二阶优化算法。二阶优化算法使用二阶导数(也叫Hessian方法)优化损失函数。课中也提及了其迭代公式，但是由于其计算成本比较高，所以应用的并不广泛，不加说明了。

当可以使用反向传播计算解析梯度后，梯度能被用来进行更新参数的过程。课中提及了几种网络优化算法：梯度下降法，动量更新法，学习率退火法等。

（1）梯度下降法。 参数更新最简单的方式是沿着梯度负方向改变参数。假设参数向量为x ，其梯度为dx，更新形式为：

x += - learning_rate * dx

其中，learning_rate是之前说的学习率。
注：批量梯度下降在计算损失函数的梯度时，是遍历数据集中的每一个样本，如果在每一次迭代中都进行梯度下降是非常低效的，因为算法的每次迭代仅以很小的步进来提升损失函数。为了解决这个问题，可以使用小批量（Mini-batch）梯度下降算法，该算法在数据集的一个小批量上近似计算梯度，然后使用这个梯度去更新权值。比如卷积神经网络，每次在训练集中选择包含256个样本的一批数据，然后使用这批数据计算梯度，完成参数更新，代码附在下面。用来估计梯度的 batch 大小是可以选择的一个超参数，当它等于 1 时，即为随机梯度下降（SGD），大多数深度学习框架都会选择随机梯度下降的 batch 大小。

#批量梯度下降的实现：
while True:
  weights_grad = evaluate_gradient(loss_fun, data, weights)
  weights += - step_size * weights_grad # perform parameter update

#小批量梯度下降的实现
while True:
  data_batch = sample_training_data(data, 256) # sample 256 examples
  weights_grad = evaluate_gradient(loss_fun, data_batch, weights)
  weights += - step_size * weights_grad # perform parameter update

#随机梯度下降的实现
while True:
  data_batch = sample_training_data(data, 1) # use a single example
  weights_grad = evaluate_gradient(loss_fun, data_batch, weights)
  weights += - step_size * weights_grad # perform parameter update

使用梯度下降的挑战：
1. 很难选择合适的学习率。学习率太小会导致网络收敛过于缓慢，而学习率太大可能会影响收敛，并导致损失函数在最小值上波动，甚至出现梯度发散。
2. 相同的学习率并不适用于所有的参数更新。尤其是训练集数据很稀疏，并且特征频率非常不同的时候；对于很少出现的特征，应使用更大的更新率。
3. 在神经网络中，最小化非凸误差函数的一大挑战是避免陷于局部最小值中。实际问题中这并非源于局部极小值，而是来自鞍点，即在一个维度向上倾斜但在另一维度向下倾斜的点。鞍点通常被相同误差值的平面包围，这使得SGD算法很难脱离出来，因为梯度在所有维度上接近于零。

（2）动量更新法。动量法或说具有动量的 SGD 有助于加速向量向着正确的梯度方向下降，加快收敛速度。

SGD方法中的高方差振荡会使得网络震荡，动量（Momentum）更新方法可以通过优化相关方向的训练和弱化无关方向的振荡，来加速SGD训练过程。动量更新有两种定义方法：一种是吴恩达提出的：定义一个动量，即是梯度的移动平均值。然后用它来更新网络的权重，公式如下：

式中 L 是损失函数，α 是学习率，β为动量项，一般取值0.9。另一种表达动量更新的方式是：

# Momentum update
v = mu * v - learning_rate * dx # integrate velocity，mu即上面的动量项
x += v # integrate position

Nesterov动量：当参数向量位于位置 x 时，由上面的代码可知，动量部分会通过 mu * v 稍微改变参数向量。可以将未来的近似位置x + mu * v 看做是“向前看”，并计算 x + mu * v处的梯度。视图如下：

实现如下：

x_ahead = x + mu * v
# evaluate dx_ahead (the gradient at x_ahead instead of at x)
v = mu * v - learning_rate * dx_ahead
x += v

（3）学习率退火算法

训练深度网络过程中，让学习率随着时间减弱是一种有效地方法。如果学习率很高，系统的动能就很大，参数向量跳动的就回厉害，不能够稳定到损失函数更深更窄的区域。通常，学习率退火有3种方式：

随步数衰减：每进行几个周期就根据一些因素降低学习率。典型的值是每过5个周期就将学习率减少一半，或者每20个周期减少到之前的0.1。这些数值的设定是严重依赖具体问题和模型的选择的。在实践中可能看见这么一种经验做法：使用一个固定的学习率来进行训练的同时观察验证集错误率，每当验证集错误率停止下降，就乘以一个常数（比如0.5）来降低学习率。
指数衰减。数学公式是，其中t是迭代次数（也可以使用周期作为单位）。
1/t衰减。数学公式是。

单参数自适应学习率方法

前面方法中的学习率是一种全局操作，并且对所有的参数都是使用同样的学习率。学习率调参是很耗费资源的过程，下面是几种自适应学习率调参的方法。

（1）Adagrad 是由Duchi等提出的自适应学习率算法。

# Assume the gradient dx and parameter vector x
cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

其中，变量 cache 的尺寸和梯度矩阵的尺寸是相同的，它跟踪每个参数的梯度平方和。由于， cache 放在分母位置，所以在更新参数 x 时，高梯度值的权重的学习率会被减弱，而低梯度值的权重的学习率会被增强。 eps 用于平滑（一般设为1e-4到1e-8），可以防止出现除数为0的情况。 Adagrad的缺点是，在深度学习中单调的学习率通常过于激进并且过早地停止学习。
（2） RMSprop，该方法并未发表，出自于Geoff Hinton的Coursera课程中的第六节课的第29页PPT。该方法是对Adagrad方法的改进，它使用梯度平方的滑动平均方式使得不像Adagrad那样激进。

cache = decay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

其中， decay_rate 是一个超参数，常用的值为[0.9,0.99,0.999]中的一个。与 Adagrad不同的是，学习率不会单调变小。

（3）Adam，Adam看起来像是RMSProp的动量版。

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += - learning_rate * m / (np.sqrt(v) + eps)

在引述论文中，推荐的参数值为：eps=1e-8, beta1=0.9, beta2=0.999。由于 m,v 两个矩阵初始为0，所以完整的 Adam算法还包含了偏置（bias）的矫正方法。一般， Adam比 RMSProp要好，老师推荐的更新方法是 SGD+Nesterov动量方法，或 Adam方法。

斯坦福大学深度学习公开课cs231n学习笔记（8）神经网络学习过程中的检查事项和参数调优_第6张图片

图1

斯坦福大学深度学习公开课cs231n学习笔记（8）神经网络学习过程中的检查事项和参数调优_第7张图片

图2

图1是一个损失函数的等高线图，显示了不同最优化算法的直观效果，其中基于动量的方法出现了折返的情况。图2展示了一个马鞍状的最优化地形，其中，SGD很难突破对称性，一直卡在顶部；RMSProp等方法能够朝着马鞍方向继续前进，虽然该方向梯度小，但是由于 RMSProp方法中的分母项的存在，可以提高在该方向的学习率。

最后，附几篇拓展文章：

Leon Bottou的《SGD要点和技巧》
Yann LeCun的《Efficient BackProp》
Yoshua Bengio的《Practical Recommendations for Gradient-Based Training of Deep Architectures》

参考：

http://cs231n.github.io/neural-networks-3/

https://zhuanlan.zhihu.com/p/21741716?refer=intelligentunit

https://zhuanlan.zhihu.com/p/21798784?refer=intelligentunit

http://blog.csdn.net/u012526120/article/details/49183279

https://zhuanlan.zhihu.com/p/27449596?utm_source=weibo&utm_medium=social

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
12 个强大的 DeepSeek AI 提示将彻底改变您的日常生活知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
内容写作的最佳提示让我们从写作开始吧。无论您是博主、学生还是社交媒体创作者，这些提示都将帮助您创作出精彩的内容。提示1：“扮演专业文案撰稿人，为[产品/服务]撰写引人注目的广告文案。文案应引人入胜、具有说服力，且字数不得超过100个字。”这使得ChatGPT的响应结构就像真实的广告文案一样。提示2：“以更具吸引力和说服力的方式重写此段落，同时保持含义不变：[插入文本]。”推荐文章《Neo4j上使用
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
DeepSeek解读道德经第五十九章 cal_ 道德经道德经
一、原文与译文原文：治人事天，莫若啬。夫唯啬，是谓早服；早服谓之重积德；重积德则无不克；无不克则莫知其极；莫知其极，可以有国；有国之母，可以长久。是谓深根固柢，长生久视之道。译文：治理百姓侍奉天道，没有比珍爱能量更重要的。唯有珍惜能量，才叫早作准备；早作准备就是厚积德性；厚积德性则无往不胜；无往不胜则力量无穷；力量无穷便可守护国家；掌握治国根本，方能长久延续。这便是根深柢固、长生久存之道。二、核心
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
Golang面试题二（slice,map,chan） os-lee go高级 golang 开发语言后端
目录1.slice的底层实现1.结构体定义2.slice四种初始化方式3.底层函数2.Go语言当中数组和slice的区别是什么？1.长度不同2.函数传参不同3.计算长度方式不同3.slice的扩容机制，有什么注意点扩容机制总结4.扩容前后的Slice是否相同5.深拷贝和浅拷贝浅拷贝（ShallowCopy）深拷贝（DeepCopy）总结6.slice为什么不是线程安全的7.map底层实现8.map
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round