笨牛慢耕

CS231n-2022 Module1: 神经网络概要1：Setting Up the Architecture

1. 前言

2. Quick intro

3. Modeling one neuron

3.1 神经元基本模型

3.2 Single neuron as a linear classifier

3.2.1 Binary Softmax classifier

3.2.2 Binary SVM classifier

3.2.3 Regularization interpretation

3.3 Commonly used activation functions

3.3.1 sigmoid

3.3.2 tanh

3.3.3 ReLU

3.3.4 Leaky ReLU

3.3.5 Maxout

3.3.6 TLDR：要点总结，扼要概述

4. Neural Network architectures

4.1 Layer-wise organization

4.2 Example feed-forward computation

4.3 Representational power

4.4 Setting number of layers and their sizes

5. Summary

1. 前言

本文编译自斯坦福大学的CS231n课程（2022） Module1课程中神经网络部分之一，参见：CS231n Convolutional Neural Networks for Visual Recognitionhttps://cs231n.github.io/neural-networks-1/

本文（本系列）不是对原始课件网页内容的完全翻译，只是作为学习笔记的要点总结式的搬运，主要是自我参考。如果恰巧也对小伙伴们有所参考则纯属无心插柳^-^。

2. Quick intro

此前讨论过的线性分类器 $s = \bold{W} \cdot \vec{x}$ 可以看作是单层神经网络。

一个两层神经网络可以写成 $s = \bold{W_2} \{ max(\bold{W_1}\cdot \vec{x}, 0) \}$ 。

一个三层神经网络可以写成 $s = \bold{W_3} \{ max(\bold{W_2} \{ max(\bold{W_1}\cdot \vec{x}, 0) \},0) \}$ ，更多层数的神经网络则依此类推。

其中，W表示权重参数矩阵，x表示输入向量。函数的目的是提供非线性，通常称为激励函数。如果没有这个非线性处理的话，则各层权重参数矩阵可以合并成为一个权重参数矩阵，相当于坍缩为一个单层神经网络（即线性分类器）了。函数不是唯一的能够提供非线性的激励函数，但是的确是最常用的一种，它在深度学习领域有一个正式的名称叫ReLU（Rectified Linear Unit）。

3. Modeling one neuron

3.1 神经元基本模型

左图：生物神经元模型；右图：数学模型

单个神经元的数学模型可以写成： $y = f(\vec{w}\cdot \vec{x} + b) = f(\sum\limits_{i} w_i x_i + b)$

其中，函数为非线性函数，通常被称为激励函数（activation function）.

以常见的sigmoid函数作为激励函数例，如上所示的神经元的python代码实现例如下所示：

class Neuron(object):
  # ... 
  def forward(self, inputs):
    """ assume inputs and weights are 1-D numpy arrays and bias is a number """
    cell_body_sum = np.sum(inputs * self.weights) + self.bias
    firing_rate = 1.0 / (1.0 + math.exp(-cell_body_sum)) # sigmoid activation function
    return firing_rate

3.2 Single neuron as a linear classifier

对以上所示的单个神经元模型可以用作线性分类器。采用不同的损失函数对神经元输出（即sigmoid激励函数输出）进行处理可以得到不同的线性分类器。

3.2.1 Binary Softmax classifier

我们可以将 $\sigma (\sum\limits_i (w_i x_i + b) )$ 理解为判定为其中一类的概率 $P(\hat{y}_i = 1| x_i; w)$ ，相应地判定为另一类的概率即为： $P(\hat{y}_i = 0| x_i; w) = 1 - P(\hat{y}_i = 1| x_i; w)$ 。基于这一解释，我们就可以给出交叉熵损失（cross entropy loss）函数（其中表示Indicator函数）：

$L_i = -( I( y_i = 1) log (P(\hat{y}_i=1 | x_i; w)) + I( y_i = 0) log (P(\hat{y}_i=0 | x_i; w)) )$

对交叉熵损失函数进行最优化就可以得到Binary Softmax Classifier（也称为logistic regression，不要被这个regression骗了，逻辑斯蒂回归实际上是指分类！）。由于sigmoid函数的值域为[0,1]，所以分类器的输出（prediction）判决很简单，就看sigmoid函数输出是否大于0.5。

3.2.2 Binary SVM classifier

同样，如果采用max-margin hinge loss的话，则将得到一个SVM二分类器。

3.2.3 Regularization interpretation

从生物学的观点来看，在以上SVM/Softmax分类器中，正则化损失（regularization loss）可以理解为逐渐遗忘（gradual forgetting），因为它具有将权重参数向0的方向压缩的效果。

Summary:

A single neuron can be used to implement a binary classifier (e.g. binary Softmax or binary SVM classifiers)。一个二分类线性分类器可以用单一一个神经元实现。

3.3 Commonly used activation functions

提供非线性效应的激励函数在深度神经网络中起着不可或缺的作用。没有激励函数提供非线性效应，多层神经网络可以压缩为等价的单层神经网络，多层也就失去了意义，无法获得深度学习的能力。

常见的激励函数有如下一些：

左：Sigmoid；右：Tanh ；注意，两者的值域略有区别，前者是[0,1]；后者是[-1,1]

3.3.1 sigmoid

$\sigma(x) = \frac{1}{1+e^x}$

由于sigmoid函数的值域范围恰好为[0,1]，使得它的输出非常适合于用作概率性解释，所以在历史上曾经被广泛使用。但是，现在它已经基本上销声匿迹了。Sigmoid的主要缺陷是在sigmoid曲线的两端尾巴区域梯度非常小，很容导致在反向传播（back propagation）中有效信息的传播被抑制或甚至彻底打断。此外，Sigmoid曲线不是零对称（zero-centered）的，稍微有一点点不良影响。

3.3.2 tanh

tanh实际上可以有sigmoid变换而得： $tanh(x) = 2 \sigma(2x) - 1$ .

tanh和sigmoid一样，也是在两端尾巴区域梯度非常小，但是它的值域是对称的。所以，通常来说，tanh比sigmoid更有实用价值。

3.3.3 ReLU

左：ReLU函数；右：ReLU所带来的收敛速度提升（6x! from Krizhevsky et al paper）示意图

近年来ReLU变得非常流行，几乎可以看作是缺省的第一选项。

ReLU pros：（1）收敛速度非常快--参见上图右；（2）运算非常简单，仅仅是一个max! 与之相比，sigmoid和tanh涉及到指数运算，运算复杂度要远远大得多

ReLU cons： Unfortunately, ReLU units can be fragile during training and can “die”. ReLU在训练中可能会比较脆弱而且可能彻底“死”掉。For example, a large gradient flowing through a ReLU neuron could cause the weights to update in such a way that the neuron will never activate on any datapoint again. If this happens, then the gradient flowing through the unit will forever be zero from that point on. That is, the ReLU units can irreversibly die during training since they can get knocked off the data manifold（没看懂。。。^-^）。比如说，当学习率设置比较高时，你可能会发现高达40%的神经元节点都“死”掉了。通过适当地设置学习率可以缓解这一问题.

3.3.4 Leaky ReLU

为了解决ReLU容易“死”掉的问题，对ReLU的x<0的区间做一些调整，如下所示：

$f(x)=I(x<0)(\alpha x)+I(x>=0)(x)$

其中表示Indicator function, $\alpha$ 是一个比较小的常数。这样，在x<0的区间，输出不是0而是斜率为 $\alpha$ 的斜线。遗憾的是，虽然有人报告用这种方法取得了较好的效果，但是并没有普遍性。因此这种激励函数的普遍的有效性仍然存疑。

3.3.5 Maxout

除了以上以f(wTx+b)的函数形式体现的非线性激励函数，也有人建议其它形式的激励函数，其中一种比较流行的是由Goodfellow提出的名为Maxout的激励函数，它是对ReLU和Leaky ReLU的推广，其数学表达式如下所示：

ReLU和Leaky ReLU都是它的特殊形式，它保持了ReLU的有点，但是回避了ReLU容易“死”的缺点。当然这些优点是有代价的，这个代价就是它的参数个数直接翻倍了。

3.3.6 TLDR：要点总结，扼要概述

“What neuron type should I use?” Use the ReLU non-linearity, be careful with your learning rates and possibly monitor the fraction of “dead” units in a network. If this concerns you, give Leaky ReLU or Maxout a try. Never use sigmoid. Try tanh, but expect it to work worse than ReLU/Maxout.

使用ReLU几乎总是不错的选择，需要留意学习率的选择，以及神经网络中“死亡”节点的比率。如果“死亡”节点比率让你感到担忧，可以试一试Leaky ReLU或者Maxout。永远不要使用Sigmoid。Tanh可以试一试，但是一般来说它的表现不会比ReLU/Maxout好。

4. Neural Network architectures

4.1 Layer-wise organization

神经网络模型可以看作是有神经元节点构成的无环图（acyclic graph），并且通常以分层的形式表示。其中最基本最常见的是所谓的全连接层（ fully-connected lashiyer）：分属相邻两层的每一对节点都相连，而层内的节点则相互不连接。 示例如下：

左：2层神经网络；右：3层神经网络

Naming conventions. 约定俗成的命名规范

当我们谈论网络的层数，通常不把输入层计算进去（如上图所示），仅计入隐藏层和输出层。所以一个单层网络是指没有隐藏层，输入直接映射为输出。所以，也能听到人们会说logistic regression or SVMs 是特殊形式的单层神经网络。有人喜欢用“Artificial Neural Networks” (ANN) or “Multi-Layer Perceptrons” (MLP)来指称神经网络。很多人不喜欢神经网络与大脑之间的类比，所以他们会用units来替代neurons。

Output layer. 输出层

与隐藏层不同，输出层的节点通常不带激励函数，或者你可以认为它们是具有单位激励函数（linear identity activation function). This is because the last output layer is usually taken to represent the class scores (e.g. in classification), which are arbitrary real-valued numbers, or some kind of real-valued target (e.g. in regression).

Sizing neural networks.神经网络大小的衡量

人们通常用来衡量神经网络大小的参量有两个：神经元或者说节点个数；参数的个数。

如上图所示，左图所示模型有6个神经元节点（同样，不计入输入层），[3 x 4] + [4 x 2] = 20个权重weights参数以及 4 + 2 = 6 个biases参数，因此总共有26个可学习参数（ learnable parameters）。

同样，右图所示3层神经网络有9个神经元， [3 x 4] + [4 x 4] + [4 x 1] = 12 + 16 + 4 = 32 weights and 4 + 4 + 1 = 9 biases, for a total of 41 learnable parameters。

现代卷积神经网络通常由十几层到甚至上百层（名副其实的深度学习！），可能会有上亿的可学习参数。

4.2 Example feed-forward computation

神经网络采取基于层的结构的一个主要原因在于它的计算可以基于矩阵运算以非常简洁又没的方式实现。上图所示的3层网络的feed-forward计算的示例代码如下所示：

# forward-pass of a 3-layer neural network:
f   = lambda x: 1.0/(1.0 + np.exp(-x)) # activation function (use sigmoid)
x   = np.random.randn(3, 1)  # random input vector of three numbers (3x1)
h1  = f(np.dot(W1, x) + b1)  # calculate first hidden layer activations (4x1)
h2  = f(np.dot(W2, h1) + b2) # calculate second hidden layer activations (4x1)
out = np.dot(W3, h2) + b3    # output neuron (1x1)

其中, W1[4x3],W2[4x4],W3[1x4],b1[4x1],b2[4x1],b3[1x1] 是神经网络的可学习参数，分别用对应维度的矩阵或者向量表示。其中Wx的维度是[终点层size, 起点层size]（指各权重参数所对应的edge的终点层和起点层）而bx的维度是[终点层size,1]。这样，整个3层神经网络的前向计算仅仅是三个简单的矩阵乘法运算，中间再嵌入激励函数的作用而已。

值得注意的是，输入数据x不仅仅是可以代表一个样本数据的列向量，而且可以是代表一整个数据集的矩阵，其中每一列代表一个样本数据。即便x由1个数据样本扩张为整个数据集，以上运算表达式却并不需要修改，这正式矩阵运算的优美之所在。此外，在machine learning community，更常见的是用一个矩阵代表一个数据集，每一行代表一个样本数据。这样的话需要将以上运算整体上做一个转置。

另外，通常来说，最终输出层不需要激励函数。最终输出是一个实数值，在不同应用场景有其不同的物理含义。比如说在分类器中代表对应各类的class score。

The forward pass of a fully-connected layer corresponds to one matrix multiplication followed by a bias offset and an activation function.

4.3 Representational power

看待神经网络的一种观点是把它看作是定义了一个参数化的函数族，一个自然的问题是：神经网络的表现能力如何？有没有什么函数是无法用神经网络来近似建模的？

结论有点反直觉和惊人：至少拥有一个隐藏层的神经网络是 universal approximators（通用近似函数）。 也就是说， (e.g. see Approximation by Superpositions of Sigmoidal Function from 1989 (pdf), or this intuitive explanation from Michael Nielsen)给定任意的连续函数和任意小数 $\epsilon$ ，存在这样的具有至少一个隐藏层的神经网络（表示为），使得 $\forall x, \mid f(x) - g(x) \mid < \epsilon \$ 能够成立。换言之，神经网络能够近似任意函数。

如果一个隐藏层就足以近似任意函数的话，那为什么实际应用中的神经网络通常都用很多很多层呢？答案是，拥有更多隐藏层的深度网络通过工作得比只有一层隐藏层的深度网络要工作得更好，这是一个经验性事实（empirical observation），虽然它们的理论上的表现能力是相同的。

顺便提一下，对于全连接神经网络（FNN, or DNN），虽然3层神经网络通常要远远好于2层神经网络，但是层数进一步增大时，好处变得越来越小，或者说层数增大带来的边际效应越来越小。与之相对的是，对于CNN（卷积神经网络）来说，十几层甚至数十层是很常见的。

4.4 神经网络是大一些好呢还是小一些好？

如前所述，神经网络越大它们的信息容量（capacity）越大，表现能力（representational power）越强。但是，神经网络太大（相对于训练数据集的大小而言）的话，容易发生过拟合（overfitting），导致其泛化（generalization）能力变低。

上图左、中、右分别是针对同一个数据集三个不同大小（分别具有3个、6个和20个隐藏节点）的神经网络的分类效果图。左图的分类决策边界最平滑，但是存在一些误判；中图的分类决策边界开始变得不规则，挽救一个错判；右图虽然正确地对所有样本都进行了正确分类，但是其分类决策边界已经极度扭曲，其代价将是极差得泛化能力，即面对新的样本几乎难以做出正确的分类决策。在极端情况下，当神经网络足够大（相对于数据集而言）神经网络能够“记住”每个训练样本的标签，因而可以在训练集上获得100%的准确率，而并不需要去真正地学习数据集的内在特征（underlaying characteristics)，但是这样得到的模型显然没有什么使用意义。就好比一个学生具有超凡的记忆力和几近于零的理解能力，他能把他看到过的试卷的所有的题目的答案都精确地背下来，但是他去参加真正的考试，只要考试题没有出现他背下来的题目，他将毫无疑问将会考得一塌糊涂。

那是不是在只有较小的数据集的情况下，应该选择较小的神经网络呢？

并不是。

有很多技术可以用来防止过拟合，比如说，L2 regularization, dropout, input noise等等。下图所示为同样使用20个隐层神经元但是采用不同正则化强度时针对以上同样数据集时的分类表现，随着正则化强大增大，决策边界逐渐变得更加平滑，因而具有更好的泛化能力：

但是，仅此还不足以构成要选择大的神经网络而不选择小的神经网络的充分的理由。更加决定性的理由是：神经网络越小其性能的方差越大。换句话说，同样一个神经网络，针对同一数据集但是在不同随机初始条件下，重复训练多次，每次得到的性能的差异会很大。所以，规模较小的神经网络的训练就有点像轮盘赌一样，运气好可能得到很好的结果，运气不好可能得到很差的结果。而规模越大的神经网络，这个不同训练之间的性能的方差就越小，不必太担心运气的问题。

The takeaway is that you should not be using smaller networks because you are afraid of overfitting. Instead, you should use as big of a neural network as your computational budget allows, and use other regularization techniques to control overfitting.

要点是：不要因为容易过拟合而回避使用大的神经网络。尽量使用大的神经网络，然后采用正则化技术来控制过拟合！

5. Summary

本章中介绍了：

神经网络节点（神经元）的基本数学模型.
几种典型的激励函数，以及激励函数选择的基本原则。绝大多数情况选用ReLU即可
神经网络的层级结构以及全连接层
层级结构使得神经网络的运算可以很简洁优美地基于矩阵运算实现
神经网络的表现力。神经网络是所谓的universal function approximators（通用近似函数）。 当然神经网络的广泛使用与它们的这一性质并没有多大的关系。They are used because they make certain “right” assumptions about the functional forms of functions that come up in practice.
神经网络的表现能力通常与它们的大小相关联。但是大有大的难处和问题。比如说，神经网络越大可能越难训练，越容易出现过拟合等等。但是，尽量使用大的神经网络，然后采用正则化技术来控制过拟合。

Next：CS231n-2022 Module1: 神经网络概要2--Setting up the data and the loss

目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？羊不白丶大模型算法
引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

CS231n-2022 Module1: 神经网络概要1：Setting Up the Architecture

1. 前言

2. Quick intro

3. Modeling one neuron

3.1 神经元基本模型

3.2 Single neuron as a linear classifier

3.2.1 Binary Softmax classifier

3.2.2 Binary SVM classifier

3.2.3 Regularization interpretation

3.3 Commonly used activation functions

3.3.1 sigmoid

3.3.2 tanh

3.3.3 ReLU

3.3.4 Leaky ReLU

3.3.5 Maxout

3.3.6 TLDR：要点总结，扼要概述

4. Neural Network architectures

4.1 Layer-wise organization

4.2 Example feed-forward computation

4.3 Representational power

4.4 神经网络是大一些好呢还是小一些好？

5. Summary

你可能感兴趣的:(深度学习,神经网络,人工智能,深度学习)