Mr.看海

神经网络15分钟入门——使用python从零开始写一个两层神经网络

本篇是该系列的第三篇，建议在阅读本篇文章之前先看前两篇文章。

神经网络15分钟入门！足够通俗易懂了吧

神经网络15分钟入门！——反向传播到底是怎么传播的？

在本文中将使用python实现之前描述的两层神经网络，并完成所提出的“象限分类”的问题。

需要注意的是，虽然标题叫做神经网络15分钟入门，但是到这篇文章，对于没接触过python的同学，15分钟怕是不太够。好在python本身不算太难，如果你有其他语言的基础，结合本文尽量详细的讲解，对于算法层面的理解应该还是可以做到的。如果还是不能理解，建议先入门python再来看本文，毕竟想做深度学习，对语言的掌握是基本要求。

另外，这篇文章的正确食用方法是将代码搞到自己的电脑上，然后单步调试逐行看参数的变化，如有不明白的地方再对照文章中的讲解来理解。单纯靠看文章是不太容易融会贯通的（可以脑内debug的同学可以忽略）。

一、运行环境

运行环境：Python 3.6.5+Anaconda3+VS Code

Anaconda是一个环境管理器，安装Anaconda，就相当于安装了python+各种工具包，这些工具包在我们进行神经网络的应用时十分必要。

VS Code是微软的免费代码编辑器，功能相当强大，插件相当丰富，界面非常美观。当然，你也可以用pycharm或者eclipse，看个人习惯。

运行环境的搭建就不详细介绍了，在网上能找到很多教程，如果有疑问可以留言，需要的话我会写一篇番外对环境搭建进行详细讲述。

二、编程实现

1.导入numpy包

import numpy as np  
#numpy是一个强大的数学工具包
#我们后边要用到的是numpy中的数组类型、矩阵运算等
#不明白没关系，用到的时候会再解释

2.前向传播函数

# 前向传播函数
# - x：包含输入数据的numpy数组，形状为（N，d_1，...，d_k）
# - w：形状为（D，M）的一系列权重
# - b：偏置，形状为（M，）
def affine_forward(x, w, b):   
    out = None                       # 初始化返回值为None
    N = x.shape[0]                   # 重置输入参数X的形状
    x_row = x.reshape(N, -1)         # (N,D)
    out = np.dot(x_row, w) + b       # (N,M)
    cache = (x, w, b)                # 缓存值，反向传播时使用
 return out,cache

这一段程序是定义了了一个名为affine_forward的函数，其功能就是计算这个公式（仿射）：

如果不记得这个公式了就回去看一下第一篇文章

这个函数的输入参数就是公式中的矩阵X，W1和b1，对应到程序中就是x，w和b。

不过需要注意的是，程序中的输入参数x，其形状可以是（N，d_1，...，d_k），这是什么意思呢？在我们这个例子中，输入参数x是：

[2,1],  
[-1,1],  
[-1,-1],  
[1,-1]]

它是一个4行2列的二维数组，那么x的形状就是(4,2)，对应的参数N=4，d_1=2。这是我们用来做训练的坐标数据，分别对应了I、II、III、IV象限。

在某些应用场景中，x的维度可能更高。比如对于一个20*20像素的4张灰度图，x的形状将是(4,20,20)，对应的参数就是N=4，d_1=20，d_2=20。（这里边第一个参数用N表示，它代表的是同时用于计算前向传播的数据有几组，后边的参数d_1~d_k代表的是数据本身的形状。）

对于这种维度大于2的x来说，需要对其进行重新塑形，也就是将(4,20,20)的高维数组变化为(4,20*20)这样的二位数组。

为什么要这么做呢？是为了方便计算。这样变换之后高维的向量被“拍扁”成一维向量（长度为20*20的一维向量），对应的W和b也都是一维的，既统一了参数形式，又不会影响数据的正常使用。

这个“拍扁”的动作，是用上述代码中的这两行完成的：

N = x.shape[0]                 # 重置输入参数X的形状     
x_row = x.reshape(N,-1)        # (N,D)

x.shape[0]是获取数组x的第0维长度，也就是数据的组数，对于上述的4行2列的数组，其值为4；对于上述(4,20,20)的数组，其值也为4.

x.reshape(N,-1)是对x重新塑形，即保留第0维，其他维度排列成1维。对于形状为(4,2)的数组，其形状不变，对于形状为(4,20,20)的数组，形状变为（4,20*20）。以此类推。

在完成reshape后，就可以进行矩阵的线性运算了：

out = np.dot(x_row, w)+ b       # (N,M)

.dot就是numpy中的函数，可以实现x_row与w的矩阵相乘。x_row的形状为(N,D)，w的形状为(D,M)，得到的out的形状是(N,M)。

cache =(x, w, b)   # 缓存值，反向传播时使用

上面这句是将当前x，w和b的值缓存下来，留作反向传播时使用。

3.反向传播函数

# 反向传播函数
# - x：包含输入数据的numpy数组，形状为（N，d_1，...，d_k）
# - w：形状（D，M）的一系列权重
# - b：偏置，形状为（M，）
def affine_backward(dout, cache):   
    x, w, b = cache                              # 读取缓存
    dx, dw, db = None, None, None                # 返回值初始化
    dx = np.dot(dout, w.T)                       # (N,D)    
    dx = np.reshape(dx, x.shape)                 # (N,d1,...,d_k)   
    x_row = x.reshape(x.shape[0], -1)            # (N,D)    
    dw = np.dot(x_row.T, dout)                   # (D,M)    
    db = np.sum(dout, axis=0, keepdims=True)     # (1,M)    
 return dx, dw, db

这一段是实现计算仿射层的反向传播的函数。这篇文章的2.3节讲的就是这段代码的原理，如果不清楚可以先出门左转看一下。

函数中第一句就是读取缓存的x，w和b的值，为什么要这样做呢？仿射变换反向传播的最重要的3个目的，分别是：①更新参数w的值②计算流向下一个节点的数值③更新参数b的值。“更新”的时候需要“旧”值，也就是缓存值，具体操作如下：

①为了得到w的值，要将上一节点输入的值（dout）乘以x。

dw = np.dot(x_row.T, dout)         # (D,M)

②为了得到流入下一个节点的值（x），要将上一节点的输入值（dout）乘以w。你可能发现了，①中为了得到w是乘以的x，②中为了得到x是乘以的w，也就是将系数交叉相乘了。

 dx = np.dot(dout, w.T)            # (N,D)

③为了得到b，只需要将out直接传过来就可以，为了保持维度一致，这里将out求和。

db = np.sum(dout, axis=0, keepdims=True)    # (1,M)

在仿射变换反向传播这里，各种矩阵的维度可能会让你感到困惑。这里的维度包含三个，分别是D、M和N。

看一下下图，其中包括两个仿射变换，我们以第一个举例，其变换公式为H=X*W1+b1。该仿射变换对应到程序中的D的值为2，M的值为50，N的值为4。怎么理解呢？X的维度就是N*D，而M的值就是W1的第二个维度，这里记住就好了，每个仿射变换都是这样的（其实不记住也没关系，这里没有什么物理含义，就是单纯的矩阵变换的维度而已。这几个维度在反向传播时可能难理解，这是数学公式推导来的，迷惑的时候找出这篇文章过来看一遍就明白了）。

注意看矩阵维度

4.参数初始化

X = np.array([[2,1],  
            [-1,1],  
            [-1,-1],  
            [1,-1]])      # 用于训练的坐标，对应的是I、II、III、IV象限
t = np.array([0,1,2,3])   # 标签，对应的是I、II、III、IV象限
np.random.seed(1)         # 有这行语句，你们生成的随机数就和我一样了

# 一些初始化参数  
input_dim = X.shape[1]     # 输入参数的维度，此处为2，即每个坐标用两个数表示
num_classes = t.shape[0]   # 输出参数的维度，此处为4，即最终分为四个象限
hidden_dim = 50            # 隐藏层维度，为可调参数
reg = 0.001                # 正则化强度，为可调参数
epsilon = 0.001            # 梯度下降的学习率，为可调参数
# 初始化W1，W2，b1，b2
W1 = np.random.randn(input_dim, hidden_dim)     # (2,50)
W2 = np.random.randn(hidden_dim, num_classes)   # (50,4)
b1 = np.zeros((1, hidden_dim))                  # (1,50)
b2 = np.zeros((1, num_classes))                 # (1,4)

这一段程序对一些必要的参数进行了初始化，程序较为简单，看注释即可，不再详细解释。

对于训练数据以及训练模型已经确定的网络来说，为了得到更好的训练效果需要调节的参数就是上述的隐藏层维度、正则化强度和梯度下降的学习率，以及下一节中的训练循环次数。

5.训练与迭代

for j in range(10000):   #这里设置了训练的循环次数为10000
 # ①前向传播
    H,fc_cache = affine_forward(X,W1,b1)                 # 第一层前向传播
    H = np.maximum(0, H)                                 # 激活
    relu_cache = H                                       # 缓存第一层激活后的结果
    Y,cachey = affine_forward(H,W2,b2)                   # 第二层前向传播        
 # ②Softmax层计算
    probs = np.exp(Y - np.max(Y, axis=1, keepdims=True))    
    probs /= np.sum(probs, axis=1, keepdims=True)        # Softmax算法实现
 # ③计算loss值
    N = Y.shape[0]                                       # 值为4
    print(probs[np.arange(N), t])                        # 打印各个数据的正确解标签对应的神经网络的输出
    loss = -np.sum(np.log(probs[np.arange(N), t])) / N   # 计算loss
    print(loss)                                          # 打印loss
 # ④反向传播
    dx = probs.copy()                                    # 以Softmax输出结果作为反向输出的起点
    dx[np.arange(N), t] -= 1                             # 
    dx /= N                                              # 到这里是反向传播到softmax前
    dh1, dW2, db2 = affine_backward(dx, cachey)          # 反向传播至第二层前
    dh1[relu_cache <= 0] = 0                             # 反向传播至激活层前
    dX, dW1, db1 = affine_backward(dh1, fc_cache)        # 反向传播至第一层前
# ⑤参数更新
    dW2 += reg * W2
    dW1 += reg * W1
    W2 += -epsilon * dW2
    b2 += -epsilon * db2
    W1 += -epsilon * dW1
    b1 += -epsilon * db1

这段程序是网络训练的核心，我将按照①前向传播②Softmax层③计算loss值④反向传播⑤参数更新这五个小结的顺序依次讲解：

①前向传播

 # ①前向传播
    H,fc_cache = affine_forward(X,W1,b1)                 # 第一层前向传播
    H = np.maximum(0, H)                                 # 激活
    relu_cache = H                                       # 缓存第一层激活后的结果
    Y,cachey = affine_forward(H,W2,b2)                   # 第二层前向传播

第一句H,fc_cache = affine_forward(X,W1,b1) 调用了之前写的前向传播的函数，完成了第一层网络的矩阵线性代数运算。

第二句H = np.maximum(0, H)是从0和H中选择较大的值赋给H，也就是实现了ReLU激活层函数。

第四句Y,cachey = affine_forward(H,W2,b2)，完成了第二层网络的矩阵线性代数运算。

②Softmax层计算

 # ②Softmax层计算
    probs = np.exp(Y - np.max(Y, axis=1, keepdims=True))    
    probs /= np.sum(probs, axis=1, keepdims=True)        # Softmax算法实现

这两行是为了实现Softmax层的计算，在之前我们说过，Softmax的计算公式是：

不过在实际应用中会存在一个问题，比如i的值等于1000时，e^1000在计算机中会变成无穷大的inf，后续计算将无法完成，所以程序中会对计算公式做一些修改，实际使用的公式为：

在指数上减去常数C不影响最终结果（证明略），而这个常数C通常取i中的最大值。

第一句probs = np.exp(Y - np.max(Y, axis=1, keepdims=True)) 就是求输出各个行的指数值，举个例子，Y的值如果是：

[[-4,17,20,-4],
[10,-2,5,3],
[-5,3,4,10],
[-5,5,5,2]]

np.max(Y, axis=1, keepdims=True)计算得到的是[[20],[10],[10],[5]]，后边括号里的参数axis代表以竖轴为基准，在同行中取值； keepdims=True代表保持矩阵的二维特性。

所以np.exp(Y - np.max(Y, axis=1, keepdims=True)) 代表：Y矩阵中每个值减掉改行最大值后再取对数。

第二句probs /= np.sum(probs, axis=1, keepdims=True) 以行为单位求出各个数值对应的比例。也就是最终实现了Softmax层的输出。

③计算loss值

 # ③计算loss值
    N = Y.shape[0]                                       # 值为4
    print(probs[np.arange(N), t])                        # 打印各个数据的正确解标签对应的神经网络的输出
    loss = -np.sum(np.log(probs[np.arange(N), t])) / N   # 计算loss

复习一下：交叉熵损失的求法是求对数的负数。

第一句N = Y.shape[0]取了最终输出的维度，这个例子中为4，即四个象限。

第二句打印各个数据的正确解标签对应的神经网络的输出。

其中probs[np.arange(N), t]讲解一下：

N为4时，np.arange(N)会生成一个Numpy数组[0,1,2,3]。t中标签是以[0,1,2,3]的形式储存的，所以probs[np.arange(N), t]能抽出各个数据的正确解标签对应的神经网络输出，在这个例子中，probs[np.arange(N), t]会成成numpy数组[probs[0,0], probs[1,1], probs[2,2], probs[3,3]]。

第三句loss = -np.sum(np.log(probs[np.arange(N), t])) / N中先求了N维数据中的交叉熵损失，然后对这N个交叉熵损失求平均值，作为最终loss值。

④反向传播

 # ④反向传播
    dx = probs.copy()                                    # 以Softmax输出结果作为反向输出的起点
    dx[np.arange(N), t] -= 1                             # 
    dx /= N                                              # 到这里是反向传播到softmax前
    dh1, dW2, db2 = affine_backward(dx, cachey)          # 反向传播至第二层前
    dh1[relu_cache <= 0] = 0                             # 反向传播至激活层前
    dX, dW1, db1 = affine_backward(dh1, fc_cache)        # 反向传播至第一层前

反向传播计算是从Softmax层的输出开始的。你是不是想问为什么不是从loss值开始算？

回看上一篇文章的2.5节，你会发现Softmax-with-Loss层的反向传播结果计算，本身就是与loss无关的。而只与Softmax层输出结果和教师标签有关。换句话说，即使是从loss开始计算反向传播，经过一系列化简之后，这个loss值也会被化简掉，化简后的结果只包括Softmax层的输出和教师标签。

第一句代码很简单，就是将Softmax的输出值赋给dx，这里dx代表反向传播的主线值。dx[np.arange(N), t]-=1这句代码

第二句代码是实现上一篇文章中y-t的操作（y就是Softmax层的输出）。dx[np.arange(N), t]-=1这句代码中，dx是一个4*4的数组，而t是一个内容为[0,1,2,3]的数组（见其初始化），N的值为4。np.arrange(N)会生成一个从0到3的数组[0,1,2,3]，因为t中的标签是以[0,1,2,3]的形式存储的，所以dx[np.arange(N), t]能抽出各个数据的正确解标签对应的神经网络的输出。在这个例子中dx[np.arange(N), t]会成成NumPy数组[dx[0,0],dx[1,1],dx[2,2],dx[3,3]。

第四、六句试一次仿射变幻的反向传播，上边说过了，不在具体解释了。

第五句是ReLU激活层的反向传播，至于为什么这样写，也去看上一篇文章吧~

⑤参数更新

# ⑤参数更新
    dW2 += reg * W2
    dW1 += reg * W1
    W2 += -epsilon * dW2
    b2 += -epsilon * db2
    W1 += -epsilon * dW1
    b1 += -epsilon * db1

前两行是引入正则化惩罚项更新dW，后四行是引入学习率更新W和b。这部分理解起来比较简单，如果有疑问可以参考上篇文章的第3节。

6.验证

test = np.array([[2,2],[-2,2],[-2,-2],[2,-2]])
H,fc_cache = affine_forward(test,W1,b1)               #仿射
H = np.maximum(0, H)                                  #激活
relu_cache = H
Y,cachey = affine_forward(H,W2,b2)  #仿射
 # Softmax
probs = np.exp(Y - np.max(Y, axis=1, keepdims=True))    
probs /= np.sum(probs, axis=1, keepdims=True)  # Softmax
print(probs)
for k in range(4):
    print(test[k,:],"所在的象限为",np.argmax(probs[k,:])+1)

给出了一组数据test，对已经训练好的网络进行验证。

其实验证的方法和训练时的正向传播的过程基本一致，即第一层网络线性计算→激活→第二层网络线性计算→Softmax→得到分类结果。

这部分代码在之前也大多讲过，不再详述。

三、运行结果

在运行10000次迭代后，loss值以肉眼可见的速度下降。

最终loss值为：0.0040015

最终输出结果为：

可见分类正确。

四、总结

本例是一个很简单的神经网络的例子，我们只用了一组数据用来训练，其训练结果应该是比较勉强的。之所以最终效果还行，只是我们选择验证的例子比较合适。要想得到比较完美的模型，需要有大量的、分散的训练数据，比如第一象限不仅要有[1,1]这种数据，还要有[1000,1]，[1,1000]这种，这里就不再详述了。

“神经网络15分钟入门”系列到这里就结束啦。如果这三篇文章里的内容能够融会贯通，相信对你后边学习深度学习会有一些帮助。在神经网络学习过程中能遇到的难点和坑我尽量都点出来了，如果还有什么疑问请留言给我吧，也许会出一篇番外集中回答。

如果要获取本文的完整代码，可以关注我的公众号“看海的城堡”，微信号为“khscience”，回复“神经网络”就能拿到啦，公众号里可能还会有更多有趣的东西分享。

欢迎持续关注我的专栏与信号处理有关的那些东东

参考：

《深度学习入门：基于Python的理论与实现》

ChatGPT与DeepSeek：开源与闭源的AI模型之争我们的五年游戏实现 chatgpt 人工智能
目录一、模型架构与技术原理二、性能能力与应用场景三、用户体验与部署灵活性四、成本与商业模式五、未来展望与市场影响六、总结随着人工智能技术的飞速发展，ChatGPT和DeepSeek作为两大领先的AI语言模型，成为了行业内外关注的焦点。它们在技术架构、应用场景、用户体验和成本等方面存在显著差异，尤其是开源与闭源的模式，使得两者在市场竞争中各有优势。本文将对ChatGPT和DeepSeek进行全面对比
郑州人工智能计算中心成果发布会成功举办埃文科技共建AI生态人工智能
2024年3月1日，由郑州市科学技术局主办，郑州联通、华为技术有限公司联合承办的郑州人工智能计算中心成果发布会在郑州隆重举行，郑州埃文科技有限公司（以下简称“埃文科技”）作为河南省人工智能领军企业受邀参会。大会以“全面拥抱智能化，共筑算力新底座”为主题，郑州市委副书记、代市长庄建球，河南联通党委书记、总经理华豫民等领导，以及300余位行业专家、企业代表齐聚一堂，共同见证中部地区首个政府主导的智能算
DeepSeek×博云AIOS：突破算力桎梏，开启AI普惠新纪元 deepseek
背景在全球人工智能技术高速迭代的背景下，算力成本高企、异构资源适配复杂、模型部署效率低下等问题，始终是制约企业AI规模化应用的关键。DeepSeek以创新技术直击产业痛点，而博云先进算力管理平台AIOS的全面适配，则为这一技术落地提供了坚实底座。两者的深度融合，正在重塑AI产业化的技术范式。DeepSeek：算法创新定义AI新范式DeepSeek凭借技术突破，为AI领域树立了新标杆：DeepSee
Transformer架构简略：DeepSeek 的底层基石 windwant 人工智能人工智能 transformer 架构
2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。它不仅在各种NLP任务上取得了突破性进展，更成为了当今人工智能领域最具影响力的架构之一。一、从RNN到Transformer：突破瓶颈，开创先河在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）是处理序列
STM32-GPIO详解爱写代码的雨一颗 stm32 嵌入式硬件单片机
一：GPIO基本概念GPIO是英文GeneralPurposeInput/Output的缩写，中文翻译为通用输入/输出。它是一种在数字电子系统中常见的接口类型，用于与外部设备进行通信和控制。GPIO接口可以作为输入或输出引脚使用。作为输入引脚时，GPIO可以接收来自外部设备的电信号，并将其转换为数字信号，供系统内部使用。作为输出引脚时，GPIO可以将数字信号发送到外部设备，从而实现对其的控制。GP
基于STM32对射式红外传感器计次爱写代码的雨一颗 stm32 单片机嵌入式硬件
一，实验目的：初步理解中断二，实验内容：对射式红外传感器接线：VCC、GND分别接电源的正负极，DO数字输出端，任意选择一个GPIO口接上就行（以PB14口为例，当我们的挡光片或者编码盘在这个对射式红外传感器中间经过时，DO就会输出电平跳变信号，然后这个电平跳变信号触发STM32PB14口的中断，在中断函数里，执行变量++的程序，然后主循环里调用OLED显示这个变量）外部中断配置：把从GPIO到N
Python 基本语法全解析：从安装到应用木觞清 7天熟练Python python 开发语言
Python是一种广泛使用的高级编程语言，因其简洁易懂的语法和强大的功能而受到开发者的喜爱。从数据分析到人工智能，Python都在各个领域占据着重要地位。如果你是编程新手，Python是一个非常适合入门的语言。本篇博客将带你从安装Python到理解其基础语法，再到实际应用中常见的内置函数、文件操作及第三方库的使用。1.Python安装与环境配置在开始编写Python程序之前，你首先需要在你的电脑上
大智能：大数据+大模型+大算力_大算力大数据大模型 AI学习不迷路大数据大模型人工智能语言模型 ai 产品经理算力
在近日举行的“2022中国人工智能产业年会”主论坛上，中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示，人工智能的发展已经历了数十年的过程，大模型ChatGPT在今年春节前后突然出现，大家还没有来得及深度思考就已经“扑面而来”。蒋昌俊大智能的研究进展科学技术的研究约分为两大范式，一是牛顿力学奠定了理论计算的范式，二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演，以及计算模拟、最
神经网络:人工智能的核心技术 m0_75126181 人工智能神经网络深度学习
神经网络简介神经网络是一种模仿生物神经系统的计算模型,由大量相互连接的神经元组成。它通过学习大量的数据来完成复杂的模式识别和决策任务,是当前人工智能和机器学习领域最重要的技术之一。神经网络的基本结构包括输入层、隐藏层和输出层。输入层接收外部数据,隐藏层对数据进行处理和特征提取,输出层产生最终结果。神经元之间通过带权重的连接相互作用,通过调整这些权重来实现学习过程。神经网络的工作原理神经网络的工作原
DeepSeek与ChatGPT：AI语言模型的全面对决与开发者洞察硅基打工人 AI 人工智能 chatgpt 语言模型媒体经验分享自然语言处理
大家好，我是硅基打工人呀！在2025年的人工智能领域，DeepSeek与ChatGPT两大语言模型的竞争成为全球开发者关注的焦点。本文将从技术架构、性能表现、应用场景及生态策略等维度，结合最新行业动态与用户实测数据，为开发者呈现这场技术对决的核心要点。一、技术架构对比：效率与规模的博弈DeepSeek的差异化设计混合专家（MoE）架构：通过动态激活部分参数（如R1模型每次仅调用370亿参数），显著
嵌入式仿真实验教学平台比Proteus更具有教学优势嵌入式仿真实验教学平台学习 proteus 嵌入式实时数据库 stm32 嵌入式硬件
近年来，随着物联网、人工智能等技术的快速发展，嵌入式系统教学的实践性和创新性需求日益增强。传统仿真工具如Proteus虽曾占据重要地位，但其局限性逐渐暴露。相比之下，嵌入式仿真实验教学平台凭借其高仿真度、资源整合能力及虚实结合的教学模式，正在成为高校和教育机构的新选择。本文将从技术演进、教学痛点、平台优势及实际应用等角度，解析嵌入式仿真实验教学平台为何能全面超越Proteus，成为教学创新的核心工
2024 年 AI 垂直应用迅速落地，人人都可以获得AI红利 yimifx AI AIGC 人工智能人工智能 ai AI写作 AIGC agi AI编程 AI作画
演示站点：https://ai.uaai.cn技能模块官方论坛：www.jingyuai.com京娱AI随着人工智能技术的持续发展与突破，2024年AI辅助研发正成为科技界和工业界瞩目的焦点。从医药研发到汽车设计，从软件开发到材料科学，AI正逐渐渗透到研发的各个环节，变革着传统的研发模式。在这一背景下，AI辅助研发不仅提升了研发效率，降低了成本，更在某种程度上解决了复杂问题，推动了科技进步。202
ai垂直领域和水平领域如何理解? 王摇摆 ChatGPT 人工智能
在AI领域中，"垂直领域"和"水平领域"是两个相关但不同的概念。垂直领域（VerticalDomain）：指的是在特定行业或领域中应用人工智能技术和解决方案的情况。在垂直领域中，AI技术被专门应用于解决该领域内的具体问题。例如，医疗保健、金融、零售、交通运输等都是垂直领域。在这些领域中，AI技术被用于医学诊断、风险评估、销售预测、智能交通管理等特定领域的应用。水平领域（HorizontalDoma
智能模型轻量化：知识蒸馏技术如何重塑AI部署格局人工智能
智能模型轻量化：知识蒸馏技术如何重塑AI部署格局前言在人工智能技术高速迭代的今天，模型优化领域正经历着静默的革命。当我们惊叹于DeepSeek在自然语言处理上的惊艳表现时，一个关键问题逐渐浮出水面：如何让这些"庞然大物"真正走入现实场景？知识蒸馏技术作为模型压缩领域的突破性方案，正在为AI技术的普惠化开辟新路径。一、技术本质的解构与重构知识蒸馏颠覆了传统模型训练的范式，构建了"师生传承"的新型学习
AI大模型之争：通用性与垂直性，哪个更具优势？想你依然心痛个人总结与成长规划人工智能
文章目录每日一句正能量前言背景介绍能力分析通用大模型的能力：垂直大模型的能力：差异与互补性分析：难点探究1.算力挑战2.数据挑战3.算法挑战4.泛化能力5.可解释性和透明度6.伦理和偏见问题7.成本效益后记每日一句正能量昨天已逝，明日是谜，面对今朝，尽力而为！前言在人工智能的快速发展浪潮中，AI大模型作为这一领域的明珠，正以其强大的数据处理能力和智能决策能力，引领着技术革新的潮流。随着技术的不断成
PID神经元网络控制的MATLAB实现与分析木子算法数学建模 MATLAB案例分析 matlab 神经网络
PID神经元网络控制的MATLAB实现与分析一、引言在工业控制和自动化领域，PID（比例-积分-微分）控制器是应用最为广泛的控制策略之一。传统的PID控制器结构简单、易于实现，但在处理复杂非线性系统时，其控制效果往往不尽如人意。PID神经元网络结合了PID控制的思想和神经网络的自学习能力，能够自适应地调整控制参数，从而更好地应对复杂系统的控制问题。本文将详细介绍基于MATLAB实现的PID神经元网
串口通讯协议基础桐叶岩嵌入式硬件 c语言信息与通信 tcp/ip 单片机 linux c++
串口通讯协议串口协议通常用于在设备之间进行串行通信。串口通信是一种基于串行传输的通信方式，通过串行端口（串口）将数据以逐位顺序进行传输。常见的串口协议包括RS-232、RS-485、UART等。基本概念和特点RS-232RS-232是一种常见的串口通信标准，通常用于在计算机和外部设备之间进行串口通信。RS-232使用差分信号进行数据传输，支持全双工通信，可以同时进行数据发送和接收。物理接口：RS-
超市数字化落地：RWA + 智能体赋能实体零售数字化 leijiwen 零售
引言随着数字化技术的飞速发展，传统零售行业正在面临前所未有的挑战与机遇。在这个转型过程中，**现实世界资产（RWA）与智能体（AIAgents）**的结合为实体零售业带来了强大的赋能，特别是在超市领域。通过将现实资产数字化、引入人工智能技术以及去中心化治理，RWA和智能体为实体零售提供了全新的数字化解决方案，推动零售业向智能化、透明化和个性化方向发展。本文将详细探讨基于RWA与智能体结合的超市数字
通用大模型VS垂直大模型，你更青睐哪一方? 109702008 人工智能杂谈人工智能
AI大模型之辩：通用与垂直，谁将引领未来？在人工智能（AI）领域，大模型技术的崛起无疑为整个行业带来了革命性的变革。然而，随着技术的深入发展，AI大模型的战场似乎正在悄然分化，形成了通用大模型与垂直大模型两大阵营。两者各有千秋，各有其适用的场景和优势，那么在这场没有硝烟的战争中，究竟谁将引领未来呢？通用大模型，以其广泛的适用性和强大的学习能力，成为AI领域的明星产品。它能够在多个领域和场景下展现出
STMicroelectronics 系列：STM32G0 系列_（6）.STM32G0系列的时钟系统 kkchenkx 机器人控制系统和单片机开发 stm32 嵌入式硬件单片机
STM32G0系列的时钟系统时钟系统的概述STM32G0系列单片机的时钟系统是一个复杂而关键的组成部分，它负责为整个芯片提供准确的时钟信号。时钟系统的设计不仅影响单片机的性能，还决定了功耗和稳定性。STM32G0系列的时钟系统包括多个时钟源和时钟树，可以灵活配置以满足不同的应用需求。本节将详细介绍STM32G0系列的时钟系统，包括其主要时钟源、时钟树结构、时钟配置方法以及相关的寄存器操作。
AI创业机遇：垂直领域无限可能 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI创业垂直领域机器学习深度学习自然语言处理计算机视觉无人驾驶1.背景介绍人工智能（AI）正在各行各业掀起一场革命，为创业者带来了前所未有的机遇。垂直领域，即特定行业或细分市场，正在成为AI创业的热门选择。本文将深入探讨AI在垂直领域的应用，并提供实用的指南，帮助读者把握AI创业机遇。2.核心概念与联系2.1AI与垂直领域AI在垂直领域的应用，需要理解AI与垂直领域的关系。AI可以为垂直领域提供智
AI赋能校园安全：科技助力预防与应对校园霸凌 weixin_45819535 人工智能安全科技
校园本应是学生快乐学习、健康成长的地方，然而，校园霸凌却成为威胁学生身心健康的隐形“毒瘤”。近年来，随着人工智能（AI）技术的快速发展，AI在校园安全领域的应用逐渐成为解决校园霸凌问题的新突破口。通过智能监控、行为分析、情感识别等技术，AI为预防和应对校园霸凌提供了全新的解决方案。辉视AI智能安防系统作为行业领先的智能安防解决方案，正以其卓越的技术能力，为校园安全保驾护航。校园霸凌的现状与挑战校园
DeepSeek模型家族大揭秘：不同版本到底有啥区别？再见孙悟空_ 【2025 AI学习从零单排系列】【2025AI工具合集】DeepSeek DeepSeek V1 DeepSeek V2 DeepSeer R1
DeepSeek模型家族大揭秘：不同版本到底有啥区别？大家好！今天咱们来聊聊DeepSeek这个超火的AI模型家族。如果你对人工智能有点兴趣，肯定听说过DeepSeek，但你知道它其实有好几个版本吗？每个版本都有自己的特点和适用场景。今天我就带大家好好扒一扒这些版本的区别，帮你搞清楚哪个版本最适合你的需求。1.DeepSeek是什么？首先，简单介绍一下DeepSeek。DeepSeek是一个基于深
清华大学DeepSeek PPT第二版深度解读：人工智能前沿技术解析 qudongmofashi 人工智能
立即下载完整课件资料点击此处获取最新版PPT一、DeepSeek课件为何值得关注？清华大学出品的DeepSeek系列教学资源，长期聚焦人工智能领域核心技术。第二版PPT从以下方面实现全面升级：AI前沿技术覆盖：涵盖大模型、深度强化学习等领域最新研究进展工业级实践案例：新增多个企业级项目解决方案案例三维知识框架：从算法原理→代码实现→工程部署的全链路解析下载建议：建议保存至本地，结合源码案例同步学习
DeepSeek人工智能领域的创新先锋与变革力量 CodeJourney. 数据库算法人工智能
在科技飞速发展的时代，人工智能（AI）无疑是最具变革性的力量之一。DeepSeek作为人工智能领域的关键参与者，正以其独特的技术路径和创新理念，深刻影响着行业的发展格局。深入解读相关信息，能让我们更全面地认识DeepSeek在人工智能领域的重要贡献、技术优势、发展战略以及其带来的广泛影响。一、DeepSeek的技术突破与创新（一）核心技术成就DeepSeek在自然语言处理（NLP）和计算机视觉等人
DVB-S相关知识第二章-卫星接收锁频参数介绍好多渔鱼好多数字电视技术网络电视智能电视
目录前言波段C波段Ku波段度数频点符号率极化方式本振本振，中频，与下行频率三者之间的关系C波段中频计算方法：Ku波段中频计算方法：本振和波段对应频率关系前言介绍DVBS卫星电视搜索节目中所使用的知识点，包括卫星电视系统组成，卫星电视信号传输，卫星天线系统组成说明，天线种类，C波段跟Ku波段知识，高频头原理，本振，本振与中频计算关系，极化方式，22K开关，Tonebusrt，DiSEqC,Motor
DVB-S/DVB-S2相关知识点第三章-卫星接收外围设备技术介绍好多渔鱼好多数字电视技术电视智能电视
第一章卫星电视简介第二章卫星锁频参数介绍第三章卫星接收外围设备技术介绍目录0/22K开关0/22KHz开关应用-Tonebusrt0/22K开关测试DiSEqCDiSEqC版本说明DiSEqC信号调制DiSEqC应用-马达Unicable技术Unicable技术应用-SatCRSatCR控制设备原理图原理特点SatCR协议协议文档：0/22K开关为了接收两颗卫星上的节目，用两台接收机成本高，手动插
【NB-Iot自我学习之路_4】NB模组初始化流程【移动篇】+【电信篇】 Litchi_kang NB-IOT
一、前言移动的NB模组连接移动的平台。利尔达的NB模组连接电信的平台。二、移动NB模组对接移动平台流程串口通讯波特率为9600，数据位为8，停止位为1，奇偶检验为None。初始化流程2.1M5310-A上电检查流程（1）AT//判断模组是否上电开机成功（2）AT+CSQ//信号质量检查（3）AT+CEREG?//判断PS域附着状态，标识位返回1或5表示附着正常（4）AT+CGATT?//检查模组P
Prompt工程指南：从入门到精通，手把手教你玩转AI大模型！ AI大模型-大飞 prompt 人工智能大模型教程 AI大模型开源 chatgpt 大模型
一、什么是Prompt？Prompt是一种基于人工智能（AI）指令的技术，通过明确而具体的指导语言模型的输出。在提示词工程中，Prompt的定义涵盖了任务、指令和角色三个主要元素，以确保模型生成符合用户需求的文本。任务：Prompt明确而简洁地陈述了用户要求模型生成的内容。这包括在特定应用场景中，用户希望模型完成的任务或生成的文本类型。指令：模型在生成文本时应遵循的指令是Prompt中的关键要素之
国内如何快速拿下微软AI-900!? 全球认证考试中心 microsoft 人工智能 ai
微软AI-900认证，全称AzureAIFundamentals是由微软官方最新研发的一项有关人工智能的认证证书。想要获得该证书，需通过AI-900测试或者AI-102。适用于全行业、全学龄人员，考试不设置专业和年龄限制，对人工智能感兴趣即可参加。获得证书能够证明证书持有者在机器学习（ML）、人工智能（AI）基础概念、云技术基础及MicrosoftAzure服务等多方面的掌握程度。此考试的考生应熟
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

神经网络15分钟入门——使用python从零开始写一个两层神经网络

一、运行环境

二、编程实现

三、运行结果

四、总结

你可能感兴趣的:(信号处理,信号,神经网络,神经网络,人工智能)