莫染prince

cs231n assignment(二) 多层神经网络以及反向传播的代码推导

序

多层全连接神经网络搭建

（1）、input -> (affine_forward) -> out* -> (relu_forward) -> out ，全连接和relu激活

（2）、batch-normalization 批量归一化

3、随机失活（DropOut）

（4）、任意深度神经网络

神经网络优化 - 针对训练过程中的梯度下降

1、SGD with momentum

2、RMSProp

3、Adam

序

原来都是用的c++学习的传统图像分割算法。主要学习聚类分割、水平集、图割，欢迎一起讨论学习。

刚刚开始学习cs231n的课程，正好学习python，也做些实战加深对模型的理解。

课程链接

1、这是自己的学习笔记，会参考别人的内容，如有侵权请联系删除。

2、代码参考WILL 、杜克，但是有了很多自己的学习注释

3、有些原理性的内容不会讲解，但是会放上我觉得讲的不错的博客链接

4、由于之前没怎么用过numpy，也对python不熟，所以也是一个python和numpy模块的学习笔记

5、本文参考参考

本章前言：本章实现了多层全连接的神经网络和优化算法的使用，比如批量归一化、SGD+Momentum、Adam等，本章重点：反向传播以及优化算法

在jupyter中写的代码，要import需要下载成为.py文件，import之后如果.py文件中的内容有了修改需要重新打开jupyter，很麻烦，现在在import之后加上以下代码，更改.py文件后就不需要重新打开jupyter了。

#自动加载外部模块
%reload_ext autoreload
%autoreload 2

多层全连接神经网络搭建

之前实现的是一个两层的神经网络，结构为 input -> hidden ->relu -> score -> softmax - output。层数较少，给出的推导是从后往前一步一步推导，这在多层神经网络中是不太现实的，层数变多，一层一层推太过于麻烦。在实际过程中，往往采用模块化的反向传播推导。

多层全连接神经网络结构将会被模块化分割：

（1）、input -> (affine_forward) -> out* -> (relu_forward) -> out ，全连接和relu激活

接下来是实现向前传播代码：

def affine_forward(x,w,b):
    out = None
    x_reshape = np.reshape(x,(x.shape[0],-1))
    out = x_reshape.dot(w) + b 
    cache = (x,w,b)
    return out,cache     #返回线性输出，和中间参数（x,w,b）


def relu_forward(x):
    out = np.maximum(0,x)
    cache = x     #缓存线性输出a
    return out,cache


#模块化
def affine_relu_forward(x,w,b):
    a,fc_cache = affine_forward(x,w,b)   #a是线性输出，fc_cache中存储（x,w,b)
    out,relu_cache = relu_forward(a)     #relu_cache存储线性输出a
    cache = (fc_cache,relu_cache)        #缓冲元组：（x,w,b,(a)）
    return out,cache                     #返回激活值out 和参数（x,w,b,(a)）

既然有了向前传播模块，那就得有反向传播模块：

def affine_backward(dout,cache):
    """
    输出层反向传播
    dout 该层affine_forward正向输出数据out的梯度，对应softmax_loss/relu中的输出dz
    cache 元组，正向流入输入层的数据x，和输出层的参数（w，b）
    """
    z,w,b = cache    #z为上一层的激活值，也是本层的输入
    dx,dw,db = None, None,None
    x_reshape = np.reshape(z, (z.shape[0],-1))
    dz = np.reshape(dout.dot(w.T),z.shape)    #参考公式
    dw = (x_reshape.T).dot(dout)              #参考公式
    db = np.sum(dout,axis=0)                  #参考公式
    return dz,dw,db

def relu_backward(dout,cache):    #传入的是
    """
    relu激活，小于0的梯度为0，大于0的梯度为1
    """
    dx,x = None, cache
    dx = (x>0) * dout
    return dx

def affine_relu_backward(dout,cache):
    fc_cache, relu_cache = cache    #relu_cache 存储线性输出a
    da = relu_backward(dout,relu_cache)    #计算关于relu的梯度，这边是一个复合函数，z=relu（a），a=w1x+b1 -> dz /dx = dz/da *da/dx
    dx,dw,db = affine_backward(da,fc_cache)
    return dx,dw,db

（2）、batch-normalization 批量归一化

据说，批量归一化可以减小随机初始化权重的影响，加速收敛，学习率适当增大，减少过拟合，使用较低的dropout，减小L2正则化系数等优点。

首先对输入数据进行归一化，使数据的特征均值为0，方差为一，也就是服从标准高斯分布。然后对该数据进行变换重构，使其能后恢复原来的特征分布。

那现在的神经网络结构就变成了：input -> affine_forward -> BN(batch_normlize) -> relu_forward，也就是在全连接之后加上BN，然后进行激活输出。

#批量归一化（加速收敛，学习率适当增大，加快寻，减少过拟合，使用较低的dropout，减小L2正则化系数）
def batchnorm_forward(x,gamma,beta,bn_param):
    mode = bn_param['mode']
    eps = bn_param.get('eps',1e-5)          #防止除以0
    momentum = bn_param.get('momentum',0.9) 
    
    N,D = x.shape            #N样本个数，D特征个数
    #移动均值和方差，会随着train过程不断变化
    running_mean = bn_param.get('running_mean',np.zeros(D, dtype = x.dtype))
    running_var = bn_param.get('running_var',np.zeros(D, dtype = x.dtype))
    
    out,cache=None,None
    if mode =='train':
        sample_mean = np.mean(x,axis=0)
        sample_var = np.var(x,axis = 0)
        x_hat = (x-sample_mean)/(np.sqrt(sample_var+eps))
        
        out = gamma*x_hat +beta
        cache = (x,sample_mean,sample_var,x_hat,eps,gamma,beta)
        running_mean = momentum*running_var + (1-momentum)*sample_mean
        running_var = momentum*running_var+(1-momentum)*sample_var
    elif mode == 'test':
        out = (x-running_mean)*gamma/(np.sqrt(running_var+eps))+beta
    else:
        raise ValueError('invalid forward batchnorm mode "%s"' %mode)
    
    bn_param['running_mean'] = running_mean
    bn_param['running_var'] = running_var
    
    return out,cache   #cache(线性输出，均值，方差，归一化值，eps，gamma，beta)   #out 变换重构的值


def affine_bn_relu_forward(x,w,b,gamma,beta,bn_param):
    a,fc_cache = affine_forward(x,w,b)
    a_bn, bn_cache = batchnorm_forward(a,gamma,beta,bn_param)  #BN层
    out,relu_cache = relu_forward(a_bn)    #将归一化后的值激活，relu_cache中缓存变换重构值
    cache = (fc_cache,bn_cache,relu_cache)
    return out,cache

有了向前传播自然要有反向传播：其实我也没看公式，直接抄的代码......因为反向传播的链式求导原理是一样的

def batchnorm_backward(dout,cache):
    x,mean,var,x_hat,eps,gamma,beta = cache
    N = x.shape[0]
    dgamma = np.sum(dout*x_hat,axis=0)
    dbeta = np.sum(dout*1, axis=0)
    dx_hat = dout*gamma
    dx_hat_numerator = dx_hat/np.sqrt(var +eps)
    dx_hat_denominator = np.sum(dx_hat * (x-mean),axis=0)
    dx_1 = dx_hat_numerator
    dvar = -0.5*((var+eps)**(-1.5))*dx_hat_denominator
    dmean = -1.0*np.sum(dx_hat_numerator,axis = 0)+dvar*np.mean(-2.0*(x-mean),axis=0)
    dx_var = dvar*2.0/N*(x-mean)
    dx_mean =dmean*1.0/N
    dx = dx_1+dx_var+dx_mean
    
    return dx,dgamma,dbeta


def affine_bn_relu_backward(dout,cache):
    fc_cache,bn_cache,relu_cache = cache
    da_bn = relu_backward(dout,relu_cache)
    da,dgamma,dbeta = batchnorm_backward(da_bn,bn_cache)
    dx,dw,db = affine_backward(da,fc_cache)
    return dx,dw,db,dgamma,dbeta

（3）、随机失活（DropOut）

在全连接神经网络中，层数越深，参数越多，测试集的准确率也越来越高，但是在验证集上效果不好，这是因为出现了过拟合。通俗来说，网络为了迎合测试集，提取了过多的特征，而这些特征的作用并没有那么大。随机失活就是随机让神经元失效，也就是某些特征的作用被取消了，这样就达到了一定程度上防止过拟合的能力。

#随机失活
def dropout_forward(x,dropout_param):
    """
    dropout_param p 失活概率
    """
    p,mode = dropout_param['p'],dropout_param['mode']
    if 'seed' in dropout_param:
        np.random.seed(dropout_param['seed'])
        
    mask = None
    out = None
    
    if mode == 'train':
        keep_prob = 1-p 
        mask = (np.random.rand(*x.shape)

 
  反向传播：原理和Relu差不多，随机失活是利用概率掩膜来实现的，掩膜为1不失活，否则失活为0，也就是梯度为1或者为0 
  def dropout_backward(dout,cache):
    dropout_param,mask = cache
    mode = dropout_param['mode']
    
    dx = None
    if mode == 'train':
        dx = mask * dout
    elif mode == 'test':
        dx = dout
    return dx  
  （4）、任意深度神经网络 
         所有的模块都被搭建完成，那就可以模块化神经网络了。总共分为三个部分，一个是参数初始化，一个是损失函数计算，还有一个应该是训练。这边暂时只有两个部分 
  向前传播网络结构(BN，Dropout)： (input ->  BN -> relu -> Dropout) * N(重复N次) -> affine_forward -> softmax -> loss 
  反向传播(BN，Dropout):  softmax_loss -> affine_backward -> dropout_backward -> (affine_bn_relu_backward) * N 
  from layers import *
import numpy as np


class FullyConnectedNet(object):
    def __init__(self
                 ,hidden_dims            #列表，元素个数是隐藏层层数，元素值为神经元个数
                 ,input_dim = 3*32*32    #输入神经元3072
                 ,num_classes = 10       #输出10类
                 ,dropout = 0            #默认不开启dropout，（0，1）
                 ,use_batchnorm = False  #默认不开批量归一化
                 ,reg = 0.0              #默认无L2正则化
                 ,weight_scale =1e-2     #权重初始化标准差
                 ,dtype=np.float64       #精度
                 ,seed = None            #无随机种子，控制dropout层
                ):
        self.use_batchnorm = use_batchnorm
        self.use_dropout = dropout>0     #dropout为0，则关闭随机失活
        self.reg = reg                   #正则化参数
        self.num_layers = 1+len(hidden_dims)
        
        self.dtype =dtype
        self.params = {}                 #参数字典
        
        in_dim = input_dim
        #有几个隐藏层，就有几个对应的W，最后输出层还有一个W
        for i,h_dim in enumerate(hidden_dims):
            self.params['W%d' %(i+1,)] = weight_scale*np.random.randn(in_dim,h_dim)
            self.params['b%d' %(i+1,)] = np.zeros((h_dim,))
            if use_batchnorm:
                #使用批量归一化
                self.params['gamma%d' %(i+1,)] = np.ones((h_dim,))
                self.params['beta%d'  %(i+1,)] = np.zeros((h_dim,))
            in_dim = h_dim   #将隐藏层中特征个数传递给下一层
        
        #输出层参数
        self.params['W%d'%(self.num_layers,)] = weight_scale*np.random.randn(in_dim,num_classes)
        self.params['b%d'%(self.num_layers,)] = np.zeros((num_classes,))
        
        #dropout
        self.dropout_param = {}   #dropou参数字典
        if self.use_dropout:      #如果use_dropout为（0，1），启用dropout
            self.dropout_param = {'mode':'train','p':dropout}
        
        if seed is not None:
            self.dropout_param['seed'] = seed
            
        #batch normalize
        self.bn_params = []  #bn算法参数列表
        if self.use_batchnorm:   #开启批量归一化，设置每层的mode为训练模式
            self.bn_params=[{'mode':'train'} for i in range(self.num_layers - 1)]
        
        #设置所有参数的计算精度为np.float64
        for k,v in self.params.items():
            self.params[k] = v.astype(dtype)
    
    
    def loss(self,X,y = None):
        #调整精度
        #X的数据是N*3*32*32
        #Y(N,)
        X = X.astype(self.dtype)
        mode = 'test' if y is None else 'train'
        
        if self.dropout_param is not None:
            self.dropout_param['mode'] = mode
        if self.use_batchnorm:
            for bn_params in self.bn_params:
                bn_params['mode'] = mode
        
        scores = None
        
        
        
        #向前传播
        fc_mix_cache = {}       #混合层向前传播缓存
        if self.use_dropout:    #开启随机失活
            dp_cache = {}       #随即失活层向前传播缓存
            
        out = X
        #只计算隐藏层中的向前传播，输出层单独的全连接
        for i in range(self.num_layers -1):
            w = self.params['W%d'%(i+1,)]
            b = self.params['b%d'%(i+1,)]
            if self.use_batchnorm:
                #利用模块向前传播
                gamma = self.params['gamma%d'%(i+1,)]
                beta = self.params['beta%d'%(i+1,)]
                out,fc_mix_cache[i] = affine_bn_relu_forward(out,w,b,gamma,beta,self.bn_params[i])
            else:
                out,fc_mix_cache[i] = affine_relu_forward(out,w,b)
            if self.use_dropout:
                #开启随机失活，并且记录随机失活的缓存
                out,dp_cache[i] = dropout_forward(out,self.dropout_param)
        
        #输出层向前传播
        w = self.params['W%d'%(self.num_layers,)]
        b = self.params['b%d'%(self.num_layers,)]
        out,out_cache = affine_forward(out,w,b)
        scores = out 
        
        if mode == 'test':
            return scores
        
        #反向传播
        loss,grads=0.0, {}
        #softmaxloss
        loss,dout = softmax_loss(scores,y)
        #正则化loss，只计算了输出层的W平方和
        loss += 0.5*self.reg*np.sum(self.params['W%d'%(self.num_layers,)]**2)
        
        #输出层的反向传播，存储到梯度字典
        dout,dw,db = affine_backward(dout,out_cache)
        #正则化
        grads['W%d'%(self.num_layers,)] = dw+self.reg*self.params['W%d'%(self.num_layers,)]
        grads['b%d'%(self.num_layers,)] = db
        
        #隐藏层梯度反向传播
        for i in range(self.num_layers-1):
            ri = self.num_layers -2 - i  #倒数第ri+1层
            loss+=0.5*self.reg*np.sum(self.params['W%d'%(ri+1,)]**2)    #继续正则化loss
            if self.use_dropout:     #如果使用随即失活，加上梯度下降
                dout = dropout_backward(dout,dp_cache[ri])
            if self.use_batchnorm:   #如果使用BN，加上梯度下降部分
                dout,dw,db,dgamma,dbeta = affine_bn_relu_backward(dout,fc_mix_cache[ri])
                grads['gamma%d'%(ri+1,)] = dgamma
                grads['beta%d'%(ri+1,)] = dbeta
            else:             #否则直接梯度下降
                dout,dw,db = affine_relu_backward(dout,fc_mix_cache[ri])
                #存储到字典中
            grads['W%d'%(ri+1,)] = dw+self.reg * self.params['W%d'%(ri+1,)]
            grads['b%d'%(ri+1,)] = db 
            #返回本次loss和梯度值
        return loss,grads 
   
   
  神经网络优化 - 针对训练过程中的梯度下降 
  1、SGD with momentum 
         上面的loss函数输出的是当前的损失值和模型参数的梯度，梯度下降过程中也就是在train的过程中，在负梯度方向上对模型参数进行更新。 
         随机梯度下降（SGD）之前使用过，w -= learning_rate * dW 
         SGD + momentum （随机梯度下降的动量更新方法）。w0 =  w0*mu - learning_rate*dW个人理解，原本是按照梯度来走，但是现在更新后有了自己的速度，速度不可瞬间变化，把梯度看作一个力，这个力将会概念速度的大小和方向。 
   
  def sge_momentum(w,dw,config = None):
    if config is None:
        config = {}
    config.setdefault('learning_rate',1e-2)
    config.setdefault('momentum',0.9)
    v = config.get('velocity',np.zeros_like(w))
    
    next_w = None
    
    v = config['momentum']*v - config['learning_rate']*dw
    next_w = w + v 
    
    config['velocity'] = v 
    return next_w,config 
  2、RMSProp 
  3、Adam 
   
  实例化神经网络及训练 
  参考链接：课程作业第52页的Solver

AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
TicTacToe Module W_X_99515681 python 开发语言
Homework2Releasev5.016/02/2025CONTENTS1TicTacToe12Contents32.1TicTacToeModule............................................32.2ReinforcementLearningPlayer.....................................62.3Require
46-886 Machine Learning Fundamentals W_X_99515681 机器学习人工智能
46-886MachineLearningFundamentalsHW1Homework1Due:Sunday,March23,11:59pm•UploadyourassignmenttoCanvas(onlyonepersonperteamneedstosubmit)•Includeawriteupcontainingyouranswerstothequestionsbelow(andyourt
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
DeepSeek 如何处理多模态数据（如文本、图像、视频）？借雨醉东风人工智能
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
DeepSeek R1 本地部署指南 (3) - 更换本地部署模型 Windows/macOS 通用 Eric Woo X 人工智能 AI DeepSeek macos windows deepseek ai
0.准备完成Windows或macOS安装：DeepSeekR1本地部署指南(1)-Windows本地部署-CSDN博客DeepSeekR1本地部署指南(2)-macOS本地部署-CSDN博客以下内容Windows和macOS命令执行相同：Windows管理员启动：命令提示符CMDmacOS启动：Terminal1.查看已安装模型ollamalist如图，已安装1.5b版本：ollamarunde
华山论剑，大模型(deepseek qwq gemini)辩论人生意义 Lifeng66666666 语言模型语言模型人工智能
借助DeepDiscussion程序，通过让大模型(deepseekqwqgemini)讨论“人生意义是什么”这一挑战问题，我们得以客观观察目前这几种大模型的价值观，能力，不足。部分讨论过程：问题:人生的意义是什么？deepseek/deepseek-r1:free初始方案:针对“人生的意义是什么”这一终极问题，我的解决方案分为以下五个层次，融合东西方哲学智慧与实践心理学，并提供具体行动方向：一、
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
清华DeepSeek教程1至7版，解锁前沿技术 2501_91206263 pdf
清华DeepSeek教程1至7版，解锁前沿技术「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8604f0e8a「DeepSeep使用手册」链接
清华出品DeepSeek教程7版合集，一站式掌握前沿技术 2501_91206263 pdf
亲爱的读者们，今天要给大家介绍一套由清华大学出品的超硬核教程——DeepSeek教程7版合集！「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8
Java中卫语句的设计思想而为. java 服务器开发语言
卫语句（GuardClauses）是一种通过提前返回简化条件嵌套、提升代码可读性的编程技巧。其核心思想是优先处理异常或边界情况，让主逻辑保持扁平化。以下是deepseek做出的设计思想详解：核心设计原则FailFast（快速失败）在函数入口处立即检查非法参数或无效状态，若不符合条件则提前终止（如返回、抛异常），避免后续无效操作。减少嵌套层级用卫语句替换多层if-else嵌套，将代码从“箭头型”结构
SpringAI集成DeepSeek 一诚学编程 java 人工智能 spring boot
1、利用spring-ai-openai集成DeepSeek1.1、在DeepSeek开放平台创建APIKEY1.2、创建SpringBoot工程，引入依赖4.0.0org.springframework.bootspring-boot-starter-parent3.3.8org.examplespringai-deepseek1.0-SNAPSHOT17171.0.0-M5org.spring
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
基于腾讯云大模型知识引擎与DeepSeek的沉浸式历史文化体验系统实践 lijiek 腾讯云 microsoft 云计算
前言文化遗产数字化保护与传播是当今科技与人文交汇的重要领域。传统的数字化方法往往局限于静态展示，无法实现真正的互动体验。本文将探索一条创新路径：利用腾讯云大模型知识引擎(LKE)与DeepSeek模型构建沉浸式历史文化体验系统，实现与历史人物的"对话"、历史场景的"复原"，以及文化知识的智能传播。作为实践案例，我们以中国古代科技成就为切入点，打造了一个可交互的"古代科技馆"，让用户能够与张衡、祖冲
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
Deepseek API 调用哦豁灬 LLM 深度学习生产工具 deepseek LLM API 大模型
1获取APIKey目前比较知名的提供了DeepSeek的推理服务商包括硅基流动、阿里云、腾讯云等等。这些推理服务商一般是提供API接口，需要安装大模型客户端并配置API。获取API密钥，以硅基流动为例：前往硅基流动官方网站（https://cloud.siliconflow.cn）注册账号。在账户管理的API密钥中点击新建API密钥并复制。安装一个本地的第三方大模型客户并配置，常见的包括Chatb
SAP ABAP 调用 DeepSeek，API Key 存在什么地方最安全？汪子熙 ABAP 百科全书安全 ABAP NetWeaver 思爱普
笔者最近在处理一个SAP电商云和SAPS/4HANA集成后商品库存显示不同步的棘手问题。DeepSeek和ChatGPT没能帮上忙，最后还是查公司内网wiki搞定了。DeepSeek和ChatGPT确实不是万能的。ChatGPT3.5刚发布不久，我记得很多朋友聊起过大语言模型的「讨好型人格」，即倾向于迎合用户的观点、顺从用户的意愿。甚至在极端情况下，当用户对其回复提出质疑时，它会马上认怂，承认自己
AI学习手册合集｜零基础入门宝典 2501_91234994 pdf
DeepSsek资料包：https://pan.quark.cn/s/2672e0be6178现在AI持续火热，越来越多的人开始使用AI辅助工作，大大提高了生产效率。甚至很多自由职业者，通过学习DeepSeek，在互联网淘金日入过万，登上热搜。普通人如何高效入门AI?清华团队亲自下场教学！自从第一弹AI学习手册《DeepSeek入门到精通》火了后，清华大学接连发布多版AI进阶资料，即便零基础也能轻
01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员量子位
一个超越DeepSeekGRPO的关键RL算法出现了！用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且DAPO使用的训练步数还减少了50%。这个算法名为DAPO，字节、清华AIR联合实验室SIALab出品，现已开源。论文通讯作者和开源项目负责人都
量子位招聘 | DeepSeek帮我们改的招聘启事量子位
关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

cs231n assignment(二) 多层神经网络以及反向传播的代码推导

序

多层全连接神经网络搭建

（1）、input -> (affine_forward) -> out* -> (relu_forward) -> out ，全连接和relu激活

（2）、batch-normalization 批量归一化

（3）、随机失活（DropOut）

（4）、任意深度神经网络

神经网络优化 - 针对训练过程中的梯度下降

1、SGD with momentum

2、RMSProp

3、Adam

实例化神经网络及训练

你可能感兴趣的:(deep,learning)