龙俊杰的读书笔记

PyTorch 入坑九：权重初始化

这里写目录标题

Pytorch提供的十种权值初始化方法
为什么要进行权重初始化设计：从梯度消失与爆炸说起
常用的几种权重初始化方法
- 不考虑激活函数
- 饱和型激活函数
- - xavier_uniform方法
- 非饱和型激活函数
- - Kaiming

Pytorch提供的十种权值初始化方法

Xavier均匀分布；
Xavier正态分布；
Kaiming均匀分布；
Kaiming正态分布；
均匀分布；
正态分布；
常数分布；
正交矩阵初始化；
单位矩阵初始化；
稀疏矩阵初始化；

为什么要进行权重初始化设计：从梯度消失与爆炸说起

参考x。可以得出结论： 要避免梯度消失或者梯度爆炸，就要严格控制网络输出层的输出值的范围，也就是每一层网络的输出值不能太大也不能太小。

那么，参数如果使用均匀分布进行初始化，网络每一层的输出结果如何呢，下面通过代码验证BP网络的输出，代码中使用输出Tensor的标准差来衡量数据的尺度范围：

import os
import torch
import random
import numpy as np
import torch.nn as nn

class MLP(nn.Module):  # 建立全连接模型
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)

            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):  # 如果为nan，则停止
                print("output is nan in {} layers".format(i))
                break
        return x

    def initialize(self):  # 初始化模型参数
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data)

layer_nums = 100
neural_nums = 256
batch_size = 16

net = MLP(neural_nums, layer_nums)
net.initialize()

inputs = torch.randn((batch_size, neural_nums))  # normal: mean=0, std=1
output = net(inputs)
print(output)

结果如下：

layer:0, std:15.959932327270508
layer:1, std:256.6237487792969
layer:2, std:4107.24560546875
layer:3, std:65576.8125
layer:4, std:1045011.875
layer:5, std:17110408.0
layer:6, std:275461408.0
layer:7, std:4402537984.0
layer:8, std:71323615232.0
layer:9, std:1148104736768.0
layer:10, std:17911758454784.0
layer:11, std:283574846619648.0
layer:12, std:4480599809064960.0
layer:13, std:7.196814275405414e+16
layer:14, std:1.1507761512626258e+18
layer:15, std:1.853110740188555e+19
layer:16, std:2.9677725826641455e+20
layer:17, std:4.780376223769898e+21
layer:18, std:7.613223480799065e+22
layer:19, std:1.2092652108825478e+24
layer:20, std:1.923257075956356e+25
layer:21, std:3.134467063655912e+26
layer:22, std:5.014437766285408e+27
layer:23, std:8.066615144249704e+28
layer:24, std:1.2392661553516338e+30
layer:25, std:1.9455688099759845e+31
layer:26, std:3.0238180658999113e+32
layer:27, std:4.950357571077011e+33
layer:28, std:8.150925520353362e+34
layer:29, std:1.322983152787379e+36
layer:30, std:2.0786820453988485e+37
layer:31, std:nan
output is nan in 31 layers
tensor([[        inf, -2.6817e+38,         inf,  ...,         inf,
                 inf,         inf],
        [       -inf,        -inf,  1.4387e+38,  ..., -1.3409e+38,
         -1.9659e+38,        -inf],
        [-1.5873e+37,         inf,        -inf,  ...,         inf,
                -inf,  1.1484e+38],
        ...,
        [ 2.7754e+38, -1.6783e+38, -1.5531e+38,  ...,         inf,
         -9.9440e+37, -2.5132e+38],
        [-7.7184e+37,        -inf,         inf,  ..., -2.6505e+38,
                 inf,         inf],
        [        inf,         inf,        -inf,  ...,        -inf,
                 inf,  1.7432e+38]], grad_fn=<MmBackward>)

常用的几种权重初始化方法

不考虑激活函数

不加以证明，有如下结论：

H11表示输出Tensor，X和W分别表示输入和权重。

第一个隐藏层的输出值的方差变为n，而输入数据的方差为1，经过一个网络层的前向传播，数据的方差就扩大了n倍，标准差扩大了根号n倍。同理，从第一个隐藏层到第二个隐藏层，标准差就变为n。不断往后传播，每经过一层，输出值的尺度范围都会不断扩大根号n倍，最终超出精度可以表示的范围，最终变为nan
标准差由三个因素决定，第一个是n，就是每一层的神经元个数，第二个是X的方差，也就是输入值的方差，第三个是W的方差，也就是网络层权值的方差。
方差一致性原则：一般第一层的输入数据进行归一化操作，X符合0均值，1方差，如果想让网络层的输出方差保持1，只能调整W的分布。且W满足下述条件时，符合方差一致性原则。

下面采用一个0均值，sqrt(1/n)分布的初始化W进行忘了的前向实验结果如下：

import os
import torch
import random
import numpy as np
import torch.nn as nn
from toolss.common_tools import set_seed

set_seed(1)  # 设置随机种子


class MLP(nn.Module):  # 建立全连接模型
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)

            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):  # 如果为nan，则停止
                print("output is nan in {} layers".format(i))
                break
        return x

    def initialize(self):  # 初始化模型参数
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data, std=np.sqrt(1/self.neural_num))

layer_nums = 100
neural_nums = 256
batch_size = 16

net = MLP(neural_nums, layer_nums)
net.initialize()

inputs = torch.randn((batch_size, neural_nums))  # normal: mean=0, std=1

output = net(inputs)
print(output)

layer:0, std:0.9974957704544067
layer:1, std:1.0024365186691284
layer:2, std:1.002745509147644
layer:3, std:1.0006227493286133
layer:4, std:0.9966009855270386
layer:5, std:1.019859790802002
layer:6, std:1.026173710823059
layer:7, std:1.0250457525253296
layer:8, std:1.0378952026367188
layer:9, std:1.0441951751708984
layer:10, std:1.0181655883789062
layer:11, std:1.0074602365493774
layer:12, std:0.9948930144309998
layer:13, std:0.9987586140632629
layer:14, std:0.9981392025947571
layer:15, std:1.0045733451843262
layer:16, std:1.0055204629898071
layer:17, std:1.0122840404510498
layer:18, std:1.0076017379760742
layer:19, std:1.000280737876892
layer:20, std:0.9943006038665771
layer:21, std:1.012800931930542
layer:22, std:1.012657642364502
layer:23, std:1.018149971961975
layer:24, std:0.9776086211204529
layer:25, std:0.9592394828796387
layer:26, std:0.9317858815193176
layer:27, std:0.9534041881561279
layer:28, std:0.9811319708824158
layer:29, std:0.9953019022941589
layer:30, std:0.9773916006088257
layer:31, std:0.9655940532684326
layer:32, std:0.9270440936088562
layer:33, std:0.9329946637153625
layer:34, std:0.9311841726303101
layer:35, std:0.9354336261749268
layer:36, std:0.9492132067680359
layer:37, std:0.9679954648017883
layer:38, std:0.9849981665611267
layer:39, std:0.9982335567474365
layer:40, std:0.9616852402687073
layer:41, std:0.9439758658409119
layer:42, std:0.9631161093711853
layer:43, std:0.958673894405365
layer:44, std:0.9675614237785339
layer:45, std:0.9837557077407837
layer:46, std:0.9867278337478638
layer:47, std:0.9920817017555237
layer:48, std:0.9650403261184692
layer:49, std:0.9991624355316162
layer:50, std:0.9946174025535583
layer:51, std:0.9662044048309326
layer:52, std:0.9827387928962708
layer:53, std:0.9887880086898804
layer:54, std:0.9932605624198914
layer:55, std:1.0237400531768799
layer:56, std:0.9702046513557434
layer:57, std:1.0045380592346191
layer:58, std:0.9943899512290955
layer:59, std:0.9900636076927185
layer:60, std:0.99446702003479
layer:61, std:0.9768352508544922
layer:62, std:0.9797843098640442
layer:63, std:0.9951220750808716
layer:64, std:0.9980446696281433
layer:65, std:1.0086933374404907
layer:66, std:1.0276142358779907
layer:67, std:1.0429234504699707
layer:68, std:1.0197855234146118
layer:69, std:1.0319130420684814
layer:70, std:1.0540012121200562
layer:71, std:1.026781439781189
layer:72, std:1.0331352949142456
layer:73, std:1.0666675567626953
layer:74, std:1.0413838624954224
layer:75, std:1.0733673572540283
layer:76, std:1.0404183864593506
layer:77, std:1.0344083309173584
layer:78, std:1.0022705793380737
layer:79, std:0.99835205078125
layer:80, std:0.9732587337493896
layer:81, std:0.9777462482452393
layer:82, std:0.9753198623657227
layer:83, std:0.9938382506370544
layer:84, std:0.9472599029541016
layer:85, std:0.9511011242866516
layer:86, std:0.9737769961357117
layer:87, std:1.005651831626892
layer:88, std:1.0043526887893677
layer:89, std:0.9889539480209351
layer:90, std:1.0130352973937988
layer:91, std:1.0030947923660278
layer:92, std:0.9993206262588501
layer:93, std:1.0342745780944824
layer:94, std:1.031973123550415
layer:95, std:1.0413124561309814
layer:96, std:1.0817031860351562
layer:97, std:1.128799557685852
layer:98, std:1.1617802381515503
layer:99, std:1.2215303182601929
tensor([[-1.0696, -1.1373,  0.5047,  ..., -0.4766,  1.5904, -0.1076],
        [ 0.4572,  1.6211,  1.9659,  ..., -0.3558, -1.1235,  0.0979],
        [ 0.3908, -0.9998, -0.8680,  ..., -2.4161,  0.5035,  0.2814],
        ...,
        [ 0.1876,  0.7971, -0.5918,  ...,  0.5395, -0.8932,  0.1211],
        [-0.0102, -1.5027, -2.6860,  ...,  0.6954, -0.1858, -0.8027],
        [-0.5871, -1.3739, -2.9027,  ...,  1.6734,  0.5094, -0.9986]],
       grad_fn=<MmBackward>)

饱和型激活函数

饱和型激活函数是指sigmoid、tanh等输入极大或者极小时，导数接近0的激活函数。
在forward()函数中加一个tanh激活函数，观察网络的输出结果：

import os
import torch
import random
import numpy as np
import torch.nn as nn
from toolss.common_tools import set_seed

set_seed(1)  # 设置随机种子


class MLP(nn.Module):  # 建立全连接模型
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)
            x = torch.tanh(x)

            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):  # 如果为nan，则停止
                print("output is nan in {} layers".format(i))
                break
        return x

    def initialize(self):  # 初始化模型参数
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data, std=np.sqrt(1/self.neural_num))

layer_nums = 100
neural_nums = 256
batch_size = 16

net = MLP(neural_nums, layer_nums)
net.initialize()

inputs = torch.randn((batch_size, neural_nums))  # normal: mean=0, std=1

output = net(inputs)
print(output)

layer:0, std:0.6273701786994934
layer:1, std:0.48910173773765564
layer:2, std:0.4099564850330353
layer:3, std:0.35637012124061584
layer:4, std:0.32117360830307007
layer:5, std:0.2981105148792267
layer:6, std:0.27730831503868103
layer:7, std:0.2589356303215027
layer:8, std:0.2468511462211609
layer:9, std:0.23721906542778015
layer:10, std:0.22171513736248016
layer:11, std:0.21079954504966736
layer:12, std:0.19820132851600647
layer:13, std:0.19069305062294006
layer:14, std:0.18555502593517303
layer:15, std:0.17953835427761078
layer:16, std:0.17485804855823517
layer:17, std:0.1702701896429062
layer:18, std:0.16508983075618744
layer:19, std:0.1591130942106247
layer:20, std:0.15480302274227142
layer:21, std:0.15263864398002625
layer:22, std:0.148549422621727
layer:23, std:0.14617665112018585
layer:24, std:0.13876433670520782
layer:25, std:0.13316625356674194
layer:26, std:0.12660598754882812
layer:27, std:0.12537944316864014
layer:28, std:0.12535445392131805
layer:29, std:0.1258980631828308
layer:30, std:0.11994212120771408
layer:31, std:0.11700888723134995
layer:32, std:0.11137298494577408
layer:33, std:0.11154613643884659
layer:34, std:0.10991233587265015
layer:35, std:0.10996390879154205
layer:36, std:0.10969001054763794
layer:37, std:0.10975217074155807
layer:38, std:0.11063199490308762
layer:39, std:0.11021336913108826
layer:40, std:0.10465587675571442
layer:41, std:0.10141163319349289
layer:42, std:0.1026025339961052
layer:43, std:0.10079070925712585
layer:44, std:0.10096712410449982
layer:45, std:0.10117629915475845
layer:46, std:0.10145658254623413
layer:47, std:0.09987485408782959
layer:48, std:0.09677786380052567
layer:49, std:0.099615179002285
layer:50, std:0.09867013245820999
layer:51, std:0.09398546814918518
layer:52, std:0.09388342499732971
layer:53, std:0.09352942556142807
layer:54, std:0.09336657077074051
layer:55, std:0.094817616045475
layer:56, std:0.08856320381164551
layer:57, std:0.09024856984615326
layer:58, std:0.0886448472738266
layer:59, std:0.08766943961381912
layer:60, std:0.08726290613412857
layer:61, std:0.08623497188091278
layer:62, std:0.08549781143665314
layer:63, std:0.08555219322443008
layer:64, std:0.08536665141582489
layer:65, std:0.08462796360254288
layer:66, std:0.08521939814090729
layer:67, std:0.08562128990888596
layer:68, std:0.08368432521820068
layer:69, std:0.08476376533508301
layer:70, std:0.08536301553249359
layer:71, std:0.08237562328577042
layer:72, std:0.08133520931005478
layer:73, std:0.08416961133480072
layer:74, std:0.08226993680000305
layer:75, std:0.08379077166318893
layer:76, std:0.08003699779510498
layer:77, std:0.07888863980770111
layer:78, std:0.07618381083011627
layer:79, std:0.07458438724279404
layer:80, std:0.07207277417182922
layer:81, std:0.07079191505908966
layer:82, std:0.0712786540389061
layer:83, std:0.07165778428316116
layer:84, std:0.06893911212682724
layer:85, std:0.06902473419904709
layer:86, std:0.07030880451202393
layer:87, std:0.07283663004636765
layer:88, std:0.07280216366052628
layer:89, std:0.07130247354507446
layer:90, std:0.07225216180086136
layer:91, std:0.0712454691529274
layer:92, std:0.07088855654001236
layer:93, std:0.0730612725019455
layer:94, std:0.07276969403028488
layer:95, std:0.07259569317102432
layer:96, std:0.0758652538061142
layer:97, std:0.07769152522087097
layer:98, std:0.07842093706130981
layer:99, std:0.08206242322921753
tensor([[-0.1103, -0.0739,  0.1278,  ..., -0.0508,  0.1544, -0.0107],
        [ 0.0807,  0.1208,  0.0030,  ..., -0.0385, -0.1887, -0.0294],
        [ 0.0321, -0.0833, -0.1482,  ..., -0.1133,  0.0206,  0.0155],
        ...,
        [ 0.0108,  0.0560, -0.1099,  ...,  0.0459, -0.0961, -0.0124],
        [ 0.0398, -0.0874, -0.2312,  ...,  0.0294, -0.0562, -0.0556],
        [-0.0234, -0.0297, -0.1155,  ...,  0.1143,  0.0083, -0.0675]],
       grad_fn=<TanhBackward>)

网络层的标准差随着前向传播变得越来越小，从而本层的梯度越来越小。
针对存在激活函数的权值初始化问题，分别提出了Xavier方法和Kaiming方法

xavier_uniform方法

参考论文 Understanding the difficulty of training deep feedforward neural networks，结合方差一致性原则，也就是让每一层的输出值的方差尽量为1，同时这种方法是针对饱和激活函数如Sigmoid，Tanh方法进行分析的。
结论为：

自定义实现

    def initialize(self):  # 初始化模型参数
        for m in self.modules():
            if isinstance(m, nn.Linear):
                a = np.sqrt(6 / (self.neural_num + self.neural_num))  # Xavier初始化方法
                tanh_gain = nn.init.calculate_gain('tanh')
                a *= tanh_gain
                nn.init.uniform_(m.weight.data, -a, a)

非饱和型激活函数

Kaiming

针对Xavier方法不能有效解决Relu非饱和激活函数的问题，2015年提出了Kaiming初始化方法。基于方差一致性原则，Kaiming初始化方法保持数据尺度维持在恰当范围，通常方差为1，这种方法针对的激活函数为ReLU及其变种。

公式中a是负半轴的斜率。在ReLU中，其负半轴的斜率为0，即a=0，ni是输入神经元个数

自定义实现：

    def initialize(self):  # 初始化模型参数
        for m in self.modules():
            if isinstance(m, nn.Linear):
            	nn.init.normal_(m.weight.data, std=np.sqrt(2 / self.neural_num))

PyTorch中的实现：

nn.init.kaiming_normal_(m.weight.data)

Python从0到100（八十一）：神经网络-Fashion MNIST数据集取得最高的识别准确率是Dream呀 python 神经网络开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
深度学习-笔记2 深度学习神经网络
paddlepaddle安装(使用cpu)：dockerpullregistry.baidubce.com/paddlepaddle/paddle:2.6.2查看下paddlepaddle的镜像层次和安装目录结构(没有看到dockerbuild文件，先感受一下目录结构吧)：dockerinspectregistry.baidubce.com/paddlepaddle/paddle:2.6.2|gr
多模态大模型：技术原理与实战工具和算法框架介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1从单模态到多模态的必然趋势传统的深度学习模型大多是单模态的，例如只处理图像数据的卷积神经网络（CNN）或只处理文本数据的循环神经网络（RNN）。然而，现实世界的信息往往是多模态的，例如一张图片可以包含物体、场景、文字等多种信息，一段视频则包含图像、声音、字幕等多种模态的数据。为了更好地理解和处理现实世界的信息，多模态学习应运而生。近年来，随着深度学习技术的快速发展，多模态学习取得
从零开始大模型开发与微调：汉字拼音数据集处理 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：汉字拼音数据集处理1.背景介绍1.1问题的由来在人工智能领域，自然语言处理（NLP）是一项基础且重要的研究方向。随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModel，LLM）在NLP领域取得了显著的成果。然而，LLM的训练与微调过程往往需要海量的文本数据，而这些数据通常以自然语言形式存在，难以直接用于模型训练。因此，如何从自然语言数据中提取结构
深度学习专业毕业设计选题清单：算法与应用 HaiLang_IT 毕业设计选题毕业设计人工智能深度学习
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了计算机专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
什么是“知识蒸馏” 清风AI 深度学习人工智能神经网络 python conda
定义与原理在深度学习领域不断突破的同时，模型的复杂度和计算需求也随之增加。为了解决这一问题，知识蒸馏技术应运而生，成为模型压缩和性能优化的重要手段。本节将详细介绍知识蒸馏的基本概念、工作原理和知识迁移机制。知识蒸馏是一种将大型预训练模型(教师模型)的知识转移到较小模型(学生模型)的技术。这种方法不仅能保留原有模型的性能，还能显著降低模型的复杂度和计算需求，使其更适合在资源受限的环境中部署。知识蒸馏
Jupyter Notebook代码实现了一个简单的全连接神经网络，用于对MNIST手写数字数据集进行分类任务 pk_xz123456 PyTorch入门案例 jupyter 神经网络分类
{"cells":[{"cell_type":"code","execution_count":7,"metadata":{
legged gym（包含isaac gym）丝滑安装教程 littlewells 机器学习深度学习 ubuntu python
LeggedGym（包含IsaacGym）安装教程——Ubuntu22.04安装IsaacGym安装leggedgym2.1.安装pytorch和cuda:2.2.安装rsl_r2.3.安装legged_gym参考了官方包括网上一堆教程，结合自己遇到的坑，整理了一个比较顺畅的流程，基础环境（例如miniconda或者CUDA）配好的情况下按照本教程安装异常顺畅。有任何问题欢迎反馈。（本教程基于Ub
波士顿房价预测苏轼喜欢玩电脑浙师大506实验室
波士顿房价预测任务波士顿地区的房价是由诸多因素影响的。该数据集统计了13种可能影响房价的因素和该类型房屋的均价，期望构建一个基于13个因素进行房价预测的模型，因为房价是一个连续值，所以房价预测显然是一个回归任务。用最简单的线性回归模型解决这个问题，并用神经网络来实现这个模型。线性回归模型假设房价和各影响因素之间能够用线性关系来描述：y=∑j=1Mxjwj+by={\sum_{j=1}^Mx_jw_
TensorFlow 示例摄氏度到华氏度的转换（一）李建军 TensorFlow tensorflow 人工智能 python
TensorFlow实现神经网络模型来进行摄氏度到华氏度的转换，可以将其作为一个回归问题来处理。我们可以通过神经网络来拟合这个简单的转换公式。1.数据准备与预处理2.构建模型3.编译模型4.训练模型5.评估模型6.模型应用与预测7.保存与加载模型8.完整代码1.数据准备与预处理你提供了摄氏度和华氏度的数据，并进行了标准化。标准化是为了使数据适应神经网络的训练，因为标准化可以加快训练过程并提高模型性
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）科研_G.E.M. python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
AI在虚拟试衣中的应用：革新在线购物体验 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI在虚拟试衣中的应用：革新在线购物体验关键词：虚拟试衣,增强现实,在线购物,深度学习,图像识别,人工智能,用户交互1.背景介绍1.1问题由来随着电子商务的迅猛发展，在线购物已经成为人们日常生活的一部分。然而，由于无法亲身试穿，在线购物体验在满足用户个性化需求方面仍存在诸多不足。传统的网页图片展示和文字描述难以真实传达衣物的质地、颜色和尺寸。因此，虚拟试衣技术应运而生，成为电商平台上提升用户体验的
AI在虚拟客户服务中的应用：提供24_7支持 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI在虚拟客户服务中的应用：提供24/7支持关键词：虚拟客服,自然语言处理(NLP),聊天机器人,对话系统,深度学习,用户支持,自动化1.背景介绍随着互联网和移动互联网的迅速发展，客户服务成为各大企业提升竞争力的重要环节。但传统的客服模式存在诸多痛点：人力成本高、响应时间慢、工作时间有限等。在企业面临全时用户需求和竞争压力日益加剧的当下，如何以更低的成本、更快的速度、更高效的资源利用率，持续提供优
柳暗花明又一村：Seq2Seq编码器解码器架构 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
Seq2Seq,编码器-解码器,自然语言处理,机器翻译,文本生成,循环神经网络,长短期记忆网络1.背景介绍在人工智能领域，自然语言处理(NLP)始终是研究的热点之一。从机器翻译到文本摘要，从对话系统到问答机器人，Seq2Seq编码器-解码器架构在众多NLP任务中展现出强大的能力。传统的机器翻译方法通常依赖于统计模型和规则引擎，难以捕捉语言的复杂性和语义关系。随着深度学习的兴起，Seq2Seq架构为
微调特定于域的搜索的文本嵌入：附Python代码详解人工智能
微调特定于域的搜索的文本嵌入：附Python代码详解阅读时长：20分钟发布时间：2025-02-02近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】嵌入模型将文本表示为具有语义意义的向量。尽管它们可以很容易地用于无数的用例（例如检索、分类），但通用嵌入模型在特定领域的任务上可能表现不佳。
【深度学习】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows，论文 XD742971636 深度学习机器学习深度学习 transformer 人工智能
必读文章：https://blog.csdn.net/qq_37541097/article/details/121119988SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows论文：https://arxiv.org/abs/2103.14030代码：https://github.com/microsoft/Swin-
LSTM 网络在强化学习中的应用 AI天才研究院 LLM大模型落地实战指南 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSTM网络在强化学习中的应用关键词：LSTM、强化学习、时序依赖、长期记忆、深度Q网络、策略梯度、Actor-Critic摘要：本文深入探讨了长短期记忆（LSTM）网络在强化学习领域的应用。我们将详细介绍LSTM的核心概念、结构和工作原理，以及它如何解决传统循环神经网络面临的长期依赖问题。文章重点分析了LSTM在强化学习中的多种应用场景，包括深度Q网络、策略梯度方法和Actor-Critic架构
数据挖掘常用算法 kaiyuanheshang AI 数据挖掘算法人工智能
文章目录基于机器学习~~线性/逻辑回归~~树模型~~贝叶斯~~~~聚类~~集成算法神经网络~~支持向量机~~~~降维算法~~基于机器学习线性/逻辑回归类似单层神经网络y=k*x+b树模型优点可以做可视化分析速度快结果稳定依赖前期对业务和数据的理解贝叶斯贝叶斯依赖先验概率，先验知识越准，结果越好聚类集成算法xgboostlightbgm神经网络在文本、视觉领域效果非常好。但是过程黑盒，缺乏解释性支持
【中科院1区】Matlab实现黏菌优化算法SMA-RF锂电池健康状态估计算法研究 matlab科研助手 matlab 算法开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍摘要锂离子电池作为一种重要的储能器件，在电动汽车、便携式电子设备等领域发挥着至关重要的
基于LeNet-5实现交通标志分类任务鱼弦机器学习设计类系统分类深度学习人工智能
基于LeNet-5实现交通标志分类任务介绍LeNet-5是由YannLeCun等人在1998年提出的一种卷积神经网络（CNN）结构，最初用于手写数字识别。由于其简单高效的架构，LeNet-5也被广泛应用于图像分类任务，包括交通标志识别。应用使用场景交通标志分类在智能驾驶、车道辅助系统等领域有重要应用，可以帮助自动驾驶车辆识别道路上的各种交通标志，从而进行相应的决策，提高行车安全性。原理解释LeNe
【深度学习】因果推断与机器学习的高级实践数学建模_问题根因分析机器学习 2401_84239830 程序员深度学习机器学习数学建模
现阶段深度学习有三大特征：数据驱动：即数据训练，将数据输入到模型中进行训练；关联学习：模型基于给定训练数据集，进行关联学习；概率输出：即最后的输出，判断这个图片有“狗“的概率是多少。以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢？以一个简单的图片识别问题为例：识别一张图片中是否有狗。在很多预测问题中，我们拿到的数据集往往都是有偏的，比如我们拿到的数据中有80%的图片中狗都在草地上，这
《深度学习入门：梯度下降法全解析，小白必看！》 Lemon_wxk 深度学习
目录一、引言二、什么是梯度下降？2.1误差的计算2.2梯度的计算2.3参数更新2.4重复迭代三、梯度下降法的几种主要类型1.批量梯度下降（BatchGradientDescent）2.随机梯度下降（StochasticGradientDescent,SGD）3.小批量梯度下降（Mini-BatchGradientDescent）四、梯度下降的挑战与解决方案1.学习率的选择2.局部最小值与鞍点3.梯
keras快速上手-基于python的深度学习实践-基于索引的深度学习对话模型-源代码... weixin_34162401
该章的源代码已经调通，如下，先记录下来，再慢慢理解#!/usr/bin/envpython#coding:utf-8#In[1]:importpandasaspdimportnumpyasnpimportpickleimportkerasfromkeras.modelsimportSequential,Modelfromkeras.layersimportInput,Dense,Activatio
yolo是什么，有什么优缺点以及YOLO的应用场景？ cesske YOLO
目录前言一、yolo是什么？二、YOLO的优点三、YOLO的缺点四、YOLO的应用场景总结前言这里我们来讲一下yolo是什么，有什么优缺点？一、yolo是什么？“YOLO”在计算机视觉和深度学习领域是一个特定的算法框架，全称是“YouOnlyLookOnce”。这个算法最初由JosephRedmon、SantoshDivvala、RossGirshick和AliFarhadi在2015年提出，旨在
AI真的能理解我们这个现实物理世界吗？深度剖析原理、实证及未来走向 AI_DL_CODE 人工智能深度学习 AI AI理解世界
摘要：当下，AI与深度学习广泛渗透生活各领域，大模型与海量数据加持下，其是否理解现实物理世界引发热议。文章开篇抛出疑问，随后深入介绍AI深度学习基础，包含神经网络架构、反向传播算法。继而列举AI在物理场景识别、实验数据分析中显露的“理解”迹象，也点明常识性错误、极端场景失效这类反例。从信息论、物理启发式算法剖析理论支撑，探讨融合物理知识路径，并延展至跨学科应用、评估维度、伦理社会问题，最终展望AI
攻克设备数据质量难题：深度学习应用的数据基石搭建教程（DBSCAN 聚类算法） AI_DL_CODE 深度学习运维算法数据质量 DBSCAN聚类算法
摘要：在深度学习赋能设备管理的浪潮中，数据质量成为关键瓶颈。本文聚焦设备数据采集与预处理阶段面临的噪声干扰、数据缺失等难题，深入讲解强化采集端管控的策略，详细剖析聚类、统计法及线性回归模型在数据清洗与补全中的应用原理，并结合振动传感器数据实例给出可实操的Python代码。旨在为从业者提供一站式解决方案，助力打造高质量设备数据集，为深度学习模型高效运行筑牢根基，推动设备管理智能化落地。文章目录攻克设
人工智能在药物研发中的应用 - 从靶点发现和化合物筛选：利用AI深度学习技术加速药物研发流程 AI_DL_CODE 人工智能深度学习药物研发 deep learning
摘要：本文探讨了人工智能（AI）在药物研发中的应用，强调了AI在加速药物发现、降低成本和提高成功率方面的重要性。文章概述了AI在药物靶点识别、化合物筛选、药物设计优化等方面的应用，并详细介绍了机器学习和深度学习的基本原理。通过一个实操案例，展示了如何利用AI技术对化合物数据进行分析，预测潜在的药物候选物。案例包括数据预处理、模型训练、评估和优化等步骤，证明了AI在提高药物研发效率和准确性方面的潜力
pytorch实现循环神经网络纠结哥_Shrek pytorch rnn 深度学习
人工智能例子汇总：AI常见的算法和例子-CSDN博客PyTorch提供三种主要的RNN变体：nn.RNN：最基本的循环神经网络，适用于短时依赖任务。nn.LSTM：长短时记忆网络，适用于长序列数据，能有效解决梯度消失问题。nn.GRU：门控循环单元，比LSTM计算更高效，适用于大部分任务。网络类型优势适用场景RNN计算简单，适用于短时序列语音、文本处理（短序列）LSTM适用于长序列，能记忆长期信息
PyTorch 官方文档中文版本圣心 pytorch 机器学习
文档来源https://pytorch.cadn.net.cn大多数机器学习工作流都涉及处理数据、创建模型、优化模型参数，并保存经过训练的模型。本教程向您介绍完整的ML工作流在PyTorch中实现，并提供了用于了解有关每个概念的更多信息的链接。我们将使用FashionMNIST数据集来训练一个神经网络，该神经网络预测输入图像是否属于到以下类别之一：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫
基于 YOLOv8+PyQt5 的无人机红外目标检测系统：开启智能监测新时代人工智能教学实践人工智能 YOLO qt 无人机
基于YOLOv8+PyQt5的无人机红外目标检测系统：开启智能监测新时代【毕业与课程大作业参考】基于yolov8+pyqt5界面自适应的无人机红外目标检测系统demo.zip资源-CSDN文库在科技飞速发展的今天，无人机技术在各个领域的应用越来越广泛。为了提升无人机在复杂环境下的目标检测能力，结合先进的深度学习算法和图形用户界面开发技术，打造功能强大的无人机红外目标检测系统成为了研究热点。本文将详
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round