2013_2017

caffe安装以及LeNet实现手写数字体识别

0 引言

今天开始正式跳入深度学习的坑，希望自己两年半的研究生生涯中，能够在深度学习方面取得一点成绩。今天开始在服务器上弄caffe的时候遇到了很多问题。看了很多博客，最终解决了问题。现在把遇到的问题以及解决方案总结一下。本文是基于服务器已经成功安装了Python各种常用包、OpenCV、cuda和caffe的环境，只是自己在申请到服务器账号以后，在自己的用户目录中添加caffe。加黑斜体是我的心得体会。
安装过程主要参考博客
LeNet主要参考博客

1 下载caffe

cd ~
mkdir git  //在home下新建一个git文件夹，用来存放那些从github上git下来的文zong件
git clone https://github.com/BVLC/caffe.git    //从github上git caffe

2 开始安装

cd caffe    //打开到刚刚git下来的caffe
cp Makefile.config.example Makefile.config //将Makefile.config.example的内容复制到Makefile.config
//因为make指令只能make   Makefile.config文件，而Makefile.config.example是caffe给出的makefile例子
gedit Makefile.config      //打开Makefile.config文件

如果服务器安装的不是gedit而是vim，则最后一句应是 vim Makefile.config
仔细阅读makefile中的注释语句其实就知道该怎么操作了，为了方便理解，笔者还是介绍一各个配置说明。
在打开的Makefile.config修改如下内容：

//如果你不使用GPU的话，就将
# CPU_ONLY := 1
修改成：
CPU_ONLY := 1

//若使用cudnn，则将
# USE_CUDNN := 1
修改成：
USE_CUDNN := 1

//若使用的opencv版本是3的，则将
# OPENCV_VERSION := 3
修改为：
OPENCV_VERSION := 3

//若要使用python来编写layer，则需要将
# WITH_PYTHON_LAYER := 1
修改为
WITH_PYTHON_LAYER := 1

//重要的一项
将# Whatever else you find you need goes here.下面的
INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib
修改为：
INCLUDE_DIRS :=  $(PYTHON_INCLUDE) /usr/local/include /usr/include/hdf5/serial
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib /usr/lib/x86_64-linux-gnu /usr/lib/x86_64-linux-gnu/hdf5/serial
//这是因为ubuntu16.04的文件包含位置发生了变化，尤其是需要用到的hdf5的位置，所以需要更改这一路径

在这里只修改了Python和cudnn还有最后的最重要的东西，因为我们服务器opencv是2.4.9.1.要用到GPU加速。

3 make 各种文件

cd ..   \\此时位置应该处于caffe文件夹下

make all -j8  //j8代表计算机cpu有8个核，因此可以多线程一起make，这样make的速度会快很多。一般常用的还有j4

make test -j8

make runtest -j8//可跳过

make pycaffe   //如果以后用python来开发的话必须执行这一句，一般不管你是否用python，都会执行这一句

make distribute

至此，安装caffe差不都就已经完成了。但是笔者在安装的过程中，遇到了各种各样问题，有时候解决了这个问题，那个问题又出现了，几近崩溃的边缘，究其原因还是对ubuntu这个系统熟悉。在这次配置过程中我主要是不熟悉shell、Ubuntu系统、winscp软件。下面介绍几个常用的vim命令：
***u 撤销上一步的操作
Ctrl+r 恢复上一步被撤销的操作
退出Vim
Vim的退出方式也不少，根据情况的不同，主要有7种，执行退出操作之前都需要回到一般模式（按Esc键）。
1、结合Shift键输入“:”，切换到命令模式，输入“q”后回车。这属于正常退出，只有当文件未被修改或者修改已经被保存的情况下方能成功退出，否则将提示有修改尚未保存而无法退出。
2、切换到命令模式，输入“q!”后回车。这属于强制退出，当有文件被修改而尚未保存，则强制退出将舍弃修改。
3、切换到命令模式，输入“wq”后回车。这属于先保存后退出，只有对打开的文件可写且有编辑权限的情况下方能成功退出，否则将提示权限不够或者文件只读等警告。
4、切换到命令模式，输入“wq!”后回车。这属于强制保存并退出，只有对打开的文件有编辑权限的情况下方能成功退出，否则将提示权限不够等警告。有访问权限的只读文件即便修改过，也能成功保存并退出。
6、在一般模式下输入“ZZ”。这属于先保存后退出，同“wq”。
7、在一般模式下输入“ZQ”。这属于强制退出，同“q!”。*

4 准备数据集

下面的内容主要来自Caffe作者Yangqing Jia网站给出的examples。

@article{jia2014caffe,
Author = { Jia, Yangqing and Shelhamer, Evan and Donahue, Jeff and Karayev, Sergey and Long, Jonathan and Girshick, Ross and Guadarrama, Sergio and Darrell, Trevor},
Journal = {arXiv preprint arXiv:1408.5093},
Title = {Caffe: Convolutional Architecture for Fast Feature Embedding},
Year = {2014}
}

首先从MNIST网站上下载数据集，运行：

cd $CAFFE_ROOT 
./data/mnist/get_mnist.sh

下载到四个文件，从左至右依次是测试集图像、测试集标签、训练集图像、训练集标签：

转换数据格式：

./examples/mnist/create_mnist.sh

在 examples/mnist下出现两个新的文件夹：

create_mnist.sh这个脚本是将训练集和测试集分别转换成了lmdb格式。

5 LeNet: MNIST分类模型

本实验用的网络模型是LeNet，它是公认在数字分类任务上效果很好的网络。实验中在原始 LeNet基础上做了一点改动，对于神经元的激活，用ReLU替换了sigmoid。
LeNet的设计包括一个卷积层，后随一个pooling层，再一个卷积层，后随一个pooling层，再两个全连接层，类似于传统的多层感知器。经典LeNet如图：

这些层的定义在examples/mnist/lenet_train_test.prototxt中。

6 定义MNIST网络

在定义自己的网络之前可以运行示例中给出的代码训练网络：

sh examples/mnist/train_lenet.sh

过程与CIFAR-10中的一样，所用solver是examples/mnist/lenet_solver.prototxt，在这个solver中可以看到对训练与测试的简单设置，所用的网络定义就是examples/mnist/lenet_train_test.prototxt。
下面详细学习examples/mnist/lenet_train_test.prototxt的模型定义，学习的基础是对Google Protobuf比较熟悉，可参考Google Protocol Buffer的使用和原理，还要读过Caffe使用的protobuf定义，这个定义在src/caffe/proto/caffe.proto中。
为了更深入地了解网络是怎么定义的，我们自己写一个caffe网络参数的protobuf。首先新建一个prototxt文件，我这里的命名是lenet_train_lml.prototxt。给网络取个名字：

name: "LeNet"

6.1 写数据层

现在要从之前创建的lmdb中读取MNIST数据，定义如下的数据层：

layer { 
    name: "mnist"  #该层的名字
    type: "Data"    #输入的类型
    data_param {    #数据参数
        source: "mnist_train_lmdb"  #数据来源，从 mnist_train_lmdb中读入数据
        backend: LMDB   
        batch_size: 64  #批次大小，即一次处理64条数据
        scale: 0.00390625   #像素灰度归一化参数，1/256
    } 
    top: "data"     #该层生成两个blob，分别是data和label
    top: "label" 
}

6.2 写卷积层

定义第一个卷积层：

layer { 
    name: "conv1"   #该层的名字
    type: "Convolution"     #该层的类型
    param { lr_mult: 1 }    #学习率，权重的和solver的一样
    param { lr_mult: 2 }    #偏移的是solver的两倍
    convolution_param { 
        num_output: 20  #卷积核个数
        kernel_size: 5  #卷积核大小
            stride: 1   #步长
            weight_filler {  
            type: "xavier"  #用xavier算法基于输入输出神经元数自动初始化权重
        } 
            bias_filler { 
            type: "constant"    #简单初始化偏移为常数，默认为0 
        } 
    } 
    bottom: "data"  #该层的上一层是 data
    top: "conv1"    #该层生成conv1 blob
}

6.3 写pooling层

pooling层就好定义多了：

layer { 
    name: "pool1"   #该层的名字
    type: "Pooling"     #该层的类型
    pooling_param {     
        kernel_size: 2  #pooling的核是2×2
        stride: 2   #步长是2，也就是说相邻pooling区域之间没有重叠
        pool: MAX   #pooling的方式
    } 
    bottom: "conv1"     #该层的上一层是conv1
    top: "pool1"    #该层生成pool1 blob
}

然后就可以自己写第二个卷积层和pooling层了，细节参考examples/mnist/lenet_train_test.prototxt。

layer { 
    name: "conv2" 
    type: "Convolution" 
    bottom: "pool1" 
    top: "conv2" 
    param {  lr_mult: 1 } 
    param {  lr_mult: 2 } 
    convolution_param { 
        num_output: 50 #卷积核变成了50个
        kernel_size: 5 
        stride: 1 
        weight_filler { 
            type: "xavier" 
        } 
        bias_filler { 
            type: "constant" 
        } 
    } 
} 
layer { 
    name: "pool2" 
    type: "Pooling" 
    bottom: "conv2" 
    top: "pool2" 
    pooling_param { 
        pool: MAX 
        kernel_size: 2 
        stride: 2 
    } 
}

6.4 写全连接层

全连接层也比较简单：

layer { 
    name: "ip1" #全连接层的名字
    type: "InnerProduct"    #全连接层的类型
    param { lr_mult: 1 } 
    param { lr_mult: 2 } 
    inner_product_param { 
        num_output: 500     #输出500个节点
        weight_filler { 
            type: "xavier" 
        } 
        bias_filler { 
            type: "constant" 
        } 
    } 
    bottom: "pool2" 
    top: "ip1" 
}

6.5 写ReLU层

layer { 
    name: "relu1" 
    type: "ReLU" 
    bottom: "ip1" 
    top: "ip1" 
}

因为ReLU是元素级操作，所以可以用一种叫做in-place（猜测可以翻译为在原位置，也就是不开辟新内存）的操作来节省内存，这是通过简单地把bottom blob和top blob设成同样的名字来实现，当然了，不要在其他类型的层中这么干。
然后再写一个全连接层：

layer { 
    name: "ip2" 
    type: "InnerProduct" 
    param { lr_mult: 1 } 
    param { lr_mult: 2 } 
    inner_product_param { 
        num_output: 10 
        weight_filler { 
            type: "xavier" 
        } 
        bias_filler { 
            type: "constant" 
        } 
    } 
    bottom: "ip1" 
    top: "ip2" 
}

6.6 写loss层

最后写一个loss层：

layer { 
    name: "loss" 
    type: "SoftmaxWithLoss" 
    bottom: "ip2" 
    bottom: "label" 
}

softmax_loss层实现了Softmax和多项Logistic损失（节省了时间,同时提高了数据稳定性）。它需要两个blob，第一个是预测，第二个是数据层生成的label。该层不产生输出，只是计算loss函数的值，在反向传播的时候使用，并初始化关于ip2的梯度。

6.7 写层次规则

层次定义包含的规则是这些层是否以及什么时候包含在网络定义中，像这样：

layer { 
    #...layer definition... 
    include: { phase: TRAIN } 
}

这个规则基于现有网络状态，控制网络中的层次包含关系，可以查看src/caffe/proto/caffe.proto来获取层次规则及模型概要的更多信息。
在上面的例子中，这个层只会包含在TRAIN阶段中，如果把TRAIN改为TEST，这个层就只会被用于TEST阶段。如果不写TRAIN或TEST的话，那么这个层TRAIN阶段和TEST阶段都会被用到，所以lenet_train_test.prototxt中定义了两个DATA层，我们参考它也分别定义两个DATA层：

layer {
    name: "mnist"
    type: "Data"
    top: "data"
    top: "label"
    include {
        phase: TRAIN
    }
    transform_param {
        scale: 0.00390625
    }
    data_param {
        source: "examples/mnist/mnist_train_lmdb"
        batch_size: 64
        backend: LMDB
    }
}
layer {
    name: "mnist"
    type: "Data"
    top: "data"
    top: "label"
    include {
        phase: TEST
    }
    transform_param {
        scale: 0.00390625
    }
    data_param {
        source: "examples/mnist/mnist_test_lmdb"
        batch_size: 100
        backend: LMDB
    }
}

另外，TEST阶段有一个Accuracy层，它是用来每100次迭代报告一次模型准确率的，lenet_solver.prototxt中给出了定义，我们同样也把它加上：

layer {
    name: "accuracy"
    type: "Accuracy"
    bottom: "ip2"
    bottom: "label"
    top: "accuracy"
    include {
        phase: TEST
    }
}

7 定义MNIST的solver文件

再看一下lenet_solver.prototxt中都定义了些什么：

# 训练/检测网络的protobuf定义
net: "examples/mnist/lenet_train_lml.prototxt"
# test_iter指的是测试的迭代次数，这里是100，测试批次大小也是100，这样就覆盖了10000个测试图像
test_iter: 100
# 每训练迭代500次就测试一次
test_interval: 500
# 学习率，动量，权重下降
base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
# 学习率规则
lr_policy: "inv"
gamma: 0.0001
power: 0.75
# 每迭代100次显示一次
display: 100
# 最大迭代次数
max_iter: 10000
# 每5000次迭代存储一次快照
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet"
# 选择CPU还是GPU模式
solver_mode: GPU

8 训练与测试模型

在写完网络定义和solver之后，就可以训练模型了，运行：

./examples/mnist/train_lenet.sh

会在终端看到这样的消息，这些消息显示了每一层的细节，即连接关系与输出的形状，在调试的时候是很有用的：

初始化以后就开始训练了：

solver中设置每100次迭代打印出训练的loss，每1000次迭代打印出测试的loss：

迭代完结果就出来了：

最后的模型存储在一个二进制的protobuf文件lenet_iter_10000.caffemodel中，在训练其他数据集的时候可以把它作为基础模型。

9 其他

通过这个实验，终于知道网络要怎么设置了，还有其他不同的solver值得一试。例如autoencoder网络，运行命令：

./examples/mnist/train_mnist_autoencoder.sh

或者：

./examples/mnist/train_mnist_autoencoder_adagrad.sh

或者：

./examples/mnist/train_mnist_autoencoder_nesterov.sh

数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
深度学习中的Channel，通道数是什么？ %KT% 深度学习深度学习人工智能
参考文章：直观理解深度学习的卷积操作，超赞！-CSDN博客如何理解卷积神经网络中的通道（channel）_神经网络通道数-CSDN博客深度学习-卷积神经网络—卷积操作详细介绍_深度卷积的作用-CSDN博客正文：在跑深度学习代码的过程中，经常遇到的一个报错是：模型尺寸不匹配的问题。一般pytorch中尺寸/张量的表现方式是：torch.size([16,3,24,24])。这四个参数的含义如下：16
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
yolo模型coco数据集详解工头阿乐深度学习 YOLO
深度学习文章目录深度学习前言前言instances_train2017.json和instances_val2017.json文件均分为五大部分，这五部分对应的关键字分别为info、licenses、images、annotations、categories。{"info":info,"licenses":[license1,license2,license3,...],"images":[ima
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
C#学习笔记（3）：调用YOLOv8 playerofIE c#学习笔记 YOLO python
最近做的项目需要C#编写上位机程序，同时也要使用yolo进行深度学习检测。使用pythonnet调用写好的py文件，C#代码如下:Runtime.PythonDLL="python310.dll";PythonEngine.Initialize();using(Py.GIL()){dynamicsys=Py.Import("sys");dynamictorch=Py.Import("torch")
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
llama.cpp 和 LLM（大语言模型）这个懒人 llama 语言模型人工智能
llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型。它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。
构建未来智能：在Mojo模型中自定义模型架构的艺术 2401_85761003 mojo 架构
构建未来智能：在Mojo模型中自定义模型架构的艺术在深度学习的世界里，模型架构的设计往往决定了算法的性能和适用性。Mojo模型，作为一个假想中的高级机器学习框架，允许用户实现自定义的模型架构来解决特定的问题。本文将深入探讨如何在Mojo模型中实现自定义模型架构，并提供详细的步骤和代码示例，以帮助读者掌握这一强大的技术。自定义模型架构的重要性灵活性自定义模型架构提供了设计适合特定问题需求的模型的灵活
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
AI驱动的代码重构与优化技术 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI驱动的代码重构与优化技术概述什么是AI驱动的代码重构与优化？AI驱动的代码重构与优化技术，是指利用人工智能，特别是机器学习和深度学习的算法，对软件代码进行自动分析和改进的技术。这种技术能够通过学习大量的代码样本，识别出代码中的模式、问题和改进点，从而自动完成代码的重构和优化。重构的定义重构（Refactoring）是改进代码内部结构而不改变外部行为的过程。其目的通常是为了提高代码的可读性、可维
神经网络模型压缩&实例教程—非结构化剪枝程序先锋《python深度学习》笔记神经网络剪枝深度学习
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）3.1随机剪枝weight3.2L1范数剪枝bias4.总结最先进的深度学习技术依赖于难以部署的过度参数化模型。相反，已知生物神经网络使用高效的稀疏连接。为了在不牺牲准确性的情况下减少内存、电池和硬件消耗，通过减少模型中的参数数量来确定压缩模型的最佳技术是很重要的。这反过来又允许您在设备上部署轻量级模型，并通过设备上的私
深度学习模型压缩：非结构化剪枝与结构化剪枝的定义与对比从零开始学习人工智能深度学习剪枝人工智能
****在深度学习中，模型压缩是优化模型性能、降低存储和计算成本的重要技术之一。其中，剪枝（Pruning）是最常用的方法之一。根据剪枝的粒度和目标，剪枝可以分为非结构化剪枝（UnstructuredPruning）和结构化剪枝（StructuredPruning）。本文将详细介绍这两种剪枝方法的定义，并通过对比帮助读者更好地理解它们的差异。1.非结构化剪枝（UnstructuredPruning
从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略一键难忘剪枝深度学习算法知识蒸馏
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中文章目录从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略1.
PyTorch 模型剪枝实例教程一、非结构化剪枝小风_ 模型压缩与加速 pytorch pytorch 深度学习人工智能
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）4.总结目前大部分最先进的（SOTA）深度学习技术虽然效果好，但由于其模型参数量和计算量过高，难以用于实际部署。而众所周知，生物神经网络使用高效的稀疏连接（生物大脑神经网络balabala啥的都是稀疏连接的），考虑到这一点，为了减少内存、容量和硬件消耗，同时又不牺牲模型预测的精度，在设备上部署轻量级模型，并通过私有的设备
优化深度学习模型：PyTorch中的模型剪枝技术详解代码之光_1980 深度学习 pytorch 剪枝
标题：优化深度学习模型：PyTorch中的模型剪枝技术详解在深度学习领域，模型剪枝是一种提高模型效率和性能的技术。通过剪枝，我们可以去除模型中的冗余权重，从而减少模型的复杂度和提高运算速度，同时保持或甚至提升模型的准确率。本文将详细介绍如何在PyTorch框架中实现模型剪枝，并提供相应的代码示例。1.模型剪枝的基本概念模型剪枝主要分为两种类型：结构化剪枝和非结构化剪枝。结构化剪枝通常指的是剪除整个
Dropout: 一种减少神经网络过拟合的技术冰蓝蓝自然语言处理神经网络人工智能深度学习
在深度学习中，过拟合是一个常见的问题，尤其是在模型复杂度较高或训练数据较少的情况下。过拟合意味着模型在训练数据上表现得很好，但在未见过的数据上表现不佳，即泛化能力差。为了解决这个问题，研究者们提出了多种正则化技术，其中之一就是Dropout。什么是Dropout？Dropout是一种正则化技术，由Hinton和他的学生在2012年提出。它通过在训练过程中随机“丢弃”（即暂时移除）网络中的一些神经元
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri