陈建驱

VGGNet原理和实现

个人博客：http://www.chenjianqu.com/

原文链接：http://www.chenjianqu.com/show-57.html

本文是CNN经典论文《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》Karen Simonyan∗ & Andrew Zisserman,ICLR2015 的阅读笔记。

论文笔记

1.解决了什么

提高大规模图像分类的精度。

2.使用的方法

搭建更深的卷积神经网络：使用3x3卷积核，模型达到16-19层，16层的被称为VGG16，19层的被称为VGG19。

使用Single-Scale和Multi-Scale训练和评估模型。

3.实验结果

该模型获得ImageNet Challenge 2014的图像localization第一名，图像分类第二名。

4.待解决的问题

该模型还不够深，只达到19层便饱和了，而且没有探索卷积核宽度对网络性能的影响。同时网络参数过多，达到1.3亿参数以上。

VGGNet

VGG名字来源于Visual Geometry Group, Department of Engineering Science, University of Oxford。论文里对多种不同深度的网络进行了测试，分别称为为A-E网络，从11-19层，其中D和E被称为VGG16和VGG19。各网络结构如下：

来一个VGG16的立体图：

各个网络的宽度都小，刚开始为64，最后达到512通道。各网络的总参数如下：

最多的VGG19有1.4亿参数。。我的GTX960M肯定是跑不动了。A-E都使用通用的配置：

网络输入：224x224的RGB图像；

输入图像预处理：减去训练集的像素均值；

卷积核大小：使用3x3的卷积核，这是the smallest size to capture the notion of left/right, up/down,

center。使用1x1卷积核，对输入通道的进行线性变换。

卷积步长：1，卷积时padding。

最大池化层：size=2x2,stride=2

跟AlexNet一样，卷积层后接两层的全连接层和一个一千神经元的输出层。

所有的隐层都使用ReLU作为激活函数。

网络不包含(除了A_LRN网络)局部响应归一化层(LRN)，因为发现LRN没卵用而且还费时费力。

VGGNet将AlexNet中的大卷积核都替换为小的卷积核，使用的卷积核size=3x3，stride=1。因为两个3x3的卷积叠加等价于一个5x5的卷积，3个3x3的卷积叠加等价于一个7x7的卷积叠加。下图可说明这点：

小卷积核替换大卷积核的优点：

本来只有一个非线性层，替换后增加到3个，这增加了网络的深度和非线性，有利于决策函数辨别。
减少了参数数量，本来有7x7=49，减少到3x3x3=27，这可以看做是对7x7卷积滤波器进行正则化，迫使他们分解为3x3滤波器。

网络C里面加入了1x1的卷积核，这是在不影响感受野的情况下增加决策函数的非线性的方法。输入通道和输出通道相同，因此是一个线性映射，激活函数的存在引入了非线性。

训练细节

权重初始化

权重的初始化很重要，初始化不好会导致学习的停滞。这里初始化的方法是：首先训练网络A，网络A足够浅以至于可以随机初始化权重。训练好A之后，其它更深的网络的前四层和后两个全连接层使用A的权重进行初始化，其它层的权重随机初始化，且随机初始化的参数为：高斯分布，均值为0，标准差为0.01，偏置权重为0。后来发现使用Xavier初始化跟预训练权重的效果一样好。

训练参数

跟AlexNet一样，使用带动量的梯度下降训练，动量系数为0.9，batch_size=128；使用L2正则化，惩罚系数为5x10^-4；在全连接层使用droopout，系数为0.5。学习率初始化为0.01，当验证准确率不再上升时，将学习率除以10。总共迭代370k，共74epochs。

AlexNet当时用了90epochs，VGGNet参数更多卻训练的更快，作者猜想原因是使用小卷积核，有隐性正则化，此外，某些层被预初始化了因此收敛更快。

数据增强

在AlexNet中，图片由原始图片缩放至2256x2265，再裁剪至224x224。令S是图片缩放至某长宽后的短边，缩放后可以从中裁剪出输入图片224x224，则S>=224。S不能太小，否则数据多样性不足，不能太大，否则只能包含原始图片的一小部分。

这里使用两种方法：

第一是单尺度训练。这里首先使用S=256预训练网络，接着降低学习率至0.001，再使用S=384训练网络。

第二是多尺度训练。每个训练图片被独立的随机缩放，S在[Smin,Smax]范围内，这里的Smin=256，Smax=512。原始训练集上每张图片中目标大小是不确定的，因此采用这一方法是有效的，其实这也可以看做是通过抖动缩放来增加训练集。出于速度考虑，先预训练S=384的单尺度模型，再微调多尺度模型。

测试细节

论文在测试时，将全连接层转换为卷积层。第一个全连接层转换为7x7的卷积层，最后两个全连接层转换为1x1的卷积层。示意图如下：

只是把权重的维度变换和拓展了。经过转换的网络就没有了全连接层，这样网络就可以接受任意尺寸的输入，而不是像之前之能输入固定大小的输入。

这样网络的输出是一个class score map，map的每个通道表示每个分类，map的分辨率是可变的，取决于输入图片的大小。为了获得输出的向量，需要对class score map进行spatially averaged。

代码实现

使用tensorflow.slim实现vgg16的代码如下：

import tensorflow as tf
from tensorflow.contrib.layers import xavier_initializer

slim = tf.contrib.slim

REGULARIZER=0.0005

def VGG16(inputs):
    with slim.arg_scope([slim.conv2d], 
                        stride=1, 
                        kernel_size=3,
                        activation_fn=tf.nn.relu,
                        padding='SAME',
                        weights_initializer=xavier_initializer(),
                        weights_regularizer=slim.l2_regularizer(REGULARIZER),
                        biases_regularizer=slim.l2_regularizer(REGULARIZER),
                        biases_initializer=tf.zeros_initializer()):
        net = slim.conv2d(inputs, num_outputs=64,scope='conv1')
        net = slim.conv2d(net, num_outputs=64,scope='conv2')
        net=slim.max_pool2d(net,[2,2],2,padding='SAME',scope='maxpooling1')
        
        net = slim.conv2d(net, num_outputs=128,scope='conv3')
        net = slim.conv2d(net, num_outputs=128,scope='conv4')
        net=slim.max_pool2d(net,[2,2],2,padding='SAME',scope='maxpooling2')
        
        net = slim.conv2d(net, num_outputs=256,scope='conv5')
        net = slim.conv2d(net, num_outputs=256,scope='conv6')
        net = slim.conv2d(net, num_outputs=256,scope='conv7')
        net=slim.max_pool2d(net,[2,2],2,padding='SAME',scope='maxpooling3')
        
        net = slim.conv2d(net, num_outputs=512,scope='conv8')
        net = slim.conv2d(net, num_outputs=512,scope='conv9')
        net = slim.conv2d(net, num_outputs=512,scope='conv10')
        net=slim.max_pool2d(net,[2,2],2,padding='SAME',scope='maxpooling4')
        
        net = slim.conv2d(net, num_outputs=512,scope='conv11')
        net = slim.conv2d(net, num_outputs=512,scope='conv12')
        net = slim.conv2d(net, num_outputs=512,scope='conv13')
        net=slim.max_pool2d(net,[2,2],2,padding='SAME',scope='maxpooling5')
        
        net=slim.flatten(net,scope='flatten')
        
        with slim.arg_scope([slim.fully_connected],
                            activation_fn=tf.nn.relu,
                            weights_initializer=xavier_initializer(),
                            weights_regularizer=slim.l2_regularizer(REGULARIZER),
                            biases_initializer=tf.zeros_initializer(),
                            biases_regularizer=slim.l2_regularizer(REGULARIZER)
                           ):
            net=slim.fully_connected(net,num_outputs=4096,scope='fc1')
            net = slim.dropout(net, 0.5, scope='dropout1')
            net=slim.fully_connected(net,num_outputs=4096,scope='fc2')
            net = slim.dropout(net, 0.5, scope='dropout2')
            out=slim.fully_connected(net,num_outputs=1000,activation_fn=None,scope='out')
            return out

定义训练参数

from tensorflow import name_scope as namespace

BATCH_SIZE=128
DATA_LEN=50000

x = tf.placeholder(tf.float32, shape=[None, 224, 224, 3], name='input')
y_ = tf.placeholder(tf.float32, [None, 1000], name='labels')

global_step=tf.Variable(0,trainable=False)

y=VGG16(x)

with namespace('loss'):
    #softmax并计算交叉熵
    #print(y.get_shape().as_list() )
    ce_loss = slim.losses.softmax_cross_entropy(y, y_) #交叉熵损失
    regularization_loss = tf.add_n(slim.losses.get_regularization_losses())#正则损失
    loss=ce_loss+regularization_loss
    
with namespace('train'):
    #使用指数衰减学习率
    learning_rate=tf.train.exponential_decay(
        0.01,#初始学习率
        global_step,
        DATA_LEN/BATCH_SIZE,#多少次更新一次学习率
        0.99,#学习率衰减率
        staircase=True#学习率阶梯下降
    )
    train_step=tf.train.MomentumOptimizer(learning_rate,0.9,#动量系数
           ).minimize(loss,global_step=global_step)
with namespace('acc'):
    correct_prediction=tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
    accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))  
    
    
tf.summary.scalar('loss',loss)
tf.summary.scalar('accuracy',accuracy)
merged=tf.summary.merge_all();

使用Keras数据生成器进行数据增强，这部分没有遵照原文。训练代码如下：

#定义数据生成器
from keras.preprocessing import image

train_dir=r'F:\BaiduNetdiskDownload\mini-imagenet\images_normal'
steps=100000

train_gen=image.ImageDataGenerator(
    featurewise_center=True,#输入数据数据减去数据集均值
    width_shift_range=0.2,#水平平移
    height_shift_range=0.2,#垂直平移
    horizontal_flip=True,#水平翻转
    zoom_range=[0.5, 1.5],#缩放范围
    brightness_range=[-0.1,0.1] #亮度变化范围
)
tg=train_gen.flow_from_directory(
    train_dir,
    target_size=(224,224),
    batch_size=128,
    class_mode='categorical'
)

with tf.Session() as sess:
    init_op=tf.global_variables_initializer()
    sess.run(init_op)
    writer=tf.summary.FileWriter('D:/Jupyter/cv/VGGNet_log',sess.graph)
    saver=tf.train.Saver()
    
    for i in range(steps):
        next_data,next_label=next(tg)
        summary,_,loss_value,step=sess.run([merged,train_step,loss,global_step],
                                           feed_dict={x:next_data,y_:next_label})
        writer.add_summary(summary,step)
        print('step%d loss:%f'%(step,loss_value))
    writer.close()

Fine-tuning

1.数据集准备

使用和AlexNet原理和实现一样的数据集，下载下来并按文件夹分好类，如下：

上面用作训练集，需要从每个分类里面移一些用于验证的数据出来，代码如下：

import os
import shutil
import tqdm

basedir=r'F:\BaiduNetdiskDownload\mini-imagenet\images_normal'
newdir=r'F:\BaiduNetdiskDownload\mini-imagenet\image_normal_test'

NUM=100
for clsdir in tqdm.tqdm(os.listdir(basedir)):
    #创建文件夹
    newpath=os.path.join(newdir,clsdir)
    if(os.path.exists(newpath)==False):
        os.makedirs(newpath)
        
    oldpath=os.path.join(basedir,clsdir)
    for fileName in (os.listdir(oldpath))[:NUM]:
        fileOldPath=os.path.join(oldpath,fileName)
        fileNewPath=os.path.join(newpath,fileName)
        shutil.move(fileOldPath,fileNewPath)

2.加载模型，并在bottleneck加上自定义的全连接层。

from keras.applications.vgg16 import VGG16
from keras.layers import *

# bulid network
inputs = Input(shape=[224, 224, 3])
base_model = VGG16(include_top=False, weights='imagenet', input_tensor=inputs)

from keras.models import Model, load_model
from keras.utils import plot_model

#首先冻结预训练模型的参数
for layer in base_model.layers:
    layer.trainable=False

#搭建自己的全连接层
flatten=Flatten()(base_model.output)
fc1=Dense(512,activation='relu')(flatten)
dropout1=Dropout(rate=0.5)(fc1)
fc2=Dense(512,activation='relu')(dropout1)
dropout2=Dropout(rate=0.5)(fc2)
fc3=Dense(100,activation='softmax')(dropout2)

model=Model(inputs=inputs,outputs=fc3)

model.summary()
plot_model(model,to_file='VGG16.png',show_shapes=True)

3.定义数据增强器，并训练全连接层

from keras.preprocessing import image
from keras import initializers
from keras import optimizers

BATCH_SIZE=32
EPOCHS=20

#定义训练集生成器
train_gen=image.ImageDataGenerator(
    featurewise_center=True,#输入数据数据减去数据集均值
    width_shift_range=0.2,#水平平移
    height_shift_range=0.2,#垂直平移
    horizontal_flip=True,#水平翻转
    brightness_range=[-0.1,0.1],#亮度变化范围
    zoom_range=[0.5,1.5] #缩放的比例范围
)
train_dir=r'F:\BaiduNetdiskDownload\mini-imagenet\images_normal'
x=train_gen.flow_from_directory(
    train_dir,
    target_size=(224,224),
    batch_size=BATCH_SIZE,
    class_mode='categorical'
)

#定义验证集生成器
val_datagen = image.ImageDataGenerator()
val_dir=r'F:\BaiduNetdiskDownload\mini-imagenet\image_normal_test'
validation_generator = val_datagen.flow_from_directory(
        val_dir,
        target_size=(224, 224),
        batch_size=BATCH_SIZE,
        class_mode='categorical'
)

#编译模型
model.compile(loss='categorical_crossentropy',
              optimizer=optimizers.SGD(lr=1e-3,momentum=0.9,decay=0.005),
              metrics=['acc']
             )

#训练模型
history=model.fit_generator(
        x,
        steps_per_epoch=int(50000/BATCH_SIZE),#每回合的步数
        epochs=EPOCHS,
        validation_data=validation_generator,
        validation_steps=int(10000/BATCH_SIZE),
        shuffle=True,
)
#保存模型
model.save(filepath='D:/Jupyter/cv/VGGNet_FT_log/vgg16.h5')

4.微调所有层

BATCH_SIZE=64
EPOCHS=20

#解冻网络
for layer in base_model.layers:
    layer.trainable=True
#编译模型
model.compile(loss='categorical_crossentropy',
              optimizer=optimizers.SGD(lr=1e-5,momentum=0.9,decay=0.005),
              metrics=['acc']
             )
#训练模型
history=model.fit_generator(
        x,
        steps_per_epoch=int(50000/BATCH_SIZE),#每回合的步数
        epochs=EPOCHS,
        validation_data=validation_generator,
        validation_steps=int(10000/BATCH_SIZE),
        shuffle=True,
)

#保存模型
model.save(filepath='D:/Jupyter/cv/VGGNet_FT_log/vgg16.h5')

参考文献

[1] Karen Simonyan∗ & Andrew Zisserman.VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》.ICLR2015

[2]露秋.VGG 论文阅读记录.https://zhuanlan.zhihu.com/p/42233779?utm_source=qq&utm_medium=social&utm_oi=556883753528516608.2018-08-19

计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
OpenCV多分辨率模板匹配与容错优化实战指南追寻向上 opencv 人工智能计算机视觉
第一章：问题背景与挑战1.1传统模板匹配的局限性模板匹配（TemplateMatching）是计算机视觉中基础且广泛使用的技术，其核心思想是通过滑动窗口在目标图像中寻找与模板最相似的位置。然而，传统方法（如OpenCV的cv2.matchTemplate）在实际应用中存在以下问题：尺寸敏感性当目标的实际尺寸与模板不一致时，匹配结果会严重偏离。例如，在工业检测中，摄像头与物体的距离变化会导致目标缩放
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

VGGNet原理和实现

你可能感兴趣的:(计算机视觉)