盼小辉丶

PyTorch深度学习实战（23）——从零开始实现SSD目标检测

- 0. 前言
- 1. SSD 目标检测模型
- - 1.1 SSD 网络架构
  - 1.2 利用不同网络层执行边界框和类别预测
  - 1.3 不同网络层中默认框的尺寸和宽高比
  - 1.4 数据准备
  - 1.5 模型训练
- 2. 实现 SSD 目标检测
- - 2.1 SSD300 架构
  - 2.2 MultiBoxLoss
  - 2. 训练 SSD
- 小结
- 系列链接

0. 前言

SSD (Single Shot MultiBox Detector) 是一种基于单次前向传递的实时目标检测算法，它在速度和准确性之间取得了很好的平衡。与传统的两阶段目标检测算法(如 Faster R-CNN )不同，SSD 直接在图像的多个尺度上进行预测，无需候选框生成和筛选。SSD 的核心思想是在卷积神经网络的不同层级上设置多个特征图用于预测目标。这些特征图在空间上具有不同的尺度，可以检测不同大小的目标。每个特征图上的每个位置都预测一组边界框和对应的类别概率。在本节中，将介绍 SSD 的工作原理，然后在自定义数据集上训练 SSD 目标检测模型。

1. SSD 目标检测模型

在 R-CNN 和 YOLO 目标检测模型中，通过数次应用卷积和池化预测目标对象类别和边界框。同时，我们也知道不同的网络层对原始图像具有不同的感受野，初始层相对于最终层具有较小的感受野。在本节中，我们将学习 SSD 如何利用这一现象来预测图像中目标对象的边界框。
SSD (Single Shot Multibox Detector) 使用了多层感受野的特性来解决多尺度目标检测问题，检测图像中不同尺度的目标对象，具体来说：

使用额外的网络层扩展预训练的 VGG 网络，直到获得 1 x 1 的输出
与仅使用最终层进行边界框和类别预测不同，SSD 利用这些添加的卷积层和池化层检测大小不同的物体
SSD 使用特定比例和纵横比的默认框来代替锚框，并将这些框与不同特征图中的不同尺寸的目标相对应
与 YOLO 使用锚框预测类别和偏移量一样，SSD 通过对每个默认框进行类别和偏移量预测来输出目标检测结果

总体而言，SSD 与 YOLO 的主要区别包括：SSD 中使用默认框 (default box) 替换了 YOLO 中的锚框 (anchor box)，并且 SSD 中使用多层特征图执行预测，而 YOLO 中使用最终特征层。

1.1 SSD 网络架构

SSD 的网络架构如下：

如上图中所示，将一张尺寸为 300 x 300 x 3 的图像输入到预训练的 VGG-16 网络获得 conv5_3 层的输出，然后，通过在 conv5_3 后追加更多卷积层来扩展网络。

1.2 利用不同网络层执行边界框和类别预测

接下来，针对每个单元格和每个默认框获取边界框偏移量和类别预测。conv5_3 输出的预测总数为 38 x 38 x 4，其中 38 x 38 是 conv5_3 层的输出形状，4 是在 conv5_3 层上的默认框数量。以此类推，整个网络的参数总数如下：

层	权重数
conv5_3	38 x 38 x 4 = 5776
FC6	19 x 19 x 6 = 2166
conv8_2	10 x 10 x 6 = 600
conv9_2	5 x 5 x 6 = 150
conv10_2	3 x 3 x 4 = 36
conv11_2	1 x 1 x 4 = 4
总计	8732

可以看到，每个网络层中特征图网格单元上使用的默认框数量并不相同。

1.3 不同网络层中默认框的尺寸和宽高比

本节中，我们学习如何确定默认框的尺寸和宽高比，首先计算默认框尺寸。假设目标对象最小尺寸为图像高度的 20%、宽度的 20%，最大尺寸为高度的 90%、宽度的 90%。在这种情况下，随着网络层的逐渐增加，图像大小会显著缩小：

图像缩放的公式如下：

$level\ index:l=1,...,L \\ scale\ of\ boxes:s_l=s_{min}+\frac{s_{max}-s_{min}}{L-1}(l-1)$

了解了如何计算默认框在不同网络层的尺寸后，我们继续学习如何确定默认框的宽高比，常用的宽高比如下：

$aspect\ ratio:r∈{1,2,3,1/2,1/3}$

不同网络层的默认框框的中心坐标如下：

$center\ location:(x_l^i,y_l^i)=(\frac {i+0.5}{m},\frac{j+0.5}{n})$

其中，使用 $i$ 和 $j$ 表示第 $l$ 层中的一个单元。

不同宽高比对应的宽高计算如下：

$width:w_l^r=s_l\sqrt r\\ height:h_l^r=s_l\sqrt r$

需要注意的是，我们在不同网络层使用了不同数量的默认框( 4 个或 6 个)，如果想要使用 4 个默认框，删除纵横比 {3,1/3}，否则使用 6 个默认框，结合不同层及其特征图的比例和长宽比来检测各种尺寸的对象，第 6 个默认框的纵横比计算方式如下：

$additional\ scale:s_l'=\sqrt{s_ls_l+1}\ \ \ \ when\ r=1$

获得了所有可能的默认框后，我们继续学习如何准备训练数据集。

1.4 数据准备

交并比 (Intersection over Union, IoU) 大于指定阈值(例如 0.5 ) 的默认框被视为正匹配，其余为负匹配。在 SSD 的输出中，我们预测默认框属于某个类别(其中第 0 个类别表示背景)的概率，以及默认框相对于真实边界框的偏移量。
最后，我们通过优化分类和定位损失值来训练模型。

1.5 模型训练

分类损失：

$L_{cls}=-\sum_{i∈pos}l_{ij}^klog(\hat c_i^k)-\sum_{i∈neg}log(\hat c_i^0),\ where\ \hat c_i^k\ =\ softmax(c_i^k)$

其中，pos 表示与真实边界框高度重叠的默认框，而 neg 表示被错误分类的默认框(模型预测这些默认框中包含某个类别但实际上没有包含目标对象)。最后，需要确保 pos : neg 比率最多为 1:3，否则会因为背景类别默认框过多导致预测偏差。

定位损失：对于定位，仅在目标对象得分大于某个阈值时才计算损失值，定位损失计算如下：

$L_{loc}=\sum_{i,j}\sum_{m∈\{x,y,w,h\}}1_{ij}^{match}L_1^{smooth}(d_m^i-t_m^j)^2\\ L_1^{smooth}(x)=\left\{ \begin{array}{rcl} 0.5x^2 & & {if\ |x|<1}\\ |x|-0.5 & & {otherwise} \end{array} \right.\\ t_x^j=\frac {g_x^i-p_x^i}{p_w^i}\\ t_y^j=\frac {g_y^i-p_y^i}{p_h^i}\\ t_w^j=log\frac {g_w^i}{p_w^i}\\ t_h^j=log\frac {g_h^i}{p_h^i}$

其中， $t$ 是预测的偏移量， $d$ 是实际的偏移量。了解了如何训练 SSD 后，在下一节中，我们将使用 PyTorch 从零开始实现 SSD 模型用于公共汽车与卡车目标检测任务。

2. 实现 SSD 目标检测

2.1 SSD300 架构

SSD300 模型架构包含三个子模块：

class SSD300(nn.Module):
    ...
    def __init__(self, n_classes, device):
        ...
        self.base = VGGBase()
        self.aux_convs = AuxiliaryConvolutions()
        self.pred_convs = PredictionConvolutions(n_classes)
        ...

首先将图片输入到 VGGBase 主干网络，返回两个维度为 (N, 512, 38, 38) 和 (N, 1024, 19, 19) 的特征向量。第二个输出将作为 AuxiliaryConvolutions 的输入，并返回维度为 (N, 512, 10, 10)、(N, 256, 5, 5)、(N, 256, 3, 3) 和 (N, 256, 1, 1) 的输出特征图。最后，将 VGGBase 的第一个输出和 AuxiliaryConvolutions 的四个输出特征图输入到 PredictionConvolutions，返回 8,732 个默认框。
SSD300 类的另一个关键是 create_prior_boxes 方法。对于每个特征图，都有三个与之相关的参数：网格大小、网格单元的比例(特征图的基本默认框)以及单元格中所有默认框的宽高比。使用这三个配置，代码使用三重 for 循环创建一个包含 8732 个默认框 (cx, cy, w, h) 的列表。
最后，detect_objects 方法将预测的默认框分类和回归结果的张量转换为实际的边界框坐标。

2.2 MultiBoxLoss

对于人类而言，我们只需关注少数几个边界框。但是对于 SSD 而言，需要比较来自多个特征图的 8,732 个边界框，并预测默认框是否包含有价值的信息，使用 MultiBoxLoss 计算模型损失。前向传播方法 forward 的输入是模型的默认框预测和真实边界框。
首先，通过将模型中的每个默认框与边界框进行比较，将真实边界框转换为一个包含 8732 个默认框的列表。如果 IoU 足够高，那么特定的默认框将具有非零的回归坐标，并将对象类别作为分类的真实值。然后，计算分类置信度和定位损失，并返回这些损失的总和作为前向传播的输出。大多数默认框会被归类为背景类别，因为它们与真实边界框的 IoU 非常小(甚至在大多数情况下为零)。
一旦将真实值转换为包含 8,732 个默认框的回归和分类张量，就可以将它们与模型的预测进行比较。对回归张量执行 MSE-Loss，对定位张量执行 CrossEntropy-Loss，并将它们加起来作为最终损失返回。

2. 训练 SSD

在本节中，我们将使用 PyTorch 实现 SSD 模型来检测图像中目标对象的边界框，继续使用与 R-CNN 一节中相同的数据集。

(1) 加载图像数据集及所需库：

from torchvision.ops import nms
import torch
import numpy as np
from torch.utils.data import DataLoader, Dataset
from glob import glob
from matplotlib import pyplot as plt
import pandas as pd
import matplotlib.patches as mpatches
from PIL import Image
from torchvision import transforms


device = 'cuda' if torch.cuda.is_available() else 'cpu'

DATA_ROOT = 'open-images-bus-trucks/'
IMAGE_ROOT = f'{DATA_ROOT}/images'
DF_RAW = df = pd.read_csv('open-images-bus-trucks/df.csv')
print(DF_RAW.head())

df = df[df['ImageID'].isin(df['ImageID'].unique().tolist())]
label2target = {l:t+1 for t,l in enumerate(DF_RAW['LabelName'].unique())}
label2target['background'] = 0
target2label = {t:l for l,t in label2target.items()}
background_class = label2target['background']
num_classes = len(label2target)

(2) 预处理数据：

normalize = transforms.Normalize(
    mean=[0.485, 0.456, 0.406],
    std=[0.229, 0.224, 0.225]
)
denormalize = transforms.Normalize(
    mean=[-0.485/0.229, -0.456/0.224, -0.406/0.255],
    std=[1/0.229, 1/0.224, 1/0.255]
)
def preprocess_image(img):
    img = torch.tensor(img).permute(2,0,1)
    img = normalize(img)
    return img.to(device).float()

def find(item, original_list):
    results = []
    for o_i in original_list:
        if item in o_i:
            results.append(o_i)
    if len(results) == 1:
        return results[0]
    else:
        return results

(3) 定义数据集类：

class OpenDataset(torch.utils.data.Dataset):
    w, h = 300, 300
    def __init__(self, df, image_dir=IMAGE_ROOT):
        self.image_dir = image_dir
        self.files = glob(self.image_dir+'/*')
        self.df = df
        self.image_infos = df.ImageID.unique()

    def __getitem__(self, ix):
        # load images and masks
        image_id = self.image_infos[ix]
        img_path = find(image_id, self.files)
        img = Image.open(img_path).convert("RGB")
        img = np.array(img.resize((self.w, self.h), resample=Image.BILINEAR))/255.
        data = df[df['ImageID'] == image_id]
        labels = data['LabelName'].values.tolist()
        data = data[['XMin','YMin','XMax','YMax']].values
        data[:,[0,2]] *= self.w
        data[:,[1,3]] *= self.h
        boxes = data.astype(np.uint32).tolist() # convert to absolute coordinates
        return img, boxes, labels
    
    def collate_fn(self, batch):
        images, boxes, labels = [], [], []
        for item in batch:
            img, image_boxes, image_labels = item
            img = preprocess_image(img)[None]
            images.append(img)
            boxes.append(torch.tensor(image_boxes).float().to(device)/300.)
            labels.append(torch.tensor([label2target[c] for c in image_labels]).long().to(device))
        images = torch.cat(images).to(device)
        return images, boxes, labels

    def __len__(self):
        return len(self.image_infos)

(4) 准备训练和测试数据集以及数据加载器：

from sklearn.model_selection import train_test_split
trn_ids, val_ids = train_test_split(df.ImageID.unique(), test_size=0.1, random_state=99)
trn_df, val_df = df[df['ImageID'].isin(trn_ids)], df[df['ImageID'].isin(val_ids)]
len(trn_df), len(val_df)

train_ds = OpenDataset(trn_df)
test_ds = OpenDataset(val_df)

train_loader = DataLoader(train_ds, batch_size=4, collate_fn=train_ds.collate_fn, drop_last=True)
test_loader = DataLoader(test_ds, batch_size=4, collate_fn=test_ds.collate_fn, drop_last=True)

(5) 定义函数在批数据训练模型并计算验证数据的准确率和损失值：

def train_batch(inputs, model, criterion, optimizer):
    model.train()
    N = len(train_loader)
    images, boxes, labels = inputs
    _regr, _clss = model(images)
    loss = criterion(_regr, _clss, boxes, labels)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    return loss
    
@torch.no_grad()
def validate_batch(inputs, model, criterion):
    model.eval()
    images, boxes, labels = inputs
    _regr, _clss = model(images)
    loss = criterion(_regr, _clss, boxes, labels)
    return loss

(6) 初始化模型(模型文件参考 ssd-utils)、优化器和损失函数：

from model import SSD300, MultiBoxLoss
from detect import *

model = SSD300(num_classes, device)
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=1e-5)
criterion = MultiBoxLoss(priors_cxcy=model.priors_cxcy, device=device)

(7) 训练 SSD 模型：

train_loss_epochs = []
val_loss_epochs = []

for epoch in range(n_epochs):
    _n = len(train_loader)
    trn_loss = []
    val_loss = []
    for ix, inputs in enumerate(train_loader):
        loss = train_batch(inputs, model, criterion, optimizer)
        pos = (epoch + (ix+1)/_n)
        trn_loss.append(loss.item())
    train_loss_epochs.append(np.average(trn_loss))

    _n = len(test_loader)
    for ix,inputs in enumerate(test_loader):
        loss = validate_batch(inputs, model, criterion)
        pos = (epoch + (ix+1)/_n)
        val_loss.append(loss.item())
val_loss_epochs.append(np.average(val_loss))

epochs = np.arange(n_epochs)+1
plt.plot(epochs, train_loss_epochs, 'bo', label='Training loss')
plt.plot(epochs, val_loss_epochs, 'r', label='Test loss')
plt.title('Training and Test loss over increasing epochs')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.grid('off')
plt.show()

训练和测试损失值随时间的变化情况如下：

(8) 对测试图像执行预测。

加载测试图像：

def show_bbs(im, bbs, clss):
    fig, ax = plt.subplots(ncols=2, nrows=1, figsize=(6, 6))
    ax[0].imshow(im)
    ax[0].grid(False)
    ax[0].set_title('Original image')
    if len(bbs) == 0:
        ax[1].imshow(im)
        ax[1].set_title('No objects')
        plt.show()
        return
    ax[1].imshow(im)
    for ix, (xmin, ymin, xmax, ymax) in enumerate(bbs):
        rect = mpatches.Rectangle(
                (xmin, ymin), xmax-xmin, ymax-ymin, 
                fill=False, 
                edgecolor='red', 
                linewidth=1)
        ax[1].add_patch(rect)
        centerx = xmin # + new_w/2
        centery = ymin + 20# + new_h - 10
        plt.text(centerx, centery, clss[ix].replace('@', ''),fontsize = 10,color='red')
    ax[1].grid(False)
    ax[1].set_title('Predicted bounding box and class')
    plt.show()

from random import choice
image_paths = glob.glob(f'{DATA_ROOT}/images/*')
image_id = choice(test_ds.image_infos)
print(image_id)
img_path = find(image_id, test_ds.files)
original_image = Image.open(img_path, mode='r')
original_image = original_image.convert('RGB')

获取与图像中的目标对象对应的边界框、标签和置信度分数：

image_paths = glob.glob(f'{DATA_ROOT}/images/*')
for _ in range(20):
    image_id = choice(test_ds.image_infos)
    img_path = find(image_id, test_ds.files)
    original_image = Image.open(img_path, mode='r')
    bbs, labels, scores = detect(original_image, model, min_score=0.9, max_overlap=0.5,top_k=200, device=device)
    labels = [target2label[c.item()] for c in labels]
    label_with_conf = [f'{l} @ {s:.2f}' for l,s in zip(labels,scores)]
    print(bbs, label_with_conf)

在图像上绘制输出结果：

    show_bbs(original_image, bbs=bbs, clss=label_with_conf)#, text_sz=10)

小结

SSD 使用基础网络(如 VGG16 或 ResNet )提取图像特征，然后，通过添加额外的卷积层和特征图金字塔来获取不同尺度的特征图。每个特征图单元预测固定数量的边界框，并预测每个边界框属于不同类别的概率。为了提高检测的准确性，SSD 还引入了不同大小的默认框，用于与预测的边界框进行匹配。本文首先介绍了 SSD 模型的核心思想与目标检测流程，然后使用 PyTorch 从零开始实现了一个基于 SSD 的目标检测模型。

系列链接

PyTorch深度学习实战（1）——神经网络与模型训练过程详解
PyTorch深度学习实战（2）——PyTorch基础
PyTorch深度学习实战（3）——使用PyTorch构建神经网络
PyTorch深度学习实战（4）——常用激活函数和损失函数详解
PyTorch深度学习实战（5）——计算机视觉基础
PyTorch深度学习实战（6）——神经网络性能优化技术
PyTorch深度学习实战（7）——批大小对神经网络训练的影响
PyTorch深度学习实战（8）——批归一化
PyTorch深度学习实战（9）——学习率优化
PyTorch深度学习实战（10）——过拟合及其解决方法
PyTorch深度学习实战（11）——卷积神经网络
PyTorch深度学习实战（12）——数据增强
PyTorch深度学习实战（13）——可视化神经网络中间层输出
PyTorch深度学习实战（14）——类激活图
PyTorch深度学习实战（15）——迁移学习
PyTorch深度学习实战（16）——面部关键点检测
PyTorch深度学习实战（17）——多任务学习
PyTorch深度学习实战（18）——目标检测基础
PyTorch深度学习实战（19）——从零开始实现R-CNN目标检测
PyTorch深度学习实战（20）——从零开始实现Fast R-CNN目标检测
PyTorch深度学习实战（21）——从零开始实现Faster R-CNN目标检测
PyTorch深度学习实战（22）——从零开始实现YOLO目标检测
PyTorch深度学习实战（23）——使用U-Net架构进行图像分割
PyTorch深度学习实战（24）——从零开始实现Mask R-CNN实例分割
PyTorch深度学习实战（25）——自编码器(Autoencoder)
PyTorch深度学习实战（26）——卷积自编码器(Convolutional Autoencoder)
PyTorch深度学习实战（27）——变分自编码器(Variational Autoencoder, VAE)
PyTorch深度学习实战（28）——对抗攻击(Adversarial Attack)
PyTorch深度学习实战（29）——神经风格迁移
PyTorch深度学习实战（30）——Deepfakes
PyTorch深度学习实战（31）——生成对抗网络(Generative Adversarial Network, GAN)
PyTorch深度学习实战（32）——DCGAN详解与实现
PyTorch深度学习实战（33）——条件生成对抗网络(Conditional Generative Adversarial Network, CGAN)
PyTorch深度学习实战（34）——Pix2Pix详解与实现

你可能感兴趣的:(深度学习,pytorch,目标检测)

深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
GPU架构（1.2）--GPU SoC 中的 CPU 架构小蘑菇二号手把手教你学 GPU SoC 芯片智能电视
目录详细介绍GPUSoC中的CPU架构1.CPU核心概述ARMCortex-A72ARMCortex-A762.多线程处理多核架构多线程支持3.任务调度任务调度器动态调度4.内存管理内存层次结构内存管理技术5.接口和通信总线接口I/O接口6.功耗和热管理功耗优化热管理7.应用实例边缘计算图形处理深度学习结语详细介绍GPUSoC中的CPU架构GPUSoC不仅集成了高性能的GPU，还集成了高性能的CP
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
【3D目标检测】YOLO3D 基于图像的3D目标检测算法 BILLY BILLY YOLOv8系列 3d 目标检测 YOLO
参考文档：https://ruhyadi.github.io/project/computer-vision/yolo3d/代码：https://github.com/ruhyadi/yolo3d-lightning本次分享将会从以下四个方面展开：物体检测模型中的算法选择单目摄像头下的物体检测神经网络训练预测参数的设计模型训练与距离测算1.物体检测模型中的算法选择物体检测（ObjectDetect
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测，对预测结果计算精确度和召回率及F1分数 qwe352633 python
importtorchimportnumpyasnpimporttorch.nnasnnfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_scoredata=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1
MixRec: Heterogeneous Graph Collaborative Filtering UnknownBody Recommendation 人工智能
本文是深度学习相关文章，针对《MixRec:HeterogeneousGraphCollaborativeFiltering》的翻译。MixRec：异构图协同过滤摘要1引言2前言3方法4评估5相关工作6结论摘要对于现代推荐系统来说，使用低维潜在表示来嵌入用户和基于他们观察到的交互的项目已经变得司空见惯。然而，许多现有的推荐模型主要是为粗粒度和同质交互而设计的，这限制了它们在两个关键维度上的有效性。
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测，对预测结果计算精确度和召回率及F1分数〖是♂我〗 python
代码：importtorchimportnumpyasnpimporttorch.nnasnnfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_score#定义数据：x_data是特征，y_data是标签（目标值）data=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39
深度学习论文: Cultivated Land Extraction from High-Resolution Remote Sensing Image mingo_敏 Paper Reading Deep Learning Instance Segmentation python 人工智能机器学习
深度学习论文:CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImageTheWinningSolutiontotheiFLYTEKChallenge2021CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImagePDF:https://arxiv.org/pdf/22
大模型开发流程及项目实战辣椒种子机器学习人工智能
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷机器小乙人工智能
✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。”这位深度学习先驱的论断，不仅直指ChatGPT等明星产品的技术天花板，更揭示了下一代AI进化的核心路径——构建理解物理世界的“世界模型”（WorldModel）。作为Meta人工智能实验室负责人，
【小白学AI系列】NLP 核心知识点（五）Transformer介绍 Blankspace空白人工智能自然语言处理 transformer
TransformerTransformer是一种基于自注意力机制（Self-AttentionMechanism）的深度学习模型，首次由Vaswani等人于2017年在论文《AttentionisAllYouNeed》中提出。与RNN和LSTM不同，Transformer不需要依靠序列顺序进行递归，而是通过全局注意力机制一次性处理整个输入序列，从而具备了更高的计算效率和更强的并行化能力。Tran
Day31-【AI思考】-深度学习方法论全解析——科学提升学习效率的终极指南一个一定要撑住的学习者 #AI深度思考学习方法人工智能
文章目录深度学习方法论全解析——科学提升学习效率的终极指南**一、影子跟读法（Shadowing）——听力突破核武器****二、番茄工作法（Pomodoro）——时间管理手术刀****三、费曼技巧（FeynmanTechnique）——知识内化加速器****四、康奈尔笔记（CornellNotes）——信息处理引擎**效能倍增组合技常见问题解决方案深度学习方法论全解析——科学提升学习效率的终极指南
python图像差分法目标检测_OpenCV实现帧差法检测运动目标 weixin_39708854 python图像差分法目标检测
今天的目标是用OpenCV实现对运动目标的检测，这里选用三帧帧差法。代码如下：#include#include#include#include#includedoubleThreshold_index=0;constintCONTOUR_MAX_AERA=200;voidtrackbar(intpos){Threshold_index=(double)pos;}intmain(intargc,ch
pytorch实现简单的情感分析算法纠结哥_Shrek pytorch 人工智能 python
在PyTorch中实现中文情感分析算法通常涉及以下几个步骤：数据预处理、模型定义、训练和评估。下面是一个简单的实现示例，使用LSTM模型进行中文情感分析。1.数据预处理首先，我们需要对中文文本进行分词，并将文本转换为数值形式（如词向量）。可以使用jieba进行分词，并使用torchtext或自定义的词汇表将词语转换为索引。importtorchimporttorch.nnasnnimporttor
pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）纠结哥_Shrek pytorch transformer bert
以下是一个完整的词嵌入（WordEmbedding）示例代码，使用modelscope下载tiansz/bert-base-chinese模型，并通过transformers加载模型，获取中文句子的词嵌入。frommodelscope.hub.snapshot_downloadimportsnapshot_downloadfromtransformersimportBertTokenizer,Be
pytorch基于GloVe实现的词嵌入纠结哥_Shrek pytorch 人工智能 python
PyTorch实现GloVe（GlobalVectorsforWordRepresentation）的完整代码，使用中文语料进行训练，包括共现矩阵构建、模型定义、训练和测试。1.GloVe介绍基于词的共现信息（不像Word2Vec使用滑动窗口预测）适合较大规模的数据（比Word2Vec更稳定）学习出的词向量能捕捉语义信息（如类比关系）importtorchimporttorch.nnasnnimp
PyTorch中的unsqueeze函数(自用) 黯岚岚岚岚岚 pytorch pytorch python 经验分享
前言最近在学习swin_transformer的模型搭建，其中用到了广播机制，在理解广播机制的过程中发现自己对torch.unsqueeze()函数比较困惑，所以做了个小实验帮助自己理解。问题阐述我们都知道，torch.unsqueeze()函数的作用是拓展张量维度，那么在不同位置拓展之后，原数据是怎样排列的呢？下面进入实验部分。实验>>>importtorch>>>>>>a=torch.Tens
Faceboxes pytorch代码解读(一) box_utils.py(上篇) Faded浩 pytorch 深度学习神经网络 python 算法
Faceboxespytorch代码解读(一)box_utils.py（上篇）有幸读到ShifengZhang老师团队的人脸检测论文，感觉对自己的人脸学习论文十分有帮助。通过看别人的paper,学习别人的代码，能够使得我们对人脸检测算法的学习有更近一步的理解。但是在学习的时候发现，自己看别人的代码是一个耗时而又头疼的事情。毕竟每个人的思路都不一样，跟着别人的思路走确实不容易。所以希望能够分享一下自
图像超分，提高图像分辨率的方法和工具风暴之零 python 图像处理深度学习
图像超分是一种图像处理技术，旨在提高图像的分辨率，使其具有更高的清晰度和细节。这一技术通常用于图像重建、图像恢复、图像增强等领域，可以帮助我们更好地理解和利用图像信息。图像超分技术可以通过多种方法实现，包括插值算法、深度学习等。其中，深度学习的方法在近年来得到了广泛的关注和应用。基于深度学习的图像超分技术，可以利用深度神经网络学习图像的高频部分，从而提高了图像的分辨率和清晰度。总结：传统方法效果不
【python】【PyTorch】详细中文解释unsqueeze，代码和代码解读资源存储库笔记算法 python 开发语言
目录【python】【PyTorch】详细中文解释unsqueeze，代码和代码解读unsqueeze()函数的作用：语法：unsqueeze()操作示例：示例1：将一个一维张量转换为二维张量示例2：在最后一维插入一个新维度示例3：负索引插入维度示例4：将二维张量转为三维张量总结：【python】【PyTorch】详细中文解释unsqueeze，代码和代码解读在PyTorch中，unsqueeze
深度学习-笔记1 深度学习神经网络
刚开始接触深度学习相关内容，在这儿做一个笔记：网址：https://gitee.com/paddlepaddle/PaddleNLPpaddle-nlp是一个自然语言处理NLP方面的工具包(代码库)ERNIEERNIE是百度基于BERT改进的预训练大模型，结合了Transformer架构和知识增强机制。整体上可以分为预训练模型层和任务适配层，预训练模型层负责学习通用的语言知识和语义表示，任务适配层
深度学习之核函数 fpcc AI及算法 ai
深度学习之核函数在机器学习中，常看到多项式核函数、高斯核函数，那什么叫核函数（KernelFunction，或者KernelTrick）呢？它有什么用呢。支持向量机通过某非线性变换φ(x)，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数K(x,x′)，它恰好等于在高维空间中这个内积，即K(x,x′)=。那么支持向量机就不用
深度学习模型在汽车自动驾驶领域的应用 eso1983 深度学习汽车自动驾驶
汽车自动驾驶是一个高度复杂的系统，深度学习和计算技术在其中扮演核心角色。今天简单介绍一下自动驾驶领域常用的深度学习模型及其计算原理的解析。1.深度学习模型分类及应用场景1.1视觉感知模型CNN（卷积神经网络）应用：图像分类、物体检测（车辆、行人、交通标志）、语义分割（道路、车道线）。典型模型：YOLO：实时目标检测，低延迟特性适合自动驾驶。MaskR-CNN：结合检测与像素级分割，用于精确场景理解
跨平台物联网漏洞挖掘算法评估框架设计与实现申报书上 XLYcmy 漏洞挖掘网络安全漏洞挖掘物联网项目申报跨架构静态分析固件
本研究的研究目的主要有以下两个：1、基于此领域的相关方法，通过实验找出各个架构的最优方法2、通过设计实验，比较跨架构解决方案和各架构最优方法组合解决方案在函数识别、漏洞挖掘上的优劣性一、项目技术路线（1）构建统一规范全面的多架构物联网设备二进制程序数据集（2）针对跨架构下的二进制程序，利用逆向工具提取为图、抽象语法树等中间语言，对于不同中间语言，选择合适的深度学习方法提取出中间语言数据结构的特征，
基于Pyhton的人脸识别（Python 3.12+face_recognition库） F2022697486 python 人工智能开发语言
使用Python进行人脸编码和比较简介在这个教程中，我们将学习如何使用Python和face_recognition库来加载图像、提取人脸编码，并比较两个人脸是否相似。face_recognition库是一个强大的工具，它基于dlib的深度学习模型，可以轻松实现人脸检测和识别功能。本教程适合初学者，我们将通过一个简单的项目来了解这个库的基本用法和环境配置。代码示例importface_recogn
《DeepSeek-R1 问世，智能搜索领域迎来新变革》黑金IT 智能搜索
DeepSeek-R1是由DeepSeek公司开发的一款创新型人工智能模型，自2024年5月7日发布以来，迅速在AI领域引起广泛关注。该模型凭借其卓越的语言理解能力、高效的数据处理能力、自适应学习能力、高安全性与可靠性以及广泛的应用场景与拓展性，在众多人工智能模型中脱颖而出。DeepSeek-R1的核心特点强大的语言理解能力：DeepSeek-R1采用先进的深度学习算法，能够精准解析复杂的语义结构
AI绘画关键词（咒语）分析与热点研究集eee AI作画 midjourney chatgpt 人工智能 prompt text2img stable diffusion
语义文本图像生成技术关键词分析与热点研究一、研究背景与研究意义随着深度学习的发展，语义文本到图像的生成技术已经取得长足进步，AI绘画也因此快速崛起。只需输入关键词，AI系统就能自动生成符合语义描述的图像，这一技术的出现,使绘画的创作方式发生革命性变化。目前主流的AI绘画模型有Midjourney、Stablediffusion和文心一格等，其使用方式多为输入一段含有图片描述的“prompt（指令）
CondaValueError: Malformed version string ‘~‘: invalid character(s). 椰椰荔枝糖 python conda
这个错误通常表示conda命令中使用了无效的版本字符串，其中包含了不允许的字符。在这种情况下，提到了波浪号~，它可能被解释为无效字符。尝试使用一个有效的版本号来安装PyTorchLightning，例如：condainstallpytorch-lightning这会安装最新版本的PyTorchLightning。如果需要特定版本的PyTorchLightning，可以指定版本号：condainst
基于深度学习的大规模模型训练 SEU-WYL 深度学习dnn 深度学习人工智能 dnn
基于深度学习的大规模模型训练涉及训练具有数百万甚至数十亿参数的深度神经网络，以处理复杂的任务，如自然语言处理、计算机视觉和语音识别。以下是关于基于深度学习的大规模模型训练的详细介绍：1.背景和动机数据和模型规模增长：随着数据量和模型复杂度的增加，传统的单机或小规模集群训练难以满足需求。计算资源需求：大规模模型训练需要大量计算资源和存储，单一设备无法满足。任务复杂性：处理复杂任务（如GPT-3、BE
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修