繁星意未平

基于paddlepaddle的yolo基本实现

引言

在这篇博客中，我们将深入探讨如何使用PaddlePaddle来实现YOLO（You Only Look Once）模型。YOLO是一种流行的实时目标检测算法，它以其速度和准确性而闻名。我们将使用ResNet18作为骨干网络，并一步步构建整个模型。

数据集：https://aistudio.baidu.com/datasetdetail/94809

构建骨干网络：ResNet18

首先，我们从构建骨干网络ResNet18开始。ResNet（残差网络）通过引入残差学习来解决深层网络中的退化问题。在这个模型中，我们使用了多个卷积层、批归一化（Batch Normalization）、ReLU激活函数和下采样来构建网络。每一层的细节如下所示：

初始卷积层和池化：这一层使用了一个大的卷积核（7x7）和步长为2，以及一个最大池化层，以减小特征图的尺寸并提取初始特征。
残差块：ResNet的核心是残差块，它允许信息直接从早期层传递到后期层。在这个模型中，我们有多个残差块，每个块包含两个3x3卷积层，后跟批归一化和ReLU激活。
下采样：在某些残差块之后，我们使用步长为2的卷积进行下采样，以减少特征图的尺寸并增加深度。

import paddle
import paddle.nn as nn


# 定义一个名为ResNet18的自定义神经网络类，继承自nn.Layer
class ResNet18(nn.Layer):
    def __init__(self, in_channels=3):
        super().__init__()

        # 第一层卷积层，输入通道数为in_channels，输出通道数为64，卷积核大小为7x7，步长为2，填充为3
        self.conv1 = nn.Conv2D(in_channels=in_channels, out_channels=64, kernel_size=7, stride=2, padding=3)
        # 最大池化层，池化核大小为3x3，步长为2，填充为1
        self.maxpool = nn.MaxPool2D(kernel_size=3, stride=2, padding=1)

        # 定义第2层的第1个卷积层，输入通道数为64，输出通道数为64，卷积核大小为3x3，步长为1，填充为1
        self.conv2_1 = nn.Conv2D(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.norm2_1 = nn.BatchNorm2D(num_features=64)  # 批量归一化层
        self.relu2_1 = nn.ReLU()  # ReLU激活函数

        # 定义第2层的第2个卷积层，输入通道数为64，输出通道数为64，卷积核大小为3x3，步长为1，填充为1
        self.conv2_2 = nn.Conv2D(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.norm2_2 = nn.BatchNorm2D(num_features=64)
        self.relu2_2 = nn.ReLU()

        # 定义第3层的第1个卷积层，输入通道数为64，输出通道数为64，卷积核大小为3x3，步长为1，填充为1
        self.conv3_1 = nn.Conv2D(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.norm3_1 = nn.BatchNorm2D(num_features=64)
        self.relu3_1 = nn.ReLU()

        # 定义第3层的第2个卷积层，输入通道数为64，输出通道数为64，卷积核大小为3x3，步长为1，填充为1
        self.conv3_2 = nn.Conv2D(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.norm3_2 = nn.BatchNorm2D(num_features=64)
        self.relu3_2 = nn.ReLU()

        # 定义第4层的第1个卷积层，输入通道数为64，输出通道数为128，卷积核大小为3x3，步长为2，填充为1
        self.conv4_1 = nn.Conv2D(in_channels=64, out_channels=128, kernel_size=3, stride=2, padding=1)
        self.norm4_1 = nn.BatchNorm2D(num_features=128)
        self.relu4_1 = nn.ReLU()

        # 定义第4层的第2个卷积层，输入通道数为128，输出通道数为128，卷积核大小为3x3，步长为1，填充为1
        self.conv4_2 = nn.Conv2D(in_channels=128, out_channels=128, kernel_size=3, stride=1, padding=1)
        self.norm4_2 = nn.BatchNorm2D(num_features=128)
        self.relu4_2 = nn.ReLU()

        # 下采样操作，将第3层的特征图尺寸减半，用于与第4层的特征图相加
        self.downsample3_4 = nn.Conv2D(in_channels=64, out_channels=128, kernel_size=1, stride=2, padding=0)

        # 定义第5层的第1个卷积层，输入通道数为128，输出通道数为128，卷积核大小为3x3，步长为1，填充为1
        self.conv5_1 = nn.Conv2D(in_channels=128, out_channels=128, kernel_size=3, stride=1, padding=1)
        self.norm5_1 = nn.BatchNorm2D(num_features=128)
        self.relu5_1 = nn.ReLU()

        # 定义第5层的第2个卷积层，输入通道数为128，输出通道数为128，卷积核大小为3x3，步长为1，填充为1
        self.conv5_2 = nn.Conv2D(in_channels=128, out_channels=128, kernel_size=3, stride=1, padding=1)
        self.norm5_2 = nn.BatchNorm2D(num_features=128)
        self.relu5_2 = nn.ReLU()

        # 定义第6层的第1个卷积层，输入通道数为128，输出通道数为256，卷积核大小为3x3，步长为2，填充为1
        self.conv6_1 = nn.Conv2D(in_channels=128, out_channels=256, kernel_size=3, stride=2, padding=1)
        self.norm6_1 = nn.BatchNorm2D(num_features=256)
        self.relu6_1 = nn.ReLU()

        # 定义第6层的第2个卷积层，输入通道数为256，输出通道数为256，卷积核大小为3x3，步长为1，填充为1
        self.conv6_2 = nn.Conv2D(in_channels=256, out_channels=256, kernel_size=3, stride=1, padding=1)
        self.norm6_2 = nn.BatchNorm2D(num_features=256)
        self.relu6_2 = nn.ReLU()

        # 下采样操作，将第5层的特征图尺寸减半，用于与第6层的特征图相加
        self.downsample5_6 = nn.Conv2D(in_channels=128, out_channels=256, kernel_size=1, stride=2, padding=0)

        # 定义第7层的第1个卷积层，输入通道数为256，输出通道数为256，卷积核大小为3x3，步长为1，填充为1
        self.conv7_1 = nn.Conv2D(in_channels=256, out_channels=256, kernel_size=3, stride=1, padding=1)
        self.norm7_1 = nn.BatchNorm2D(num_features=256)
        self.relu7_1 = nn.ReLU()

        # 定义第7层的第2个卷积层，输入通道数为256，输出通道数为256，卷积核大小为3x3，步长为1，填充为1
        self.conv7_2 = nn.Conv2D(in_channels=256, out_channels=256, kernel_size=3, stride=1, padding=1)
        self.norm7_2 = nn.BatchNorm2D(num_features=256)
        self.relu7_2 = nn.ReLU()

        # 定义第8层的第1个卷积层，输入通道数为256，输出通道数为512，卷积核大小为3x3，步长为2，填充为1
        self.conv8_1 = nn.Conv2D(in_channels=256, out_channels=512, kernel_size=3, stride=2, padding=1)
        self.norm8_1 = nn.BatchNorm2D(num_features=512)
        self.relu8_1 = nn.ReLU()

        # 定义第8层的第2个卷积层，输入通道数为512，输出通道数为512，卷积核大小为3x3，步长为1，填充为1
        self.conv8_2 = nn.Conv2D(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1)
        self.norm8_2 = nn.BatchNorm2D(num_features=512)
        self.relu8_2 = nn.ReLU()

        # 下采样操作，将第7层的特征图尺寸减半，用于与第8层的特征图相加
        self.downsample7_8 = nn.Conv2D(in_channels=256, out_channels=512, kernel_size=1, stride=2, padding=0)

        # 定义第9层的第1个卷积层，输入通道数为512，输出通道数为512，卷积核大小为3x3，步长为1，填充为1
        self.conv9_1 = nn.Conv2D(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1)
        self.norm9_1 = nn.BatchNorm2D(num_features=512)
        self.relu9_1 = nn.ReLU()

        # 定义第9层的第2个卷积层，输入通道数为512，输出通道数为512，卷积核大小为3x3，步长为1，填充为1
        self.conv9_2 = nn.Conv2D(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1)
        self.norm9_2 = nn.BatchNorm2D(num_features=512)
        self.relu9_2 = nn.ReLU()

    # 定义前向传播方法，接受输入x
    def forward(self, x):
        x = self.conv1(x)  # 第1层卷积
        x = self.maxpool(x)  # 最大池化

        h = x  # 将当前特征图保存在h中，用于后续的跳跃连接

        x = self.conv2_1(x)  # 第2层的第1个卷积
        x = self.norm2_1(x)  # 批量归一化
        x = self.relu2_1(x)  # ReLU激活

        x = self.conv2_2(x)  # 第2层的第2个卷积
        x = self.norm2_2(x)  # 批量归一化
        x = self.relu2_2(x + h)  # 加上跳跃连接并经过ReLU激活

        h = x  # 将当前特征图保存在h中

        x = self.conv3_1(x)  # 第3层的第1个卷积
        x = self.norm3_1(x)  # 批量归一化
        x = self.relu3_1(x)  # ReLU激活

        x = self.conv3_2(x)  # 第3层的第2个卷积
        x = self.norm3_2(x)  # 批量归一化
        x = self.relu3_2(x + h)  # 加上跳跃连接并经过ReLU激活

        h = x  # 将当前特征图保存在h中

        x = self.conv4_1(x)  # 第4层的第1个卷积
        x = self.norm4_1(x)  # 批量归一化
        x = self.relu4_1(x)  # ReLU激活

        x = self.conv4_2(x)  # 第4层的第2个卷积
        x = self.norm4_2(x)  # 批量归一化
        h = self.downsample3_4(h)  # 第3层到第4层的下采样
        x = self.relu4_2(x + h)  # 加上跳跃连接并经过ReLU激活

        h = x  # 将当前特征图保存在h中

        x = self.conv5_1(x)  # 第5层的第1个卷积
        x = self.norm5_1(x)  # 批量归一化
        x = self.relu5_1(x)  # ReLU激活

        x = self.conv5_2(x)  # 第5层的第2个卷积
        x = self.norm5_2(x)  # 批量归一化
        x = self.relu5_2(x + h)  # 加上跳跃连接并经过ReLU激活

        h = x  # 将当前特征图保存在h中

        x = self.conv6_1(x)  # 第6层的第1个卷积
        x = self.norm6_1(x)  # 批量归一化
        x = self.relu6_1(x)  # ReLU激活

        x = self.conv6_2(x)  # 第6层的第2个卷积
        x = self.norm6_2(x)  # 批量归一化
        h = self.downsample5_6(h)  # 第5层到第6层的下采样
        x = self.relu6_2(x + h)  # 加上跳跃连接并经过ReLU激活

        h = x  # 将当前特征图保存在h中

        x = self.conv7_1(x)  # 第7层的第1个卷积
        x = self.norm7_1(x)  # 批量归一化
        x = self.relu7_1(x)  # ReLU激活

        x = self.conv7_2(x)  # 第7层的第2个卷积
        x = self.norm7_2(x)  # 批量归一化
        x = self.relu7_2(x + h)  # 加上跳跃连接并经过ReLU激活

        h = x  # 将当前特征图保存在h中

        x = self.conv8_1(x)  # 第8层的第1个卷积
        x = self.norm8_1(x)  # 批量归一化
        x = self.relu8_1(x)  # ReLU激活

        x = self.conv8_2(x)  # 第8层的第2个卷积
        x = self.norm8_2(x)  # 批量归一化
        h = self.downsample7_8(h)  # 第7层到第8层的下采样
        x = self.relu8_2(x + h)  # 加上跳跃连接并经过ReLU激活

        h = x  # 将当前特征图保存在h中

        x = self.conv9_1(x)  # 第9层的第1个卷积
        x = self.norm9_1(x)  # 批量归一化
        x = self.relu9_1(x)  # ReLU激活

        x = self.conv9_2(x)  # 第9层的第2个卷积
        x = self.norm9_2(x)  # 批量归一化
        x = self.relu9_2(x + h)  # 加上跳跃连接并经过ReLU激活

        return x  # 返回最终的特征图作为网络的输出

YOLO模型的实现

YOLO模型的核心思想是将目标检测问题转换为单个回归问题。这意味着模型直接在图片上预测边界框和类别概率。

YOLO层：我们在ResNet18的基础上添加了一个YOLO层。这个层包含一个1x1的卷积，用于将深层特征图转换为预测向量。
预测向量：预测向量包含每个网格单元的偏移量、尺寸、置信度和类别概率。

import paddle
import paddle.nn as nn


# 定义一个名为YOLO的自定义神经网络类，继承自nn.Layer
class YOLO(nn.Layer):
    def __init__(self, backbone, channels=512, num_classes=1):
        super().__init__()

        # YOLO模型的主干网络，通常是一个预训练的卷积神经网络，用于特征提取
        self.backbone = backbone

        # 用于预测目标框的卷积层，输入通道数为channels，输出通道数为4（目标框的位置信息） + 1（目标存在的置信度） + num_classes（目标的类别数量）
        self.conv = nn.Conv2D(in_channels=channels, out_channels=4 + 1 + num_classes, kernel_size=1, stride=1,
                              padding=0)

        # 用于将预测的目标框的位置信息中的xy坐标映射到[0, 1]的范围，以表示相对于图像的位置
        self.sigmoid = nn.Sigmoid()

        # 用于确保目标框的宽度和高度始终为正数
        self.relu = nn.ReLU()

    # 定义前向传播方法，接受输入x
    def forward(self, x):
        x = self.backbone(x)  # 通过主干网络提取特征图

        x = self.conv(x)  # 使用卷积层进行目标框的预测

        # 提取目标框的位置信息中的xy坐标，并将其映射到[0, 1]的范围
        offset_xy = self.sigmoid(x[:, :2, :, :])

        # 提取目标框的宽度和高度信息，并确保始终为正数
        wh = self.relu(x[:, 2:4, :, :])

        # 提取目标存在的置信度信息，映射到[0, 1]的范围
        confidence = self.sigmoid(x[:, 4:5, :, :])

        # 提取目标的类别信息，映射到[0, 1]的范围
        classes = self.sigmoid(x[:, 5:, :, :])

        # 返回预测的目标框信息：位置偏移、宽高、置信度和类别概率
        return offset_xy, wh, confidence, classes

数据集处理

import os

data = os.listdir("data/images")
# print(data)

# 划分训练集和测试集
train_data = data[:int(len(data) * 0.8)]
test_data = data[int(len(data) * 0.8):]

# 如果已经存在train.txt和test.txt，先删除
if os.path.exists("train.txt"):
    os.remove("train.txt")
if os.path.exists("test.txt"):
    os.remove("test.txt")

# 写入train.txt和test.txt

with open("train.txt", "w") as f:
    for i in train_data:
        img_path = os.path.join("data/images", i)
        xml_path = os.path.join("data/Annotations", i.replace("jpg", "xml"))
        f.write(img_path + " " + xml_path + "\n")

with open("test.txt", "w") as f:
    for i in test_data:
        img_path = os.path.join("data/images", i)
        xml_path = os.path.join("data/Annotations", i.replace("jpg", "xml"))
        f.write(img_path + " " + xml_path + "\n")

数据集处理

为了训练我们的模型，我们需要准备并处理数据集。我们首先将数据集分为训练集和测试集，然后创建了对应的文本文件来存储图像和标注文件的路径。

数据集类：我们定义了一个MyDataset类，它从给定的文本文件中读取图像和标注，并在需要时应用变换。

import cv2  # 导入OpenCV库用于图像处理
import xml.etree.ElementTree as ET  # 导入ElementTree库用于解析XML
import numpy as np  # 导入NumPy库用于数值计算
import paddle  # 导入PaddlePaddle库
from paddle.io import Dataset  # 导入PaddlePaddle的Dataset类


# 自定义数据集类，继承自PaddlePaddle的Dataset类
class MyDataset(Dataset):
    def __init__(self, txt_path, transform=None):
        super().__init__()
        self.transform = transform  # 数据增强的函数，可选
        self.data = []  # 存储图像和标注文件路径的列表
        with open(txt_path) as f:
            for line in f.readlines():
                self.data.append(line.strip().split(" "))  # 读取txt文件中的每一行，分割为图像路径和XML标注文件路径

    def __getitem__(self, idx):
        im = cv2.imread(self.data[idx][0])  # 读取图像，使用OpenCV库
        gt_bbox = self._get_xml(self.data[idx][1])  # 解析XML标注文件，获取目标框信息
        sample = {"image": im, "gt_bbox": np.array(gt_bbox, dtype=np.float64)}  # 构建样本字典，包括图像和目标框
        if self.transform:
            sample = self.transform(sample)  # 如果定义了数据增强函数，对样本进行数据增强操作
        return sample  # 返回样本字典

    def _get_xml(self, xml_path):
        root = ET.ElementTree(file=xml_path).getroot()  # 解析XML文件获取根节点
        object_list = root.findall("object")  # 查找所有object标签，每个标签对应一个目标物体
        gt_bbox = []  # 存储目标框的列表
        for o in object_list:
            bndbox = o.find("bndbox")  # 查找目标框坐标信息
            xmin = bndbox.find("xmin").text  # 获取xmin标签的文本内容，即目标框的左上角x坐标
            ymin = bndbox.find("ymin").text  # 获取ymin标签的文本内容，即目标框的左上角y坐标
            xmax = bndbox.find("xmax").text  # 获取xmax标签的文本内容，即目标框的右下角x坐标
            ymax = bndbox.find("ymax").text  # 获取ymax标签的文本内容，即目标框的右下角y坐标
            gt_bbox.append([eval(xmin), eval(ymin), eval(xmax), eval(ymax)])  # 将目标框坐标转换为浮点数并添加到列表中
        return gt_bbox  # 返回目标框的列表

    def __len__(self):
        return len(self.data)  # 返回数据集的长度，即样本数量

train_dataset = MyDataset("train.txt")

sample = train_dataset[0]
print(sample["image"].shape)
print(sample["gt_bbox"])

(397, 599, 3)
[[243. 189. 414. 290.]]

数据增强

数据增强是提高模型泛化能力的关键步骤。在本项目中，我们使用了PaddlePaddle的变换库来实现简单的数据增强，例如调整大小、归一化和重新排列维度。

from paddle.vision.transforms import Compose  # 导入Compose类，用于组合多个变换操作
from ppdet.data.transform import operators as ops  # 导入ppdet库中的数据变换操作

# 训练数据的变换操作列表
train_transforms = Compose([
    ops.Resize(target_size=[512, 512], keep_ratio=False),  # 调整图像大小为512x512，不保持宽高比
    ops.NormalizeImage(),  # 对图像进行归一化，将像素值缩放到0到1之间
    ops.Permute(),  # 调整图像通道顺序，通常是从HWC（Height x Width x Channels）到CHW（Channels x Height x Width）
])

# 测试数据的变换操作列表
test_transforms = Compose([
    ops.Resize(target_size=[512, 512], keep_ratio=False),  # 调整图像大小为512x512，不保持宽高比
    ops.NormalizeImage(),  # 对图像进行归一化，将像素值缩放到0到1之间
    ops.Permute(),  # 调整图像通道顺序，通常是从HWC（Height x Width x Channels）到CHW（Channels x Height x Width）
])

train_dataset = MyDataset("train.txt", transform=train_transforms)
test_dataset = MyDataset("test.txt", transform=test_transforms)

批处理函数

为了高效地训练我们的模型，我们定义了一个批处理函数，它将一批数据转换为模型可以理解的格式。

def collate_fn(batch):
    images = []  # 存储图像数据
    gt_bboxs = []  # 存储标注框数据
    for id, item in enumerate(batch):
        for bbox in item["gt_bbox"].tolist():  # 遍历每个样本中的标注框
            gt_bboxs.append([id, 0, *bbox])  # 将标注框的信息添加到gt_bboxs列表中，格式为：[样本ID, 类别ID, xmin, ymin, xmax, ymax]
        images.append(item["image"])  # 将图像添加到images列表中

    images = paddle.to_tensor(np.array(images, dtype=np.float32))  # 将图像列表转换为PaddlePaddle张量

    return images, gt_bboxs  # 返回图像张量和标注框列表


# 创建自定义数据集对象并加载数据
train_dataset = MyDataset("train.txt", transform=train_transforms)

# 创建数据加载器，设置批量大小为4，shuffle参数为True表示在每个epoch开始前对数据进行随机重排
train_loader = paddle.io.DataLoader(train_dataset, batch_size=4, shuffle=True, collate_fn=collate_fn)

# 遍历数据加载器的第一个批次
for batch_id, data in enumerate(train_loader()):
    images, gt_bboxs = data
    print(images.shape)  # 打印图像张量的形状
    print(gt_bboxs)  # 打印标注框列表
    break

辅助函数

我们还实现了一些辅助函数来帮助处理数据和评估模型性能：

gt_bbox2gt_tensor：将标注的边界框转换为训练时使用的张量格式。
pred_tensor2pred_bbox：将模型的输出张量转换为可解释的边界框格式。

def gt_bbox2gt_tensor(gt_bbox, out_h, out_w, in_h, in_w, batch_size, num_classes):
    """
    将边界框数据转换为训练目标检测模型时所需的张量格式。

    gt_bbox: 边界框的列表，每个边界框的格式为 [batch_id, class_id, x1, y1, x2, y2]。
    out_h: 网络输出张量的高度。
    out_w: 网络输出张量的宽度。
    in_h: 输入图像的高度。
    in_w: 输入图像的宽度。
    batch_size: 批量处理的图像数量。
    num_classes: 目标类别的总数。
    """

    # 初始化存储边界框中心位置偏移量的张量。
    offset_xy = paddle.zeros([batch_size, 2, out_h, out_w])

    # 初始化存储边界框宽度和高度的张量。
    wh = paddle.zeros([batch_size, 2, out_h, out_w])

    # 初始化存储边界框存在的置信度的张量。
    confidence = paddle.zeros([batch_size, 1, out_h, out_w])

    # 初始化存储各个类别的张量。
    classes = paddle.zeros([batch_size, num_classes, out_h, out_w])

    # 遍历每个边界框并填充上述张量。
    for box in gt_bbox:
        # 解析边界框的各个组成部分。
        batch_id, class_id, x1, y1, x2, y2 = box

        # 计算边界框中心的 x, y 坐标。
        center_x = (x1 + x2) / 2 / in_w * out_w
        center_y = (y1 + y2) / 2 / in_h * out_h

        # 计算并存储中心位置的偏移量。
        offset_xy[batch_id, 0, int(center_y), int(center_x)] = center_x - int(center_x)
        offset_xy[batch_id, 1, int(center_y), int(center_x)] = center_y - int(center_y)

        # 计算并存储边界框的宽度和高度。
        wh[batch_id, 0, int(center_y), int(center_x)] = (x2 - x1) / in_w * out_w
        wh[batch_id, 1, int(center_y), int(center_x)] = (y2 - y1) / in_h * out_h

        # 在相应位置标记置信度为 1，表示该位置有物体。
        confidence[batch_id, 0, int(center_y), int(center_x)] = 1

        # 标记该物体所属的类别。
        classes[batch_id, class_id, int(center_y), int(center_x)] = 1

    # 返回处理后的张量。
    return offset_xy, wh, confidence, classes

def pred_tensor2pred_bbox(offset_xy, wh, confidence, classes, in_h, in_w, confidence_threshold=0.001):
    """
    将模型输出的张量转换为预测的边界框、置信度和类别信息。

    offset_xy: 形状为 [N, 2, out_h, out_w] 的张量，包含每个网格中心位置的偏移量预测。
    wh: 形状为 [N, 2, out_h, out_w] 的张量，包含每个边界框的宽度和高度预测。
    confidence: 形状为 [N, 1, out_h, out_w] 的张量，表示每个网格单元包含物体的置信度。
    classes: 形状为 [N, num_classes, out_h, out_w] 的张量，表示每个网格单元中物体可能属于各个类别的概率。
    in_h, in_w: 输入图像的高度和宽度。
    confidence_threshold: 置信度阈值，用于确定是否认为网格中包含物体。
    """

    N, _, out_h, out_w = offset_xy.shape  # 提取张量的形状，获取批次大小N和输出特征图的尺寸out_h, out_w。

    object_mask = confidence > confidence_threshold  # 创建一个对象掩码，标识每个网格单元是否包含物体。

    classes = paddle.argmax(classes, axis=1, keepdim=True)  # 对类别预测进行argmax操作，找到每个网格单元最可能的类别。

    x_grid = paddle.arange(0, out_w).reshape([1, -1]) + paddle.zeros([out_h, 1])  # 创建网格的x坐标。
    y_grid = paddle.arange(0, out_h).reshape([-1, 1]) + paddle.zeros([1, out_w])  # 创建网格的y坐标。

    pred_bbox = []  # 初始化用于存储预测边界框的列表。
    pred_scores = []  # 初始化用于存储预测置信度的列表。
    pred_classes = []  # 初始化用于存储预测类别的列表。

    for i in range(N):  # 遍历每个图像样本。
        sub_object_mask = object_mask[i, 0, :, :]  # 获取当前图像的对象掩码。

        # 提取当前图像的偏移量、网格坐标、边界框尺寸、置信度和类别信息。
        o_x = offset_xy[i, 0, :, :][sub_object_mask].numpy()
        o_y = offset_xy[i, 1, :, :][sub_object_mask].numpy()
        x_g = x_grid[sub_object_mask].numpy()
        y_g = y_grid[sub_object_mask].numpy()
        c_x = ((o_x + x_g) / out_w * in_w).tolist()
        c_y = ((o_y + y_g) / out_h * in_h).tolist()
        w = (wh[i, 0, :, :][sub_object_mask].numpy() / out_w * in_w).tolist()
        h = (wh[i, 0, :, :][sub_object_mask].numpy() / out_h * in_h).tolist()
        s = confidence[i, 0, :, :][sub_object_mask].numpy().tolist()
        c = classes[i, 0, :, :][sub_object_mask].numpy().tolist()

        sub_bbox = []
        sub_scores = []
        sub_classes = []
        for j in range(len(o_x)):  # 遍历当前图像中所有检测到的对象。
            # 计算并存储每个边界框的坐标、置信度和类别。
            sub_bbox.append([
                c_x[j] - w[j] / 2,  # 边界框左上角x坐标。
                c_y[j] - h[j] / 2,  # 边界框左上角y坐标。
                c_x[j] + w[j] / 2,  # 边界框右下角x坐标。
                c_y[j] + h[j] / 2  # 边界框右下角y坐标。
            ])
            sub_scores.append(s[j])
            sub_classes.append(c[j])

        pred_bbox.append(sub_bbox)
        pred_scores.append(sub_scores)
        pred_classes.append(sub_classes)

    return pred_bbox, pred_scores, pred_classes  # 返回预测的边界框、置信度和类别信息。

# shape: [out_h, out_w]
x_grid = paddle.arange(0, 7).reshape([1, -1]) + paddle.zeros([7, 1])
y_gride = paddle.arange(0, 7).reshape([-1, 1]) + paddle.zeros([1, 7])
print(x_grid)
print(y_gride)

损失函数

YOLO模型使用了一种特殊的损失函数，它结合了坐标损失、置信度损失和分类损失。

class YOLOLoss(nn.Layer):
    def __init__(self):
        super().__init__()
        # 使用均方误差作为损失函数，不进行求和或平均，以便于后续操作
        self.mse_loss = nn.MSELoss(reduction='none')
        # 设置坐标损失的权重系数
        self.lambda_coord = 5.
        # 设置没有目标的损失的权重系数
        self.lambda_noobj = 0.5

    def forward(self, offset_xy, wh, confidence, classes, gt_offset_xy, gt_wh, gt_confidence, gt_classes):
        # 识别出有物体的网格（目标掩码）
        object_mask = gt_confidence > 0
        # 计算预测的偏移量（offset_xy）与真实值（gt_offset_xy）之间的损失，并仅对有目标的网格求和
        offset_loss = self.mse_loss(offset_xy, gt_offset_xy)[
            (object_mask.astype('float32') + paddle.zeros_like(offset_xy)) > 0].sum()
        # 计算预测的宽高（wh）与真实的宽高（gt_wh）之间的损失，并仅对有目标的网格求和
        wh_loss = self.mse_loss(paddle.sqrt(wh + 1e-6), paddle.sqrt(gt_wh + 1e-6))[
            (object_mask.astype('float32') + paddle.zeros_like(offset_xy)) > 0].sum()
        # 计算预测的置信度（confidence）与真实置信度（gt_confidence）之间的损失
        confidence_loss = self.mse_loss(confidence, gt_confidence)
        # 对有目标的网格中的置信度损失求和
        obj_c_loss = confidence_loss[object_mask].sum()
        # 对没有目标的网格中的置信度损失求和
        noobj_c_loss = confidence_loss[object_mask == False].sum()
        # 计算预测的类别（classes）与真实类别（gt_classes）之间的损失，并仅对有目标的网格求和
        classes_loss = self.mse_loss(classes, gt_classes)[
            (object_mask.astype('float32') + paddle.zeros_like(classes)) > 0].sum()

        # 计算总损失，其中包括坐标损失、有目标的置信度损失、无目标的置信度损失和类别损失
        total_loss = (
                                 offset_loss + wh_loss) * self.lambda_coord + obj_c_loss + noobj_c_loss * self.lambda_noobj + classes_loss

        return total_loss

#测试
offset_xy = paddle.rand([4, 2, 7, 7])
wh = paddle.rand([4, 2, 7, 7])
confidence = paddle.rand([4, 1, 7, 7])
classes = paddle.rand([4, 1, 7, 7])
gt_offset_xy = paddle.rand([4, 2, 7, 7])
gt_wh = paddle.rand([4, 2, 7, 7])
gt_confidence = paddle.rand([4, 1, 7, 7])
gt_classes = paddle.rand([4, 1, 7, 7])
loss = YOLOLoss()
total_loss = loss(offset_xy, wh, confidence, classes, gt_offset_xy, gt_wh, gt_confidence, gt_classes)
print(total_loss)

训练和评估

我们使用了PaddlePaddle的优化器和训练循环来训练模型，并使用了特定的度量标准来评估模型性能。

from ppdet.metrics.map_utils import DetectionMAP

class Metric:
    def __init__(self, num_classes):
        # 初始化检测评估指标类，设置类别数量，并指定类别名称（在这里只有一个类别，标记为'fall'）
        self.d_map = DetectionMAP(num_classes, catid2name={0: 'fall'})

    def __call__(self, pred_bbox, pred_scores, pred_label, gt_bbox, gt_label):
        # 在每次评估前重置检测指标
        self.d_map.reset()
        for i in range(len(pred_bbox)):
            # 更新评估指标，根据预测的边界框、分数、标签和真实的边界框、标签
            self.d_map.update(pred_bbox[i], pred_scores[i], pred_label[i], gt_bbox[i], gt_label[i])

        # 累计计算评估指标
        self.d_map.accumulate()

        # 返回平均精度（mean Average Precision）
        return self.d_map.get_map()

def nms(pred_bbox, pred_scores, pred_classes):
    # 初始化新的预测结果列表
    new_pred_bbox = []
    new_pred_scores = []
    new_pred_classes = []

    for i in range(len(pred_bbox)):
        # 为每个图像添加一个新的结果列表
        new_pred_bbox.append([])
        new_pred_scores.append([])
        new_pred_classes.append([])
        # 检查是否有预测边界框
        if len(pred_bbox[i]) > 0:
            # 应用非极大值抑制（NMS），以减少重叠的边界框
            idxs = paddle.vision.ops.nms(boxes=paddle.to_tensor(pred_bbox[i]))
            for j in idxs:
                # 将NMS后的边界框、分数、类别添加到新列表中
                new_pred_bbox[-1].append(pred_bbox[i][j])
                new_pred_scores[-1].append(pred_scores[i][j])
                new_pred_classes[-1].append(pred_classes[i][j])
    # 返回经过NMS处理后的预测结果
    return new_pred_bbox, new_pred_scores, new_pred_classes

import paddle

# 基础配置
num_classes = 1  # 设置类别数量为1
batch_size = 32  # 设置批量大小为32
learning_rate = 0.01  # 设置学习率为0.01

# 模型
resnet18 = ResNet18()  # 创建一个ResNet18作为YOLO模型的骨干网络
yolo = YOLO(backbone=resnet18, channels=512, num_classes=num_classes)  # 使用ResNet18骨干网络创建YOLO模型

# 数据
# 创建训练数据集，指定数据集文件和转换函数
train_dataset = MyDataset('train.txt', train_transforms)
# 创建训练数据加载器，用于在训练过程中加载数据
train_dataloader = paddle.io.DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
# 创建测试数据集，指定数据集文件和转换函数
test_dataset = MyDataset('test.txt', test_transforms)
# 创建测试数据加载器，用于在测试过程中加载数据
test_dataloader = paddle.io.DataLoader(test_dataset, batch_size=1, collate_fn=collate_fn)

# 评价函数
metric = Metric(num_classes=num_classes)  # 初始化评估指标对象

# 损失函数
loss_fn = YOLOLoss()  # 初始化YOLO损失函数

# 优化器
# 使用Adam优化器，并设置学习率和优化的参数
optimizer = paddle.optimizer.Adam(learning_rate=learning_rate, parameters=yolo.parameters())

# 设置训练的总轮数
epochs = 50

for epoch in range(epochs):
    # 开始训练模式
    yolo.train()
    train_total_loss = 0
    train_total_ap = 0
    print('----------------------- Train -----------------------')
    for batch_id, batch in enumerate(train_dataloader):
        # 从模型中获取预测的边界框、宽高、置信度和类别
        offset_xy, wh, confidence, classes = yolo(batch[0])
        # 获取输入图片的尺寸信息
        N, _, in_h, in_w = batch[0].shape
        # 获取预测结果的尺寸信息
        out_h, out_w = offset_xy.shape[2:]
        # 将真实的标注信息转换为用于训练的张量格式
        gt_offset_xy, gt_wh, gt_confidence, gt_classes = gt_bbox2gt_tensor(batch[1], out_h, out_w, in_h, in_w, N, num_classes)
        # 将预测得到的张量转换为预测框
        pred_bbox, pred_scores, pred_classes = pred_tensor2pred_bbox(offset_xy, wh, confidence, classes, in_h, in_w, 0.001)
        # 应用非极大值抑制（NMS）
        pred_bbox, pred_scores, pred_classes = nms(pred_bbox, pred_scores, pred_classes)

        # 计算损失
        step_loss = loss_fn(offset_xy, wh, confidence, classes, gt_offset_xy, gt_wh, gt_confidence, gt_classes)
        # 反向传播
        step_loss.backward()
        # 更新模型参数
        optimizer.step()
        # 清除梯度
        optimizer.clear_grad()

        # 将数据读取的标注信息转换为需要的格式
        gt_bbox = []
        gt_label = []
        for j in range(N):
            gt_bbox.append([])
            gt_label.append([])
        for item in batch[1]:
            gt_bbox[item[0]].append(item[2:])
            gt_label[item[0]].append(item[1])

        # 计算平均精度（AP）
        ap = metric(pred_bbox, pred_scores, pred_classes, gt_bbox, gt_label)
        # 记录累计损失和平均精度
        train_total_loss += step_loss.item()
        train_total_ap += ap

        # 定期打印训练状态
        if batch_id % 50 == 0:
            print(f'Train epoch/epochs:{epoch + 1}/{epochs} batch_id/total_batch:{batch_id + 1}/{len(train_dataloader)} loss:{step_loss.item()} ap: {ap}')
    # 每个epoch结束后打印总体训练状态
    print(f'Train epoch/epochs:{epoch + 1}/{epochs} loss:{train_total_loss / len(train_dataloader)} ap:{train_total_ap / len(train_dataloader)}')
    # 保存模型参数
    paddle.save(yolo.state_dict(), 'yolo.pdparams')

    # 开始测试模式
    yolo.eval()
    test_total_loss = 0
    test_total_ap = 0
    print('----------------------- Test -----------------------')
    for batch_id, batch in enumerate(test_dataloader):
        # 同样的过程应用于测试数据
        offset_xy, wh, confidence, classes = yolo(batch[0])
        N, _, in_h, in_w = batch[0].shape
        out_h, out_w = offset_xy.shape[2:]
        gt_offset_xy, gt_wh, gt_confidence, gt_classes = gt_bbox2gt_tensor(batch[1], out_h, out_w, in_h, in_w, N, num_classes)
        pred_bbox, pred_scores, pred_classes = pred_tensor2pred_bbox(offset_xy, wh, confidence, classes, in_h, in_w, 0.001)
        pred_bbox, pred_scores, pred_classes = nms(pred_bbox, pred_scores, pred_classes)

        step_loss = loss_fn(offset_xy, wh, confidence, classes, gt_offset_xy, gt_wh, gt_confidence, gt_classes)
        gt_bbox = []
        gt_label = []
        for j in range(N):
            gt_bbox.append([])
            gt_label.append([])
        for item in batch[1]:
            gt_bbox[item[0]].append(item[2:])
            gt_label[item[0]].append(item[1])

        ap = metric(pred_bbox, pred_scores, pred_classes, gt_bbox, gt_label)
        test_total_loss += step_loss.item()
        test_total_ap += ap

    # 打印测试结果
    print(f'test epoch/epochs:{epoch + 1}/{epochs} loss:{test_total_loss / len(test_dataloader)} ap:{test_total_ap / len(test_dataloader)}')

模型预测和可视化

最后，我们展示了如何使用训练好的模型进行预测，并在图像上可视化预测的边界框。

import cv2
import matplotlib.pyplot as plt
import os

num_classes = 1  # 设置类别数量为1
# 创建YOLO模型实例
resnet18 = ResNet18()
yolo = YOLO(backbone=resnet18, channels=512, num_classes=num_classes)
# 加载训练好的模型参数
yolo.set_state_dict(paddle.load('yolo.pdparams'))

# 准备测试数据
test_dataset = MyDataset('test.txt', test_transforms)
idx = 1  # 选择要可视化的样本索引

# 获取指定索引的测试样本
sample = test_dataset[idx]
# 读取图片并调整尺寸到模型输入尺寸
image = cv2.imread(test_dataset.data[idx][0])
image = cv2.resize(image, dsize=[512, 512])
# 使用matplotlib显示原始图片
plt.imshow(image)
plt.show()

# 将图片输入模型进行预测
offset_xy, wh, confidence, classes = yolo(paddle.to_tensor([sample['image']]))
# 根据预测结果生成预测的边界框
pred_bbox, pred_scores, pred_classes = pred_tensor2pred_bbox(offset_xy, wh, confidence, classes, 512, 512, 0.001)
# 应用非极大值抑制（NMS）处理重叠的边界框
pred_bbox, pred_scores, pred_classes = nms(pred_bbox, pred_scores, pred_classes)

# 在图片上标记真实边界框（绿色框）
for box in sample['gt_bbox']:
    cv2.rectangle(image, (int(box[0]), int(box[1])), (int(box[2]), int(box[3])), (0, 255, 0), 4)

# 在图片上标记预测的边界框（红色框）
for box in pred_bbox[0]:
    cv2.rectangle(image, (int(box[0]), int(box[1])), (int(box[2]), int(box[3])), (0, 0, 255), 4)

# 使用matplotlib显示标记后的图片
plt.imshow(image)
plt.show()

你可能感兴趣的:(AI,paddlepaddle,YOLO,人工智能)

maven生成html单元测试报告,Maven中配置生成单元测试报告配置 yoh sk
对junit单元测试的报告：1.-------------------------------------------------------2.TESTS3.-------------------------------------------------------4.Runningcom.liuyan.account.mail.AccountImageServiceImplTest5.---
openeuler 22.03 lts sp4 使用 kubeadm 部署 k8s-v1.28.2 高可用集群月巴左耳东 openeuler Kubernetes kubernetes
文章目录@[toc]废话篇这篇文章什么时候写的为什么是openeuler为什么是22.03ltssp4高可用架构题外话干活篇环境介绍系统初始化相关关闭防火墙关闭selinux关闭swap开启内核模块开启模块自动加载服务sysctl内核参数调整清空iptables规则安装各种依赖和工具修改.bashrc文件安装kubeadm和kubelet简化kubectl命令启动kubelet安装containe
自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测知识鱼丸 machine learning 人工智能
在TensorFlow中实现逻辑回归、保存模型并加载模型进行预测的过程可以分为以下几个步骤：准备数据：创建或加载你的自定义数据集。构建逻辑回归模型。训练模型。保存模型。加载模型。使用加载的模型进行预测。importtensorflowastfimportnumpyasnp#1.准备数据#示例：生成一些随机数据np.random.seed(0)X_train=np.random.rand(100,3
使用PaddlePaddle实现逻辑回归：从训练到模型保存与加载 Luzem0319 paddlepaddle 逻辑回归人工智能
1.引入必要的库首先，需要引入必要的库。PaddlePaddle用于构建和训练模型，pandas和numpy用于数据处理，matplotlib用于结果的可视化。importpaddleimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt2.加载自定义数据集假设有一个CSV文件custom_dataset.csv，其中包含特征（自变量
2025年02月01日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：oumi项目地址url：https://github.com/oumi-ai/oumi项目语言：Python历史star数：544今日star数：103项目维护者：xrdaukar,oelachqar,taenin,wizeng23,kaisopos项目简介：一切你需要的来构建最先进的基础模型，端到端。项目名称：Qwen2.5-VL项目地址url：https://github.com/Q
8647 实现图的存储结构软工在逃男大学生 SCAU_OJ_DS 算法 c++c语言数据结构
SCAU数据结构OJ第六章文章目录8647实现图的存储结构8647实现图的存储结构输入样例4412133441输出样例0110000000011000代码如下：#include#includeusingnamespacestd;intmain(){intn,m,i,j,a,b;intMap[100][100]={0};cin>>n>>m;for(i=0;i>a>>b;Map[a][b]=1;}fo
Meta技术滥用背后的道德危机 XianxinMao 人工智能
标题：Meta技术滥用背后的道德危机文章信息摘要：Meta内部存在技术滥用和道德模糊的深层次问题，员工可能通过AI作弊掩盖能力不足，反映了公司文化中的压力与竞争。Meta的“有害内容检测”算法虽技术精确，却意外将公司使命标记为“有害”，揭示了内部逻辑的矛盾。大公司中，创新和真相常被公司利益和官僚主义压制，程序员的理想主义与现实文化冲突，妥协有时不可避免。尽管如此，程序员应保持对技术的热爱，尤其是使
【学术会议征稿-第二届生成式人工智能与信息安全学术会议（GAIIS 2025）】人工智能与信息安全的魅力禁默学术会议人工智能
重要信息时间：2025年2月21日-23日地点：中国杭州官网：http://www.ic-gaiis.org简介2025年第二届生成式人工智能与信息安全将于2025年2月21日-23日在中国杭州举行。主要围绕“生成式人工智能与信息安全”的最新研究展开，紧密聚焦AI的热点和难点问题，深入剖析信息安全核心技术。生成式人工智能与信息安全的关系主要体现在以下几个方面：数据安全：生成式人工智能通常需要大量的
DeepSeek点燃国产大模型斗志，RAG等核心技术被重估量子位
原创关注前沿科技量子位黑马DeepSeek-R1的崛起，给外国网友上演了一场来自东方的震撼。一边，OpenAI和Claude都破了大防，一个声讨“窃取”，一个嘲讽“落后”，两家水火不容的对手竟然以这种戏剧性的方式，鲜有地达成了一致。另一边，微软、亚马逊等云服务厂商，甚至英伟达都开启了“真香”模式，你追我赶地在自家云平台上线DeepSeek-R1。但不管破防还是真香，DeepSeek-R1都已经成为
牛客周赛 Round 65（A—G） Auto114514 牛客竞赛算法
比赛链接牛客周赛Round65A题思路谁的单价低就全选哪一个。代码#includeusingnamespacestd;#defineintlonglongtypedefpairpii;constintN=2e5+5,M=1e6+5;constintmod=1e9+7;constintinf=0x3f3f3f3f3f3f3f3f;intn,a,b;voidsolve(){cin>>n>>a>>b;i
《解锁AI黑科技：数据分类聚类与可视化》人工智能深度学习数据挖掘
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
看深度求索如何思索自己的未来 tuan_zhang 东方艾艾与探宇计划绝密芯片计划战略欺骗太空探索人工智能算法攻坚工业软件
深度求索（DeepSeek）的崛起无疑是AI领域的一次现象级突破，但其未来能否持续"狂飙"，需从技术、生态、商业和行业环境四个维度进行系统性分析：一、技术护城河的虚实验证1.动态优化技术的含金量：将模型迭代周期压缩至周级别需突破分布式训练瓶颈。其公布的训练效率提升数据（30%时间缩短、50%推理加速）若经第三方验证，可能重构行业技术标准。对比谷歌TPU+JAX框架实现的20%效率提升，深度求索的技
lidar_camera_calib代码解读-优化部分海滩油炸 SLAM 标定
碎碎念最近在调研一下non-target方式的相机Lidar联合标定，其中包括HKmars实验室开源的项目GitHub-hku-mars/livox_camera_calib:ThisrepositoryisusedforautomaticcalibrationbetweenhighresolutionLiDARandcameraintargetlessscenes.这个项目在刚开始并没有得到我的
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
DeepSeek R1本地化部署与联网功能实战指南：从零搭建智能对话系统 Coderabo python DeepSeek R1
前言在人工智能技术快速发展的今天，如何将先进的对话模型DeepSeekR1部署到本地环境并赋予其联网能力，成为许多开发者和企业关注的重点。本文将深入讲解完整的本地化部署流程，并通过实例代码演示如何为模型添加实时网络访问功能。一、环境准备与基础架构1.1硬件需求推荐配置：NVIDIAGPU（RTX3090或更高）+32GB内存+50GB存储空间最低配置：CPU（支持AVX2指令集）+16GB内存+3
【小白学AI系列】NLP 核心知识点（三）Word2Vec Blankspace空白人工智能自然语言处理 word2vec
Word2Vec定义：Word2Vec是一种将单词转化为向量的技术，基于神经网络模型，它能够将单词的语义关系通过向量空间的距离和方向进行表示。通过Word2Vec，我们可以将单词从一个离散的符号转化为一个稠密的向量（一般是高维的），并且能够捕捉到单词之间的语义关系和相似性。历史来源：Word2Vec由TomasMikolov等人于2013年在谷歌提出，它迅速成为了词向量表示（wordembeddi
postgres--目录System Catalogs IT艺术家-rookie 数据库技术数据库
pg_statistic关于数据库系统（特别是PostgreSQL数据库）中的统计信息目录pg_statistic的说明。统计数据存储：pg_statistic目录存储有关数据库内容的统计数据。这些数据是由ANALYZE命令创建的，并随后被查询优化器使用。需要注意的是，即使这些统计数据是最新的，它们本质上也是近似的。统计数据条目：通常情况下，对于每个已分析的表列，会有一个条目，其中stainher
Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷机器小乙人工智能
✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。”这位深度学习先驱的论断，不仅直指ChatGPT等明星产品的技术天花板，更揭示了下一代AI进化的核心路径——构建理解物理世界的“世界模型”（WorldModel）。作为Meta人工智能实验室负责人，
AI编程风潮下的生产力革命：从 Copilot 到 Trae 机器小乙 AI编程
AI编程风潮下的生产力革命：从Copilot到Trae前言在人工智能飞速发展的背景下，“AI编程”已经不再是概念炒作，而逐渐成为真实可落地的开发模式。从最初的GitHubCopilot到如今字节跳动的Trae，以及各种聚焦不同场景的AI编程产品如Cursor、Bolt.new、ReplitGhostwriter等，都在加速软件研发流程。本文将结合一些常见使用场景，并通过简短代码示例，让你对AI编程
人脸识别国内镜像未来之窗软件服务 android
Downloadhttps://maven.aliyun.com/repository/central/org/jetbrains/kotlin/kotlin-stdlib-jdk8/1.9.20/kotlin-stdlib-jdk8-1.9.20.pom,took290msDownloadhttps://maven.aliyun.com/repository/central/net/sf/kxm
[ Android ] Google JetPack架构指南 ByteFlys android Kotlin android JetPack architecture
文章目录架构原则架构分层关于DomainLayer架构选型参考JetPack架构组件参考网站架构原则UI和数据分离，不要将所有代码写在Activity和Fragment里面数据驱动UI，最好是持久性数据模型单一数据源，集中修改数据，比如基于DatabaseSource，ViewModel等单向数据流，界面状态修改向单个方向流动，数据修改事件朝相反方向流动架构分层UILayer（UIElement+
【小白学AI系列】NLP 核心知识点（五）Transformer介绍 Blankspace空白人工智能自然语言处理 transformer
TransformerTransformer是一种基于自注意力机制（Self-AttentionMechanism）的深度学习模型，首次由Vaswani等人于2017年在论文《AttentionisAllYouNeed》中提出。与RNN和LSTM不同，Transformer不需要依靠序列顺序进行递归，而是通过全局注意力机制一次性处理整个输入序列，从而具备了更高的计算效率和更强的并行化能力。Tran
昆虫机器人：从仿生设计到未来应用机器小乙机器人
目录引言：从科幻到现实的启示仿生昆虫机器人：技术突破与功能解析应用场景：农业与灾后救援的革新技术难点：微型机器人研发的挑战未来趋势：智能化与群体协作的潜力总结：昆虫机器人技术的广阔前景1.引言：从科幻到现实的启示还记得阿西莫夫的《奇幻之旅》吗？科学家通过微型潜艇进入人体进行探险，这种场景曾是科幻迷的梦想。如今，随着人工智能和仿生设计的发展，这些奇思妙想正在逐步成为现实。最近，《科学机器人》期刊的一
Spring Boot构建mvc项目贾斯汀玛尔斯 Java spring boot mvc 后端
好的，以下是一个简单的JavaMVC（Model-View-Controller）项目示例，使用SpringBoot框架和MySQL数据库。这个项目包括基本的CRUD操作。项目结构src/└──main/├──java/│└──com/│└──example/│└──demo/│├──DemoApplication.java│├──controller/││└──UserController.ja
追踪DNS中的美国总统大选相关域名威胁 WhoisXMLAPI 网络安全科技服务器前端
随着美国总统大选的临近，相关话题已经引发了广泛关注，而WhoisXMLAPI（https://zh.main.whoisxmlapi.com/）研究团队可能揭示了数千个潜在的混乱来源——与大选相关的恶意抢注域名。这些域名对某些人来说，可能是一个有利可图的收入来源。例如，HarrisWalz[.]com域名最近以15,000美元售出，利润率高达99.94%。恶意抢注域名还可能被用于更具恶意的目的。例
[CMU16-745] Lecture 6 Deterministic Optimal Control Introduction Jia_- 最优控制机器人
Source:CMU16-745StudyNotes,taughtbyProf.ZacManchesterLecture5OptimizationPart3ContentReviewConstrainedOptimizationDeterministicOptimalControlIntroductionDeterministicOptimalControl(1)Continuous-TimeFo
【AI人工智能】DeepSeek R1：你需要知道的一切大名顶顶人工智能人工智能 AI DeepSeek 程序员计算机编程开源
我们将在本博客中介绍的关于DeepSeekR1的所有你需要知道的一切内容，请坚持认真读完，必有收获：DeepSeekR1简要概述主要特点与能力开源与可访问性模型架构强化学习训练变体与精简模型使用案例与应用从专有模型迁移到开源模型1.DeepSeekR1简要概述大语言模型（LLM）研究领域正在迅速发展，每一个新模型都在推动机器能力的边界。DeepSeekR1是由DeepSeek于2025年1月20日
Day32【AI思考】-数学可视化学习的专业工具与技巧全指南一个一定要撑住的学习者 #AI深度思考学习方法人工智能学习
文章目录数学可视化学习的**专业工具与技巧全指南**1、回答1：**一、专业数学可视化工具库****1.交互式动态平台****~~2.编程驱动工具~~****3.三维沉浸式工具****二、进阶可视化技巧****~~1.动态参数艺术~~****2.抽象概念具象化****3.历史可视化路径****三、学习资源矩阵****1.B站宝藏UP主****~~2.系统课程推荐~~****3.实战项目库****四
产品团队构建方案-团队建设人生淡然团队开发
团队目标融合硬件行业链优势资源，规划公司智能硬件及AI算力产品方案团队定位产品孵化中心公司智囊团团队公约科学规划精准描述高效协作规范管理闭环管理持续改进团队管理范围商业价值、行业分析和行业融合产品需求调研和分析产品方案设计产品生命周期和版本管理项目进度管理产品设计开发研发打样对接客户联调客户联调开发客户技术支持和验证测试支持售前方案支持产品价值产品方案供期计划赋能渠道商产品价值产品方案供期计划团队
【暑期每日一题】洛谷 P5732 【深基5.习7】杨辉三角 AC_Dragon C++模拟递推公式
题目链接：P5732【深基5.习7】杨辉三角-洛谷|计算机科学教育新生态(luogu.com.cn)题目描述给出n(nusingnamespacestd;/*11112113311464115101051*/inta[25][25];intmain(){intn;cin>>n;for(inti=0;i
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它