Skies_

（一）深度学习实战 | 基于PyTorch的目标检测数据加载

1. PyTorch加载数据

${\rm PyTorch}$ 中使用 ${\rm Dataset}$ 和 ${\rm DataLoader}$ 两个工具类完成数据的加载，前者用于构造数据集（数据集能够通过索引取出一条数据）、后者用于取一批次的数据（ ${\rm PyTorch}$ 只支持批数据处理）。本文介绍使用 ${\rm PyTorch}$ 处理目标检测数据，主要涉及 ${\rm VOC}$ 标注格式的数据集和 ${\rm COCO}$ 标注格式的数据集两种，其加载数据的整体结构如下：

from torch.utils.data import Dataset, DataLoader

class CustomDataSet(Dataset):
    def __init__(self):
        pass

    def __getitem__(self, index):
        pass

    def __len__(self):
        pass

dataset = CustomDataSet()
dataloader = DataLoader(
    dataset=dataset,
    batch_size=64,
    shuffle=True,
    num_workers=4)

CustomDataSet是我们自定义的数据加载类，其继承自Dataset类。
__init__方法用于定义一些初始化操作。我们可以通过该方法将所有数据加载至内存，后续通过索引在内存中取相应数据，这适合于数据本身很小的情况下；而我们更多采用的是首先将数据的路径存在相关文件内，后续根据路径索引取得相应数据，这往往应用于数据量较大的情况。
__getitem__方法的功能是根据索引取出一条数据。注意该数据是处理后的数据，可以直接作为网络的输入，所以在返回前需要进行一些必要的如数据增强、标准化等操作。
__len__方法用于返回数据集的条数。
最后使用DataLoader类制作数据加载器，我们通常使用的几个参数如上面程序所示。第一个参数dataset就是前面我们定义的数据加载类的对象；第二参数batch_szie是每批次数据的大小，通常根据内存等确定；第三个参数shuffle是每次加载一批数据时是否将其打乱，在训练时一般设置为 ${\rm True}$ 、测试时设置为 ${\rm False}$ ；第四个参数num_workers是在读取数据时使用的线程数。
有时候为了实现更加高效的数据加载，我们会使用DataLoader类的其他参数，可参考 ${\rm PyTorch}$ 文档，可参考这里。

以上介绍了使用 ${\rm PyTorch}$ 加载数据时的整体结构，下面就 ${\rm VOC}$ 标注格式的数据集和 ${\rm COCO}$ 标注格式的数据集分别介绍相应的处理流程。

2. VOC格式数据集的加载

${\rm VOC}$ 数据集大致有 ${\rm 2007}$ 和 ${\rm 2012}$ 两个版本，二者标注形式完全一致，只是数据量不同，数据集可以在这里下载（本文以 ${\rm VOC\ 2007}$ 为例说明）。同时，我们可以将自己的数据集制作为 ${\rm VOC}$ 格式，这里使用的是 ${\rm labelImg}$ 工具。首先在使用pip install labelImg命令安装工具，安装成功后输入labelImg即可打开可视化界面。

图1：VOC数据集的目录结构

数据集的目录结构如下图。在制作自己的数据集时，首先我们要依照下图格式建立相应的文件夹。然后如上图分别执行对应的四个步骤。其中在画完框后会自动弹出来一个对话框，此时我们需要输入该标注目标的类别。最后根据标注信息将自动生成.xml文件。

图2：VOC数据集的目录结构

其中，第一个文件夹用于存放数据集的标注信息，以.xml文件保存。我们以目标检测部分的标注信息介绍文件内的具体内容，以000002.xml为例。

图3：xml文件

第二个文件夹内的Main文件夹存放着目标检测相关的文件。其中train.txt、val.txt、test.txt和trainval.txt分别存放了训练集、验证集、测试集和训练验证集的图像名称。第三个文件夹内存放图像本身，如上述标注文件对应的图像000002.jpg为下图。

图4：jpg图像

第四个文件夹和第五个文件夹内存放的图像分割的相关标注信息。首先我们来定义文件解析类，其参数是ElementTree类的对象（用于解析 ${\rm xml}$ 文件的类），返回是对应文件所包含的标注信息。

class VOCAnnotationTransform:
    def __init__(self):
        # 将类别标签转换为对应的数字标签
        self.class_to_ind = dict(zip(VOC_CLASSES, range(len(VOC_CLASSES))))

    def __call__(self, target, width, height):
        res = []
        for obj in target.iter('object'):
            # 目标类别
            name = obj.find('name').text.lower().strip()
            # 标注框
            bbox = obj.find('bndbox')
            pts = ['xmin', 'ymin', 'xmax', 'ymax']
            bndbox = []
            for i, pt in enumerate(pts):
                # 将坐标值缩放到[0,1]内
                cur_pt = int(bbox.find(pt).text) - 1
                cur_pt = cur_pt / width if i % 2 == 0 else cur_pt / height
                bndbox.append(cur_pt)
            # 获取类别和标注框信息并添加到结果
            label_idx = self.class_to_ind[name]
            bndbox.append(label_idx)
            res += [bndbox]
        return res  # res=[[xmin, ymin, xmax, ymax, label_ind], ... ]

然后定义数据加载类。在数据加载时，只有当使用到该条数据时我们才将其加载到内存，在函数pull_item函数内实现。最后通过__getitem__函数返回指定index的数据。

class VOCDetection(data.Dataset):
    def __init__(self, root, target_transform=VOCAnnotationTransform()):
        # 数据集根目录
        self.root = root
        # 调用解析类
        self.target_transform = target_transform
        # 文件路径
        self.annopath = osp.join('%s', 'Annotations', '%s.xml')
        self.imgpath = osp.join('%s', 'JPEGImages', '%s.jpg')
        # self.ids=((数据集根目录, 文件名),...)，作用是与上面“文件路径”变量组合称为完整路径
        self.ids = list()
        for line in open(osp.join(self.root, 'ImageSets', 'Main', "trainval" + '.txt')):
            self.ids.append((self.root, line.strip()))

    def __getitem__(self, index):
        im, gt, h, w = self.pull_item(index)
        # 返回数据
        return im, gt

    def __len__(self):
        return len(self.ids)

    def pull_item(self, index):
        # 根据index取出某一条(数据集根目录, 文件名)
        img_id = self.ids[index]
        # 组合成完成路径后解析xml文件和读取图像
        target = ET.parse(self.annopath % img_id).getroot()
        img = cv2.imread(self.imgpath % img_id)
        height, width, channels = img.shape
        # xml解析
        if self.target_transform is not None:
            target = self.target_transform(target, width, height)
        return torch.from_numpy(img).permute(2, 0, 1), target, height, width

3. COCO格式数据集的加载

相比于 ${\rm VOC}$ 数据集， ${\rm COCO}$ 数据量更大、图像中小目标居多、图像中的目标数据更多等，因此其常作为当前目标检测算法的判断基准。另外一个不同是， ${\rm VOC}$ 数据集中每张图像都有与之对应的标注文件，而 ${\rm COCO}$ 数据集中的所有图像的标注信息存放在一个.json文件。同时，我们可以将自己的数据集制作为 ${\rm COCO}$ 格式，这里使用的是 ${\rm labelme}$ 工具。首先在使用pip install labelme命令安装工具，安装成功后输入labelme即可打开可视化界面。其标注方式与上相似，这里不再赘述。

本文以 ${\rm COCO\ 2017}$ 数据集为例进行说明。 ${\rm COCO}$ 数据集官方提供了 ${\rm COCO\ API}$ 用于更加方便地解析标注文件，在使用之前通过pip install pycocotools安装依赖。数据集和 ${\rm COCO\ API}$ 相关信息可以在这里下载和查看。首先，我们来介绍 ${\rm COCO\ API}$ 的相关内容。

在使用各 ${\rm API}$ 前，我们需要实例化COCO类，它接受的参数为标注文件的路径，返回类的对象。以本文的内容为例，首先我们使用以下语句初始化COCO类的对象。这里使用的是 ${\rm COCO\ 2017}$ 数据集中对应的训练集部分。

coco = COCO(os.path.join(root, 'annotations', 'instances_{}.json'.format('train2017')))

然后，我们就可以通过COCO类的对象调用各种 ${\rm API}$ 函数。其中，在本文将会使用的 ${\rm API}$ 函数包括：

coco.imgToAnns将图像的索引与其标注信息相关联，执行后的效果是给定指定的图像索引可以返回该图像对应的所有标注信息，coco.imgToAnns.keys()返回所有的图像的索引（给数据集中的每幅图像赋值一个索引，用于后续与其标注和类别信息相关联），然后再通过指定图像的索引就可以访问其相关的标注信息。如下图是各索引之间的相互关联。

注意每个annotation里面仅对应于一个目标的标注信息。如果我们使用coco.imgToAnns.keys()[index]，则将区域索引为 ${\rm index}$ 的图像对应的标注信息的索引，是一个列表。然后根据每个标注信息的索引去寻找每一个目标的标注信息。如上图，bbox即为本文中我们所需要的目标检测的标注信息。
coco.getAnnIds(imgIds=imgIds)就是根据参数值取指定索引图像的标注信息，返回一个列表。
得到标注信息的索引的列表后，我们就可以使用coco.loadAnns(ids=ann_ids)返回指定标注索引的标注内容，其中同时包括目标检测和图像分割的内容。也就是上图中的annotations{}部分。
同时，根据coco.loadImgs(ids=img_ids)就可以获得指定图像索引的图像信息，其格式如下：

则现在我们可以完成整个数据加载类的书写。首先我们需要注意的是，由于 ${\rm COCO}$ 数据集中的索引并不是连续的，如图：最左边是原始的索引，中间是经过处理后的索引，最后一列表示具体的类别。首先，我们需要根据该文件的内容使用中间一列的索引作为最后的索引。定义如下函数：

def get_label_map(label_file):
    label_map = {}
    labels = open(label_file, 'r')
    for line in labels:
        ids = line.split(',')
        # 返回字典形式，如上图中的为{...,11:11,13:12,14:16,...}
        label_map[int(ids[0])] = int(ids[1])
    return label_map

和 ${\rm VOC}$ 数据集的加载流程一致，首先我们定义解析类COCOAnnotationTransform，传入参数是标注信息，即上文提到的一系列的annotations{}。然后返回形式同VOCAnnotationTransform类一致。

class COCOAnnotationTransform:
    def __init__(self):
        self.label_map = get_label_map(osp.join('data', 'coco_labels.txt'))

    def __call__(self, target, width, height):
        scale = np.array([width, height, width, height])
        res = []
        for obj in target:
            if 'bbox' in obj:
                # 将(x,y,w,h)->(xmin,ymin,xmax,ymax)
                bbox = obj['bbox']
                bbox[2] += bbox[0]
                bbox[3] += bbox[1]
                # 将坐标值缩放到[0,1]内
                final_box = list(np.array(bbox)/scale)
                # 获取类别和标注框信息并添加到结果
                label_idx = self.label_map[obj['category_id']] - 1
                final_box.append(label_idx)
                res += [final_box]
            else:
                print("no bbox problem!")
        return res  # [[xmin, ymin, xmax, ymax, label_idx], ... ]

然后定义数据加载类，相应内容同上。

class COCODetection(data.Dataset):
    def __init__(self, root, target_transform=COCOAnnotationTransform()):
        # 图像数据集根目录
        self.root = osp.join(root, 'train2017')
        # 参数为标注文件路径，返回COCO类的对象
        self.coco = COCO(osp.join(root, 'annotations', 'instances_{}.json'.format('train2017')))
        # 获取每张图片的索引，同时将图片索引与标注信息相关联
        self.ids = list(self.coco.imgToAnns.keys())
        # 调用解析类
        self.target_transform = target_transform

    def __getitem__(self, index):
        im, gt, h, w = self.pull_item(index)
        # 返回数据
        return im, gt

    def __len__(self):
        return len(self.ids)

    def pull_item(self, index):
        # 获得图像索引
        img_id = self.ids[index]
        # 获得指定图像索引的标注信息，返回一个列表，列表的每一个值表示一个目标的标注信息
        ann_ids = self.coco.getAnnIds(imgIds=img_id)
        # 根据标注信息的索引返回其具体的标注内容
        target = self.coco.loadAnns(ann_ids)
        # 获得图像的完整路径
        path = osp.join(self.root, self.coco.loadImgs(img_id)[0]['file_name'])
        assert osp.exists(path), 'Image path does not exist: {}'.format(path)
        img = cv2.imread(path)
        # 解析标注信息
        height, width, _ = img.shape
        if self.target_transform is not None:
            target = self.target_transform(target, width, height)
        return torch.from_numpy(img).permute(2, 0, 1), target, height, width

4. 总结

我们在编写完数据加载类后，就可以通过如下方式使用，我们以上述COCODetection类为例。

cocoDetection = COCODetection(root=root)
# 117266，即训练集的图像数目
print(len(cocoDetection))
# 获取指定索引的图像的返回信息，如下图
print(cocoDetection[index])

图5：数据加载后的返回信息

如上图，第一个tensor是图像的像素值；第二个tensor是目标检测的标注信息，这里边界框的坐标进行了归一化。

由以上两种格式的数据集的加载流程，我们可以得到： ${\rm VOC}$ 数据集的标注格式更加清晰易懂，且加载过程仅调用 ${\rm Python}$ 中的各 ${\rm API}$ 就可以实现；而 ${\rm COCO}$ 数据集的标注信息由于在一个文件内完成，所以难以产生直观的理解。但在面临大规模的数据集时，如 ${\rm COCO\ 2017}$ 数据集， ${\rm COCO}$ 格式的数据集更加节省标注文件所占用的空间，且可以在一定程度上加快标注信息的加载。但在制作自己的数据集时，为了方便理解和操作，尽量使用 ${\rm VOC}$ 格式。 同时，我们也可以使 ${\rm COCO}$ 格式的数据集和 ${\rm VOC}$ 格式的数据集之间实现相互转化，具体的内容本人还没有研究过，这里就不做介绍了。

以上两种格式的数据集的加载程序可以作为目标检测中的通用程序。而在数据预处理中，为了增强训练模型的鲁棒性，我们通常还会加上数据增强操作，后文将继续介绍目标检测中的数据增强操作。

参考

https://github.com/amdegroot/ssd.pytorch.
http://cocodataset.org/#home.

完

计算机视觉与深度学习实战：以Python为工具，基于深度学习的汽车目标检测好知识传播者 Python实例开发实战计算机视觉深度学习 python 基于深度学习的汽车目标检测
随着人工智能技术的飞速发展，计算机视觉与深度学习已经成为当今科技领域的热点。其中，汽车目标检测作为自动驾驶、智能交通等系统的核心技术，受到了广泛关注。本文将以Python为工具，探讨基于深度学习的汽车目标检测方法及其实战应用。一、计算机视觉与深度学习基础计算机视觉是研究如何让计算机从图像或视频中获取信息、理解内容并作出决策的科学。深度学习则是一种模拟人脑神经网络的机器学习技术，通过构建深层神经网络
TensorFlow深度学习实战——Transformer变体模型盼小辉丶深度学习 tensorflow transformer
TensorFlow深度学习实战——Transformer变体模型0.前言1.BERT2.GPT-23.GPT-34.Reformer5.BigBird6.Transformer-XL7.XLNet8.RoBERTa9.ALBERT10.StructBERT11.T5和MUM12.ELECTRA13.DeBERTa14.进化Transformer和MEENA15.LaMDA16.SwitchTra
深度学习实战111-基于神经网络的A股、美股、黄金对冲投资策略（PyTorch LSTM）微学AI 深度学习实战(进阶)深度学习神经网络 pytorch
文章目录一、A股与美股对冲互补投资方案1.现象与逻辑2.对冲互补投资思路3.资金分配样例4.最大化收益的关键二、对冲互补投资思路1.资金分配原则2.动态调整机制3.对冲操作三、投资方案样例1.初始资金分配（假设总资金10万元）2.动态调整举例情景一：美股进入牛市，A股震荡情景二：A股进入牛市，美股高位震荡情景三：全球风险事件，市场大跌四、操作细节与注意事项五、样例操作流程六、基于神经网络的A股美股
【深度学习实战】图像二分类任务的精度优先模型推荐云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型图像分类模型 EfficientNet Transformer ConvNeXt
图像二分类任务的精度优先模型推荐推荐3种在精度方面表现突出的图像分类模型架构。这些模型在PyTorch中有良好支持，可通过微调预训练模型或从头训练来应用。每种模型的介绍、微调/从头训练建议、精度表现和对趋势图类图像的适用性分析如下。1.SwinTransformer（视觉Transformer架构）简介：SwinTransformer是一种由Microsoft提出的VisionTransforme
TensorFlow深度学习实战（18）——K-means 聚类详解盼小辉丶深度学习 tensorflow kmeans
TensorFlow深度学习实战（18）——K-means聚类详解0.前言1.K-means聚类2.实现K-means聚类2.1算法实现2.2肘部法则3.K-means算法变体小结系列链接0.前言K-means聚类是一种常用的无监督学习算法，用于将数据集划分为若干个互不重叠的簇(cluster)，使得同一簇内的数据点尽可能相似，而不同簇之间的数据点尽可能不同。在本节中，将介绍K-means聚类的基
TensorFlow深度学习实战（17）——主成分分析详解盼小辉丶深度学习 tensorflow 人工智能
TensorFlow深度学习实战（17）——主成分分析详解0.前言1.主成分分析2.使用TensorFlow实现PCA3.TensorFlow嵌入API小结系列链接0.前言主成分分析(PrincipalComponentAnalysis,PCA)是一种强大的降维工具，通过找到数据的主成分，可以有效地减少数据的复杂性，去除冗余特征，并保留数据的主要信息，在数据预处理、特征提取和可视化等方面都有广泛的
深度学习实战108-基于通义千问Qwen2.5-Omni的智能数字人实时对话系统实现微学AI 深度学习实战(进阶)大模型的实践应用深度学习人工智能 Qwen LLM Omni
大家好，我是微学AI，今天给大家介绍一下深度学习实战108-基于通义千问Qwen2.5-Omni的智能数字人实时对话系统实现。通义千问Qwen2.5-Omni作为全球首个端到端全模态大模型，实现了多模态输入与实时输出的完美结合，为构建智能数字人实时对话系统提供了强大技术支持。本报告将详细阐述基于该模型的智能数字人对话系统开发流程，包括项目背景、技术架构、实现代码及测试优化策略，帮助开发者快速构建具
深度学习实战 04：卷积神经网络之 VGG16 复现三（训练）生信探索深度学习 cnn 人工智能
在后续的系列文章中，我们将逐步深入探讨VGG16相关的核心内容，具体涵盖以下几个方面：卷积原理篇：详细剖析VGG的“堆叠小卷积核”设计理念，深入解读为何3×3×2卷积操作等效于5×5卷积，以及3×3×3卷积操作等效于7×7卷积。架构设计篇：运用PyTorch精确定义VGG16类，深入解析“Conv-BN-ReLU-Pooling”这一标准模块的构建原理与实现方式。3.训练实战篇：在小规模医学影像数
PyTorch深度学习实战（18）—— 可视化工具 shangjg3 人工智能深度学习 pytorch 人工智能神经网络
在训练神经网络时，通常希望能够更加直观地了解训练情况，例如损失函数曲线、输入图片、输出图片等信息。这些信息可以帮助读者更好地监督网络的训练过程，并为参数优化提供方向和依据。最简单的办法就是打印输出，这种方式只能打印数值信息，不够直观，同时无法查看分布、图片、声音等。本节介绍两个深度学习中常用的可视化工具：TensorBoard和Visdom。1.TensorBoard最初，TensorBoard是
基于YOLOv8深度学习的人脸面部口罩检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战 zhangjiaofa YOLO 深度学习 python 面部口罩检测
基本功能演示在这里插入图片描述摘要：人脸口罩面部检测能够准确地检测人脸是否佩戴口罩，对于控制疫情传播、保障公共卫生安全起到关键作用。本文基于YOLOv8深度学习框架，通过853张图片，训练了一个进行人脸面部口罩的目标检测模型，能够准确的检测人脸“戴口罩”、“未戴口罩”及“未正确佩戴口罩”。并基于此模型开发了一款带UI界面的人脸面部口罩检测系统，可用于实时检测场景中的人员是否佩戴口罩，更方便进行功能
Keras深度学习实战——自编码器详解鱼弦机器学习设计类系统深度学习 keras 人工智能
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Keras深度学习实战——自编码器详解简介自编码器(AutoEncoder)是一种无监督学习算法，它通过学习输入数据的潜在表示来实现数据降维和特征提取。自编码
TensorFlow深度学习实战（13）——神经嵌入详解盼小辉丶深度学习 tensorflow 自然语言处理
TensorFlow深度学习实战（13）——神经嵌入详解0.前言1.神经嵌入简介1.1Item2Vec1.2node2vec2.数据集与模型分析3.实现神经嵌入小结系列链接0.前言神经嵌入(NeuralEmbedding)是一种通过神经网络模型将离散的符号(如词语、字符、图像等)映射到低维连续向量空间中的技术。它属于更广泛的嵌入(Embedding)技术范畴，在深度学习中起着关键作用。神经嵌入通过
TensorFlow深度学习实战（10）——迁移学习详解盼小辉丶深度学习 tensorflow 迁移学习
TensorFlow深度学习实战（10）——迁移学习详解0.前言1.迁移学习1.1迁移学习基本概念1.2迁移学习的重要性1.3ImageNet1.4迁移学习流程2.InceptionV3架构3.构建迁移学习模型小结系列链接0.前言迁移学习(TransferLearning)是一种利用从一项任务中获得的知识来解决另一项类似任务的技术。一个使用数百万张图像训练的模型，训练数据涵盖数千种对象类别，模型的
【人工智能核心技术全景解读】从机器学习到深度学习实战满怀1015 人工智能人工智能机器学习深度学习 python tensorflow
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明⚖️技术选型对比二、实战演示️环境配置要求️核心代码实现案例1：图像分类（CNN）案例2：文本情感分析（Transformer）运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅推荐方案❌常见错误调试技巧五、应用场景扩展适用领域创新应用方向生态工具链✨结语⚠️技
PyTorch 深度学习实战（23）：多任务强化学习（Multi-Task RL）之扩展进取星辰 PyTorch 深度学习实战深度学习 pytorch 人工智能
之前的PyTorch深度学习实战（23）：多任务强化学习（Multi-TaskRL)总结扩展运用代码如下：importtorchimporttorch.nnasnnimporttorch.optimasoptimimportnumpyasnpfromtorch.distributionsimportNormalfromtorch.ampimportautocast,GradScalerfromme
大模型入门必读的9本硬核好书：豆瓣评分超9.0，值得反复研读！非常详细收藏这一篇就够！大模型入门教程 AI大模型人工智能程序员产品经理学习大模型书籍大模型入门
模型大师们，准备好踏上一段深度学习与模型构建的路了吗？这里有八本经典之作，它们将是你攀登知识高峰的阶梯从《PyTorch深度学习实战》到《大模型时代》从掌握基础框架到洞悉大模型时代的变革模型大师，准备好了吗？翻烂这八本书，直接嘎嘎冲！第一本：《从零开始大模型开发与微调》《从零开始大模型开发与微调》是一本由王晓华所著，清华大学出版社出版的书籍。本书系统介绍了基于PyTorch2.0和ChatGLM的
PyTorch深度学习实战（1）——PyTorch安装与配置 shangjg3 PyTorch深度学习实战深度学习 pytorch 机器学习人工智能
本章共有两节，2.1节介绍如何安装PyTorch，以及如何配置学习环境；2.2节带领读者快速浏览PyTorch中的主要内容，帮助读者初步了解PyTorch。PyTorch是一款以C语言为主导开发的轻量级深度学习框架，它提供了丰富的Python接口以便用户使用。在使用PyTorch之前，读者需要安装Python环境以及pip包管理工具，笔者推荐使用Anaconda配置相关虚拟环境。本书中的所有代码均
深度学习实战之手写数字识别不吃香菜？深度学习人工智能
一、简介在深度学习的世界里，手写数字识别是一个经典且入门级的任务，它就像是深度学习领域的“Hello,World!”，通过完成这个任务，我们能够快速掌握深度学习模型的搭建、训练与测试流程。本文将基于PyTorch框架，手把手教你实现一个手写数字识别模型。二、具体代码实现1、pytorch基础库导入importtorchprint(torch.__version__)#该行代码用来检查pytorch
PyTorch深度学习实战（24）—— 爱因斯坦操作einsum 和 einops shangjg3 PyTorch深度学习实战深度学习 pytorch 人工智能神经网络
在高级索引中还有一类特殊方法：爱因斯坦操作。下面介绍两种常用的爱因斯坦操作：einsum和einops，它们被广泛地用于向量、矩阵和张量的运算。灵活运用爱因斯坦操作可以用非常简单的方式表示较为复杂的多维Tensor之间的运算。1.einsum在数学界中，有一个由爱因斯坦提出来的求和约定，该约定能够有效处理坐标方程。爱因斯坦求和（einsum）就是基于这个法则，省略求和符号和默认成对出现的下标，从而
PyTorch 深度学习实战（38）：注意力机制全面解析（从Seq2Seq到Transformer）进取星辰 PyTorch 深度学习实战深度学习 pytorch transformer
在上一篇文章中，我们探讨了分布式训练实战。本文将深入解析注意力机制的完整发展历程，从最初的Seq2Seq模型到革命性的Transformer架构。我们将使用PyTorch实现2个关键阶段的注意力机制变体，并在机器翻译任务上进行对比实验。一、注意力机制演进路线1.关键模型对比模型发表年份核心创新计算复杂度典型应用Seq2Seq2014编码器-解码器架构O(n²)机器翻译BahdanauAttenti
Python 深度学习实战第10章使用深度学习处理时间序列&RNN预测实例 odoo中国人工智能深度学习 python rnn 时间序列
Python深度学习实战第10章使用深度学习处理时间序列数据&RNN实例内容概要第10章深入探讨了时间序列数据的深度学习应用，涵盖了从预测到分类、事件检测和异常检测等多种任务。本章通过温度预测示例，详细介绍了如何使用循环神经网络（RNN）及其变体（如LSTM和GRU）来处理时间序列数据。通过本章，读者将掌握如何使用深度学习解决时间序列问题，并理解RNN的工作原理。主要内容时间序列任务的类型预测：预
TensorFlow深度学习实战（11）——风格迁移详解盼小辉丶深度学习 tensorflow 人工智能
TensorFLow深度学习实战（11）——风格迁移详解0.前言1.风格迁移原理1.1内容损失1.2风格损失2.模型分析3.使用TensorFlow实现神经风格迁移小结系列链接0.前言风格迁移是用于训练神经网络创作艺术作品的深度学习技术，同时也是一种有趣的神经网络应用，提供了一种用于深入理解神经网络的方式。在本节中，我们将学习神经风格迁移算法。在神经风格迁移中，我们需要一个内容图像和一个风格图像，
TensorFlow深度学习实战（12）——词嵌入技术详解盼小辉丶深度学习 tensorflow 自然语言处理
TensorFlow深度学习实战（12）——词嵌入技术详解0.前言1.词嵌入基础2.分布式表示3.静态嵌入3.1Word2Vec3.2GloVe4.使用Gensim构建词嵌入5.使用Gensim探索嵌入空间6.动态嵌入小结系列链接0.前言在本节中，我们首先介绍词嵌入的概念，然后介绍两种实现词嵌入的方式：Word2Vec和GloVe，学习如何使用Gensim库从零开始构建语料库的词嵌入，并探索所创建
TensorFlow深度学习实战（7）——分类任务详解盼小辉丶深度学习 tensorflow 分类
TensorFlow深度学习实战（7）——分类任务详解0.前言1.分类任务1.1分类任务简介1.2分类与回归的区别2.逻辑回归3.使用TensorFlow实现逻辑回归小结系列链接0.前言分类任务(ClassificationTask)是机器学习中的一种监督学习问题，其目的是将输入数据(特征向量)映射到离散的类别标签。广泛应用于如文本分类、图像识别、垃圾邮件检测、医学诊断等多种领域。1.分类任务1.
PyTorch深度学习实战（45）——强化学习盼小辉丶深度学习 pytorch 强化学习
PyTorch深度学习实战（45）——强化学习0.前言1.强化学习基础1.1基本概念1.2马尔科夫决策过程1.3目标函数1.4智能体学习过程2.计算状态值3.计算状态-动作值4.Q学习4.1Q值4.2Gym环境4.3构建Q表4.4探索-利用策略小结系列链接0.前言强化学习是当前人工智能领域的研究热点问题，强化学习主要通过考察智能体与环境的相互作用，得到策略模型、优化策略并最大化累积回报的过程。强化
TensorFlow深度学习实战——字符嵌入、子词嵌入、句子嵌入和段落嵌入盼小辉丶深度学习 tensorflow 自然语言处理
TensorFlow深度学习实战——字符嵌入、子词嵌入、句子嵌入和段落嵌入0.前言1.字符嵌入2.字词嵌入3.句子嵌入和段落嵌入相关链接0.前言在自然语言处理中，嵌入(Embedding)技术是将文本转化为数值向量的核心方法，使计算机能够理解和处理语言中的语义信息。根据文本处理的粒度不同，除了词嵌入外，还包括字符嵌入、子词嵌入、句子嵌入和段落嵌入。这些嵌入技术使得计算机能够以不同的粒度理解和处理文
深度学习实战：从零构建图像分类API（Flask/FastAPI版） Tech Synapse 深度学习分类 flask Flask/FastAPI框架 PyTorch TensorFlow FastAPI
引言：AI时代的图像分类需求在智能时代，图像分类技术已渗透到医疗影像分析、自动驾驶、工业质检等各个领域。作为开发者，掌握如何将深度学习模型封装为API服务，是实现技术落地的关键一步。本文将手把手教你使用Python生态中的Flask/FastAPI框架，结合PyTorch/TensorFlow部署一个端到端的图像分类API，最终得到一个可通过HTTP请求调用的智能服务。一、技术栈选择指南框架特点适
Keras 深度学习实战——神经网络性能优化技术详解鱼弦机器学习设计类系统深度学习 keras 神经网络
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Keras深度学习实战——神经网络性能优化技术详解1.简介本教程将介绍Keras深度学习框架中常用的神经网络性能优化技术。深度学习模型的性能通常包括训练速度和
PyTorch 深度学习实战（27）：扩散模型（Diffusion Models）与图像生成进取星辰 PyTorch 深度学习实战机器学习人工智能
一、扩散模型原理1.核心思想扩散模型（DiffusionModels）通过逐步添加和去除噪声学习数据分布，核心分为两个过程：2.训练目标（简化损失函数）通过最小化预测噪声的均方误差：二、扩散模型实现（基于PyTorch）以MNIST手写数字生成为例，实现扩散模型：定义噪声调度：线性或余弦噪声计划构建UNet模型：预测每一步的噪声实现扩散过程：前向加噪与反向去噪训练与生成：从噪声生成图像三、代码实现
Python 深度学习实战：聊天机器人 AI天才研究院 AI实战 DeepSeek R1 &大数据AI人工智能大模型 Python实战大数据人工智能语言模型 Java Python 架构设计
Python深度学习实战：聊天机器人关键词：Python、深度学习、聊天机器人、Seq2Seq、注意力机制、Transformer1.背景介绍近年来，随着人工智能技术的飞速发展，聊天机器人（Chatbot）逐渐走进了大众的视野。从简单的问答系统到如今能够进行多轮对话、情感分析的智能助手，聊天机器人在客服、娱乐、教育等领域展现出了巨大的应用潜力。深度学习作为人工智能领域的核心技术之一，为聊天机器人的
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

（一）深度学习实战 | 基于PyTorch的目标检测数据加载

1. PyTorch加载数据

2. VOC格式数据集的加载

3. COCO格式数据集的加载

4. 总结

参考

你可能感兴趣的:(深度学习实战)