Keep_Trying_Go

使用pytorch实现预训练模型迁移学习中的目标检测

1.COCO数据集类别文件下载

2.fasterrcnn_resnet50_fpn预训练模型预测图片

导入相关的包

（1）读取类别文件

（2）数据变换

（3）加载预训练模型

（4）检测一张图片

（5）实时检测

3.对预训练目标检测模型的类别和backbone的修改

（1）fasterrcnn_resnet50_fpn

（2）ssd300_vgg16

（3）ssdlite320_mobilenet_v3_large

（4）怎么使用预训练模型进行自己的数据集的一个小实例

1.COCO数据集类别文件下载

链接：https://pan.baidu.com/s/17M-lhHh0t-rw2egWuaPWKg
提取码：az39

2.fasterrcnn_resnet50_fpn预训练模型预测图片

提示：Faster R-CNN模型是以ResNet-50-FPN为骨干网络。

第一：对于模型的输入图像，首先需要转换为tensor类型，并且图像的格式为[C,H,W]，并且对于每一张图片，将其值转换为[0-1]之间，允许不同的尺寸的图片。

第二：对于模型的训练：

第一步：输入图像转换为tensor类型；

第二步：对于target包含：

图像中目标的坐标[x1,y1,x2,y2]，其中0<=x1
图像中每一个物体的标签（对应类别）。

第三步：模型最后会返回一个字典的tensor，其中包含类别，坐标值回归的损失值。

第三步：对于模型的前向推断（预测）：

第一步：只需要输入到模型中类型为tensor类型的图像；

第二步：模型最后返回的值为一个列表字典的tensor，其中包含的内容；

图像中目标的坐标[x1,y1,x2,y2]，其中0<=x1
图像中每一个物体的标签（对应类别）；

对应目标的预测概率。

https://pytorch.org/vision/stable/models/generated/torchvision.models.detection.fasterrcnn_resnet50_fpn.html?highlight=models#torchvision.models.detection.fasterrcnn_resnet50_fpn

导入相关的包

"""
@Author : Keep_Trying_Go
@Major  : Computer Science and Technology
@Hobby  : Computer Vision
@Time   : 2023-01-08 21:09
"""

import os
import cv2
import time
import torch
import cvzone
import numpy as np
from PIL import Image
from torchvision import transforms
from torch.utils.data import DataLoader,Dataset
from torchvision.models.detection import fasterrcnn_resnet50_fpn

（1）读取类别文件

with open('classes.txt','r') as fp:
    classes=fp.read().splitlines()
print(len(classes))

（2）数据变换

#数据变换
transform=transforms.Compose([
    transforms.ToTensor()
    # transforms.Normalize(mean=[0.48235, 0.45882, 0.40784],std=[1.0 / 255.0, 1.0 / 255.0, 1.0 / 255.0])
])

（3）加载预训练模型

#加载预训练模型
# 预训练模型下载 https://download.pytorch.org/models/fasterrcnn_resnet50_fpn_coco-258fb6c6.pth
modelFRCNNResNet50Fpn=fasterrcnn_resnet50_fpn(pretrained=True,progress=True)
# print(modelSSD300VGG)

（4）检测一张图片

#返回模型检测的结果
def detectSignalImage(img_path):
    """
    :param img_path: 图像的路径
    :return:
    """
    img=Image.open(img_path)
    img_transfer=transform(img)
    #注意这个地方需要对图像进行升维
    imgReshape=torch.unsqueeze(input=img_transfer,dim=0)
    # print(img_transfer.shape)
    # print(type(img_transfer))
    #将模型设置为eval模式
    modelFRCNNResNet50Fpn.eval()
    detection=modelFRCNNResNet50Fpn(imgReshape)
    print('detection: {}'.format(detection))
    print('box: {}'.format(detection[0]['boxes']))
    print('label: {}'.format(detection[0]['labels']))
    print('scores: {}'.format(detection[0]['scores']))
    # pred_class = [classes[i] for i in list(detection[0]['labels'].numpy())]

    return detection[0]['boxes'],detection[0]['labels'],detection[0]['scores']

#根据模型返回的结果，将其绘制到图像中
def drawRectangle(boxes,labels,scores,img_path):
    """
    :param boxes: 对应目标的坐标
    :param labels: 对应目标的标签
    :param scores: 对应目标的类别分数
    :return:
    """
    imgRe=cv2.imread(img_path)
    for k in range(len(labels)):
        #左上角坐标(xleft,yleft)和右下角坐标(xright,yright)
        xleft=int(boxes[k][0])
        yleft=int(boxes[k][1])
        xright=int(boxes[k][2])
        yright=int(boxes[k][3])

        class_id=labels[k].item()
        print(class_id)

        confidence=scores[k].item()
        if confidence>0.7:
            text = classes[class_id] + ': ' + str('{:.4f}'.format(confidence))
            cv2.rectangle(imgRe, (xleft, yleft), (xright, yright), (255, 0, 255), 2)
            cvzone.putTextRect(img=imgRe, text=text, pos=(xleft + 9, yleft - 12),
                               scale=1, thickness=1, colorR=(0, 255, 0))
    cv2.imshow('img', imgRe)
    cv2.waitKey(0)

if __name__ == '__main__':
    boxes,labels,scores=detectSignalImage(img_path='images/fourDogs.png')
    drawRectangle(boxes=boxes,labels=labels,scores=scores,img_path='images/fourDogs.png')

（5）实时检测

def timeDetect():
    # 计算开始时间
    start_time = time.time()
    # 计算帧率
    countFPS = 0
    # 开启摄像头
    cap = cv2.VideoCapture(0)
    while cap.isOpened():
        ret, frame = cap.read()
        frame = cv2.resize(src=frame, dsize=(520, 520))
        frame = cv2.flip(src=frame, flipCode=2)
        #将其opencv读取的图像格式转换为PIL读取的类型格式
        frame_PIL = Image.fromarray(frame)
        img_transform = transform(frame_PIL)
        # 对图像进行升维
        img_Transform = torch.unsqueeze(input=img_transform, dim=0)
        # 预测图片
        modelFRCNNResNet50Fpn.eval()
        detection = modelFRCNNResNet50Fpn(img_Transform)
        # 获取类别概率值
        end_time = time.time()
        countFPS += 1
        FPS = round(countFPS / (end_time - start_time), 0)
        cv2.putText(img=frame, text='FPS: ' + str(FPS), org=(10, 50),
                    fontFace=cv2.FONT_HERSHEY_SIMPLEX,
                    fontScale=1.0, color=(0, 255, 0), thickness=2)
        boxes=detection[0]['boxes']
        labels=detection[0]['labels']
        scores=detection[0]['scores']
        for k in range(len(labels)):
            xleft = int(boxes[k][0])
            yleft = int(boxes[k][1])
            xright = int(boxes[k][2])
            yright = int(boxes[k][3])

            class_id = labels[k].item()
            print(class_id)

            confidence = scores[k].item()
            if confidence>0.3:
                text = classes[class_id] + ': ' + str('{:.4f}'.format(confidence))
                cv2.rectangle(frame, (xleft, yleft), (xright, yright), (255, 0, 255), 2)
                cvzone.putTextRect(img=frame, text=text, pos=(xleft + 9, yleft - 12),
                               scale=1, thickness=1, colorR=(0, 255, 0))
        cv2.imshow('img', frame)
        key = cv2.waitKey(1)
        if key == 27:
            break
    cap.release()
    cv2.destroyAllWindows()

3.对预训练目标检测模型的类别和backbone的修改

（1）fasterrcnn_resnet50_fpn

对其训练的类别进行修改：

import torchvision
from torchvision.models.detection.faster_rcnn import FastRCNNPredictor

# 在COCO上加载经过预训练的预训练模型
model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)

# replace the classifier with a new one, that has
# 将分类器替换为具有用户定义的 num_classes的新分类器
num_classes = 2  # 1 class (person) + background
# 获取分类器的输入参数的数量
in_features = model.roi_heads.box_predictor.cls_score.in_features
# 用新的头部替换预先训练好的头部
model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)

对其backbone相关进行修改：

import torchvision
from torchvision.models.detection import FasterRCNN
from torchvision.models.detection.rpn import AnchorGenerator

# 加载预先训练的模型进行分类和返回
# 只有功能
backbone = torchvision.models.mobilenet_v2(pretrained=True).features
# FasterRCNN需要知道骨干网中的输出通道数量。对于mobilenet_v2，它是1280，所以我们需要在这里添加它
backbone.out_channels = 1280

# 我们让RPN在每个空间位置生成5 x 3个锚点
# 具有5种不同的大小和3种不同的宽高比。 
# 我们有一个元组[元组[int]]
# 因为每个特征映射可能具有不同的大小和宽高比
anchor_generator = AnchorGenerator(sizes=((32, 64, 128, 256, 512),),
                                   aspect_ratios=((0.5, 1.0, 2.0),))

# 定义一下我们将用于执行感兴趣区域裁剪的特征映射，以及重新缩放后裁剪的大小。 
# 如果您的主干返回Tensor，则featmap_names应为[0]。 
# 更一般地，主干应该返回OrderedDict [Tensor]
# 并且在featmap_names中，您可以选择要使用的功能映射。
roi_pooler = torchvision.ops.MultiScaleRoIAlign(featmap_names=['0', '1', '2', '3'],
                                                output_size=7,
                                                sampling_ratio=2)

# 将这些pieces放在FasterRCNN模型中
model = FasterRCNN(backbone,
                   num_classes=2,
                   rpn_anchor_generator=anchor_generator,
                   box_roi_pool=roi_pooler)

（2）ssd300_vgg16

#修改模型分类头的类别数
def modelSSDVgg16(num_classes):
    #加载在COCO数据集上训练的预训练模型
    modelSSDLite=ssd300_vgg16(pretrained=True,progress=True)

    # replace the classifier with a new one, that has
    # 将分类器替换为具有用户定义的 num_classes的新分类器
    # 获取分类器的输入参数的数量
    c_in_features=[modelSSDLite.head.classification_head.module_list[i].in_channels for i in range(len(modelSSDLite.head.classification_head.module_list))]
    num_anchors=modelSSDLite.anchor_generator.num_anchors_per_location()
    # # 用新的头部替换预先训练好的头部
    modelSSDLite.head.classification_head=SSDClassificationHead(in_channels=c_in_features,num_anchors=num_anchors,num_classes=num_classes)

    return modelSSDLite

（3）ssdlite320_mobilenet_v3_large

#修改模型分类头的类别数
def modelSSD320(num_classes):
    #加载在COCO数据集上训练的预训练模型
    modelSSDLite=ssdlite320_mobilenet_v3_large(pretrained=True,progress=True)

    # replace the classifier with a new one, that has
    # 将分类器替换为具有用户定义的 num_classes的新分类器
    # 获取分类器的输入参数的数量
   
    c_in_features=[]
    norm_Layers=[]
    for i in range(len(modelSSDLite.head.classification_head.module_list)):
        in_channels_1=modelSSDLite.head.classification_head.module_list[i][0][0].in_channels
        normLayer=modelSSDLite.head.classification_head.module_list[i][0][1]
        c_in_features.append(in_channels_1)
        norm_Layers.append(normLayer)

    num_anchors=modelSSDLite.anchor_generator.num_anchors_per_location()
    # # 用新的头部替换预先训练好的头部
    modelSSDLite.head.classification_head=SSDLiteClassificationHead(in_channels=c_in_features,num_anchors=num_anchors,
                                                                    num_classes=num_classes,norm_layer=torch.nn.BatchNorm2d)

    return modelSSDLite

（4）怎么使用预训练模型进行自己的数据集的一个小实例

#怎么使用预训练模型进行自己的数据集的一个小实例
def example():
    model = fasterrcnn_resnet50_fpn(pretrained=True, progress=True)
    #images:四张图像，每一张图像的格式为[C,H,W]
    #boxes:对于每一张图像中包含11个目标，每一个目标包含四个坐标
    images, boxes = torch.rand(4, 3, 600, 1200), torch.rand(4, 11, 4)
    # print('images.shape: {}'.format(images.shape))
    # print('boxes.shape: {}'.format(boxes.shape))
    print('boxes: {}'.format(boxes))
    boxes[:, :, 2:4] = boxes[:, :, 0:2] + boxes[:, :, 2:4]
    print('boxes.shape: {}'.format(boxes.shape))
    # print('boxes: {}'.format(boxes))
    #这里的整数范围[1,91)，其二维形状为[4,11]
    labels = torch.randint(1, 91, (4, 11))
    print('labels.shape: {}'.format(labels.shape))
    #将图像存放在一个列表中
    images = list(image for image in images)
    targets = []
    #将坐标和对应的标签存放在一个字典当中
    for i in range(len(images)):
        d = {}
        d['boxes'] = boxes[i]
        # print('boxes.shape: {}'.format(boxes[i].shape))
        d['labels'] = labels[i]
        # print('labels[i].shape: {}'.format(labels[i].shape))
        targets.append(d)
        # print('d: {}'.format(d))
    print('images.shape: {}'.format(len(images)))
    print('targets.shape: {}'.format(len(targets)))
    print('images: {}'.format(images))
    print('targets: {}'.format(targets))
    #注意模型默认的模式为训练模式
    # model.train()
    # output = model(images, targets)
    # print(output)
    # print(output['loss_classifier'].item())
    # For inference
    #设置为eval模式并进行检测
    model.eval()
    x = [torch.rand(3, 300, 400), torch.rand(3, 500, 400)]
    predictions = model(x)
    print('predictions: {}'.format(predictions))
    print('boxes.shape: {}')

提示：关于一个目标检测的完整实例，可能得后面给出。但是我相信给出了上面的三个目标检测模型类别的修改和backbone的修改之后以及一个模型训练的一个小实例之后，读者可以尝试写出一个完整的训练自己的目标检测的模型代码。

YOLOv11快速上手：如何在本地使用TorchServe部署目标检测模型 SYC_MORE YOLOv11 系列教程：模型训练优化与部署全攻略 TorchServe YOLOv11教程模型部署与推理 TorchServe应用目标检测模型训练 YOLO模型导出
引言YOLOv11是最新的目标检测模型，以其高效和准确著称，广泛应用于图像分割、姿态估计等任务。本文将详细介绍如何使用YOLOv11训练你的第一个目标检测模型，并通过TorchServe在本地进行部署，实现模型的快速推理。环境准备在开始之前，确保你的开发环境满足以下要求：Python版本：3.8或以上PyTorch：1.9或以上CUDA：如果使用GPU，加速训练和推理TorchServe：用于模型
用deepseek学大模型05逻辑回归 wyg_031113 逻辑回归机器学习人工智能
deepseek.com:逻辑回归的目标函数，损失函数，梯度下降标量和矩阵形式的数学推导，pytorch真实能跑的代码案例以及模型,数据，预测结果的可视化展示，模型应用场景和优缺点，及如何改进解决及改进方法数据推导。逻辑回归全面解析一、数学推导模型定义：逻辑回归模型为概率预测模型，输出P(y=1∣x)=σ(w⊤x+b)P(y=1\mid\mathbf{x})=\sigma(\mathbf{w}^\
【深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习】生活De°咸鱼 AIGC Java 深度学习大数据 AIGC
深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习1.深度学习基础概述1.1深度学习的核心概念1.2常见深度学习模型1.3大模型的挑战与解决方案2.数据准备2.1数据处理示例：CIFAR-103.构建深度学习模型4.训练模型5.使用预训练模型（迁移学习）6.Transformer架构6.1Transformer的核心原理6.2Transformer的基本组件6.3Trans
PyTorch torch.logsumexp 详解：数学原理、应用场景与性能优化（中英双语）阿正的梦工坊 PyTorch Deep Learning pytorch 人工智能 python
PyTorchtorch.logsumexp详解：数学原理、应用场景与性能优化在深度学习和概率模型中，我们经常需要计算数值稳定的对数概率操作，特别是在处理softmax归一化、对数似然计算、损失函数优化等任务时，直接求和再取对数可能会导致数值溢出。torch.logsumexp正是为了解决这一问题而设计的。在本文中，我们将详细介绍：torch.logsumexp的数学原理它的实际用途为什么它比直接
ssd训练自己的数据集 reset2021 目标检测目标检测 python 深度学习人工智能 pytorch
基于SSD算法实现对自己数据集的训练与检测。(该专题以操作为主）SSD是一种非常优秀的one-stage目标检测方法，one-stage算法就是目标检测和分类是同时完成的，其主要思路是利用CNN提取特征后，均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，物体分类与预测框的回归同时进行，整个过程只需要一步，所以其优势是速度快。这篇文档主要讲述怎样用SSD算法来实现对自己数据集的训
Vision Transformer图像分类实现 reset2021 图像分类 transformer 分类深度学习 python
VisionTransformer(ViT)是一种基于Transformer架构的图像分类模型。与传统的卷积神经网络(CNN)不同，ViT将图像分割成多个小块（patches），并将这些小块视为序列输入到Transformer中。以下是使用PyTorch实现VisionTransformer进行图像分类的步骤。1.安装必要的库首先，确保你已经安装了必要的库：pipinstalltorchtorch
初识pytorch m0_73286250 pytorch 人工智能 python
一、AI发展史二、什么是深度学习深度学习是机器学习的一个子集。为了更好地理解这种关系，我们可以将它们放在人工智能（AI）的大框架中来看。机器学习是实现人工智能的一种途径，深度学习是机器学习的一个子集，也就是说深度学习是实现机器学习的一种方法。与机器学习算法的主要区别如下图所示：三、扩展1.使用场景1)图像识别和处理2)自然语言处理（NLP）3)音频处理4)视频分析5)游戏和仿真6)自动驾驶汽车7)
Java部署机器学习模型:方案二(基于DJL) iiilloi 机器学习 spring spring boot
DJL（DeepJavaLibrary）是由亚马逊公司开发的一款开源的深度学习框架，它旨在为Java开发人员提供一个简单而强大的API，使得在Java中使用深度学习变得更加容易。DJL有以下几个方面优势：支持多个底层引擎DJL支持多个底层引擎，包括MXNet、TensorFlow和PyTorch等。这使得DJL可以在多个平台上使用，包括Java、Android、iOS和RaspberryPi等。易
Pytorch实现之GIEGAN（生成器信息增强GAN）训练自己的数据集这张生成的图像能检测吗 GAN系列 pytorch 生成对抗网络人工智能深度学习计算机视觉机器学习 python
简介简介：在训练数据样本之前首先利用VAE来推断潜在空间中不同类的分布，用于后续的训练，并使用它来初始化GAN。与ACGAN和BAGAN不同的是，提出的GIEGAN有一个分类器结构，这个分类器主要判断生成的图像或者样本图像属于哪个类，而鉴别器仅判断图像是来自于生成器还是真实样本。论文题目：GeneratorInformationEnhancementGenerativeAdversarialNet
YOLOv8与BiFormer注意力机制的融合：提升多场景目标检测性能的研究向哆哆 YOLO 目标检测目标跟踪 yolov8
文章目录保姆级YOLOv8改进：适用于多种检测场景的BiFormer注意力机制（Bi-levelRoutingAttention）1.YOLOv8的改进背景2.BiFormer注意力机制的核心原理2.1Bi-levelAttention结构2.2路由策略与加权融合3.YOLOv8与BiFormer的结合3.1YOLOv8架构概述3.2BiFormer与YOLOv8的融合策略4.实现代码示例5.结果
图像检测分析难题？三维天地引入YOLO目标检测技术带来全新解决方案！资讯分享周 YOLO 目标检测人工智能
在当今的检验检测认证行业,利用图像检测技术分析样本的相关指标已经成为众多检验检测领域的重要需求。无论是医学影像诊断、材料科学、食品检测还是质量控制,都依赖于精确的图像分析来提高检测的效率和准确性。然而,传统的图像处理方法面临着诸多挑战,如庞大的数据量、复杂的特征提取、漫长的模型训练周期以及复杂的公式计算等。这些问题不仅限制了检测的效率,还对结果的准确性产生了负面影响。一、实际业务操作中的工作难点1
给你的数据加上杠杆：文本增强技术的研究进展及应用实践熵简科技Value Simplex
作者信息：文本出自熵简科技NLP算法团队，团队利用迁移学习、少样本学习、无监督学习等深度学习领域最新的思想和技术，为熵简科技各大业务线提供底层AI技术支持和可落地的解决方案，包括前沿算法的领域内落地以及持续部署的后台支持等。导读：本文摘自熵简科技NLP团队的内部技术沙龙，文章系统性地回顾了自然语言处理领域中的文本增强技术在近几年的发展情况，重点列举和讨论了18年、19年中人们常用的五类文本增强技术
25/2/16 ＜算法笔记＞ DirectPose 青椒大仙KI11 视觉计算机视觉
DirectPose是一种直接从图像中预测物体的6DoF（位姿：6DegreesofFreedom）姿态的方法，包括平移和平面旋转。它在目标检测、机器人视觉、增强现实（AR）和自动驾驶等领域中具有广泛应用。相比于传统的位姿估计方法，DirectPose试图简化复杂的处理流程，采用端到端的方式直接从图像中输出位姿参数。1.DirectPose是什么？DirectPose是一种端到端的神经网络方法，旨
25/2/18 ＜算法笔记＞ ByteTrack 青椒大仙KI11 笔记
ByteTrack（发表在2021年）是一种高效且精确的**多目标跟踪（Multi-ObjectTracking,MOT）**算法。它属于目标跟踪领域中基于检测的类别（trackingbydetection），核心思想是利用目标检测器的高置信度和低置信度检测结果，通过简单的后处理策略实现高效和准确的目标跟踪。多目标跟踪(MOT)的主要目的是对视频或帧序列中的多个对象进行检测和跟踪。在MOT方法中通
集成测试总结文档脚本之家集成测试
1.集成测试的定义集成测试（IntegrationTesting）是在单元测试之后，将多个独立的软件模块或组件组合在一起进行测试的过程，目的是验证这些模块之间的接口、数据传递、协作逻辑是否符合设计要求，并发现因集成引发的缺陷。2.集成测试的核心目标检测模块/组件间的接口错误（如参数传递错误、数据格式不一致）。验证集成后的功能是否符合系统设计预期。确保全局数据结构在跨模块使用时的一致性。发现资源冲突
基于Transformer的YOLOv8检测头架构改进：提升目标检测精度的全新突破（YOLOv8）步入烟尘 transformer YOLO 目标检测
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Transformer的YOLOv8检测头架构改进：提升目标检测精度的全新突破什么是DAtten
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析... 985小水博一枚呀论文解读深度学习目标检测 YOLO 人工智能算法架构网络
【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…文章目录【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解
YOLOv8到YOLOv11：深度解析目标检测架构的演进金外飞176 技术前沿目标跟踪人工智能计算机视觉目标检测 YOLO 神经网络深度学习
YOLOv8到YOLOv11：深度解析目标检测架构的演进在计算机视觉领域，YOLO（YouOnlyLookOnce）系列模型一直是实时目标检测领域的佼佼者。从2015年的YOLOv1到2024年的YOLOv11，这一系列模型经历了快速的迭代和发展，不断刷新着目标检测的性能和效率。然而，由于部分YOLO版本缺乏详细的学术论文和架构图，研究人员和开发者在理解这些模型的工作原理时往往面临挑战。最近，一篇
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
DeepSeek如何重塑我的编程学习：计算机新生的AI实践 EnigmaCoder DeepSeek 学习人工智能
目录前言邂逅DeepSeek：从困惑到惊喜初学编程的困境DeepSeek的优势️DeepSeek在编程学习中的运用注释算法逐步分析调试帮助跨语言迁移学习AI时代学习方法论革新知识获取方式转变新型学习能力培养反思与展望反思展望总结前言大家好！我是EnigmaCoder，本文我将介绍我的AI编程学习之旅。春节期间，DeepSeek横空出世，迅速登顶热榜。它功能强大，精准答疑、高效创作，瞬间点燃大众热情
【自然语言处理|迁移学习-08】：中文语料完型填空爱学习不掉头发深度学习自然语言处理（NLP）自然语言处理迁移学习人工智能
文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax进行单标签多分类2数据集加载及处理数据介绍：数据文件有三个train.csv，test
改进YOLO系列 | YOLOv5/v7 引入 Dynamic Snake Convolution | 动态蛇形卷积 wei子 YOLO 目标跟踪人工智能
改进YOLO系列：动态蛇形卷积（DynamicSnakeConvolution，DSC）简介YOLO系列目标检测算法以其速度和精度著称，但对于细长目标例如血管、道路等，其性能仍有提升空间。动态蛇形卷积（DSC）是YOLOv5/v7中引入的一种改进，旨在更好地处理细长目标。DSC原理DSC的核心思想是使用类似蛇形运动的卷积核来提取细长目标的特征。具体来说，DSC卷积核沿着一系列控制点移动，并根据每个
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
DeepSeek使用中的问题及解决方案（部分） WeiLai1112 DeepSeek 人工智能
1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

使用pytorch实现预训练模型迁移学习中的目标检测

1.COCO数据集类别文件下载

2.fasterrcnn_resnet50_fpn预训练模型预测图片

导入相关的包

（1）读取类别文件

（2）数据变换

（3）加载预训练模型

（4）检测一张图片

（5）实时检测

3.对预训练目标检测模型的类别和backbone的修改

（1）fasterrcnn_resnet50_fpn

（2）ssd300_vgg16

（3）ssdlite320_mobilenet_v3_large

（4）怎么使用预训练模型进行自己的数据集的一个小实例

你可能感兴趣的:(pytorch,目标检测,pytorch,迁移学习)