兔丁哥

【Yolov5】训练自己的yolov5模型并集成到安卓应用中【上】——模型训练

文章目录

- 前言
- 数据采集和处理
- - 采集
  - 标记
  - 处理
  - - 读取XML文件
    - 坐标转化
    - 检测异常数据
    - 生成txt标记文件
    - 拆分数据集
    - 处理入口
- 模型训练
- - 安装依赖包
  - 更改配置文件
  - 下载Yolov5权重文件
  - 模型训练
  - 模型检测
- 总结

前言

最近接到一个项目，希望使用手机摄像头对图像数据进行采集，并使用训练好的模型对图像数据进行检测，主要任务包括：

寻找一个轻量的检测模型，以方便集成到安卓应用中

使用自己的检测数据集对模型进行训练

探索模型集成到安卓应用中的方式

由于需要轻量模型，这里很自然的想到最近比较热的yolov5s模型。兔丁哥由于刚刚接触深度学习，比较喜欢简单容易上手的pytorch，而yolov5正好有pytorch版。但众所周知的是，pytorch在集成上并不如tensorflow方便高效，这也导致了pytorch在工业界不如tensorflow，这次项目让我对这一块深有体会。接下来我会从数据采集和处理，模型训练，模型导出，安卓集成等方面来介绍这个项目，由于内容比较多，将分成三篇文章对该项目进行讲解，分别是：

【Yolov5】训练自己的yolov5模型并集成到安卓应用中【上】——模型训练
【Yolov5】训练自己的yolov5模型并集成到安卓应用中【中】——模型转化
【Yolov5】训练自己的yolov5模型并集成到安卓应用中【下】——模型集成

数据采集和处理

采集

由于项目中的数据集包括一些涉密数据，因此本文以检测车辆为例来介绍项目。
首先使用自己的摄像设备到大街上，停车场上采集数据（当然也可以爬取或使用网上的公开数据集），这里就直接下载汽车数据集了，展示如下：

标记

这里使用labelImg来对图像进行标记，官方文档对安装和使用进行了详细的说明，本文在Windows + Anaconda中使用，因此安装过程如下：

git clone https://github.com/tzutalin/labelImg.git
cd labelImg
conda install pyqt=5
conda install -c anaconda lxml
pyrcc5 -o libs/resources.py resources.qrc
python labelImg.py
# or
# python labelImg.py [IMAGE_PATH] [PRE-DEFINED CLASS FILE]

打开后展示如下界面：

按照图片中的指示设置后，可以左手按w启动标记，右手鼠标画框标记，左手按d保存并切换至下一张图片。

标记是个大工程，突然来了灵感，能不能在这种标记软件上集成现成的或者想训练的模型，边标记边训练，边训练边由模型标记下一张图片，然后手工调整模型标记结果，再训练，再模型标记，再调整……随着训练的进行，准确率的提高，将极大减少调整过程，这样不仅提高了标记速度，在标记完成后模型也训练好了，一举两得。先记下灵感，以后有能力了再和小伙伴慢慢实现。

处理

标记完成后，会生成xml文件如下所示：


	tagImage
	00001.jpg
	E:\tagImage\00001.jpg
	
		Unknown
	
	
		33
		33
		1
	
	0

为了能在yolov5中训练，还需要对标记结果进行处理，假设图片存储在images目录中，XML存储在tagXml，这里使用python类的形式对数据进行了处理，处理过程包括：

检测是否存在漏标记的异常数据
读取XML，并完成坐标转化
将转化的坐标写入标记文件txt中
拆分训练集和测试集
保存处理结果到文件中

首先先导入必要的包

import os
import sys
import random
import xml.etree.ElementTree as ET
import matplotlib.image as mp

读取XML文件

ReadXML类用于读取xml文件，并提取图片尺寸信息及图片中的标记（方框及类别）。由于图片中的标记可能存在多个，所以返回的是list。

class ReadXML():
    def __init__(self, filename):
        self.filename = filename
        with open(self.filename,'rb') as xmlfile:
            tree = ET.parse(xmlfile)
            root = tree.getroot()
            size = root.find('size')
            self.imageSize = ( int(size.find('width').text), int(size.find('height').text) )

            self.objs = []

            for obj in root.iter("object"):
                cls = obj.find('name').text
                if cls not in classes:
                    continue
                classID = classes.index(cls)
                bndbox = obj.find('bndbox')
                boxCoor = ( float(bndbox.find('xmin').text), float(bndbox.find('xmax').text), float(bndbox.find('ymin').text), float(bndbox.find('ymax').text) )
                self.objs.append({'classID': classID,  'boxCoor' : boxCoor})

    def getImageSize(self):
        return self.imageSize

    def getObjs(self):
        return self.objs

坐标转化

XML标记文件中的方框信息取的是左上角的坐标(x1,y1)，和右小角的坐标(x2, y2)，而yolov5需要的坐标表示形式为方框中心点坐标与原图片的占比(x, y)和方框的宽度w和高度h与原图片的占比，convert函数实现了此功能：

def convert(imageSize, boxCoor):
    x = (boxCoor[0] + boxCoor[1]) / 2.0 / imageSize[0]
    y = (boxCoor[2] + boxCoor[3]) / 2.0 / imageSize[1]
    w = (boxCoor[1] - boxCoor[0]) * 1.0 / imageSize[0]
    h = (boxCoor[3] - boxCoor[2]) * 1.0 / imageSize[1]
    return x, y, w, h

检测异常数据

DataSet类用来对数据集进行处理，其中getOutliers用来检测异常数据，getDatas返回正确的数据集（即既有图片又有XML标签文件的数据）：

class DataSet():
    def __init__(self, imagePath, xmlPath):
        self.train, self.val, self.text = None, None, None

        self.imagePath = imagePath
        self.xmlPath = xmlPath

        imageFiles = os.listdir(self.imagePath)
        self.imageData = [name.split(".")[0] for name in imageFiles if name.endswith("jpg") or name.endswith("jpeg")]
        xmlFiles = os.listdir(self.xmlPath)
        self.xmlData = [name.split(".")[0] for name in xmlFiles if name.endswith("xml")]
        self.dataSet = [data for data in self.imageData if data in self.xmlData]

    def getDatas(self):
        return self.dataSet

    def getOutliers(self):
        return {"NoXML":[data for data in self.imageData if data not in self.xmlData], "NoImage": [data for data in self.xmlData if data not in self.imageData]}
   # ......省略部分内容......

生成txt标记文件

DataSet类的writeAnnotationsToFile函数在调用convert进行坐标转化后，将生成可供yolov5训练的txt标记文件

class DataSet():
    # ......省略部分内容......
    def writeAnnotationsToFile(self, pathname):

        pbar = ProgressBar(50)
        total = len(self.dataSet)
        count = 0

        for data in self.dataSet:
            xml = ReadXML(os.path.join(self.xmlPath, data + '.xml'))
            with open(os.path.join(pathname, data + '.txt'), 'w') as annFile:
                imageSize = xml.getImageSize()
                objs = xml.getObjs()
                for obj in objs:
                    x, y, w, h = convert(imageSize, obj['boxCoor'])
                    cid = obj['classID']
                    annFile.write(str(cid) + " " + str(x) + " " + str(y) + " " + str(w) + " " + str(h) + " \n")

            count += 1
            pbar.log(count/total, data + '.xml')
   # ......省略部分内容......

拆分数据集

DataSet类的splitSet函数用于拆分数据集，其中trainval_per表示训练和验证集占整体数据集的比例，剩余的为测试集，train_per为训练集占训练和验证集的比例，可以根据情况自行调整。__writeSetToFile用于将拆分的数据集写入文件中，方便查看，并且可以指定是否需要后缀名，及是否需要图片路径。

class DataSet():
    # ......省略部分内容......
    def splitSet(self, trainval_per = 0.8, train_per = 0.8):
        total = len(self.dataSet)
        trainval_total = int(trainval_per * total)
        train_total = int(train_per * trainval_total)

        trainval_temp = random.sample(self.dataSet, trainval_total)
        train_temp = random.sample(trainval_temp, train_total)
        self.trainval = [data for data in self.dataSet if data in trainval_temp]
        self.train = [data for data in  self.trainval if data in train_temp]
        self.val = [data for data in  self.trainval if data not in self.train]
        self.text = [data for data in self.dataSet if data not in self.trainval]

        return self.train, self.val, self.text

    # 省略各种get方法

    def __writeSetToFile(self, datas, filename, suffix = False, path = False):
        with open(filename, 'w') as outfile:
            if path:
                for data in datas:
                    if os.path.exists(os.path.join(self.imagePath, data + ".jpg")):
                        outfile.write(self.imagePath + '/' + data + ".jpg\n")
                    elif os.path.exists(os.path.join(self.imagePath, data + ".jpeg")):
                        outfile.write(self.imagePath + '/' + data + ".jpeg\n")

            elif suffix:
                for data in datas:
                    if os.path.exists(os.path.join(self.imagePath, data + ".jpg")):
                        outfile.write(data + ".jpg\n")
                    elif os.path.exists(os.path.join(self.imagePath, data + ".jpeg")):
                        outfile.write( data + ".jpeg\n")
                    
            else:
                for data in datas:
                    outfile.write(data + '\n')

    def writeTrainToFile(self, filename, suffix = False, path = False):
        self.__writeSetToFile(self.train, filename, suffix, path)

    def writeValToFile(self, filename, suffix = False, path = False):
        self.__writeSetToFile(self.val, filename, suffix, path)

    def writeTrainValToFile(self, filename, suffix = False, path = False):
        self.__writeSetToFile(self.trainval, filename, suffix, path)

    def writeTextToFile(self, filename, suffix = False, path = False):
        self.__writeSetToFile(self.text, filename, suffix, path)

    def writeAllToFile(self, filename, suffix = False, path = False):
        self.__writeSetToFile(self.dataSet, filename, suffix, path)

    def writeSetToFile(self, pathname, suffix = False, path = False):
        self.writeAllToFile(os.path.join(pathname, 'all.txt'), suffix, path)
        self.writeTextToFile(os.path.join(pathname, 'test.txt'), suffix, path)
        self.writeValToFile(os.path.join(pathname, 'val.txt'), suffix, path)
        self.writeTrainToFile(os.path.join(pathname, 'train.txt'), suffix, path)
        self.writeTrainValToFile(os.path.join(pathname, 'trainval.txt'), suffix, path)

处理入口

之后调用上诉函数对数据集进行处理。

if __name__ == "__main__":
    datas = DataSet("E:/data/images","E:/data/tagXml")
    print(datas.getOutliers())
    train, val, text = datas.splitSet(0.8, 0.8)
    # print(len(train), len(val), len(text))
    datas.writeSetToFile("E:/data", True, True)
    datas.writeAnnotationsToFile("E:/data/labels")

注意：建议将图片存放在images目录中，生成的txt标记存放在labels目录中，因为yolov5在训练使并不需要指定标签目录，只需指定图片目录即可，yolov5将在图片的当前目录下寻找同名的txt标记文件，或将路径中的images简单替换为labels目录，并在其目录下寻找同名txt标记文件。

模型训练

下载yolov5，并用自己喜欢IDE打开yolov5目录，将上诉images文件夹、labels文件夹、以及生成的训练集train.txt、验证集val.txt、测试集test.txt放在data目录下。兔丁哥对VSCode情有独钟，其文件目录如下所示：

安装依赖包

官方给的安装依赖包的方式是pip install -qr yolov5/requirements.txt，但我对conda情有独钟，打开requirements.txt文件，看到官方也提供了conda安装依赖包的方式

# Conda commands (in place of pip) ---------------------------------------------
# conda update -yn base -c defaults conda
# conda install -yc anaconda numpy opencv matplotlib tqdm pillow ipython
# conda install -yc conda-forge scikit-image pycocotools tensorboard
# conda install -yc spyder-ide spyder-line-profiler
# conda install -yc pytorch pytorch torchvision
# conda install -yc conda-forge protobuf numpy && pip install onnx==1.6.0  # https://github.com/onnx/onnx#linux-and-macos

其实只需安装几个重要的包即可：numpy, opencv, matplotlib, tqdm, pillow, ipython, scikit-image, tensorboard, pytorch, torchvision, protobuf。

更改配置文件

在data目录下新建一个car.yaml文件，参照coco.yaml写入自己的数据集目录，及类别信息，如下所示：

# train and val data as 1) directory: path/images/, 2) file: path/images.txt, or 3) list: [path1/images/, path2/images/]
train: data\\train.txt  
val: data\\val.txt  
test: data\\test.txt  

# number of classes
nc: 1

# class names
names: ['car']

打开models/yolov5s.yaml，更改nc为自己的类别数，如下：

# parameters
nc: 1  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple

# ......省略后面其他内容......

下载Yolov5权重文件

虽然训练的时候会自动下载，但由于是外网数据，下载极其缓慢，因此可以使用一切下载工具到tutorial.ipynb中提到的Google Drive进行下载，并存放在models目录下，本文下载的是yolov5s.pt文件。

模型训练

虽然tutorial.ipynb中使用如下命令对模型进行训练：

python train.py --img 640 --batch 16 --epochs 3 --data coco128.yaml --cfg yolov5s.yaml --weights yolov5s.pt --nosave --cache

但我更喜欢直接在train.py文件中进行修改，在文件末尾找到主入口if __name__ == '__main__':，修改如下：

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--weights', type=str, default='models/yolov5s.pt', help='initial weights path')
    parser.add_argument('--cfg', type=str, default='models/yolov5s.yaml', help='model.yaml path') # 存储模型结构的配置文件
    parser.add_argument('--data', type=str, default='data/car.yaml', help='data.yaml path') # 存储训练、测试数据的文件
    parser.add_argument('--hyp', type=str, default='', help='hyperparameters path, i.e. data/hyp.scratch.yaml')
    parser.add_argument('--epochs', type=int, default=30)       # 指的就是训练过程中整个数据集将被迭代多少次
    parser.add_argument('--batch-size', type=int, default=5, help='total batch size for all GPUs') # 一次看完多少张图片才进行权重更新，梯度下降的mini-batch,
    parser.add_argument('--img-size', nargs='+', type=int, default=[640, 640], help='train,test sizes') # 输入图片宽高
    parser.add_argument('--rect', action='store_true', help='rectangular training') # 进行矩形训练
    parser.add_argument('--resume', nargs='?', const='get_last', default=False, 
                        help='resume from given path/last.pt, or most recent run if blank')  # 恢复最近保存的模型开始训练
    parser.add_argument('--nosave', action='store_true', help='only save final checkpoint') # 仅保存最终checkpoint
    parser.add_argument('--notest', action='store_true', help='only test final epoch') # 仅测试最后的epoch
    parser.add_argument('--noautoanchor', action='store_true', help='disable autoanchor check')
    parser.add_argument('--evolve', action='store_true', help='evolve hyperparameters') # 进化超参数
    parser.add_argument('--bucket', type=str, default='', help='gsutil bucket') # gsutil bucket
    parser.add_argument('--cache-images', action='store_true', help='cache images for faster training') # 缓存图像以加快训练速度
    parser.add_argument('--name', default='', help='renames results.txt to results_name.txt if supplied') # 重命名results.txt to results_name.txt
    parser.add_argument('--device', default='0', help='cuda device, i.e. 0 or 0,1,2,3 or cpu') # cuda device, i.e. 0 or 0,1,2,3 or cpu
    parser.add_argument('--multi-scale', action='store_true', help='vary img-size +/- 50%%') # 多尺度训练，img-size +/- 50%
    parser.add_argument('--single-cls', action='store_true', help='train as single-class dataset') # 单类别的训练集
    parser.add_argument('--adam', action='store_true', help='use torch.optim.Adam() optimizer') # 使用adam优化
    parser.add_argument('--sync-bn', action='store_true', help='use SyncBatchNorm, only available in DDP mode')
    parser.add_argument('--local_rank', type=int, default=-1, help='DDP parameter, do not modify')
    parser.add_argument('--logdir', type=str, default='runs/', help='logging directory')

这里主要修改了

参数	default值	备注
–weights	models/yolov5s.pt	权重文件
–cfg	models/yolov5s.yaml	存储模型结构的配置文件
–data	data/car.yaml	存储训练、测试数据的文件
–epochs	30	训练过程中整个数据集的迭代次数
–batch-size	5	处理多少张图片后再进行权重更新
–img-size	[640, 640]	输入图片的宽和高

--epochs、--batch-size、--img-size可能需要根据自己电脑的配置来缩小，否则可能造成训练时间过长，显存溢出的问题。如果提示显存溢出，缩小--batch-size的值即可。

之后便可以在控制台输入以下命令进行训练了：

python train.py

在训练过程中，还可以输入以下命令打开tensorboard可视化训练过程

tensorboard --logdir runs

根据提示在浏览器上打开http://localhost:6006/即可查看，如下图所示：

模型检测

模型训练好后将在runs目录下生成训练过程和结果文件，其中runs\exp0\weights中存放着模型训练好的权重文件，此时就可以使用该权重文件进行检测。将需要检测的图片存放在data/tests/中，打开detect.py文件，在文件末尾找到主入口if __name__ == '__main__':，修改如下：

参数	default值	备注
–weights	runs\exp0\weights\best.pt	权重文件
–source	data/test	存储需要检测的图片
–output	data/output	存储检测的结果
–img-size	640	输入图片的宽和高

然后在控制台输入以下命令进行检测了：

python detect.py

之后就可以在data/output目录下查看检测的结果了。

总结

通过这次项目，感觉Yolov5的检测能力还是挺强的，准确度和速度都比较高，而且官方文档从训练到检测都写得很清楚，想训练自己的模型是非常容易的。由于兔丁哥并没有真正使用车辆数据再跑一次模型，因此文中图片较少，但主要的细节都已经记录下来，如有问题，欢迎留言讨论。接下来我将使用TorchScrip对模型进行转化，敬请期待。。。

基于Matlab_simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解 985计算机硕士仿真模型 matlab 算法开发语言
Matlab/simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解：1.优化算法相关：蚁群优化算法，遗传优化算法等2.控制器相关：ADRC控制，鲁棒控制，神经网络控制，MPC等3.神经网络相关：BP神经网络，RBF神经网络，LSTM神经网络等文章目录1.优化算法相关蚁群优化算法（ACO）2.控制器相关ADRC控制3.神经网络相关BP神经网络1.构建光伏系统模型1.1光伏电池模型1.2控
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力 AI小怪兽 YOLOv12魔术师 YOLO transformer 深度学习人工智能 python
提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。如何使用：1）结合C3k2二次创新使用；2）结合A2C2f二次创新使用；亮点包括：1.提出了一种新的基于Transformer的盲点网络（TBSN）架构；2.引入了知识蒸馏策略来提高计算效率；3.在
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
群体智能优化算法-粒子群优化算法（Particle Swarm Optimization, PSO，含Matlab源代码） HR Zhou 算法 matlab 智能优化算法优化
摘要（Abstract）粒子群优化（PSO）是一种基于群体智能的优化算法，受鸟群觅食行为的启发。PSO通过模拟粒子（个体）在搜索空间中的运动来寻找最优解。每个粒子根据自身的历史最优位置（pBest）和全局最优位置（gBest）动态调整速度和位置，从而在全局搜索和局部搜索之间取得平衡。PSO具有收敛速度快、实现简单、计算复杂度低等优点，广泛应用于函数优化、神经网络训练、工程优化等领域。算法介绍1.主
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
Postman高级功能深度解析：Mock Server与自动化监控——构建高效API测试与监控体系测试渣测试工具 postman
引言：Postman在API开发中的核心价值在数字化时代，API（应用程序编程接口）已成为系统间交互的“神经网络”，其质量直接影响用户体验与业务连续性。然而，传统API测试面临两大挑战：开发阶段依赖：前端与后端团队需同步开发，导致进度延迟；测试环境复杂：生产数据敏感、测试场景覆盖不全、性能压力模拟困难。Postman作为全球领先的API开发与测试工具，通过其MockServer与自动化监控两大核心
模型部署实战：PyTorch生产化指南小诸葛IT课堂 pytorch 人工智能 python
‌一、为什么要做模型部署？‌模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及：模型格式转换（TorchScript/ONNX）性能优化（量化/剪枝）构建API服务移动端集成本章使用ResNet18实现图像分类，并演示完整部署流程。‌二、模型转换：TorchScript与ONNX‌‌1.准备预训练模型importtorchimporttorchvision#加载预训练模型model=torc
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

【Yolov5】训练自己的yolov5模型并集成到安卓应用中【上】——模型训练

文章目录

前言

数据采集和处理

采集

标记

处理

读取XML文件

坐标转化

检测异常数据

生成txt标记文件

拆分数据集

处理入口

模型训练

安装依赖包

更改配置文件

下载Yolov5权重文件

模型训练

模型检测

总结

你可能感兴趣的:(YOLO,pytorch,深度学习,神经网络)