步印

使用yolov3-tiny训练自己的图像数据以及在jetson Nano上的测试

这里写自定义目录标题

1. yolov3-tiny简介
2 安装darknet
3.下载预训练模型yolov3-tiny.weights
4. 简单地测试

4.1 测试图片
4.2 测试实时视频

5. 制作自己的数据集

5.1 准备数据集
5.2 打乱顺序并重命名
5.3 数据标注

第一种方法:
第二种方法:

5.4 指定训练集和测试集
5.5 指定训练集和测试集的实际路径和标签文件
5.6 修改一些必要文件

5.6.1 修改data目录下的voc.names
5.6.2 修改 cfg目录下的voc.data文件
5.6.3 修改 cfg目录下的yolov3-tiny.cfg文件
5.6.4 生成预训练模型

6.训练
7.测试

7.1 使用c进行图片检测
7.2 使用c进行实时检测
7.2 使用python进行图片检测
7.3 使用python进行实时检测

1. yolov3-tiny简介

2 安装darknet

首先下载darknet,执行如下命令:

git clone https://github.com/pjreddie/darknet

下载完成后,进入darknet目录,并打开Makefile文件,因为Jetson Nano支持GPU,且已预安装了OPENCV和CUDNN.所以在编译的时候我们需要修改下Makefile文件,如下:将

GPU=0
CUDNN=0
OPENCV=1
OPENMP=0
DEBUG=1

修改为

GPU=1
CUDNN=1
OPENCV=1
OPENMP=0
DEBUG=1

然后执行如下命令进行编译:

$ cd darknet
$ make

此时darkent安装完成.

3.下载预训练模型yolov3-tiny.weights

执行如下命令下载预训练模型:

wget https://pjreddie.com/media/files/yolov3-tiny.weights

等待其下载完成后,会在darknet根目录下看到该预训练模型.

4. 简单地测试

4.1 测试图片

./darknet detect cfg/yolov3-tiny.cfg yolov3-tiny.weights data/dog.jpg

4.2 测试实时视频

./darknet detector demo cfg/voc.data cfg/yolov3-tiny.cfg yolov3-tiny.weights

5. 制作自己的数据集

本次训练的目标是为了能够检测出四类不同的物体,即西瓜,手套,电池和鞋,如图所示:

每种物体采集700张,命名方式以数字形式进行命名.

5.1 准备数据集

然后切换到darkent根目录,依次建立如下几个文件夹:

$ cd scripts
$ mkdir -p VOCdevkit && cd VOCdevkit
$ mkdir -p VOC2019  && cd VOC2019
$ mkdir -p Annotations && mkdir -p ImageSets && mkdir -p  JPEGImages && mkdir -p labels

建立完之后的目录为:
├── VOCdevkit
│ └── VOC2019
│ ├──── Annotations
│ ├──-── ImageSets
│ ├──-──JPEGImages
│ └─────labels
将采集到的图像全部放入JPEGImages文件夹下.

5.2 打乱顺序并重命名

将JPEGImages文件夹下的图像文件打乱顺序并重新命名.方法是执行如下的python脚本文件:

# -*- coding:utf-8 -*-
import os
import random
class ImageRename():
    def __init__(self):
        self.path = '/home/jetbot/darknet-master/scripts/VOCdevkit/VOC2019/JPEGImages'#图片所在文件夹
 
    def rename(self):
        filelist = os.listdir(self.path)
        random.shuffle(filelist)
        total_num = len(filelist)
        i = 0
        for item in filelist:
            if item.endswith('.jpg'):
                src = os.path.join(os.path.abspath(self.path), item)
                dst = os.path.join(os.path.abspath(self.path), '0000' + format(str(i), '0>3s') + '.jpg')
                os.rename(src, dst)
                print ('converting %s to %s ...' % (src, dst))
                i = i + 1
        print ('total %d to rename & converted %d jpgs' % (total_num, i))
 
if __name__ == '__main__':
    newname = ImageRename()
    newname.rename()

5.3 数据标注

该步骤用于对每张图片生成描述文件,我们需要认为指定图片里哪一块区域是我们要检测的物体.每张图片都要以一个xml文件进行描述.数据标注的工具很多,在这里我们选择labelImg.首先安装,在这里该插件对python版本有要求,python2和python3的安装方式不同,选择任意一种即可,区别在于最后执行过程.
若为python3,安装过程如下:

$ sudo apt-get install pyqt5-dev-tools
$ sudo pip3 install lxml
$ cd darknet &&  mkdir -p software && cd software
$ git clone https://github.com/tzutalin/labelImg.git
$ cd labelImg
$ make all

若为python2,安装过程如下:

$ sudo apt-get install pyqt4-dev-tools
$ sudo pip install lxml
$ cd darknet &&  mkdir -p software && cd software
$ git clone https://github.com/tzutalin/labelImg.git
$ cd labelImg
$ make all

至此,安装已完成,下面可以运行如下命令打开该软件进行标注了:
若为python3安装,则打开软件的方式为:

$ python3 labelImg.py  #打开labelImg

若为python2安装,则打开软件的方式为:

$ python labelImg.py  #打开labelImg

软件界面如下:

然后点击左侧的"Open Dir"按键,选择我们存放数据图片的文件夹JPEGImages,如下:
然后点击"Open",之后会出现第一张图片,对于一张图片的标注,一般分如下几个步骤:
1)点击左侧的"Create \n RectBox"按键,然后找准我们要识别的物体,从左上角到右下角拖一个矩形,
2) 在弹出的窗口种创建标签,如下图所示,我们需要选择"watermenlon",如果不出现,要手动敲一个,添加进去,并选择,如果图片中有多个待识别的物体,则再此拉矩形框,并选择类别.

3) 选择完成后,点击保存或者键盘按"ctrl+s",则会在JPEGImages文件夹下生成对应00001.jpg的xml文件00001.xml.
4)按键盘"n"来进入下一张图片.
按照上述步骤依次进行,直到标注完毕.
注: 若在标注过程中,有些图片比较模糊,我们可以不进行标注,直接进入下一张图片.
标注全部完成后,我们会在JPEGImages文件夹中看到jpg文件和xml文件共存,在这这里还需要删除我们之前没有标注的图片,它们不具备任何作用.所以就需要我们进行排查和清除,方法有两个,对于样本较少的,建议第一种:

第一种方法:

打开文件夹,将文件夹水平方向缩小为只能包含两列,即左侧为jpg图片,右侧为xml文件,若某一行出现有两个jpg图片,则删除左边那个,不断向下拖动滑动条,直到尾断即完成了排查和删除.

第二种方法:

执行如下脚本进行排查:

import os
import os.path

h = 0
a = ''
b = ''
dele = []
pathh = "/home/jetbot/darknet-master/scripts/VOCdevkit/VOC2019/JPEGImages"
#dele.remove(1)
for filenames in os.walk(pathh):
    filenames = list(filenames)
    filenames = filenames[2]
    for filename in filenames:

        print(filename)
        if h==0:
            a = filename
            h = 1
        elif h==1:
            #print(filename)
            b = filename
            if a[0:a.rfind('.', 1)]==b[0:b.rfind('.', 1)]:
                h = 0
                #print(filename)
            else:
                h = 1
                dele.append(a)
                a = b
        else:
            print("wa1")
print(dele)
for file in dele:
    os.remove(pathh+file)
    print("remove"+file+" is OK!")

#再循环一次看看有没有遗漏的单身文件
for filenames in os.walk(pathh):
    filenames = list(filenames)
    filenames = filenames[2]
    for filename in filenames:

        print(filename)
        if h==0:
            a = filename
            h = 1
        elif h==1:
            #print(filename)
            b = filename
            if a[0:a.rfind('.', 1)]==b[0:b.rfind('.', 1)]:
                h = 0
                #print(filename)
            else:
                h = 1
                dele.append(a)
                a = b
        else:
            print("wa1")
print (dele)

至此数据标注工作完毕,我们还需要一个小工作,就是将xml文件全部从JPEGImages移出到Annotations文件夹下,方法为:

$ cd JPEGImages
$ mv *.xml ../Annotations/

至此,JPEGImages为全部的图像数据,Annotations中为对应的xml描述文件.

5.4 指定训练集和测试集

我们做好的数据集要一部分作为训练集来训练模型,需要另一部分作为测试集来帮助我们验证模型的可靠性.因此首先要将所有的图像文件随机分配为训练集和测试集.
首先切换到ImageSets目录中,新建Main目录,然后在Main目录中新建两个文本文档train.txt和val.txt.分别用于存放训练集的文件名列表和测试集的文件名列表.

$ cd ImageSets 
$ mkdir -p Main && cd Main
$ touch train.txt test.txt

然后执行如下脚本文件来生成训练集和测试集,注意该文件中的2400为我选择的训练集的个数.400默认为测试集.

import os
from os import listdir, getcwd
from os.path import join
if __name__ == '__main__':
    source_folder='/home/jetbot/darknet-master/scripts/VOCdevkit/VOC2019/JPEGImages/'     # 修改为自己的路径
    dest='/home/jetbot/darknet-master/scripts/VOCdevkit/VOC2019/ImageSets/Main/train.txt' # 修改为自己的路径
    dest2='/home/jetbot/darknet-master/scripts/VOCdevkit/VOC2019/ImageSets/Main/val.txt'  # 修改为自己的路径
    file_list=os.listdir(source_folder)       
    train_file=open(dest,'a')                 
    val_file=open(dest2,'a')   
    count = 0               
    for file_obj in file_list:
        count += 1                
       
        file_name,file_extend=os.path.splitext(file_obj)
        
        if(count<2400):  # 可以修改这个数字，这个数字用来控制训练集合验证集的分割情况                   
            
            train_file.write(file_name+'\n')  
        else :
            val_file.write(file_name+'\n')    
    train_file.close()
    val_file.close()

运行完成后可以在train.txt和val.txt文件如下所示:

5.5 指定训练集和测试集的实际路径和标签文件

修改script文件夹根目录下的voc_label.py文件,需要修改几处:

sets=[ (‘2019’, ‘train’), (‘2019’, ‘val’)] ,2019为我们设置的文件夹标识 ,"train"和"val"指代训练集和测试集
2)classes = [“shose”, “glove”, “battery”, “watermenlon”] ,修改为我们要识别的四类物体名称
如下:

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join

sets=[ ('2019', 'train'), ('2019', 'val')]

classes = ["shose", "glove", "battery", "watermenlon"]


def convert(size, box):
    dw = 1./(size[0])
    dh = 1./(size[1])
    x = (box[0] + box[1])/2.0 - 1
    y = (box[2] + box[3])/2.0 - 1
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x*dw
    w = w*dw
    y = y*dh
    h = h*dh
    return (x,y,w,h)

def convert_annotation(year, image_id):
    in_file = open('VOCdevkit/VOC%s/Annotations/%s.xml'%(year, image_id))
    out_file = open('VOCdevkit/VOC%s/labels/%s.txt'%(year, image_id), 'w')
    tree=ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult)==1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w,h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

wd = getcwd()

for year, image_set in sets:
    if not os.path.exists('VOCdevkit/VOC%s/labels/'%(year)):
        os.makedirs('VOCdevkit/VOC%s/labels/'%(year))
    image_ids = open('VOCdevkit/VOC%s/ImageSets/Main/%s.txt'%(year, image_set)).read().strip().split()
    list_file = open('%s_%s.txt'%(year, image_set), 'w')
    for image_id in image_ids:
        list_file.write('%s/VOCdevkit/VOC%s/JPEGImages/%s.jpg\n'%(wd, year, image_id))
        convert_annotation(year, image_id)
    list_file.close()

os.system("cat 2019_train.txt 2019_val.txt > train.txt")

修改完成后,执行如下命令,即可在labels文件夹下生成标签文件.如下:

在scripts根目录下,也会生成2019_train.txt和2019_var.txt文件,与之前Main中的train.txt和var.txt文件不同,其内容全部为训练图片或测试图片的实际路径.

5.6 修改一些必要文件

5.6.1 修改data目录下的voc.names

将文件中coco数据集的标签,修改为我们需要的四类标签,如下:

5.6.2 修改 cfg目录下的voc.data文件

主要修改的点为:
1)classes 因为,我们是4类,所以,classes = 4;
2) 修改训练集:train = /home/jetbot/darknet-master/scripts/2019_train.txt
3) 修改测试集valid = /home/jetbot/darknet-master/scripts/2019_var.txt
4) 修改标签名: names = data/voc.names
5) 修改训练过程中生成的过程结果存放地址
修改后,如下:

5.6.3 修改 cfg目录下的yolov3-tiny.cfg文件

修改地方主要有如下几个:

有两处需要修改classes和filters,从下往上有两处,类似如下字样处:

[convolutional]
size = 1
stride =1
pad =1
filters = %%%
actication = linear

[yolo]
mask = ...
anchors = ...
classes = %%%
num = ...

将classes 修改为4,因为我们只有4类;将卷积层数修改为27 ,计算方式为3*(类别数+5).若为3类,则是3*(3+5) = 24.

我们任务是测试,则需要将该文件上方Testing下两行的batch=1,subdivisions=1全部注释掉,将# Training下两行的batch=64,subdivisions=16全部取消注释.

至此,训练前的准备工作已全部完成了.

5.6.4 生成预训练模型

该过程用于生成较小的预训练模型

$ ./darknet partial cfg/yolov3-tiny.cfg yolov3-tiny.weights yolov3-tiny.conv.15 15

6.训练

执行如下命令即可进行训练:

$ ./darknet detector train cfg/voc.data cfg/yolov3-tiny.cfg yolov3-tiny.conv.15 | tee person_train_log.txt

保存log时会生成两个文件，一个保存的是网络加载信息和checkout点保存信息，另一个保存的是训练信息。

训练耗时较长,查看log当loss较小,且不再发生变化时,可按"ctrl+c"终止训练.我训练到了90000次就停止了,在这个过程中在backup文件夹下会保存对应迭代次数的中间结果,前1000次内每100次保存一个,超过1000次,每1000保存一次,依次.在这个过程中,我么可以随时拿中间结果进行测试.

7.测试

7.1 使用c进行图片检测

将yolov3-tiny90000.weights拷贝到Nano上即可进行测试,其测试方法同第4节,主要提该模型文件即可.如:
执行如下命令,即可用于图片检测.

$ ./darknet detect cfg/yolov3-tiny.cfg yolov3-tiny90000.weights data/dog.jpg

7.2 使用c进行实时检测

执行如下命令,即可用于测试实时视频.

$ ./darknet detector demo cfg/voc.data cfg/yolov3-tiny.cfg yolov3-tiny90000.weights

7.2 使用python进行图片检测

若想使用python文件进行测试,可以进入examples目录下,修改detector.py文件,主要修改如下内容:

dn.set_gpu(0)
net = dn.load_net("../cfg/yolov3-tiny.cfg", "../backup/yolov3-tiny_70000.weights", 0)
meta = dn.load_meta("../cfg/voc.data")

修改完的内容如下:

#!/usr/bin/env python
# Stupid python path shit.
# Instead just add darknet.py to somewhere in your python path
# OK actually that might not be a great idea, idk, work in progress
# Use at your own risk. or don't, i don't carefanhui

import sys, os
sys.path.append(os.path.join(os.getcwd(),'python/'))

import darknet as dn
import cv2 as cv
dn.set_gpu(0)
net = dn.load_net("../cfg/yolov3-tiny.cfg", "../backup/yolov3-tiny_70000.weights", 0)
meta = dn.load_meta("../cfg/voc.data")
r = dn.detect(net, meta, "../data/2.jpg")
print r

运行如下命令即可对指定的图片进行检测:

$ python detector.py

7.3 使用python进行实时检测

为了对实时视频进行目标检测,我们需要将上述检测图片的代码进行修改,

$ cd examples
$ touch detector_real_time.py

内容如下:

#!/usr/bin/env python
# Stupid python path shit.
# Instead just add darknet.py to somewhere in your python path
# OK actually that might not be a great idea, idk, work in progress
# Use at your own risk. or don't, i don't carefanhui

import sys, os
sys.path.append(os.path.join(os.getcwd(),'python/'))

import darknet as dn
import cv2 as cv
dn.set_gpu(0)
net = dn.load_net("../cfg/yolov3-tiny.cfg", "../backup/yolov3-tiny_70000.weights", 0)
meta = dn.load_meta("../cfg/voc.data")
r = dn.detect(net, meta, "../data/2.jpg")
print r
# And then down here you could detect a lot more images like:

cap = cv.VideoCapture(0)
while True:
   ret,frame = cap.read()
   if ret:
      cv.imwrite("./a.jpg",frame)
      r = dn.detect(net, meta, "./a.jpg")
      print r
      if len(r):
         a= int(r[0][2][0]-(r[0][2][2]/2))
         b= int(r[0][2][1]-(r[0][2][3]/2))
         c= int(r[0][2][0]+(r[0][2][2]/2))
         d= int(r[0][2][1]+(r[0][2][3]/2))
         cv.rectangle(frame,(a,b),(c,d),(255,0,0),thickness=2)
         m= int(r[0][2][0]-(r[0][2][2]/2)-10)
         n= int(r[0][2][1]-(r[0][2][3]/2)-10)
         cv.putText(frame,"%s:%.2f"%(r[0][0],r[0][1]),(m,n),cv.FONT_HERSHEY_SIMPLEX,0.7,(0,0,255),2,0)
         cv.imshow("result",frame)
         c = cv.waitKey(50)
         if c==27:
            break
      else:
         print "nothing"
         continue
   else:
      break
cap.release()

运行该python文件,即可看到试试检测的画面,在Nnao上实测帧率为6fps.注意,要用python2来运行,即:

$ python detector_real_time.py

YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
4款老照片AI自动修复工具分享，让老照片重焕光彩 Ai工具分享人工智能
老照片承载着我们的成长历程、家庭的变迁以及社会的发展印记。然而，岁月无情，它们逐渐失去了原本的光彩，让我们在回忆时总觉得少了些什么。但随着自动修复软件的出现，让老照片的修复变得不再遥不可及。这些软件利用先进的图像处理技术，能够自动识别并修复照片上的瑕疵，让老照片重焕光彩。下面小编就来给大家分享几款AI自动修复工具，帮助你找回那些遗失的美好时光。一、牛学长图片修复工具牛学长图片修复工具是一款功能强大
图像工具插件：Editor.js 的图像处理解决方案贡沫苏Truman
图像工具插件：Editor.js的图像处理解决方案imageImageBlockforEditor.js项目地址:https://gitcode.com/gh_mirrors/image8/imageEditor.js的图像工具插件是一个强大的开源项目，致力于为Editor.js富文本编辑器提供图像处理功能。该项目主要使用JavaScript编程语言，并且是基于Editor.js的插件架构进行开发
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
ComfyUI 中存在类似于 “蒙版” 的方法 AI-AIGC-7744423 图像处理人工智能
在ComfyUI中存在类似于“蒙版”的方法，它在图像生成和编辑过程中发挥着重要作用，以下为你详细介绍：什么是蒙版及其作用在图像处理领域，蒙版是一种用于控制图像特定区域处理效果的工具。通过蒙版，可以指定哪些区域需要应用某种效果（如滤镜、色彩调整等），哪些区域保持不变。在ComfyUI里，蒙版主要用于控制图像生成或修改的范围。ComfyUI中实现类似蒙版功能的方法1.使用ControlNet的蒙版功能
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
Python与人工智能：为何它们是天作之合？纪至训至 python 人工智能开发语言
引言在人工智能（AI）飞速发展的今天，Python已成为这一领域的“明星语言”。从机器学习到深度学习，从自然语言处理到计算机视觉，Python的身影无处不在。那么，Python究竟为何能成为AI开发的首选工具？本文将探讨Python与AI之间的深度关联，并解析其背后的原因。1.Python的简洁性与可读性AI开发的核心在于快速迭代和实验，而Python以其简洁的语法和直观的代码结构著称。开发者无需
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
AI基于深度学习的代码搜索案例（一）人工智能MOS 人工智能深度学习机器学习
1.背景近年来，人工智能逐渐进入各个领域并展现出了强大的能力。在计算机视觉领域，以ImageNet为例，计算机的图像分类水平已经超过了人类。在自然语言处理(NLP)领域，BERT、XLNet以及MASS也一遍遍的刷新着任务榜单。当人工智能进入游戏领域，也取得了惊人的成绩，在Atari系列游戏中，计算机很容易超过了大部分人类，在围棋比赛中，AlphaGo和AlphaZero也已经超越了人类顶尖棋手。
Anaconda与VS Code wei099
最近在学习机器学习和计算机视觉，使用GoogleColab来运行网上的示例代码。考虑到网页上写代码效率太低，没有代码补全功能，没有函数提示，不利于对代码的了解，于是还是决定折腾一下在自己的Windows本上安装工作环境。想要学习机器学习的技能，不可避免要具备熟练使用Python编程的能力。Anaconda是Python软件包管理器，可以大大减少使用者安装各种包的麻烦，提高工作效率。我先后安装了An
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南快撑死的鱼 python算法解析 python 开发语言
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南火灾是一种常见而危险的自然灾害，在工业、家庭和公共场所中，实时检测火焰并做出响应是保障安全的重要手段。随着计算机视觉技术的发展，使用图像处理和机器学习的方法进行火焰检测已经成为可能。Python作为一种功能强大且广泛使用的编程语言，提供了丰富的库和工具，能够有效地实现火焰检测和识别。在本文中，我们将深入探讨如何使用Python进行火
Diffusion Transformer与Differential Transformer：技术创新与应用前景 AI大模型learner 深度学习人工智能机器学习
引言Transformer架构已成为自然语言处理（NLP）和计算机视觉（CV）领域的主流技术。随着技术的不断发展，DiffusionTransformer和DifferentialTransformer等新型架构逐步涌现，为生成模型和注意力机制带来了突破性的进展。本文旨在从科学视角探讨这两种模型的核心原理、技术特点及应用前景。DiffusionTransformer概念与原理DiffusionTr
计算机视觉算法实战——车道线检测喵了个AI 计算机视觉实战项目计算机视觉
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨车道线检测是计算机视觉领域的一个重要研究方向，尤其在自动驾驶和高级驾驶辅助系统（ADAS）中具有广泛应用。本文将深入探讨当前主流的车道线检测算法，选择性能最好的算法进行详细介绍，并涵盖数据集、代码实现、优秀论文、具体应用以及未来的研究方向和改进方向。1.当前相关的算法✨✨车道线检测算法
Vision Transformer (ViT)：将Transformer带入计算机视觉的革命性尝试（代码实现）阿正的梦工坊 Deep Learning DL Papers transformer 计算机视觉深度学习
VisionTransformer(ViT)：将Transformer带入计算机视觉的革命性尝试作为一名深度学习研究者，如果你对自然语言处理（NLP）领域的Transformer架构了如指掌，那么你一定不会对它在序列建模中的强大能力感到陌生。然而，2021年由GoogleResearch团队在ICLR上发表的论文《ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIM
图像去雾常见数据集梦姐的编程日志图像处理深度学习人工智能
近年来，随着深度学习技术的快速发展，图像去雾任务成为计算机视觉领域的重要研究方向之一。高质量的数据集是算法研究的基础，本文将介绍一些常用的图像去雾数据集，包括其特点、应用场景以及下载地址。1.RESIDE数据集RESIDE（REalisticSingleImageDEhazing）数据集是目前最常用的图像去雾数据集之一。该数据集提供了多种规模的子数据集，主要分为以下几部分：IndoorTraini
点云从入门到精通技术详解100篇-基于激光雷达点云的三维目标检测格图素书目标检测人工智能计算机视觉
目录前言图像目标检测算法研究现状点云目标检测算法研究现状基于投影图的方法基于体素的方法基于点云的多模态融合方法2地面点云滤波及神经网络2.1目标检测数据集及采集设备2.1.1KITTI数据集2.1.2车载激光雷达2.2地面点云滤波算法2.2.1RANSAC算法2.2.2CSF算法本文篇幅较长，分为上下两篇，下篇详见基于激光雷达点云的三维目标检测（续）前言近几年来，在计算机视觉领域，利用深度学习卷积
探索水下视觉新境界：基于Retinex理论的水下图像增强项目葛冉忱Edith
探索水下视觉新境界：基于Retinex理论的水下图像增强项目【下载地址】基于ace-urcp-retinex的水下图像增强代码本资源文件提供了一个基于Retinex理论的水下图像增强方法的代码实现。该方法旨在消除水下图像捕捉过程中产生的色彩失真和光线散射问题，从而显著提高水下图像的可视性。Retinex理论是一种模拟人类视觉系统处理图像的计算机视觉概念。它认为，人类视觉系统通过分离物体表面反射的光
【AIGC】计算机视觉-YOLO系列家族 LeeZhao@ 计算机视觉 AIGC 计算机视觉 YOLO
YOLO系列家族（1）YOLO发展史（2）YOLOX（3）YOLOv6（4）YOLOv7（5）YOLOv8（6）YOLOv9（7）YOLOv10（8）YOLOv11（9）YOLOv12（1）YOLO发展史YOLO(YouOnlyLookOnce）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（JosephRedmon）和阿里-法哈迪（AliFarhadi）开发。YOLO于2015
整理：4篇论文介绍实时语义分割的未来，Transformer架构下的性能与效率平衡 mslion transformer 深度学习人工智能语义分割
在Transformer架构推动下，计算机视觉领域致力于打造一个极为强大且通用的大规模模型，它能处理物体检测、图像分割等多种任务。不少基于Transformer架构的研究成果显著，其通用模型在特定应用中表现出色，在图像和视频分割方面，通用设计的研究成果也超越了以往定制模型。其中，分割一切模型（SAM）在交互式分割中表现突出，能统一应对点、边界框、掩码和文本输入等交互方式。然而，多数此类研究存在弊端
计算机视觉算法实战——茶园害虫识别（主页有源码）喵了个AI 计算机视觉实战项目计算机视觉算法人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言茶园害虫识别是农业领域中的一个重要研究方向，旨在通过计算机视觉技术自动识别茶园中的害虫种类，从而帮助农民及时采取防治措施，减少经济损失。随着深度学习技术的快速发展，茶园害虫识别的准确性和效率得到了显著提升，为智慧农业提供了强有力的技术支持。2.当前相关算法在茶园害虫识别领域，常
计算机视觉算法实战——图像配准（主页有源码）喵了个AI 计算机视觉实战项目计算机视觉
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.领域简介图像配准（ImageRegistration）是计算机视觉中的一个重要研究方向，旨在将两幅或多幅图像在空间上对齐。这些图像可能来自不同的传感器、不同的时间或不同的视角。图像配准在医学影像、遥感、自动驾驶、机器人导航等领域有着广泛的应用。其核心目标是通过几何变换（如平移、旋转
YOLOv5改进：在C3块不同位置添加EMA注意力机制，有效提升计算机视觉性能 UksApps YOLO 计算机视觉深度学习
计算机视觉中的目标检测是一个重要的任务，而YOLOv5是目前广泛应用的一种高效目标检测算法。为了进一步提升YOLOv5的性能，我们在C3块的不同位置添加了EMA（ExponentialMovingAverage）注意力机制。EMA注意力机制是一种用于提升模型的感知能力和特征表达能力的技术。在YOLOv5中，我们将EMA注意力机制嵌入到C3块中，以增强这一块的特征表示能力。下面是我们改进的YOLOv
LeNet-5卷积神经网络详解 LChuck 深度学习人工智能神经网络深度学习数据结构计算机视觉 AIGC
LeNet-5卷积神经网络详解1.历史背景LeNet-5是由YannLeCun等人在1998年提出的一种卷积神经网络架构，是深度学习领域的一个重要里程碑。这个网络最初是为了解决手写数字识别问题而设计的，在当时取得了突破性的成果。它的成功不仅证明了卷积神经网络在计算机视觉任务中的有效性，更为后来深度学习的发展奠定了重要基础。图1：LeNet-5网络结构示意图2.网络结构LeNet-5的结构非常优雅且
【ISP】ISP的pipeline的几种关键算法白码思算法
ISP的pipeline中涉及各种图像处理中的关键算法，比如涉及降噪、HDR合成、色调映射、去马赛克、锐化、去雾等任务。下面会出几期文章会逐个详细解释它们的原理、用途及其在图像处理流程中的作用。1.RawNR（RawNoiseReduction，RAW降噪）用途：对RAW图像进行噪声抑制，减少感光元件（CMOS/CCD）带来的噪声，提高信噪比（SNR）。原理：RAW图像是图像传感器采集的未处理数据
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts