a_rose_for_tang

yolov3交通标志识别练习

一、问题分析

##1.问题描述
随着城市道路交通的发展，交通标示作为智能交通系统的重要组成，对交通安全起到至关重要的作用，因此如何快速准确的定位及分类出交通标志被广泛研究。自然场景下的交通标志有着显著的颜色及形状特征，对交通标志的检测及识别提供了有利条件，但因光照多变，相近背景干扰及交通标志在场景图像所占比例较小，特征提取不足等问题，一定程度上影响了交通标志的检测及识别准确率。
如何快速、准确地定位图片或是视频中的交通标志，受到了许多研究人员的关注。
##2. 数据集分析
本次课程实验基于6000余张实景照片，标注其中所有的交通标志，实际
分类为5类。实际训练数据为实际场景下的照片，具备一定的实用性。

其中，照片的尺寸不完全相同，有12801024，也有720576等规格。

##3. 数据集标注
采用标注软件为colabeler。

得到两个文件夹，分别放置图片与标签。

得到6336个对应照片的xml标注文件，其内容如下所示（举例）。

由于后期采用的网络框架为yolo，需要特定的标注格式，后期编写代码进行更改。

二、实验原理

基于论文You Only Look Once:Unified, Real-Time Object Detection.
论文摘要
提出了一种新的目标检测方法YOLO。先前关于对象检测的工作将重新定义分类器来执行检测。相反，我们将对象检测定义为一个回归问题，回归到空间分离的边界框和相关的类概率。在一次评估中，单个神经网络直接从完整图像预测边界盒和类概率。由于整个检测管道是一个单一的网络，可以直接从检测性能上进行端到端优化。我们的统一架构非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。一个更小版本的网络，Fast YOLO，处理速度达到惊人的每秒155帧，同时仍然达到其他实时探测器地图的两倍。与最先进的检测系统相比，YOLO会产生更多的定位错误，但不太可能预测背景上的误报。最后，YOLO学习对象的一般表示。当从自然图像推广到艺术作品等其他领域时，它的性能优于其他检测方法，包括DPM和R-CNN。
方法：YOLO将输入图像分成SxS个格子，每个格子负责检测‘落入’该格子的物体。何为之落入？若某个物体的中心位置的坐标落入到某个格子，那么这个格子就负责检测出这个物体。如下图所示，图中物体狗的中心点（红色原点）落入第5行、第2列的格子内，所以这个格子负责预测图像中的物体狗。

每个格子输出B个bounding box（包含物体的矩形区域）信息，以及C个物体属于某种类别的概率信息。Bounding box信息包含5个数据值，分别是x,y,w,h,和confidence。其中x,y是指当前格子预测得到的物体的bounding box的中心位置的坐标。w,h是bounding box的宽度和高度。注意：实际训练过程中，w和h的值使用图像的宽度和高度进行归一化到[0,1]区间内；x，y是bounding box中心位置相对于当前格子中心？位置的偏移值，并且被归一化到[0,1]。confidence反映当前bounding box是否包含物体以及物体位置的准确性，计算方式如下：
confidence = P(object)* IOU
其中，若bounding box包含物体，则P(object) = 1；否则P(object) = 0。
IOU(intersection over union)为预测bounding box与物体真实区域的交集面积（以像素为单位，用真实区域的像素面积归一化到[0,1]区间）。
因此，YOLO网络最终的全连接层的输出维度是 SS(B5 + C)。YOLO论文中，作者训练采用的输入图像分辨率是448x448，S=7，B=2；采用VOC 20类标注物体作为训练数据，C=20。因此输出向量为77*(20 + 25)=1470维。作者开源出的YOLO代码中，全连接层输出特征向量各维度对应内容如下：

Loss函数
YOLO使用均方和误差作为loss函数来优化模型参数，即网络输出的SS*(B5 + C)维向量与真实图像的对应SS*(B*5 + C)维向量的均方和误差。如下式所示。
（分别为坐标误差+IOU误差+分类误差求和作为总的loss误差）
内部网络架构

网络的初始卷积层从图像中提取特征，全连通层预测输出概率和坐标。有24层卷积层+2层全连接层。（yolov3有改进）

三、实验过程

实验环境
采用darknet（https://github.com/AlexeyAB/darknet）框架，系统为Ubuntu16环境下，gpu训练，python3.6编写脚本进行预数据数据处理以及得到最终结果。
训练过程
1.数据预处理：
将所有的训练图片写入图片路径记录文本txt中，一行一个文件路径（绝对路径）。所使用的sh脚本为creatallpng.sh。（creatallpng.sh放在图片相同的路径下）脚本内容如下
#code
ls -R /home/pi/darknet/data/JPEGImages/*.png > allpng.txt
在该路径下运行该脚本，得到所有的图片的绝对路径。如下所示。

得到的txt为：

xml文件转换为txt格式

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join

sets=[('2018', 'train6336')]#读取要转换的xml的目录，这里只涉及训练集
#分为5类
classes = ["j", "z","s","l","d"]

#将xmin,ymin,xmax,ymax归一化到0-1之间

def convert(size, box):
    dw = 1./size[0]
    dh = 1./size[1]
    x = (box[0] + box[1])/2.0
    y = (box[2] + box[3])/2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x*dw
    w = w*dw
    y = y*dh
    h = h*dh
    return (x,y,w,h)
#转换xml至txt
def convert_annotation(year, image_id):
    in_file = open('/home/wangxutao/darknet/voc/VOC%s/Annotations/%s.xml'%(year, image_id))
    #新生成的txt，写入到labels文件夹内
    out_file = open('/home/wangxutao/darknet/voc/VOC%s/labels/%s.txt'%(year, image_id), 'w')
    tree=ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)
    #该xml中的所有object的标签保存下来，一个一行
    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = ((str)((obj.find('name')).text))[0]
        if (((int)(difficult)==1) or (cls not in classes)):continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w,h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

wd = getcwd()

for year, image_set in sets:
    if not os.path.exists('/home/wangxutao/darknet/voc/VOC%s/labels/'%(year)):
        os.makedirs('/home/wangxutao/darknet/voc/VOC%s/labels/'%(year))
    #读取所有的xml文件名，得到一个list
    image_ids = open('/home/wangxutao/darknet/voc/VOC%s/ImageSets/Main/%s.txt'%(year, image_set)).read().strip().split()
    list_file = open('%s_%s.txt'%(year, image_set), 'w')
    #一个一个处理image
    for image_id in image_ids:
        list_file.write('/home/wangxutao/darknet/voc/VOC%s/JPEGImages/%s.jpg\n'%(year, image_id))
        #变换xml到txt
        convert_annotation(year, image_id)
    list_file.close()
#finish

这样得到Labels下的所有的标签文件txt

内容如下所示

2.修改原框架步骤：
下载原框架

git clone https://github.com/pjreddie/darknet  
cd darknet

修改makefile配置，使用GPU训练。


GPU=1 #如果使用GPU设置为1，CPU设置为0
CUDNN=1  #如果使用CUDNN设置为1，否则为0
OPENCV=0 #如果调用摄像头，还需要设置OPENCV为1，否则为0
OPENMP=0  #如果使用OPENMP设置为1，否则为0
DEBUG=0  #如果使用DEBUG设置为1，否则为0

CC=gcc
NVCC=/home/user/cuda-9.0/bin/nvcc #NVCC=nvcc 修改为自己的路径

执行make编译操作（在darknet目录下）
make
创建文件夹目录

在darknet/voc/VOC2018目录下导入JPEGImages文件夹（内部保存训练图片），Annotations（内部保存所有的xml标签）
修改data下的voc.name文件。改为自定义的五类。

修改cfg文件夹下的voc.data文件，自定义训练集txt，即上面得到的alljpg.txt。

修改cfg/yolov3-voc.cfg

改为训练模式，并在此文件中搜索yolo，会出现三个yolo，我们需要将filters改成（classes+5）*3的数值，将classes改成自己的类别数，random=0为关闭多尺度训练。
下载预训练模型
放在（darknet/scripts/文件目录下）

wget https://pjreddie.com/media/files/darknet53.conv.74

开始训练：
输入命令

./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg scripts/darknet53.conv.74

训练结束得到训练模型，

测试训练结果命令为

./darknet detector test cfg/voc.data cfg/yolov3-voc.cfg backup/yolov3-voc_20000.weights xxx.jpg -out /darknet/data/testOut/xxx.txt

输出得到检测结果放在testout文件夹下。
如下所示：

对该命令进行批量测试，编写batch测试命令。

import os
import time
#start read txt on line by one line
for line in open('/home/pi/darknet/data/JPEGImages/allpng.txt'):
    print('start detect:------------',line)
    line =line.replace('\r\n','')
    line =line.replace('\n','')

    filepath =((str)(line))
    savefile =filepath.replace('/home/pi/darknet/data/JPEGImages/','')
    savefile =savefile.replace('.jpg','')
    savefile =savefile.replace('.png','')
    savefile =savefile.replace('.JPEG','')
    savefile =savefile.replace('.PNG','')
    savefile =savefile.replace('.JPG','')


    commond =str(' ./darknet detector test cfg/voc.data cfg/yolov3-voc.cfg backup/yolov3-voc_20000.weights {0}'.format(filepath))
    commond2 =str((commond)+str(r' -out data/testOut/{0}'.format(savefile)))+r'.txt'
    print(commond2)
    time.sleep(1)
    commond2=str(commond2)
    os.system(commond2)
    #time.sleep(3)#3s for stop wait for another img
#eachfile =
#os.system(' ./darknet detector test cfg/voc.data cfg/yolov3-voc.cfg backup/yolov3-voc.backup-15000 {0} -out data/testOut/{1}.txt'.format(eachfile,savefile))

得到批量结果：

对结果进行处理得到规定格式的结果。编写pngchangetotxt.py 文件

import os
import  time
 
#find the path of picture
#like:
#/home/pi/darknet/data/JPEGImages/video2_33.jpg
#find all txt to change
'/home/pi/darknet/data/testImg/testALL.txt'
for line in open('/home/pi/darknet/data/JPEGImages/allpng.txt'):
    print('start detect',line)
    line =line.replace('\r\n','')
    line =line.replace('\n','')
    line =line.replace('.jpg','.txt').replace('.png','.txt').replace('.JPG','.txt').replace('JPEGImages','testOut')
    thistxt =str(line)



    for line in open(thistxt):
        #print('start find ',line)
        line =((str)(line))
        filename ='filename'
        class_id ='class_id'
        if filename in line :
            filename_start =(line.find(filename))+11
            filename_over =line.find(',')-1
            filename_path =str(line[filename_start:filename_over])
            print(filename_path)
    
    oldpath = '/home/pi/darknet/data/out/'
    filename_path =filename_path
    fileABSname = filename_path.replace('/home/pi/darknet/data/JPEGImages/','')
    savetxt = oldpath + (fileABSname.replace('.png', '.txt').replace('.jpg', '.txt').replace('JPG', '.txt'))
    if not os.path.exists(savetxt):
        os.mknod(savetxt)

    print(fileABSname)
    #how many bnd there is
    count =0
    for line in open(thistxt):
        #print('start find ',line)
        line =((str)(line))
        filename ='filename'
        class_id ='class_id'
        if class_id in  line :
            count =count+1

    print('there is {0} object in {1}'.format(count,fileABSname))
    num =0
    for line in open(thistxt):
        if num>=count:break
        line =((str)(line))
        filename ='filename'
        class_id ='class_id'
        if class_id in line :
            category=line[(line.find('name'))+7]
            center_x_start =line.find('center_x') +10
            center_x_over=line.find('center_x') + 18
            center_x=float(line[center_x_start:center_x_over])
            center_y_start = line.find('center_y') + 10
            center_y_over = line.find('center_y') + 18
            center_y = float(line[center_y_start:center_y_over])
            x_width_start =line.find('width') +7
            x_width_over =line.find('width') +15
            x_width =float(line[x_width_start:x_width_over])
            x_height_start = line.find('height') + 8
            x_height_over = line.find('height') + 15
            x_height= float(line[x_height_start:x_height_over])
            #get xmin ,xmax ,ymin,ymax
            #you change to really size you just *size here we get 1280*1024
            img_width =1280
            img_height =1024
            xmin =center_x - x_width
            xmin =int(xmin*img_width)

            xmax =center_x + x_width
            xmax =int(xmax*img_width)

            ymin =center_y - x_height
            ymin =int(ymin*img_height)

            ymax =center_y + x_height
            ymax =int(ymax*img_height)
            filename_path =str(line[filename_start:filename_over])
            #print(filename_path)
            #print(fileABSname+' '+ category+' '+str(xmin)+' '+str(ymin)+' '+str(xmax)+' '+str(ymax))
            writeline =fileABSname+' '+ category+' '+str(xmin)+' '+str(ymin)+' '+str(xmax)+' '+str(ymax)
            print(writeline)
            oldpath = '/home/pi/darknet/data/out/'
            savetxt =oldpath+(fileABSname.replace('.png','.txt').replace('.jpg','.txt').replace('JPG','.txt'))
            if not os.path.exists(savetxt):
                os.mknod(savetxt)
            with open(savetxt, "a+") as f:
                    print(f)
            f =open(savetxt,'a+')
            f.write(writeline+'\n')
            num =num+1

处理后的结果保存在darknet/data/out文件夹下，如下所示

内部内容为

3. 实验结果
预训练设置3w次循环，得到预训练模型。

下面的图片为预测结果典型。

发现框架对较小的物体识别较好
自己实验的路标结果：

发现对残缺的交通标志识别效果较差。
对有的交通标志有遗漏的情况：

对较大尺寸的交通标志（且未出现过的训练集）识别效果也较差

对竖立的长方形标志定位效果不太好。（原因可能是训练集的数据大多数方形，平的长方形）

四、分析与总结

实验分析
实验涉及到许多环境的搭建等问题，关于预处理存在许多要处理的地方。基于论文进行自己实现难度较大，故采用darknet网络框架进行初步实验。实验采取训练集种类并不齐全，导致训练得到的模型会对有的交通标志无法识别，得到结果。且尺寸过大或过小（其实过小的标志人也无法识别）都无法得到准确识别。
心得体会
实验基于前人的经验，采取深度神经网络的方法，进行预训练加上测试。前期实验了普通的方法，采取颜色判别交通标志，效果较差，实际需要处理的情况较为复杂。神经网络的方法准确率较高，具备一定的实用性。但是网络训练等具备一定的硬件要求，且对训练数据的种类数量要求较高，这样才能保证后期的测试准确率。

参考文献

冯长华. 基于卷积神经网络的交通标志检测及识别[D].

Redmon J , Divvala S , Girshick R , et al. You Only Look Once:Unified, Real-Time Object Detection[J]. 2015.

刘树艺,李静,胡春,王伟.基于卷积神经网络与集成学习的交通标志识别[J].计算机与现代化,2019(12):67-71+77.

龚祎垄,吴勇,陈铭峥.针对TT100K交通标志数据集的扩增策略[J].福建电脑,2019,35(11):70-71.

Zhu Z , Liang D , Zhang S , et al. Traffic-Sign Detection and Classification in the Wild[C]// 2016 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR). IEEE, 2016.

最后的最后，数据集丢在这吧。。。

地址：tangxiran.cn/film/大作业.zip

在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
使用BLIP模型生成图像描述的可查询索引 dgay_hua python 计算机视觉开发语言
在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。使用示例代码进行演示，帮助读者理解和实践。技术背景介绍随着计算机视觉技术的发展，图像描述生成成为了重要的研究领域。通过对图像内容自动生成文字描述，可以大大提高对图像信息的检索和管理效率。Salesfo
深度学习模型中的知识蒸馏是如何工作的? c++服务器开发深度学习人工智能
深度学习模型在多个领域，特别是计算机视觉和自然语言处理中，已经取得了革命性的进展。然而，随着模型复杂性和资源需求的不断攀升，如何将这些庞大模型的知识浓缩为更紧凑、更高效的形式，成为了当前研究的热点。知识蒸馏，作为一种将知识从复杂模型转移到更简单模型的策略，已经成为实现这一目标的有效工具。在本文中，我们将深入探究深度学习模型中知识蒸馏的概念、原理及其在各领域的应用，以期为读者提供一个全面而严谨的视角
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
OpenCV的卡尔曼滤波器：实现和应用雪域Code opencv 人工智能计算机视觉 C/C++
OpenCV的卡尔曼滤波器：实现和应用卡尔曼滤波器（Kalmanfilter）是一种最优估计的算法，在众多领域有着广泛的应用，如控制系统、通信系统、机器人等。OpenCV作为一个计算机视觉库，也提供了对卡尔曼滤波器的支持。本文将介绍OpenCV中卡尔曼滤波器的基本原理、实现方法以及在图像处理中的应用。一、卡尔曼滤波器简介卡尔曼滤波器是一种用于状态估计和信号滤波的算法，主要针对线性、高斯分布的系统。
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命 ProgramHan 人工智能计算机视觉学习
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命引言：从“数据饥渴”到“智能涌现”传统计算机视觉高度依赖海量标注数据，但现实场景中标注成本高昂且覆盖范围有限。例如，医疗影像标注需专业医生耗时数月，工业缺陷检测需针对特定产线定制数据集。生成式AI（如Diffusion模型、自监督学习）的崛起，正在打破这一瓶颈——通过更高效的训练范式与计算架构，让机器学会“从无标注数据中看见世界”。（示意图：
【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测 IT古董深度学习人工智能深度学习计算机视觉目标检测
1.什么是DETR？DETR（DEtectionTRansformer）是FacebookAI（FAIR）于2020年提出的端到端目标检测算法，它基于Transformer架构，消除了FasterR-CNN、YOLO等方法中的候选框（AnchorBoxes）和非极大值抑制（NMS）机制，使目标检测变得更简单、高效。论文：End-to-EndObjectDetectionwithTransforme
机器学习:支持向量机小源学AI 人工智能支持向量机机器学习算法
基本概念1.什么是支持向量机支持向量机是一种二分类模型,在机器学习、计算机视觉、数据挖掘中广泛应用,主要用于解决数据分类问题,它的目的是寻找一个超平面对样本进行分割,分割的原则是间隔最大化(也就是数据集的边缘点到分界点的距离d最大)最终转化成一个凸二次规划问题来求解。通常的SVM用于二元分类问题,对于多元分类问题可将其分解为多个二元分类问题,在进行分类。2.最优分类边界什么才是最优分类边界?什么条
基于图像处理的裂缝检测与特征提取机器懒得学习图像处理计算机视觉人工智能
一、引言裂缝检测是基础设施监测中至关重要的一项任务，尤其是在土木工程和建筑工程领域。随着自动化技术的发展，传统的人工巡检方法逐渐被基于图像分析的自动化检测系统所取代。通过计算机视觉和图像处理技术，能够高效、精确地提取裂缝的几何特征，如长度、宽度、方向、面积等，从而为工程质量评估提供数据支持。本文将详细介绍一段用于裂缝检测与特征提取的Python代码，重点讲解其实现的核心算法与关键步骤，分析其应用场
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
CVPR2023 Highlight | ECON：最新单图穿衣人三维重建SOTA算法 3Ｄ视觉工坊 3D视觉从入门到精通算法 SLAM 自动驾驶 3D视觉
作者：宁了个宁|来源：计算机视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf。添加微信：dddvisiona，备注：三维重建，拉你入群。文末附行业细分群。图1所示。从彩色图像进行人体数字化。ECON结合了自由形式隐式表示的最佳方面，以及明确的拟人化正则化，以推断高保真度的3D人类，即使是宽松的衣服或具有挑战性的姿势。0.笔者个人体会这篇文章讨论了单图像的穿着人类重建问题。隐式方
商汤绝影端到端自动驾驶的迭代优化 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,端到端,迭代优化,深度学习,感知,规划,控制,模型训练,数据增强,模型微调1.背景介绍随着人工智能和计算机视觉技术的飞速发展，自动驾驶汽车从科幻走进了现实。商汤科技推出的绝影端到端自动驾驶系统，就是其中的佼佼者。本文将深入剖析商汤绝影端到端自动驾驶系统的迭代优化过程，帮助读者理解其背后的技术原理和架构设计。2.核心概念与联系商汤绝影端到端自动驾驶系统的核心架构如下：graphLRA[感知
使用OpenCV在Visual Studio上编译x86或x64平台的应用程序程序世界航海 opencv visual studio 人工智能编程
OpenCV是一个广泛使用的计算机视觉库，它提供了丰富的图像处理和计算机视觉算法。如果你想在VisualStudio上编译一个使用OpenCV的应用程序，并且需要针对特定的x86或x64平台进行优化，那么本文将为你提供一些指导。以下是在VisualStudio中编译x86或x64平台上的OpenCV应用程序的步骤：步骤1：安装VisualStudio和OpenCV首先，确保你已经安装了最新版本的V
探秘 DeepSeek R1 模型：跨越多领域的科技奇迹，引领智能应用新浪潮羑悻的小杀马特. AI学习科技 deepseek AI大模型
DeepSeekR1模型功能强大，应用广泛。在自然语言处理、计算机视觉、推荐系统和医疗等领域都能发挥作用。本文介绍了其在各领域的应用场景和代码示例，助你深入了解它。目录编辑一、本篇背景：二、DeepSeekR1模型概述：2.1模型特点：2.2技术原理：三、自然语言处理领域的应用：3.1文本分类：3.1.1应用场景：3.1.2代码演示：3.2情感分析：3.2.1应用场景：3.2.2代码演示：3.3机
OpenCV 简介奇点创客 OpenCV
OpenCV（OpenSourceComputerVisionLibrary，开源计算机视觉库：http://opencv.org）是一个开放源代码库，其中包含数百种计算机视觉算法。本文档介绍所谓的OpenCV2.xAPI，与基于C的OpenCV1.xAPI相比，该API本质上是一套C++API（自OpenCV2.4发行以来，不推荐再使用CAPI，并且不使用“C”编译器进行测试）。OpenCV具有
本地部署DeepSeek模型技术指南 Evaporator Core apache Doris 人工智能 deepseek
DeepSeek模型是一种先进的深度学习模型，广泛应用于自然语言处理、计算机视觉等领域。为了充分利用DeepSeek模型的强大功能，许多开发者和研究人员选择在本地环境中部署该模型。本文将详细介绍如何在本地环境中部署DeepSeek模型，包括环境准备、模型下载、配置、优化以及代码实现等内容。通过本文的指导，您将能够在本地成功部署并运行DeepSeek模型。1.环境准备在部署DeepSeek模型之前，
计算机视觉如何快速入门? Frunze软件开发日常问题回答开发语言计算机视觉工业异常检测论文
目录1.明确研究方向2.学习基础知识3.掌握核心算法4.实践项目5.阅读文献6.复现经典论文7.改进与创新总结计算机视觉（ComputerVision）是一个复杂且广泛的领域，尤其是工业异常检测这种特定方向，需要结合理论知识和实践技能。以下是一些具体的、可操作的建议，也是个人实际路径的一个总结，希望可以帮助到你快速入门并完成一篇论文。1.明确研究方向-工业异常检测的核心是识别图像或视频中的异常区域
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进金外飞176 技术前沿目标跟踪人工智能计算机视觉
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进YOLO（YouOnlyLookOnce）系列目标检测算法自2016年首次发布以来，凭借其高效的实时检测能力，迅速成为计算机视觉领域的热门研究方向之一。本文将详细回顾YOLO系列从v1到v11的版本迭代过程，分析每个版本的技术改进、性能提升以及应用场景。1.YOLOv1：开创性的单阶段检测算法YOLOv1是目标检测领域的一个重要里程碑，
推荐学习图像处理的入门书：《Python图像处理实战》天飓学习感悟学习图像处理 python
《Python图像处理实战》是一本全面介绍Python图像处理技术的实用指南，是由人民邮电出版社于2020年12月出版。这本书的作者桑迪潘·戴伊是一位兴趣广泛的数据科学家，主要研究机器学习、深度学习、图像处理和计算机视觉。在《Python图像处理实战》一书中，作者主要介绍了如何用Python图像处理库（如PIL、python-opencv、Scipy等），机器学习库（scikit-learn）和深
RK3588+昇腾AI｜40TOPS算力AI盒子设计方案 ARM+FPGA+AI工业主板定制专家 AI盒子瑞芯微人工智能
综合视频智能AI分析系统介绍以计算机视觉技术为基础，AI赋能千行百业，依托人工智能视觉分析技术以及强大的“端+边”算力支撑，实时分析烟火，入侵等事件，同时结合云上预警业务平台，实现事件发现、预警、处置全流程闭环。设计架构系统架构视频智能识别系统自下而上分为“感知层、网络层、支撑层、应用层”四层，系统逻辑架构如下图所示：感知层对接前端感知设备，如视频监控、NVR、和其他物联感知设备，对重要通道和场所
计算机视觉中图像的基础认知全栈你个大西瓜人工智能计算机视觉人工智能图像基本属性 RGB 三通道彩色单通道灰度图像 OpenCV Matplotlib
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络一、图像/视频的基本属性在计算机视觉中，图像和视频的本质是多维数值矩阵。图像或视频数据的一些基本属性。宽度（W）和高度（H）定义了图像的像素分辨率，单位通常是像素。例如，一张1920x1080的图像有1920列（
【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络） IT古董深度学习人工智能深度学习计算机视觉分类
ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1
基于深度学习YOLOv10的PCB板缺陷检测系统（附完整资源+PySide6界面+训练代码）人工智能_SYBH 深度学习 YOLO 人工智能目标检测 python
引言：在现代制造业中，电子元件和PCB（印刷电路板）是非常重要的基础设施。PCB缺陷检测是生产过程中至关重要的一步。传统的缺陷检测方法主要依靠人工检查，这不仅效率低，而且容易受到人眼疲劳的影响。随着深度学习技术的不断发展，基于深度学习的自动化缺陷检测已成为研究的热点，尤其是在计算机视觉领域。YOLO（YouOnlyLookOnce）系列算法凭借其高速和高精度的优势，成为了目标检测领域的佼佼者。本文
景联文科技数据处理平台：支持高质量图像标注服务景联文科技人工智能科技计算机视觉
图像标注是计算机视觉领域中不可或缺的一环，它通过为图像添加标签来帮助机器学习算法理解图像内容。这一过程对于创建高质量的训练数据集至关重要，使得AI模型能够准确地识别和分类现实世界中的物体。常见的图像标注类型：边界框标注：这是最常用的标注方式之一，通常用于物体检测任务。通过绘制矩形框来确定图像中目标物体的位置，可以是二维或三维形式。分割标注：包括语义分割（同一类别的所有实例被视为整体）和实例分割（每
从养殖场到科技前沿：YOLOv11+OpenCV精准计数鸡蛋与鸡星际编程喵 Python探索之旅 YOLO opencv 人工智能 python 目标检测计算机视觉
前言谁能想到，鸡蛋和鸡的计数居然能变成一项高科技活儿？想象一下，早上去市场，卖家把鸡蛋摔得稀巴烂，结果鸡蛋滚得到处都是——难道你就得一个个捡回来数？还得小心别弄错？可是，你又不是超人！别担心，科技来帮忙！今天的主角是YOLOv11和OpenCV，它们是计算机视觉领域的两位大佬，专门为你解决这一难题。无论是鸡蛋还是鸡，它们都能精准识别，数得清清楚楚。不信？那我们就一起去看看怎么用这对“黄金搭档”解决
OpenCV及基本用法 m0_74823683 opencv 人工智能计算机视觉
一.OpenCV介绍1.OpenCV的全称是OpenSourceComputerVisionLibrary，是一个开放源代码的计算机视觉库。OpenCV是最初由英特尔公司发起并开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用，现在美国WillowGarage为OpenCV提供主要的支持。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序，目前在工业界以及科研领域广泛采用。
计算机视觉：COCO数据集 00&00 计算机视觉深度学习人工智能计算机视觉人工智能
COCO（CommonObjectsinContext）是一个广泛使用的计算机视觉数据集，主要用于图像识别、物体检测、分割和关键点检测等任务。以下是对COCO数据集的详细介绍，包括其特点、组成部分以及在计算机视觉中的应用。一、COCO数据集的特点1.规模庞大COCO数据集包含超过30万张图像，其中超过20万张图像有注释。这些图像来自不同的场景和对象，使得数据集具有广泛的代表性。2.丰富的标注信息物
2025年大模型与Transformer架构：技术前沿与未来趋势报告和老莫一起学AI transformer 架构深度学习人工智能产品经理学习大模型
_“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。在人工智能的宏大版图中，Transformer架构无疑是一颗璀璨的明星。它的出现，彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。《2025年大模型与Transformer架构：技术前沿与未来趋势报告》深入剖析了Transformer架构的
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

yolov3交通标志识别练习

目录

一、问题分析

二、实验原理

三、实验过程

四、分析与总结

你可能感兴趣的:(计算机视觉)