watersink

yolov3

Anchor策略：

yolov3延续了yolov2的anchor策略，基本没有变化。

边框的表示方式通过框的中心坐标bx,by，和框的宽bw，高bh这4个变量来表示。实际预测的值为tx,ty,tw,th。

由tx,ty,tw,th得到bx,by,bw,bh的详细公式如上图，其中，

cx，cy为框的中心坐标所在的grid cell 距离左上角第一个grid cell的cell个数。

tx,ty为预测的边框的中心点坐标。

σ()函数为logistic函数，将坐标归一化到0-1之间。最终得到的bx,by为归一化后的相对于grid cell的值

tw,th为预测的边框的宽，高。

pw,ph为anchor的宽，高。实际在使用中，作者为了将bw,bh也归一化到0-1，实际程序中的 pw,ph为anchor的宽，高和featuremap的宽，高的比值。最终得到的bw,bh为归一化后相对于feature map的比值

σ(t0)表示预测的边框的置信度，为预测的边框的概率和预测的边框与ground truth的IOU值的乘积。

这里有别于faster系列，yolov3只为ground truth 匹配一个最优的边界框。

分类损失函数：

yolov3中将yolov2中多分类损失函数softmax cross-entropy loss 换为2分类损失函数binary cross-entropy loss 。因为当图片中存在物体相互遮挡的情形时，一个box可能属于好几个物体，而不是单单的属于这个不属于那个，这时使用2分类的损失函数就更有优势。

多尺度预测：

Yolov3采用了类似SSD的mul-scales策略，使用3个scale（13*13，26*26，52*52）的feature map进行预测。

有别于yolov2，这里作者将每个grid cell预测的边框数从yolov2的5个减为yolov3的3个。最终输出的tensor维度为N × N × [3 ∗ (4 + 1 + 80)] 。其中N为feature map的长宽，3表示3个预测的边框，4表示边框的tx,ty,tw,th，1表示预测的边框的置信度，80表示分类的类别数。

和yolov2一样，anchor的大小作者还是使用kmeans聚类得出。在coco数据集上的9个anchor大小分别为：(10× 13); (16× 30); (33× 23); (30× 61); (62× 45); (59×119); (116 × 90); (156 × 198); (373 × 326)

其中在yolov3中，最终有3个分支输出做预测，输出的特征图大小分别为13*13，26*26，52*52，每个特征图使用3个anchor，

13*13的特征图使用(116 × 90); (156 × 198); (373 × 326);这3个anchor

26*26的特征图使用(30× 61); (62× 45); (59×119);这3个anchor

52*52的特征图使用(10× 13); (16× 30); (33× 23);这3个anchor

而在yolov3-tiny中，一共有6个anchor，（10,14）, （ 23,27）, （37,58）, （81,82）, （135,169）, （344,319），

yolov3-tiny最终有2给分支输出作预测，特征图大小分别为13*13，26*26。每个特征图使用3个anchor做预测。

13*13的特征图使用（81,82）, （135,169）, （344,319）这3个anchor

26*26的特征图使用（ 23,27）, （37,58）, （81,82）这3个anchor

plus:

faster rcnn:3个scale(128*128,256*256,512*512),3个aspect ratio(1:1,1:2,2:1)共9个anchor

ssd：5个aspect ratio（1:1,1:2,1:3,2:1,3:1），再加一个中间的default box，一共6个anchor

yolov3：一共9个anchor

tiny-yolov3:一共6个anchor

FPN：5个scale(32*32; 64*64; 128*128; 256*256; 512*512),3个aspect ratio(1:1,1:2,2:1)，共15个anchor

ctpn：anchor宽度固定为16，高度为11-283之间的10个数，每次处以0.7得到，最终得到[11, 16, 23, 33, 48, 68, 97, 139, 198, 283]共10个anchor

使用多尺度融合的策略，使得yolov3的召回率和准确性都有大的提升。

Backbone骨架：

和yolov2的19层的骨架（Darknet-19 ）不同，yolov3中，作者提出了53层的骨架（Darknet-53 ），并且借鉴了ResNet的shortcut结构。

上图为论文中的网络结构，但是卷积层只有52层，和作者实际的程序还是有点出入。为此，自己根据作者的程序撸了一个，主干网络还是52层。

一个需要注意的地方，yolov3-tiny 有max pooling，而yolov3使用stride=2的卷积代替pooling操作

yolov3-tiny:

yolov3:

精度vs速度：

Yolov3的精度和速度都达到的空前的高快。

在分类任务中，以darknet-53的骨架网络，速度是ResNet-152的2倍，精度也基本相当。

在检测任务中，当IOU标准定为0.5时，只比RetinaNet低3.2%个点。在IOU标准定为0.75时，比RetinaNet低9.7%个点。其实这个问题也是yolo一直存在的一个问题，在相对比较小的检测物体上，会存在检测框不是很准的想象。速度方面比RetinaNet快出3倍多。

RUN:(测试显卡为P40)

git clone https://github.com/pjreddie/darknet
cd darknet
Make -j32
wget https://pjreddie.com/media/files/yolov3.weights
wget https://pjreddie.com/media/files/yolov3-tiny.weights

./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg

./darknet detect cfg/yolov3-tiny.cfg yolov3-tiny.weights data/dog.jpg

训练自己数据:

这里假定我要实现一个简单的3个类别检测（3个类别）。

（1）首先就是数据集的准备，这里建议使用python+QT开发的抠图小工具，labelImg。保存的时候可以选择保存为voc格式，也可以保存为yolo格式。建议保存为VOC格式，因为格式更加标准通用。

（2）模仿VOC的格式建立相应的文件夹，执行，

cd darknet
mkdir VOCdevkit
cd VOCdevkit
mkdir VOC2019
mkdir Annotations ImageSets JPEGImages labels
cd ImageSets/
mkdir Main

tree -d

目录结构显示如下，

其中，VOC2019为我自己的数据集起的名字，你也可以起别的名字，Annotations存放XML文件，Main中存放，train.txt，val.txt，test.txt，txt中只写图片的名字，一行一个。JPEGImages中存放图片。labels中存放由XML生成的txt文件。

（3）修改scripts下面的voc_label.py，将数据集的目录修改为自己的目录，

开始几行
sets=[('2019', 'train'), ('2019', 'val'),('2019', 'test')]
classes = ["apple", "banana", "orange"]
最后2行
os.system("cat 2019_train.txt > train.txt")
os.system("cat 2019_train.txt > train.all.txt")

然后执行

Python3 scripts/voc_label.py

就会生成labels文件夹，以及文件夹下面的txt标记，以及train.txt 和train.all.txt

其中,train.txt中存储路径+图片名，一行一个

/data/darknet/VOCdevkit/VOC2019/JPEGImages/55000087.jpg
/data/darknet/VOCdevkit/VOC2019/JPEGImages/43000097.jpg
/data/darknet/VOCdevkit/VOC2019/JPEGImages/14000107.jpg

Labels文件夹下每个图片对应一个txt文件，里面存储类别框坐标的归一化值

2 0.368896484375 0.14908854166666666 0.03076171875 0.03515625
2 0.328125 0.18359375 0.0283203125 0.03515625
0 0.190185546875 0.6207682291666666 0.03173828125 0.026692708333333332
1 0.40625 0.21028645833333331 0.193359375 0.16666666666666666

（4）修改，cfg/voc.data

class为训练的类别数

train为训练集train.txt

valid为验证集val.txt

names为voc.names，里面为自己训练的目标名称

backup为weights的存储位置

classes= 3
train  = /DATA/darknet/VOCdevkit/2019_train.txt
valid  = /DATA/darknet/VOCdevkit/2019_test.txt
names = /DATA/darknet/data/voc.names
backup = /DATA/darknet/weights

（5）修改cfg/yolov3.cfg

修改每个classes=3（610，696，783共3处修改）

修改最后一个卷基层，filters和最后一个region的classes，num参数是因为yolov3有3给分支，每个分支3个anchor。

其中，filters=num×（classes + coords + 1）=3*(3+4+1)=24，这里我有3个类别。（603，689，776行，共3处修改）

（6）执行下面的语句进行训练

./darknet detector train ./cfg/voc.data ./cfg/yolov3.cfg  ./ yolov3.weights -clear

-clear参数可以加载作者的预训练模型，重新进行微调训练。

训练完毕就可以生成weights文件，

（7）测试，执行下面语句，

./darknet detect  ./cfg/yolov3.cfg  weights/yolov3_final.weights  1.jpg

(8)anchor修改，根据自己的数据集重新kmeans设置anchor，自己撸的程序

import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
from sklearn.cluster import KMeans
from sklearn import metrics
import xml.etree.ElementTree as ET
import os


def parse_xml(xmlpath,train_input_width,train_input_height):
    tree = ET.parse(xmlpath)
    root = tree.getroot()

    for size in root.iter('size'):
        width_text = int(size.find('width').text)
        height_text = int(size.find('height').text)

    width_list=[]
    height_list=[]
    for box in root.iter('bndbox'):
        x1 = int(box.find('xmin').text)
        y1 = int(box.find('ymin').text)
        x2 = int(box.find('xmax').text)
        y2 = int(box.find('ymax').text)
        width=(x2-x1)/width_text*train_input_width#经过resize后的长宽
        height=(y2-y1)/height_text*train_input_height#经过resize后的长宽
        width_list.append(width)
        height_list.append(height)
        
    return width_list,height_list



xml_path_lists=["./VOC2012/Annotations/","./VOC2017/Annotations/"]#xml位置
kmeans_num=6#聚类类别数
train_input_width=320#训练网络输入图片宽度
train_input_height=320#训练网络输入图片高度



width_list_all=[]
height_list_all=[]
for xml_path in xml_path_lists:
    for xml in os.listdir(xml_path):
        width_list,height_list=parse_xml(xml_path+xml,train_input_width,train_input_height)
        width_list_all.extend(width_list)
        height_list_all.extend(height_list)

plt.scatter(width_list_all, height_list_all, marker='o')  # 假设暂不知道y类别，不设置c=y，使用kmeans聚类
plt.show()



kmeans  = KMeans(n_clusters=kmeans_num, random_state=9).fit(list(zip(width_list_all,height_list_all)))
y_pred = KMeans(n_clusters=kmeans_num, random_state=9).fit_predict(list(zip(width_list_all,height_list_all)))
plt.scatter(width_list_all, height_list_all, c=y_pred)
plt.show()

print (kmeans.cluster_centers_)
print(metrics.calinski_harabaz_score(list(zip(width_list_all,height_list_all)), y_pred))

最终输出结果，

官方程序：

'''
Created on Feb 20, 2017

@author: jumabek
'''
from os import listdir
from os.path import isfile, join
import argparse
#import cv2
import numpy as np
import sys
import os
import shutil
import random 
import math

width_in_cfg_file = 416.
height_in_cfg_file = 416.

def IOU(x,centroids):
    similarities = []
    k = len(centroids)
    for centroid in centroids:
        c_w,c_h = centroid
        w,h = x
        if c_w>=w and c_h>=h:
            similarity = w*h/(c_w*c_h)
        elif c_w>=w and c_h<=h:
            similarity = w*c_h/(w*h + (c_w-w)*c_h)
        elif c_w<=w and c_h>=h:
            similarity = c_w*h/(w*h + c_w*(c_h-h))
        else: #means both w,h are bigger than c_w and c_h respectively
            similarity = (c_w*c_h)/(w*h)
        similarities.append(similarity) # will become (k,) shape
    return np.array(similarities) 

def avg_IOU(X,centroids):
    n,d = X.shape
    sum = 0.
    for i in range(X.shape[0]):
        #note IOU() will return array which contains IoU for each centroid and X[i] // slightly ineffective, but I am too lazy
        sum+= max(IOU(X[i],centroids)) 
    return sum/n

def write_anchors_to_file(centroids,X,anchor_file):
    f = open(anchor_file,'w')
    
    anchors = centroids.copy()
    print(anchors.shape)

    for i in range(anchors.shape[0]):
        anchors[i][0]*=width_in_cfg_file/32.
        anchors[i][1]*=height_in_cfg_file/32.
         

    widths = anchors[:,0]
    sorted_indices = np.argsort(widths)

    print('Anchors = ', anchors[sorted_indices])
        
    for i in sorted_indices[:-1]:
        f.write('%0.2f,%0.2f, '%(anchors[i,0],anchors[i,1]))

    #there should not be comma after last anchor, that's why
    f.write('%0.2f,%0.2f\n'%(anchors[sorted_indices[-1:],0],anchors[sorted_indices[-1:],1]))
    
    f.write('%f\n'%(avg_IOU(X,centroids)))
    print()

def kmeans(X,centroids,eps,anchor_file):
    
    N = X.shape[0]
    iterations = 0
    k,dim = centroids.shape
    prev_assignments = np.ones(N)*(-1)    
    iter = 0
    old_D = np.zeros((N,k))

    while True:
        D = [] 
        iter+=1           
        for i in range(N):
            d = 1 - IOU(X[i],centroids)
            D.append(d)
        D = np.array(D) # D.shape = (N,k)
        
        print("iter {}: dists = {}".format(iter,np.sum(np.abs(old_D-D))))
            
        #assign samples to centroids 
        assignments = np.argmin(D,axis=1)
        
        if (assignments == prev_assignments).all() :
            print("Centroids = ",centroids)
            write_anchors_to_file(centroids,X,anchor_file)
            return

        #calculate new centroids
        centroid_sums=np.zeros((k,dim),np.float)
        for i in range(N):
            centroid_sums[assignments[i]]+=X[i]        
        for j in range(k):            
            centroids[j] = centroid_sums[j]/(np.sum(assignments==j))
        
        prev_assignments = assignments.copy()     
        old_D = D.copy()  

def main(argv):
    parser = argparse.ArgumentParser()
    parser.add_argument('-filelist', default = '\\path\\to\\voc\\filelist\\train.txt', 
                        help='path to filelist\n' )
    parser.add_argument('-output_dir', default = 'generated_anchors/anchors', type = str, 
                        help='Output anchor directory\n' )  
    parser.add_argument('-num_clusters', default = 0, type = int, 
                        help='number of clusters\n' )  

   
    args = parser.parse_args()
    
    if not os.path.exists(args.output_dir):
        os.mkdir(args.output_dir)

    f = open(args.filelist)
  
    lines = [line.rstrip('\n') for line in f.readlines()]
    
    annotation_dims = []

    size = np.zeros((1,1,3))
    for line in lines:
                    
        line = line.replace('JPEGImages','labels')        
        

        line = line.replace('.jpg','.txt')
        line = line.replace('.png','.txt')
        print(line)
        f2 = open(line)
        for line in f2.readlines():
            line = line.rstrip('\n')
            w,h = line.split(' ')[3:]            
            #print(w,h)
            annotation_dims.append(tuple(map(float,(w,h))))
    annotation_dims = np.array(annotation_dims)
  
    eps = 0.005
    
    if args.num_clusters == 0:
        for num_clusters in range(1,11): #we make 1 through 10 clusters 
            anchor_file = join( args.output_dir,'anchors%d.txt'%(num_clusters))

            indices = [ random.randrange(annotation_dims.shape[0]) for i in range(num_clusters)]
            centroids = annotation_dims[indices]
            kmeans(annotation_dims,centroids,eps,anchor_file)
            print('centroids.shape', centroids.shape)
    else:
        anchor_file = join( args.output_dir,'anchors%d.txt'%(args.num_clusters))
        indices = [ random.randrange(annotation_dims.shape[0]) for i in range(args.num_clusters)]
        centroids = annotation_dims[indices]
        kmeans(annotation_dims,centroids,eps,anchor_file)
        print('centroids.shape', centroids.shape)

if __name__=="__main__":
    main(sys.argv)

输出结果，

2个结果有一些差异，但是相差不是很大。

Python接口：

Python/darknet.py

注意这里Python检测输出的结果为中心坐标和宽高。

原始的接口读取图片为作者自己的结构体IMAGE方式，这里增加numpy转IMAGE的接口。

1、在darkenet.py中自定义一个函数，大概48行

def nparray_to_image(img):
    data = img.ctypes.data_as(POINTER(c_ubyte))
    image = ndarray_image(data, img.ctypes.shape, img.ctypes.strides)
return image

2、在darknet.py中增加如下行代码，大概127行

ndarray_image = lib.ndarray_to_image
ndarray_image.argtypes = [POINTER(c_ubyte), POINTER(c_long), POINTER(c_long)]
ndarray_image.restype = IMAGE

3、在src/image.c中增加如下代码段，增加位置大概550行，

#ifdef NUMPY
image ndarray_to_image(unsigned char* src, long* shape, long* strides)
{
    int h = shape[0];
    int w = shape[1];
    int c = shape[2];
    int step_h = strides[0];
    int step_w = strides[1];
    int step_c = strides[2];
    image im = make_image(w, h, c);
    int i, j, k;
    int index1, index2 = 0;

    for(i = 0; i < h; ++i){
            for(k= 0; k < c; ++k){
                for(j = 0; j < w; ++j){

                    index1 = k*w*h + i*w + j;
                    index2 = step_h*i + step_w*j + step_c*k;
                    //fprintf(stderr, "w=%d h=%d c=%d step_w=%d step_h=%d step_c=%d \n", w, h, c, step_w, step_h, step_c);
                    //fprintf(stderr, "im.data[%d]=%u data[%d]=%f \n", index1, src[index2], index2, src[index2]/255.);
                    im.data[index1] = src[index2]/255.;
                }
            }
        }

    rgbgr_image(im);

    return im;
}
#endif

4、在src/image.h的23行后面加如下代码

#ifdef NUMPY
image ndarray_to_image(unsigned char* src, long* shape, long* strides);
#endif

5、在makefile的47行后面中加如下代码

ifeq ($(NUMPY), 1)                                                              
COMMON+= -DNUMPY -I/usr/include/python3.6/ -I /usr/lib/python3/dist-packages/numpy/core/include/numpy/
CFLAGS+= -DNUMPY
Endif

在makefile的第1行后面中加如下代码NUMPY =1

CUDNN=1
OPENCV=1
OPENMP=0
NUMPY=1
DEBUG=0

6、重新编译make clean + make

7、修改darknet.py的后续处理

if __name__ == "__main__":
    net = load_net(b"cfg/yolov3.cfg", b"yolov3.weights", 0)
    meta = load_meta(b"cfg/coco.data")
    image = cv2.imread(b'data/dog.jpg')
    im=nparray_to_image(image)
    r = detect(net, meta, im)
    print(r)
    for newbox in r:
        p1 = (int(newbox[0]), int(newbox[1]))
        p2 = (int(newbox[2]), int(newbox[3]))
        cv2.rectangle(image, p1, p2, (255,0,0))

    cv2.imshow('tracking', image)
    cv2.waitKey()

References:

https://pjreddie.com/darknet/yolo/

https://github.com/pjreddie/darknet

Python基于YOLOv8和OpenCV实现车道线和车辆检测 old_power 计算机视觉 YOLO opencv 计算机视觉 python
使用YOLOv8（YouOnlyLookOnce）和OpenCV实现车道线和车辆检测，目标是创建一个可以检测道路上的车道并识别车辆的系统，并估计它们与摄像头的距离。该项目结合了计算机视觉技术和深度学习物体检测。1、系统主要功能车道检测：使用边缘检测和霍夫线变换检测道路车道。汽车检测：使用YOLOv8模型识别汽车并在汽车周围绘制边界框。距离估计：使用边界框大小计算检测到的汽车与摄像头的距离。2、环境
Cut, Paste and Learn方法解读 wangxinwei2000 深度学习人工智能
Abstract问题背景：标注数据的缺乏：在实例检测任务中，部署物体检测模型的一个主要障碍是缺乏大量标注数据。例如，在一个特定的厨房环境中找到包含实例的大型标注数据集是不太可能的。每当面对新的环境和新的物体实例时，都需要进行昂贵的数据收集和标注工作。研究贡献：解决方法：本文提出了一种简单的方法，可以以最小的努力生成大量标注的实例数据集。关键洞察：研究者的关键洞察是，仅仅确保“局部真实感”（patc
在COD领域，图像中提取的高频和低频信息分别代表什么？ Wils0nEdwards 计算机视觉人工智能
在CamouflagedObjectDetection(COD)领域中，图像中的高频和低频信息在特征提取和物体检测中有着不同的含义和作用。COD的本质是解决目标在视觉上与背景高度相似的问题，因此合理利用图像的频率信息（高频和低频）有助于提高检测效果。高频信息高频信息指的是图像中变化迅速的部分，通常包括细节、边缘和纹理等特征。在COD中：高频信息代表图像中的边缘、细节和纹理特征。这些特征对于分割伪装
行空板上YOLO和Mediapipe图片物体检测的测试 DFRobot智位机器人 DF创客社区 YOLO
Introduction经过前面三篇教程帖子（yolov8n在行空板上的运行（中文），yolov10n在行空板上的运行（中文），Mediapipe在行空板上的运行（中文））的介绍，我们对如何使用官方代码在行空板上运行物体检测的AI模型有了基本的概念，并对常见的模型进行了简单的测试和对比。进一步的，本文将对不同模型的图片物体检查进行详细的对比分析，包括不同输入尺寸、不同模型设置等方面的对比，并提供在
Azure和Transformers的详细解释漫天飞舞的雪花 azure microsoft python
AzureAI是微软提供的人工智能(AI)解决方案的集合，旨在帮助开发人员、数据科学家和企业轻松构建和部署智能应用程序。以下是对AzureAI各个方面的详细解释：AzureAI主要组件AzureCognitiveServices（认知服务）：计算视觉：包括图像识别、物体检测、人脸识别以及图像标注等。语音服务：包括语音识别、语音合成、说话人识别和语音翻译等。语言理解服务：包括文本分析、语言翻译、情感
YOLOv8改进 | Conv篇 | YOLOv8引入SAConv模块小李学AI YOLOv8有效涨点专栏 YOLO 深度学习计算机视觉目标检测人工智能
1.SAConv介绍1.1摘要：许多现代物体检测器通过使用三思而后行的机制表现出出色的性能。在本文中，我们在目标检测的主干设计中探索了这种机制。在宏观层面，我们提出了递归特征金字塔，它将特征金字塔网络的额外反馈连接合并到自下而上的骨干层中。在微观层面，我们提出了可切换空洞卷积，它将具有不同空洞率的特征进行卷积，并使用开关函数收集结果。将它们结合起来就形成了DetectoRS，它显着提高了目标检测的
华为鸿蒙Core Vision Kit 骨骼检测技术神码兄弟华为 harmonyos
鸿蒙CoreVisionKit是华为鸿蒙系统中的一个图像处理框架，旨在提供各种计算机视觉功能，包括物体检测、人脸识别、文本识别等。骨骼检测是其中的一项功能，主要用于检测和识别人类身体的骨骼结构。骨骼检测的关键点骨骼点检测：通过骨骼检测功能，可以识别出人体的关键骨骼点，如肩膀、肘部、膝盖等。每个骨骼点都有特定的坐标，可以用于进一步分析人体姿势。姿势估计：在检测到骨骼点后，系统可以进行姿势估计，即通过
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
基于yolov8的绝缘子缺陷检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的绝缘子缺陷检测系统是一种利用先进深度学习技术的高效解决方案，旨在提升电力行业中输电线路的维护和监控水平。YOLOv8作为YOLO系列算法的最新版本，具备更高的检测速度和精度，特别适用于实时物体检测任务。该系统通过深入分析并标注绝缘子数据集，训练YOLOv8模型以精确识别输电线上的绝缘子及其缺陷状态。利用多尺度检测、FPN结构以及CSPDarknet网络等技术，YOLO
深度学习（十一）：YOLOv9之最新的目标检测器解读从零开始的奋豆深度学习深度学习人工智能
YOLOv91.YOLOv9:物体检测技术的飞跃发展1.1YOLOv9简介1.2YOLOv9的核心创新1.2.1信息瓶颈:神经网络在抽取相关性时的理论边界1.2.2可逆函数:保留完整的信息流1.2.3对轻型模型的影响：解决信息丢失1.2.4可编程梯度信息(PGI)：解决信息瓶颈1.2.5通用高效层聚合网络（GELAN）：实现更高的参数利用率和计算效率1.2.6结论：合作与创新2.代码1.YOLOv
基于深度学习的自适应架构 SEU-WYL 深度学习dnn 深度学习架构人工智能
基于深度学习的自适应架构是一种能够动态调整自身结构和参数的神经网络体系，以更好地适应不同的任务和环境需求。这类架构旨在提高模型的灵活性、效率和泛化能力，特别是在面对资源受限或任务多样化的情况下。以下是对该主题的详细介绍：1.背景与动机任务多样性：在现实世界中，模型可能需要处理各种不同的任务，如图像分类、物体检测、自然语言处理等。传统的固定架构模型往往难以在所有任务上都表现出色。资源受限环境：在边缘
挑战杯基于机器视觉的二维码识别检测 - opencv 二维码识别检测机器视觉 laafeer python
文章目录0简介1二维码检测2算法实现流程3特征提取4特征分类5后处理6代码实现5最后0简介优质竞赛项目系列，今天要分享的是基于机器学习的二维码识别检测-opencv二维码识别检测机器视觉该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1二维码检测物体检测就是对数字图像中一类特定的物体
【机器学习案例7】计算机视觉中的小物体检测：基于补丁的方法 suoge223 机器学习实用指南机器学习计算机视觉人工智能
专栏导读作者简介：工学博士，高级工程师，专注于工业软件算法研究本文已收录于专栏：《机器学习实用指南》本专栏旨在提供1.机器学习经典案例及源码；2.开源机器学习训练数据集；3.机器学习前沿专业博文。以案例的形式从实用的角度出发，快速上手机器学习项目，在案例中成长，摆脱按部就班填鸭式教学。欢迎订阅专栏，订阅用户可私聊进入机器学习交流群（知识交流、问题解答），并获赠丰厚的机器学习相关学习资料（教材、源码
Baumer工业相机堡盟相机彩色相机如何实现白平衡格林威工业相机数码相机 opencv c++计算机视觉开发语言
项目场景Baumer工业相机堡盟相机是一种高性能、高质量的工业相机，可用于各种应用场景，如物体检测、计数和识别、运动分析和图像处理。Baumer的万兆网相机拥有出色的图像处理性能，可以实时传输高分辨率图像。此外，该相机还具有快速数据传输、低功耗、易于集成以及高度可扩展性等特点。Baumer工业相机中彩色相机具有色彩还原度真实的特性，适用于颜色分析的工业应用。技术背景Baumer工业彩色相机由于传感
『论文阅读|利用深度学习在热图像中实现无人机目标检测』 Dymc 深度学习目标检测论文论文阅读深度学习无人机
利用深度学习在热图像中实现无人机目标检测摘要1引言1.1小物体检测1.2物体检测中的模型组合1.3热图像处理2提出的模型2.1预测头数量2.2骨干网络优化2.3Transformerencoder模块2.4使用滑动窗口和注意力进行卷积2.5训练和运行过程3结果3.1数据集3.2评估指标和平台3.3评估结果4结论论文题目：ObjectDetectioninThermalImagesUsingDeep
『论文阅读|研究用于视障人士户外障碍物检测的 YOLO 模型』 Dymc 论文深度学习目标检测论文阅读 YOLO
研究用于视障人士户外障碍物检测的YOLO模型摘要1引言2相关工作2.1障碍物检测的相关工作2.2物体检测和其他基于CNN的模型3问题的提出4方法4.1YOLO4.2YOLOv54.3YOLOv64.4YOLOv74.5YOLOv84.6YOLO-NAS5实验和结果5.1数据集和预处理5.2训练和实现细节5.3性能指标5.4性能分析5.4.1YOLOv5的结果5.4.2YOLOv6的结果5.4.3Y
OpenCV 入门讲解清水白石008 opencv 计算机视觉 opencv 人工智能计算机视觉
OpenCV入门讲解OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了许多高效实现计算机视觉算法的函数，从基本的滤波到高级的物体检测都有涵盖。OpenCV使用C/C++开发，同时也提供了Python、Java、MATLAB等其他语言的接口。它是跨平台的，可以在Windows、Linux、MacOS、Android、iOS等操作系统上运行
如何探索和可视化用于图像中物体检测的 ML 数据虚无火星车 python 深度学习人工智能
近年来，人们越来越认识到深入理解机器学习数据（ML-data）的必要性。不过，鉴于检测大型数据集往往需要耗费大量人力物力，它在计算机视觉（computervision）领域的广泛应用，尚有待进一步开发。通常，在物体检测（ObjectDetection，属于计算机视觉的一个子集）中，通过定义边界框，来定位图像中的物体，不仅可以识别物体，还能够了解物体的上下文、大小、以及与场景中其他元素的关系。同时，
2.1.1 摄像头构图笔记自动驾驶笔记图像处理自动驾驶
摄像头更多内容，请关注：github：https://github.com/gotonote/Autopilot-Notes.git摄像头是目前自动驾驶车中应用和研究最广泛的传感器，其采集图像的过程最接近人类视觉系统。基于图像的物体检测和识别技术已经相当成熟，随着近几年深度学习的发展，基于深度学习的视觉感知算法已大量应用于实际生活和生产中，在某些任务上甚至已经超越人类水平。在自动驾驶车上，一般会安
pytorch,cnn,rnn和yolo关系小小娱乐 pytorch cnn rnn
卷积神经网络（ConvolutionalNeuralNetworks,CNN）和YOLO（YouOnly卷积神经网络（ConvolutionalNeuralNetworks,CNN）和YOLO（YouOnlyLookOnce）都是深度学习中的重要技术，它们在处理图像数据方面有着广泛的应用。CNN是一种以卷积为核心的神经网络，被广泛用于图像分类、物体检测等任务。YOLO则是一种基于CNN的目标检测算
K210的入手试玩程序介绍我先去打把游戏先 K210 硬件 stm32 c语言开发语言 K210
目录前言一、人脸检测二、物体检测三、RGB控制四、录音播放前言入手试玩程序下载好后，界面长这个样K210如何下载程序一、人脸检测1、点击进入人脸检测2、将其对准人脸，可以识别到人脸3、把右上角的按键向左拨动，可以返回主界面二、物体检测1、点击进入物体检测2、可以识别到物体3、同样的，右上角的按键向左波动退回到主界面三、RGB控制1、点击进入RGB控制2、点击对应的颜色，RGB就会亮对应的颜色3、L
TBC(Tied Block Convolution)：具有共享较薄滤波器的更简洁、更出色的CNN 静静AI学堂高质量AI论文翻译 cnn 人工智能神经网络
文章目录摘要引言相关工作TiedBlockConvolution网络设计TBC公式化在瓶颈模块中的TBC/TGCTBC和TFC在注意力模块中的应用实验结果ImageNet分类物体检测和实例分割轻量级注意力消融研究总结补充资料物体检测和实例分割的详细结果额外的Grad-CAM可视化结果
科普：坐标系中几何变换及常见公式 9命怪猫几何学计算机视觉几何学
几何变换”通常指的是对图像进行平移、旋转、缩放、翻转等操作，以改变图像的位置、大小和方向。这些几何变换常用于图像处理、计算机视觉和深度学习领域，用于数据增强、图像预处理、物体检测等任务。具体来说，几何变换包括以下几种主要操作：平移：将图像沿着水平和垂直方向移动一定的距离。旋转：围绕图像中心点或指定点进行旋转，改变图像的方向。缩放：按照指定的比例增大或缩小图像的尺寸。翻转：沿水平或垂直方向对图像进行
2.1.1 摄像头人工智能
摄像头更多内容，请关注：github：https://github.com/gotonote/Autopilot-Notes.git摄像头是目前自动驾驶车中应用和研究最广泛的传感器，其采集图像的过程最接近人类视觉系统。基于图像的物体检测和识别技术已经相当成熟，随着近几年深度学习的发展，基于深度学习的视觉感知算法已大量应用于实际生活和生产中，在某些任务上甚至已经超越人类水平。在自动驾驶车上，一般会安
Transformer实战-系列教程13：DETR 算法解读机器学习杨卓越 Transformer实战 transformer 深度学习 DETR 物体检测
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码1、物体检测说到目标检测你能想到什么faster-rcnn系列，开山之作，各种proposal方法YOLO肯定也少不了，都是基于anchor这路子玩的NMS那也一定得用上，输出结果肯定要过滤一下的如果一个目标检测算法，上面这三点都木有，你说神不神
YOLOv8相关知识 Array902 深度学习 YOLO 深度学习机器学习人工智能计算机视觉
YOLOv8可以干点啥图像分类；物体检测；图像分割；姿势识别；计算机视觉经典任务经典框架经典数据集注意：训练的时候用训练集，并且每训练一会使用验证集来验证一下训练到什么程度了，需不需要调参数或者停止，在训练的时候同时使用训练集和验证集；训练完后使用测试集测试。YOLO是什么YOLO发展历程YOLOv8平台安装官方文档：https://docs.ultralytics.com/zh图像分类如何训练自
OpenShift 4 - 在 OpenShift 上运行物体检测 AI/ML 应用 dawnsky.liu openshift 人工智能 AI jupyter
《OpenShift/RHEL/DevSecOps汇总目录》说明：本文已经在OpenShift4.14+RHODS2.5.0的环境中验证说明：请先根据《OpenShift4-部署OpenShiftAI环境，运行AI/ML应用（视频）》一文完成OpenShiftAI环境的安装。注意：如无特殊说明，和OpenShiftAI相关的Blog均无需GPU。文章目录运行和部署后端模型运行测试后端模型将后端模型
举例说明计算机视觉（CV）技术的优势和挑战做一个AC梦计算机视觉
计算机视觉（CV）技术的优势：高速和准确性：计算机视觉技术可以处理大量的图像或视频数据，并以非常高的速度和准确性进行分析和识别。这使得它在许多领域中具有广泛的应用，如人脸识别、物体检测和图像分类等。自动化和效率：CV技术可以实现图像和视频的自动分析和处理，减少了人力资源的需求，并提高了工作效率。它可以帮助企业降低成本，并提高生产力。大规模应用：CV技术可以在各种场景中广泛应用，包括工业、医疗、安全
物体检测类型实验，华为云ModelArts数据管理功能新体验叶一一yyy 华为云人工智能大数据
前言在零售行业的线下店铺中，最大的工作量之一便是检查货架的货品情况，及时理货补货。对于某些供需较大的货品，及时补充空缺，对提升消费者购物满意度有着重要的提升作用。然而，每个区域的货物成百上千，加上一些外界因素，比如店铺灯光、视觉盲区，这些因素叠加在一起，可能会影响店员对货物数量的感知。最近在研究AI和视觉识别，追踪货架上的货物情况。借助工具，实现店员对货架商品动态的了如指掌的场景，是我这次研究的主
OpenCV学习记录——轮廓检测 KAIs32 树莓派——OpenCV opencv 学习人工智能计算机视觉嵌入式硬件
文章目录前言一、寻找、绘制轮廓二、具体应用代码前言寻找目标图像的轮廓并绘制出该轮廓是我们进行图像识别时常用的手段，轮廓是图像中连续的边界线，可以用于物体检测、形状分析等应用。为了获取更高的准确性，会先进行二值化处理，在得到二进制图像后，寻找轮廓就是从黑色背景中找到白色物体，因此我们要找的对象应是白色，背景应该是黑色。一、寻找、绘制轮廓（一）寻找图像轮廓寻找图像轮廓函数如下：contours,hie
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

yolov3

你可能感兴趣的:(物体检测)