星海千寻

【opencv有趣应用】opencv + YOLOV3 + COCO数据集的简单应用

谈起深度学习进行目标检测，我们能想到的一个分支就是端到端的YOLO系列。
我们之前接触过YOLO，也学习过YOLO，
文章如下：
https://blog.csdn.net/qq_29367075/article/details/109269472
https://blog.csdn.net/qq_29367075/article/details/109269477
https://blog.csdn.net/qq_29367075/article/details/109269483

因此呢，我们这里只是大概复习下YOLO的一些内容即可。

假如在一个anchor是1 的网络中，训练模型是有N个类别。
那么YOLO的每一个结果输出都是包含了(cx, cy, w, h, confindence, p1, p2, p3,……,pN)，分别表示目标中心点的坐标和boundingbox的长宽，以及是否含有object，以及N个类别的softmax值。需要注意的是其中目标中心点坐标和boundingbox的长宽都是和长度、宽度进行了归一化的，就是占长和宽的比例。

我们先来看看今天涉及到的一些知识
1：YOLO-V3的网络结构

可以看出来，它有三个输出层，结果很多，定位也很详细。
参考自：https://zhuanlan.zhihu.com/p/40332004

2：COCO数据集 MS COCO的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。提供的类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。80个类别部分如下：

学习自：https://blog.csdn.net/qq_41185868/article/details/82939959

3：我们今天使用在coco数据集上训练好的yolov3模型，专门用于多物体的识别和定位。
下载地址：https://pjreddie.com/darknet/yolo/，今天我们不现场训练，而是使用现成的训练好的网络。

我们下载cfg文件（网络的架构）和weights文件（所有参数的权重）
我们可以看到yolov3-type，type越大，模型越大，输出结果越多，识别结果越精细，但是速度降低，FPS就越低了。相反type越小，模型越简单，输出结果越少，识别结果越粗糙一点，但是速度提升了，FPS越高了。

点击后可以下载到本地。后续程序中要使用的。

4：opencv也是可以调用现成的深度神经网络模型的
可以调用，pytorch、tensorflow、darknet等深度学习模型。这里我们使用darknet的模型调用，其他的都是可以触类旁通的啊。
学习自：https://zhuanlan.zhihu.com/p/51928656
主要是学习主要的函数的使用。

第一部分：用一张图像测试

import cv2
import numpy as np


def readAllCleassNames(filename):
    with open(filename, 'rt') as f:
        classNames = f.read().rstrip('\n').split('\n')
    return classNames


def findAllObjects(outputs, img):
    confidence_threshold = 0.5
    h_src, w_src, c_src = img.shape
    boundingbox = []  # 存储所有检结果的 boundingbox
    classIds = []  # 存储所有检结果的 classname
    condiences = []  # 存储所有检结果的 confidence度，置信度

    for output in outputs:
        for result in output:
            head_confidence = result[4]  # 第五个值是总的置信度
            classes_confience = result[5:]  # 从第6个值开始到最后一共80个数值是每个class的置信度
            class_id = np.argmax(classes_confience)  # 获得哪个置信度最高就是认为是哪个class
            class_max_confidence = classes_confience[class_id]  # 得到最高的置信度的数值

            # 进行置信度值过滤，confidence很低的就过滤掉
            if head_confidence > confidence_threshold and class_max_confidence > confidence_threshold:
                # 现在我们获得了一个结果
                cx, cy, w, h = result[0:4]  # 前俩个值是中心点的坐标，是算比例的，后俩数值是宽度和长度的比例
                # 将上述结果换算到原始图像上
                res_w, res_h = int(w_src * w), int(h_src * h)
                res_x, res_y = int(w_src * cx - 0.5 * res_w), int(h_src * cy - 0.5 * res_h)

                # 保存该结果
                boundingbox.append([res_x, res_y, res_w, res_h])
                classIds.append(class_id)
                condiences.append(class_max_confidence)

    # 进行NMS处理，这样经过非极大抑制后的结果更加准确，去掉了一些重复的区域。
    # 返回的结果indices是，保留了结果boundingbox的list下标。
    indices = cv2.dnn.NMSBoxes(boundingbox, condiences, confidence_threshold, nms_threshold=0.3)

    return boundingbox, classIds, condiences, indices


if __name__ == '__main__':
    # ======================= step 1: 先获得所有的类别信息
    classNames = readAllCleassNames('file/coco_classnames.txt')
    print(len(classNames))  # 一共有80个类别
    print(classNames)

    # ======================= step 2: 加载预先训练好的yolov3模型，加载模型和各个模型各个参数的权重值。
    # 这里加载的用DarkNet训练的模型和权重，还可以从Caffe, pytorch, tensor-flow, ONNX上加载对应的文件
    modelcfg = 'file/yolov3_320.cfg'
    modelWeights = 'file/yolov3_320.weights'
    # modelcfg = 'file/yolov3_tiny.cfg'
    # modelWeights = 'file/yolov3_tiny.weights'

    # 得到DarkNet上训练的yolov3模型和权重，得到了一个神经网络对象
    net = cv2.dnn.readNetFromDarknet(modelcfg, modelWeights)

    # 设置运行的背景，一般情况都是使用opencv dnn作为后台计算
    net.setPreferableBackend(cv2.dnn.DNN_BACKEND_OPENCV)

    # 设置目标设备, DNN_TARGET_CPU其中表示使用CPU计算，默认是的
    net.setPreferableTarget(cv2.dnn.DNN_TARGET_CPU)

    # ======================= step 3: 得到一个图像，转换后将其输入模型。
    img = cv2.imread('images/car_person.jpeg')
    # cv2.imshow('cat', img)
    # cv2.waitKey(0)

    # 转成blob的形式
    w_h_size = 320
    blob = cv2.dnn.blobFromImage(image=img,  # 输入图像
                                 scalefactor=1 / 255,  # 进行缩放，这个就是归一化操作，值全部在[0,1]之间
                                 size=(w_h_size, w_h_size),  # 输入图像的
                                 mean=[0, 0, 0],  # 给输入图像的每个通道的均值
                                 swapRB=1)  # 交换R和B通道
    net.setInput(blob)  # 设置输入

    # ======================= step 4: 得到输出结果，取出三个输出层的结果
    layerNames = net.getLayerNames()
    print(layerNames)  # 输入所有的每一层的名字和序号，这里返回layers的名字

    output_layers_ids = net.getUnconnectedOutLayers()  # yolov3有三个输出层
    print(output_layers_ids)  # 输入所有的输出层的序号，这里返回layers的下标序号，注意是从1开始的

    output_layers_names = [layerNames[layer_id - 1] for layer_id in output_layers_ids]
    print(output_layers_names)  # 得到所有的输出层的名字

    outputs = net.forward(output_layers_names)  # 设置前向传播的需要拿到的层的数据
    # print(len(outputs))  # 值是3， 因为yolov3有三个输出层
    # print(type(outputs))  # 

    # 下面是yolov3-320的输出结果，它有三个输出层
    # print(type(outputs[0]))  # 
    # print(outputs[0].shape)  # (300, 85)，有300个结果，每个结果是(cx, cy, w, h, confidence, 80 * class_confidence)
    # print(type(outputs[1]))  # 
    # print(outputs[1].shape)  # (1200, 85)，有1200个结果，每个结果是(cx, cy, w, h, confidence, 80 * class_confidence)
    # print(type(outputs[2]))  # 
    # print(outputs[2].shape)  # (4800, 85)，有4800个结果，每个结果是(cx, cy, w, h, confidence, 80 * class_confidence)

    # 下面是yolov3-tiny的输出结果，yolov3-tiny只有两个输出层
    # print(type(outputs[0]))  # 
    # print(outputs[0].shape)  # (300, 85)，有300个结果，每个结果是(cx, cy, w, h, confidence, 80 * class_confidence)
    # print(type(outputs[1]))  # 
    # print(outputs[1].shape)  # (1200, 85)，有1200个结果，每个结果是(cx, cy, w, h, confidence, 80 * class_confidence)



    # ======================= step 5: 将结果解析，定在图上画出来
    bboxes, classids, confidences, indices = findAllObjects(outputs=outputs, img=img)
    print('In the end, we get {} results.'.format(len(indices)))  # 打印出我们得到了多少结果

    # 在原始图像上画出这个矩形框，以及在框上画出类别和置信度
    for idx in indices:
        bbox = bboxes[idx]
        class_name = classNames[classids[idx]]
        confidence = confidences[idx]

        x, y, w, h = bbox
        cv2.rectangle(img, pt1=(x, y), pt2=(x+w, y+h), color=(255, 0, 0), thickness=3)
        cv2.putText(img, text="classN_name:{}, confidence:{}%".format(class_name.upper(), "%.2f" % (confidence * 100)),
                    org=(x, y-10), fontFace=cv2.FONT_HERSHEY_SIMPLEX, fontScale=0.6,
                    color=(0, 0, 255), thickness=2)

    # 展示结果
    cv2.imshow('car_person', img)
    cv2.waitKey(0)

使用yolov3-320模型测试，准去度高，但是速度慢。

使用yolov3-tiny模型测试，准去度低很多，但是速度块很多。

第二部分：开启摄像头

import cv2
import numpy as np


def readAllCleassNames(filename):
    with open(filename, 'rt') as f:
        classNames = f.read().rstrip('\n').split('\n')
    return classNames


def findAllObjects(outputs, img):
    confidence_threshold = 0.5
    h_src, w_src, c_src = img.shape
    boundingbox = []  # 存储所有检结果的 boundingbox
    classIds = []  # 存储所有检结果的 classname
    condiences = []  # 存储所有检结果的 confidence度，置信度

    for output in outputs:
        for result in output:
            head_confidence = result[4]  # 第五个值是总的置信度
            classes_confience = result[5:]  # 从第6个值开始到最后一共80个数值是每个class的置信度
            class_id = np.argmax(classes_confience)  # 获得哪个置信度最高就是认为是哪个class
            class_max_confidence = classes_confience[class_id]  # 得到最高的置信度的数值

            # 进行置信度值过滤，confidence很低的就过滤掉
            if head_confidence > confidence_threshold and class_max_confidence > confidence_threshold:
                # 现在我们获得了一个结果
                cx, cy, w, h = result[0:4]  # 前俩个值是中心点的坐标，是算比例的，后俩数值是宽度和长度的比例
                # 将上述结果换算到原始图像上
                res_w, res_h = int(w_src * w), int(h_src * h)
                res_x, res_y = int(w_src * cx - 0.5 * res_w), int(h_src * cy - 0.5 * res_h)

                # 保存该结果
                boundingbox.append([res_x, res_y, res_w, res_h])
                classIds.append(class_id)
                condiences.append(class_max_confidence)

    # 进行NMS处理，这样经过非极大抑制后的结果更加准确，去掉了一些重复的区域。
    # 返回的结果indices是，保留了结果boundingbox的list下标。
    indices = cv2.dnn.NMSBoxes(boundingbox, condiences, confidence_threshold, nms_threshold=0.3)

    return boundingbox, classIds, condiences, indices


if __name__ == '__main__':
    # ======================= step 1: 先获得所有的类别信息
    classNames = readAllCleassNames('file/coco_classnames.txt')
    print(len(classNames))  # 一共有80个类别
    print(classNames)

    # ======================= step 2: 加载预先训练好的yolov3模型，加载模型和各个模型各个参数的权重值。
    # 这里加载的用DarkNet训练的模型和权重，还可以从Caffe, pytorch, tensor-flow, ONNX上加载对应的文件
    modelcfg = 'file/yolov3_320.cfg'
    modelWeights = 'file/yolov3_320.weights'
    # modelcfg = 'file/yolov3_tiny.cfg'
    # modelWeights = 'file/yolov3_tiny.weights'

    # 得到DarkNet上训练的yolov3模型和权重，得到了一个神经网络对象
    net = cv2.dnn.readNetFromDarknet(modelcfg, modelWeights)

    # 设置运行的背景，一般情况都是使用opencv dnn作为后台计算
    net.setPreferableBackend(cv2.dnn.DNN_BACKEND_OPENCV)

    # 设置目标设备, DNN_TARGET_CPU其中表示使用CPU计算，默认是的
    net.setPreferableTarget(cv2.dnn.DNN_TARGET_CPU)

    # ======================= step 3: 开启摄像头，得到一个图像，转换后将其输入模型。
    cap = cv2.VideoCapture(0)

    while True:

        ret, img = cap.read()
        if img is None:
            print("video is over...")
            break

        # 转成blob的形式
        w_h_size = 320
        blob = cv2.dnn.blobFromImage(image=img,  # 输入图像
                                     scalefactor=1 / 255,  # 进行缩放，这个就是归一化操作，值全部在[0,1]之间
                                     size=(w_h_size, w_h_size),  # 输入图像的
                                     mean=[0, 0, 0],  # 给输入图像的每个通道的均值
                                     swapRB=1)  # 交换R和B通道
        net.setInput(blob)  # 设置输入

        # ======================= step 4: 得到输出结果，取出三个输出层的结果
        layerNames = net.getLayerNames()
        # print(layerNames)  # 输入所有的每一层的名字和序号，这里返回layers的名字

        output_layers_ids = net.getUnconnectedOutLayers()  # yolov3有三个输出层
        # print(output_layers_ids)  # 输入所有的输出层的序号，这里返回layers的下标序号，注意是从1开始的

        output_layers_names = [layerNames[layer_id - 1] for layer_id in output_layers_ids]
        print(output_layers_names)  # 得到所有的输出层的名字

        outputs = net.forward(output_layers_names)  # 设置前向传播的需要拿到的层的数据
        # print(len(outputs))  # 值是3， 因为yolov3有三个输出层
        # print(type(outputs))  # 

        # ======================= step 5: 将结果解析，定在图上画出来
        bboxes, classids, confidences, indices = findAllObjects(outputs=outputs, img=img)
        print('In the end, we get {} results.'.format(len(indices)))  # 打印出我们得到了多少结果

        # 在原始图像上画出这个矩形框，以及在框上画出类别和置信度
        for idx in indices:
            bbox = bboxes[idx]
            class_name = classNames[classids[idx]]
            confidence = confidences[idx]

            x, y, w, h = bbox
            cv2.rectangle(img, pt1=(x, y), pt2=(x+w, y+h), color=(255, 0, 0), thickness=3)
            cv2.putText(img, text="classN_name:{}, confidence:{}%".format(class_name.upper(), "%.2f" % (confidence * 100)),
                        org=(x, y-10), fontFace=cv2.FONT_HERSHEY_SIMPLEX, fontScale=0.6,
                        color=(0, 0, 255), thickness=2)

        # 展示结果
        cv2.imshow('test', img)
        cv2.waitKey(1)

效果如下：

感受大师的代码风格_opencv源代码结构分析一
最近在调用opencv的时候,我总是去看看opencv的原代码.在那些烦琐的宏定义里面感觉自己还是很有意思的.cvGet2D(constCvArr*arr,inty,intx);//第一个坐标是y坐标,第二个是x坐标CV_IMPLCvScalarcvGet2D(constCvArr*arr,inty,intx)//CV_IMPL宏定义extern"C"{CvScalarscalar={{0,0,0
Opencv学习_2 （opencv结构&显示图像）
opencv结构：1：主要包含：cxcorecvmachinelearninghighguicvcamcvaux2：cxcore:基础结构:CvPoint,CvSize,CvScalar等数组结构:cvCreateImage,cvCreateMat等动态结构:CvMemStorage,CvMemBlock等绘图函数:cvLine,cvRectangle等数据保存和运行时类型信息：CvFileSto
DataLoader
在PyTorch中，DataLoader是torch.utils.data模块中的一个重要类，用于将数据集包装成可迭代对象，在训练和测试模型时提供了高效、便捷的数据加载和批处理功能。主要作用:批量处理数据：将数据集中的样本整理成一个个批次（batch），方便模型进行一次处理多个样本，加速训练过程。例如，设置batch_size=32，就会每次从数据集中取出32个样本组成一个批次。数据打乱：在训练过
探索OpenCV 3.2源码：计算机视觉的架构与实现轩辕姐姐
本文还有配套的精品资源，点击获取简介：OpenCV是一个全面的计算机视觉库，提供广泛的功能如图像处理、对象检测和深度学习支持。OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。源码的模块化设计、C++接口、算法实现、多平台支持和性能优化等方面的深入理解，都将有助于开发者的
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
轻松掌握EasyX图形库在Visual C++ 6.0中的应用 Randy Rhoads
本文还有配套的精品资源，点击获取简介：EasyX图形库为VisualC++6.0环境提供了简便的图形界面编程功能。它包括丰富的图形绘制、图像处理、文字操作、图形变换和事件处理等核心特性，辅以详细的API文档和示例代码。该库支持在多个操作系统版本上运行，且具有优化的性能，极大地简化了图形界面的开发流程。1.easyX图形库概述1.1引言easyX图形库是一个基于Windows操作系统的简单易用的图形
Python 算法基础篇之线性搜索算法：顺序搜索、二分搜索挣扎的蓝藻 Python算法初阶：入门篇 python 算法开发语言
Python算法基础篇之线性搜索算法：顺序搜索、二分搜索引用1.顺序搜索算法2.二分搜索算法3.顺序搜索和二分搜索的对比a)适用性b)时间复杂度c)前提条件4.实例演示实例1：顺序搜索实例2：二分搜索总结引用在算法和数据结构中，搜索是一种常见的操作，用于查找特定元素在数据集合中的位置。线性搜索算法是最简单的搜索算法之一，在一组数据中逐一比较查找目标元素。本篇博客将介绍线性搜索算法的两种实现方式：顺
计算机视觉算法实战——关键点检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言关键点检测（KeypointDetection）是计算机视觉领域中的一个重要研究方向，旨在从图像或视频中检测出具有特定语义信息的关键点。这些关键点通常代表了物体的特定部位或特征，例如人体的关节、面部特征点、车辆的轮子等。关键点检测在姿态估计、动作识别、目标跟踪、三维重建等任务中
复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
UI 组件 | Button 测试开发小白变怪兽
最近在与其他自学CocosCreator的小伙伴们交流过程中，发现许多小伙伴对基础组件的应用并不是特别了解，自己在编写游戏的过程中也经常对某个属性或者方法的用法所困扰，而网上也没有比较清晰的用法讲解，所以准备对常用的UI组件常用用法进行一个总结，方便自己和其他小伙伴们查看，下面正文开始（注：属性介绍部分大部分内容我会取自官方文档）。Button（按钮）组件Button组件可以响应用户的点击操作，当
PyTorch数据准备：从基础Dataset到高效DataLoader 慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch数据加载核心组件在PyTorch中，数据准备主要涉及两个核心类：Dataset和DataLoader。它们共同构成了PyTorch灵活高效的数据管道系统。Dataset类：作为数据集的抽象基类，需要实现三个关键方法：len():返回数据集大小getitem():获取单个数据样本(可选)init():初始化逻辑常见实现方式：继承torch.utils.data.Dataset使用T
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
PyTorch数据加载与预处理飘若随风 PyTorch pytorch 人工智能 python
数据加载与预处理详解1.数据集类(Dataset和DataLoader)1.1Dataset基类PyTorch中的Dataset是一个抽象类，所有自定义的数据集都应该继承这个类，并实现以下两个方法：__len__():返回数据集的大小__getitem__():根据索引返回一个样本概念解析：Dataset类提供了统一的数据访问接口通过继承Dataset，我们可以轻松地将数据集成到PyTorch的生
高通平台camera构架sensor驱动详解 a55662551 android camera 驱动 v4l2
1.Sensor驱动的基本概念与流程Sensor驱动的作用：Sensor驱动是Camera硬件与CamX框架之间的桥梁，负责控制Sensor的启动、数据采集、寄存器配置以及与图像处理单元（如IFE、BPS）的交互。通俗理解：就像工厂的“原料采集工”，负责从摄像头传感器（如CMOS）获取原始图像数据，并将数据传递到流水线（Pipeline）中进行加工。数据流关键步骤：Sensor初始化：配置电源、时
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

【opencv有趣应用】opencv + YOLOV3 + COCO数据集的简单应用

你可能感兴趣的:(OpenCV,图像处理,opencv,计算机视觉,YOLOV3,COCO数据集)