computer_vision_chen

【yolov5】detect.py

执行方法:

代码

# YOLOv5  by Ultralytics, AGPL-3.0 license
"""
Run YOLOv5 detection inference on images, videos, directories, globs, YouTube, webcam, streams, etc.

Usage - sources:
    $ python detect.py --weights yolov5s.pt --source 0                               # webcam
                                                     img.jpg                         # image
                                                     vid.mp4                         # video
                                                     screen                          # screenshot
                                                     path/                           # directory
                                                     list.txt                        # list of images
                                                     list.streams                    # list of streams
                                                     'path/*.jpg'                    # glob
                                                     'https://youtu.be/Zgi9g1ksQHc'  # YouTube
                                                     'rtsp://example.com/media.mp4'  # RTSP, RTMP, HTTP stream

Usage - formats:
    $ python detect.py --weights yolov5s.pt                 # PyTorch
                                 yolov5s.torchscript        # TorchScript
                                 yolov5s.onnx               # ONNX Runtime or OpenCV DNN with --dnn
                                 yolov5s_openvino_model     # OpenVINO
                                 yolov5s.engine             # TensorRT
                                 yolov5s.mlmodel            # CoreML (macOS-only)
                                 yolov5s_saved_model        # TensorFlow SavedModel
                                 yolov5s.pb                 # TensorFlow GraphDef
                                 yolov5s.tflite             # TensorFlow Lite
                                 yolov5s_edgetpu.tflite     # TensorFlow Edge TPU
                                 yolov5s_paddle_model       # PaddlePaddle
"""

import argparse
import os
import platform
import sys
from pathlib import Path

import torch

FILE = Path(__file__).resolve()
ROOT = FILE.parents[0]  # YOLOv5 root directory
if str(ROOT) not in sys.path:
    sys.path.append(str(ROOT))  # add ROOT to PATH
ROOT = Path(os.path.relpath(ROOT, Path.cwd()))  # relative

from models.common import DetectMultiBackend
from utils.dataloaders import IMG_FORMATS, VID_FORMATS, LoadImages, LoadScreenshots, LoadStreams
from utils.general import (LOGGER, Profile, check_file, check_img_size, check_imshow, check_requirements, colorstr, cv2,
                           increment_path, non_max_suppression, print_args, scale_boxes, strip_optimizer, xyxy2xywh)
from utils.plots import Annotator, colors, save_one_box
from utils.torch_utils import select_device, smart_inference_mode


@smart_inference_mode()
def run(
        weights=ROOT / 'yolov5s.pt',  # model path or triton URL
        source=ROOT / 'data/images',  # file/dir/URL/glob/screen/0(webcam)
        data=ROOT / 'data/coco128.yaml',  # dataset.yaml path
        imgsz=(640, 640),  # inference size (height, width)
        conf_thres=0.70,  # confidence threshold
        # iou_thres=0.45,  # NMS IOU threshold
        iou_thres=0.50,  # NMS IOU threshold
        max_det=1000,  # maximum detections per image
        device='0',  # cuda device, i.e. 0 or 0,1,2,3 or cpu
        view_img=False,  # show results
        save_txt=False,  # save results to *.txt
        save_conf=False,  # save confidences in --save-txt label
        save_crop=False,  # save cropped prediction boxes
        nosave=False,  # do not save images/videos
        classes=None,  # filter by class: --class 0, or --class 0 2 3
        agnostic_nms=False,  # class-agnostic NMS
        augment=False,  # augmented inference
        visualize=False,  # visualize features
        update=False,  # update all models
        project=ROOT / 'runs/detect',  # save results to project/name
        name='exp',  # save results to project/name
        exist_ok=False,  # existing project/name ok, do not increment
        line_thickness=3,  # bounding box thickness (pixels)
        hide_labels=False,  # hide label
        hide_conf=False,  # hide confidences
        half=False,  # use FP16 half-precision inference
        dnn=False,  # use OpenCV DNN for ONNX inference
        vid_stride=1,  # video frame-rate stride
):
    '''第一部分: 对source进行额外的判断'''
    source = str(source) # 路径转为字符串，防止非字符串路径
    # 如果nosave为false,source不是以txt结尾，则save_img=true 即结果需要保存
    save_img = not nosave and not source.endswith('.txt')  # save inference images
    # 判断传入的路径是不是文件地址 suffix表示后缀, suffix[1:]即此处的jpg, IMG_FORMATS + VID_FORMATS表示图片和视频的格式
    is_file = Path(source).suffix[1:] in (IMG_FORMATS + VID_FORMATS)
    # 判断是不是网络流地址并转换为小写字母
    is_url = source.lower().startswith(('rtsp://', 'rtmp://', 'http://', 'https://'))
    # isnumeric() 好像是判断是不是数字 本地是0
    webcam = source.isnumeric() or source.endswith('.streams') or (is_url and not is_file)
    screenshot = source.lower().startswith('screen')
    # 判断是不是网络流 和 是不是网络流里面的文件，如果是则进入进行 下载网络流中的图片和视频
    if is_url and is_file:
        source = check_file(source)  # download

    '''第二部分: 新建保存结果的文件夹'''
    # Directories
    # 检测文件夹下的数字到几了，把每一次的结果增量保存
    save_dir = increment_path(Path(project) / name, exist_ok=exist_ok)  # increment run
    (save_dir / 'label' if save_txt else save_dir).mkdir(parents=True, exist_ok=True)  # make dir

    '''第三部分：加载模型的权重'''
    # Load model
    # 选择加载模型的设备，如果是GPU则选择GPU
    device = select_device(device)
    # 选择模型的后端框架, dnn默认是false，data是训练和测试的文件，如果是pytorch就用pytorch的加载方式，其他的用其他的方式
    model = DetectMultiBackend(weights, device=device, dnn=dnn, data=data, fp16=half)
    # nodel.names 表示默认的类别 此处是初始值 后面会变的
    stride, names, pt = model.stride, model.names, model.pt
    # 输入待推理的图片 检查根据640*640和32步长，判断是否是32的倍数 不是的话就再计算一个倍数
    imgsz = check_img_size(imgsz, s=stride)  # check image size

    '''第四部分：加载待预测的图片'''
    # Dataloader
    bs = 1  # batch_size
    if webcam:
        view_img = check_imshow(warn=True)
        dataset = LoadStreams(source, img_size=imgsz, stride=stride, auto=pt, vid_stride=vid_stride)
        bs = len(dataset)
    elif screenshot:
        dataset = LoadScreenshots(source, img_size=imgsz, stride=stride, auto=pt)
    else:
        dataset = LoadImages(source, img_size=imgsz, stride=stride, auto=pt, vid_stride=vid_stride)
    vid_path, vid_writer = [None] * bs, [None] * bs

    '''第五部分：执行模型的推理，产生预测结果，画出预测框'''
    # Run inference
    # warmup是热身的意思 初始化一张空白图片 让模型跑一下
    model.warmup(imgsz=(1 if pt or model.triton else bs, 3, *imgsz))  # warmup
    seen, windows, dt = 0, [], (Profile(), Profile(), Profile())
    # 遍历之后，得到图片路径，im是resize后的图片，im0 shi yuantu
    for path, im, im0s, vid_cap, s in dataset:
        # 对图片预处理
        with dt[0]:
            # 图片是numpy格式，必须把它转为Pytorch支持的格式，并把他放到 device (GPU)上
            im = torch.from_numpy(im).to(model.device)
            im = im.half() if model.fp16 else im.float()  # uint8 to fp16/32
            # 归一化 确保像素在0-255之间
            im /= 255  # 0 - 255 to 0.0 - 1.0
            # 图片是 (长，宽，通道)，现在给他扩展一下，给出batch的位置
            if len(im.shape) == 3:
                im = im[None]  # expand for batch dim

        # Inference: 对图片进行预测
        with dt[1]:
            visualize = increment_path(save_dir / Path(path).stem, mkdir=True) if visualize else False
            # augment是看是否对图片进行增强 得到所有的检测框 一个图片上万个， (1,18900,85),4个坐标信息，1个置信度信息和80个类别的概率值
            pred = model(im, augment=augment, visualize=visualize)

        # NMS: 对预测的18900个框进行过滤，使用的是置信度阈值，Iou阈值，max_det是最大能检测的目标，run函数默认1000个，如果超出1000个自动过滤掉剩下的目标
        with dt[2]:
            '''
                最终得到[1,5,6,[类别]]
                1：是一个batch
                5：是将上万个检测框降低到5个检测框
                6: 目标的 x_left_up,y_left_up,x_right_down,y_right_down,置信度,目标所属类别()
            '''
            pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det)

        # Second-stage classifier (optional)
        # pred = utils.general.apply_classifier(pred, classifier_model, im, im0s)

        '''
           遍历pred，遍历一个batch中的每个图片 
        '''
        # Process predictions
        for i, det in enumerate(pred):  # per image
            seen += 1 #计数，每处理一个图片则+1
            if webcam:  # batch_size >= 1
                p, im0, frame = path[i], im0s[i].copy(), dataset.count
                s += f'{i}: '
            else:
                p, im0, frame = path, im0s.copy(), getattr(dataset, 'frame', 0)

            p = Path(p)  # to Path
            save_path = str(save_dir / p.name)  # 图片保存路径 im.jpg
            # txt路径
            txt_path = str(save_dir / 'label' / p.stem) + ('' if dataset.mode == 'image' else f'_{frame}')  # im.txt
            s += '%gx%g ' % im.shape[2:]  # print string
            gn = torch.tensor(im0.shape)[[1, 0, 1, 0]]  # normalization gain whwh
            imc = im0.copy() if save_crop else im0  # for save_crop
            # 定义一个专门绘图的工具 line_thickness是线条粗细 str(names)标签名
            annotator = Annotator(im0, line_width=line_thickness, example=str(names))
            if len(det):
                # Rescale boxes from img_size to im0 size
                det[:, :4] = scale_boxes(im.shape[2:], det[:, :4], im0.shape).round()

                # Print results
                for c in det[:, 5].unique():
                    n = (det[:, 5] == c).sum()  # detections per class
                    s += f"{n} {names[int(c)]}{'s' * (n > 1)}, "  # add to string

                # Write results
                for *xyxy, conf, cls in reversed(det):
                    if save_txt:  # Write to file
                        xywh = (xyxy2xywh(torch.tensor(xyxy).view(1, 4)) / gn).view(-1).tolist()  # normalized xywh
                        line = (cls, *xywh, conf) if save_conf else (cls, *xywh)  # label format
                        with open(f'{txt_path}.txt', 'a') as f:
                            f.write(('%g ' * len(line)).rstrip() % line + '\n')

                    if save_img or save_crop or view_img:  # Add bbox to image
                        c = int(cls)  # integer class
                        label = None if hide_labels else (names[c] if hide_conf else f'{names[c]} {conf:.2f}')
                        annotator.box_label(xyxy, label, color=colors(c, True))
                    if save_crop:
                        save_one_box(xyxy, imc, file=save_dir / 'crops' / names[c] / f'{p.stem}.jpg', BGR=True)

            # Stream results
            im0 = annotator.result()
            if view_img:
                if platform.system() == 'Linux' and p not in windows:
                    windows.append(p)
                    cv2.namedWindow(str(p), cv2.WINDOW_NORMAL | cv2.WINDOW_KEEPRATIO)  # allow window resize (Linux)
                    cv2.resizeWindow(str(p), im0.shape[1], im0.shape[0])
                cv2.imshow(str(p), im0)
                cv2.waitKey(1)  # 1 millisecond

            # Save results (image with detections)
            if save_img:
                if dataset.mode == 'image':
                    cv2.imwrite(save_path, im0)
                else:  # 'video' or 'stream'
                    if vid_path[i] != save_path:  # new video
                        vid_path[i] = save_path
                        if isinstance(vid_writer[i], cv2.VideoWriter):
                            vid_writer[i].release()  # release previous video writer
                        if vid_cap:  # video
                            fps = vid_cap.get(cv2.CAP_PROP_FPS)
                            w = int(vid_cap.get(cv2.CAP_PROP_FRAME_WIDTH))
                            h = int(vid_cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
                        else:  # stream
                            fps, w, h = 30, im0.shape[1], im0.shape[0]
                        save_path = str(Path(save_path).with_suffix('.mp4'))  # force *.mp4 suffix on results videos
                        vid_writer[i] = cv2.VideoWriter(save_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (w, h))
                    vid_writer[i].write(im0)

        '''第六部分：打印输出信息'''
        # Print time (inference-only)
        LOGGER.info(f"{s}{'' if len(det) else '(no detections), '}{dt[1].dt * 1E3:.1f}ms")

    # Print results
    t = tuple(x.t / seen * 1E3 for x in dt)  # speeds per image
    LOGGER.info(f'Speed: %.1fms pre-process, %.1fms inference, %.1fms NMS per image at shape {(1, 3, *imgsz)}' % t)
    if save_txt or save_img:
        s = f"\n{len(list(save_dir.glob('label/*.txt')))} label saved to {save_dir / 'label'}" if save_txt else ''
        LOGGER.info(f"Results saved to {colorstr('bold', save_dir)}{s}")
    if update:
        strip_optimizer(weights[0])  # update model (to fix SourceChangeWarning)


def parse_opt():
    parser = argparse.ArgumentParser()
    parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'yolov5s.pt', help='model path or triton URL')
    parser.add_argument('--source', type=str, default=ROOT / 'data/images', help='file/dir/URL/glob/screen/0(webcam)')
    parser.add_argument('--data', type=str, default=ROOT / 'data/coco128.yaml', help='(optional) dataset.yaml path')
    # 模型预测的图片大小 默认是[640]
    parser.add_argument('--imgsz', '--img', '--img-size', nargs='+', type=int, default=[640], help='inference size h,w')
    parser.add_argument('--conf-thres', type=float, default=0.60, help='confidence threshold')
    parser.add_argument('--iou-thres', type=float, default=0.55, help='NMS IoU threshold')
    parser.add_argument('--max-det', type=int, default=1000, help='maximum detections per image')
    parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
    parser.add_argument('--view-img', action='store_true', help='show results')
    parser.add_argument('--save-txt', action='store_true', help='save results to *.txt')
    parser.add_argument('--save-conf', action='store_true', help='save confidences in --save-txt label')
    parser.add_argument('--save-crop', action='store_true', help='save cropped prediction boxes')
    parser.add_argument('--nosave', action='store_true', help='do not save images/videos')
    parser.add_argument('--classes', nargs='+', type=int, help='filter by class: --classes 0, or --classes 0 2 3')
    parser.add_argument('--agnostic-nms', action='store_true', help='class-agnostic NMS')
    parser.add_argument('--augment', action='store_true', help='augmented inference')
    parser.add_argument('--visualize', action='store_true', help='visualize features')
    parser.add_argument('--update', action='store_true', help='update all models')
    parser.add_argument('--project', default=ROOT / 'runs/detect', help='save results to project/name')
    parser.add_argument('--name', default='exp', help='save results to project/name')
    parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')
    parser.add_argument('--line-thickness', default=3, type=int, help='bounding box thickness (pixels)')
    parser.add_argument('--hide-labels', default=False, action='store_true', help='hide label')
    parser.add_argument('--hide-conf', default=False, action='store_true', help='hide confidences')
    parser.add_argument('--half', action='store_true', help='use FP16 half-precision inference')
    parser.add_argument('--dnn', action='store_true', help='use OpenCV DNN for ONNX inference')
    parser.add_argument('--vid-stride', type=int, default=1, help='video frame-rate stride')
    opt = parser.parse_args()

    # 检查图片大小：如果opt.imgsz的长度为1，即默认值[640]，则变成640的平方即 640*640，否则就不动了
    opt.imgsz *= 2 if len(opt.imgsz) == 1 else 1  # expand

    # 打印所有信息
    print_args(vars(opt))

    # 返回所有变量信息
    return opt


def main(opt):
    # 检测 requirements的包有没有成功安装
    check_requirements(ROOT / 'requirements.txt', exclude=('tensorboard', 'thop'))
    # 检测完成，传递参数
    run(**vars(opt))

if __name__ == '__main__':
    opt = parse_opt()
    main(opt)

卷积神经网络（笔记01）天行者@ cnn 人工智能深度学习
视觉处理三大任务：分类、目标检测、图像分割CNN网络主要有三部分构成：卷积层（ConvolutionalLayer）、池化层（PoolingLayer）和激活函数一、解释卷积层中的偏置项是什么，并讨论在神经网络中引入偏置项的好处。在卷积神经网络（CNN）的卷积层里，卷积操作本质上是输入数据与卷积核（滤波器）进行逐元素相乘再求和的过程。偏置项（Bias）是一个额外的可学习参数，对于每个卷积核而言，都
YOLO训练指南（以V3为例） niuTaylor YOLO 目标检测深度学习机器学习
YOLO训练指南（以V3为例）前言了解yolo3https://cloud.tencent.com/developer/news/76803https://www.bilibili.com/video/av77670746/1.总教程★★★https://blog.csdn.net/USTCsunyue/article/details/93648307★★★★https://blog.csdn.n
目标检测煤烦恼目标检测人工智能大数据 pytorch
1.概念：目标检测是识别图片中物体并确定其位置的多任务技术，面临目标种类数量多、尺度不均、外部环境干扰等问题。这里的数字为置信度2.数据集：VOC数据集分4大类20小类；COCO数据集含20万图像、80个类别、超50万目标标注，平均每图7.2个目标。3.GroundTruth格式：包含类别和边界框坐标，常见的有YOLO（归一化中心点坐标和宽高）、VOC（左上角和右下角坐标）、COCO（左上角坐标和
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
YOLOv8制作自己的实例分割数据集保姆级教程（包含json转txt） Sir小珂 YOLO python 深度学习人工智能
1.数据准备首先对原始数据集进行整理，将标注好的图像和标签分别放在两个文件夹中，同时额外新建两个文件夹，用于存放转换完的标签与划分后的数据集。1.1将json格式文件转换为txt格式新建json2txt.py文件，将代码中的文件路径修改为自己的路径。❗❗❗代码中第43行的classes中存放的是自己数据集的分类标签，记得修改成自己的。importjsonimportosfromtqdmimport
基于YOLOv5的烟雾检测系统：从数据集准备到UI界面实现深度学习&目标检测实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言烟雾是火灾发生的一个重要早期信号。烟雾检测能够在火灾初期及时识别并报警，为火灾的扑灭争取宝贵的时间。因此，烟雾检测的研究一直是计算机视觉领域中的一个热点问题。近年来，随着深度学习技术的发展，目标检测算法被广泛应用于烟雾检测，尤其是基于YOLOv5的目标检测模型，由于其较高的精度和较低的计算开销，已经成为许多实时检测系统的首选模型。在这篇博客中，我们将介绍如何使用YOLOv5模型进行烟雾检测
智能标注工具 T-Rex Label leo0308 基础知识目标检测和跟踪机器人计算机视觉目标检测
工具地址：https://trexlabel.com/该工具可以进行自动化标注，只需框选出一个标记，就可以自动标注出图片中所有的其他同类物体。支持导出YOLO和COCO格式。首先使用智能标注，可以标注出大部分的物体，如果有错的或者漏的，可以删除，也可以使用矩形框工具进行手动增加。
YOLO报错：ModuleNotFoundError: No module named ‘ultralytics.nn.modules.conv‘ 欧迪小白 YOLO python
最近在打包项目到另一台电脑上运行时发现原本可以运行的项目会报错：ModuleNotFoundError:Nomodulenamed‘ultralytics.nn.modules.conv’;‘ultralytics.nn.modules’isnotapackage。明明项目的包都是一样的，版本也相同，就是会报错。查询百度谷歌后发现大多数都是说版本问题，但是我无论修改什么版本都有问题，最后使用pip
深度学习项目十一：mmdetection训练自己的数据集小啊磊_Vv 深度学习和视觉项目实战目标跟踪人工智能计算机视觉 python 深度学习
mmdetection训练自己的数据集这里写目录标题mmdetection训练自己的数据集一：环境搭建二：数据集格式转换(yolo转coco格式)yolo数据集格式coco数据集格式yolo转coco数据集格式yolo转coco数据集格式的代码三：训练dataset数据文件配置configs1.在configs/faster_rcnn/faster-rcnn_r101_fpn_1x_coco.py
【基于国产RK3588-NPU的yolov5的AI智能盒子】贝壳里的沙人工智能
基于国产RK3588-NPU的yolov5的AI智能盒子背景识别效果区别Python版本目标识别实现cmake（c/c++）版本实现背景前面写了一篇关于基YOLOV5实现的AI智能盒子的实现方案，这篇文章着重讲了如何在NVIDIA-英伟达芯片上如何实现目标识别的过程(可能已经被官方屏蔽了)。但是因为中美芯片限制问题，很多朋友联系到我，跟我提了是否可以基于国产芯片来迁移yolov5框架平台？国产芯片
【无标题】东东就是我 opencv 计算机视觉人工智能
1.计算机视觉与图像处理计算机视觉技术涵盖从图像预处理到目标检测的全流程，是工业视觉系统的核心部分。知识点扩展OpenCV基础cv2.imread()、cv2.imshow()、cv2.imwrite()进行基本图像读取、显示、保存cv2.cvtColor()进行颜色空间转换（RGB↔GRAY，RGB↔HSV）cv2.resize()进行图像缩放cv2.flip()进行图像翻转（水平/垂直）imp
yolov5代码详解--1.python代码脚本三炭先生 yolo算法 YOLO python 算法
一、detect.py作为YOLOv5模型推理的核心执行文件，detect.py实现了从数据加载到结果输出的完整目标检测流水线。本文只讲代码中最主要的opt内函数的含义，这是detect最核心的东西，至于其他的代码注释我会放在下面，有什么不懂可以评论区提问。下面对每个命令行参数进行详细介绍，说明它们在检测推理过程中的含义和作用：--weights指定模型权重文件的路径（或多个路径），也可以是远程T
用OpenCV写个视频播放器可还行？（C++版）程序员Linc OpenCV opencv 音视频 c++opencv 4.11
引言提到OpenCV，大家首先想到的可能是图像处理、目标检测，但你是否想过——用OpenCV实现一个带进度条、倍速播放、暂停功能的视频播放器？本文将通过一个实战项目，带你深入掌握OpenCV的视频处理能力，并解锁以下功能：基础播放/暂停动态倍速调节（0.5x~4x）交互式进度条实时时间戳显示文末提供完整代码，可直接运行！一、环境准备安装OpenCV请参考其他博客，C++版本的OpenCV安装，每个
多宠识别：基于计算机视觉的智能宠物管理系统架构解析深圳市快瞳科技有限公司计算机视觉宠物系统架构
一、行业痛点与技术方案演进在多宠家庭场景中，传统方案面临三大技术瓶颈：1.生物特征混淆：同品种/毛色宠物识别准确率低于65%2.动态场景适应：进食/奔跑状态下的误检率达30%+3.数据孤岛问题：离线设备无法实现持续学习优化快瞳科技采用**双模态视觉融合架构**，结合轻量化YOLOv7-Tiny模型与CLIP多模态大模型，实现：-98.7%的跨品种宠物识别准确率（CVPR2024最新测试数据）-单次
YOLOv7-Tiny：轻量化实时目标检测的革新实践追寻向上 YOLO 目标检测人工智能
一、模型定位与核心优势YOLOv7-Tiny作为YOLOv7系列的轻量级版本，专为边缘计算设备和实时检测场景设计。相比标准YOLOv7，其参数量减少约60%（仅6.02M），计算量降至13.2GFLOPs，在保持较高检测精度的同时，推理速度提升至68FPS（NVIDIAV100）。该模型适用于无人机、嵌入式设备、移动端等资源受限场景，在实时性与精度之间实现了极佳平衡。二、模型架构创新主干网络优化深
PiscTrace以YOLOv12为例定义兴趣区域提高识视图别效率那雨倾城 PiscTrace OpenCV应用人工智能 YOLO 计算机视觉视觉检测 python opencv
在PiscTrace中，裁剪功能允许开发者将图像分割为感兴趣区域（ROI），然后针对此区域进行特定的处理，最终将结果重新合成。这种方法不仅可以大幅提高计算效率，还能够在处理高分辨率图像时避免由于输入尺寸过大导致的小目标无法被识别的问题。2160*38401.裁剪与贴合的运算流程在传统的机器视觉模型中，由于输入尺寸的固定要求，一旦图像尺寸较大，缩放后的目标往往会变得模糊，导致小目标难以被精确识别。而
了解目标检测：两阶段检测（Two-Stage Detection）、单阶段检测（Single-Stage Detection）和区域建议网络（RPN） fydw_715 深度学习基础目标检测网络目标跟踪
了解目标检测：两阶段检测（Two-StageDetection）、单阶段检测（Single-StageDetection）和区域建议网络（RPN）在目标检测领域，模型架构在很大程度上决定了模型的性能、速度和应用场景。本文将详细探讨两类主要的目标检测方法——两阶段检测（Two-StageDetection）和单阶段检测（Single-StageDetection），以及它们的核心组件之一：区域建议网
Ardupilot开源无人机之Geek SDK进展2025Q1 lida2003 ArduPilot Linux 开源无人机穿越机
Ardupilot开源无人机之GeekSDK进展2025Q11.源由2.内容汇总2.1【jetson-fpv】YOLOINT8+coco8dataset精度降级2.2【OpenIPC-Configurator】OpenIPCConfigurator固件升级失败2.3【OpenIPC-Adaptive-link】OpenIPCRF信号质量相关显示2.4【OpenIPC-msposd】.srt/.os
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
基于Flask和VUE的YOLOv5目标检测模型部署薄泳蕙Howard
基于Flask和VUE的YOLOv5目标检测模型部署基于Flask和VUE的YOLOv5目标检测模型部署本资源文件提供了一个基于Flask开发后端、VUE开发前端框架的完整项目，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcode.com/open-source-toolkit/20e
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测咎尉裕Lilah
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测【下载地址】Yolov5-Flask-VUE基于Flask和VUE的YOLOv5目标检测模型部署本项目提供了一个基于Flask开发后端、VUE开发前端的框架，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcod
Jetson系列: tensorrt-python推理yolov5（一） weixin_55083979 jetson系列 YOLO pytorch 深度学习
目录一.onnx模型导出二.TensorRT模型本地序列化三.算法整体Pipline架构四.算法整体Pipline实现一.onnx模型导出在使用tensorrt进行加速之前需要将自己的torch模型转为onnx格式的，这个操作很基础就不赘述了，自己根据自己的任务、部署设备选择合适的batch/infersize/opsetyolov5官方导出onnx脚本Example:```pythonfromp
深度学习篇---Opencv中的机器学习和深度学习 Ronin-Lotus 深度学习篇图像处理篇深度学习 opencv 机器学习 python
文章目录前言一、OpenCV中的机器学习1.概述2.使用步骤步骤1：准备数据步骤2：创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割（如DeepLab）人脸检测（如OpenFace）2.使用步骤步骤1：加载模型步骤2：准备输入数据步骤3：推
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
YOLOv12改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA，轻量化注意力模块提高模型效率（二次改进A2C2f） Limiiiing YOLOv12改进专栏 YOLOv12 计算机视觉深度学习目标检测
一、本文介绍本文记录的是基于MobileMQA模块的YOLOv12目标检测改进方法研究。MobileNetv4中的MobileMQA模块是用于模型加速，减少内存访问的模块，相比其他全局的自注意力，其不仅加强了模型对全局信息的关注，同时也显著提高了模型效率。文章目录一、本文介绍二、MobileMQA注意力原理三、MobileMQA的实现代码四、创新模块4.1改进点⭐五、添加步骤5.1修改一5.2修改
《基于yolov5s的水稻病虫害图像识别应用》开题报告大数据蟒行探索者毕业论文/研究报告 YOLO 软件工程自动化运维软件构建性能优化
1.研究的目的和意义一、研究目的农作物病虫害是全球农业生产中的主要威胁之一，每年因病虫害造成的作物减产和经济损失相当巨大。随着世界人口的增长，对粮食的需求不断增加，如何提高农作物产量、减少病虫害损失，成为农业生产中需要解决的核心问题。传统的病虫害识别方法主要依赖于农民的经验或农业专家的现场诊断，这种方式不仅耗费大量时间和人力，而且易受人为因素影响，准确率不高，且不具备可持续性，特别是在大规模农业生
目标检测YOLO实战应用案例100讲-TDI线阵相机林聪木数码相机计算机视觉人工智能
目录知识储备图像基础知识分辨率单位及换算算法原理一、TDI基本原理二、信噪比提升机制三、时间同步机制四、TDIvs传统线扫描技术五、TDI的技术挑战六、最新的TDI技术发展知识储备图像基础知识首先什么是机器视觉？计算机视觉就是让计算机去理解获取数字图像与视频中的信息。最终实现一个与人类视觉系统实现相同功能的自动化系统。什么是机器视觉中的图像的前置知识——颜色模型？最为常用的颜色模型，分别是RGB颜
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

【yolov5】detect.py

执行方法:

代码

你可能感兴趣的:(目标检测,YOLO)