Major_s

图像目标检测

1.图像目标检测是什么
2.模型是如何完成目标检测的
3.深度学习目标检测模型简介
4.Pytorch中Faster RCNN训练

1.图像目标检测是什么

目标检测：判断图像中目标的位置
目标检测两要素：
1.分类：分类向量[p0,p1,…,pn]
2.回归：回归边界框[x1,y1,x2,y2]

2.模型是如何完成目标检测的
将3D张量映射到两个张量
1.分类张量：shape为[N,c+1]
2.边界框张量：shape为[N,4]

推荐阅读：
《Recent Advances in Deep Learning for Object Detection》–2019

边界框数量N如何确定？
传统方法—滑动窗策略
很简单很原始的方法，遍历图中所有位置，进行判定，如果判定的概率大于阈值，就显示
为了克服物体大小变换的缺点，采用了多尺度的滑动窗口

缺点：
1.重复计算量大
2.窗口大小难确定

利用卷积减少重复计算

利用卷积解决滑动窗策略

重要概念：
特征图一个像素对应原图的一块区域
最后一层输出是分类层

目标检测模型简介：（以2014年的RCNN为分界线）
《Object Detection in 20 Years-A Survey》-2019

Faster FCNN 确定了 two-stage的出现，具有里程碑意义

目标检测按流程分为2类：one-stage和two-stage
区别在于是否还有Proposal generation结构

Two-Stage:FasterRCNN:
ROI Layer以后每一个候选框都reshape为3*3,然后将每一候选框的reshape之后的特征图拼接起来

Faster RCNN数据流：

Feature map
2-softmax
Regressors
NMS OUT
ROI Layer
FC1 FC2
c+1 Softmax
Regressors

其实讲讲模型还是比较虚的，核心的还是讲讲代码

补充：进行数据增强时，标签也要跟着变，对于有坐标的标签

One-Stage:YOLO

3.深度学习目标检测模型简介

4.Pytorch中Faster RCNN训练

一般分类的运算过程：（可与检测做比较）

复杂运算 outputs=resnet18(img_tensor)
取输出向量最大值的标号 _,predicted=torch.max(outputs.data,1)
类别名与标签的转换 label_name={“ants”:0,“bees”:1}

将3D张量映射到两个张量
1.分类张量：shape为[N,c+1]
2.边界框张量：shape为[N,4]

import os
import time
import torch.nn as nn
import torch
import numpy as np
import torchvision.transforms as transforms
import torchvision
from PIL import Image
from matplotlib import pyplot as plt

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


# classes_coco
COCO_INSTANCE_CATEGORY_NAMES = [
    '__background__', 'person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus',
    'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'N/A', 'stop sign',
    'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow',
    'elephant', 'bear', 'zebra', 'giraffe', 'N/A', 'backpack', 'umbrella', 'N/A', 'N/A',
    'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball',
    'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard', 'tennis racket',
    'bottle', 'N/A', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl',
    'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza',
    'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed', 'N/A', 'dining table',
    'N/A', 'N/A', 'toilet', 'N/A', 'tv', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone',
    'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'N/A', 'book',
    'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush'
]


if __name__ == "__main__":

    # path_img = os.path.join(BASE_DIR, "demo_img1.png")
    path_img = os.path.join(BASE_DIR, "demo_img2.png")

    # config
    preprocess = transforms.Compose([
        transforms.ToTensor(),
    ])

    # 1. load data & model
    input_image = Image.open(path_img).convert("RGB")
    model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)
    model.eval()

    # 2. preprocess
    img_chw = preprocess(input_image)

    # 3. to device
    if torch.cuda.is_available():
        img_chw = img_chw.to('cuda')
        model.to('cuda')

    # 4. forward
    input_list = [img_chw]
    with torch.no_grad():
        tic = time.time()
        print("input img tensor shape:{}".format(input_list[0].shape))
        output_list = model(input_list)
        output_dict = output_list[0]
        print("pass: {:.3f}s".format(time.time() - tic))
        for k, v in output_dict.items():
            print("key:{}, value:{}".format(k, v))

    # 5. visualization
    out_boxes = output_dict["boxes"].cpu()
    out_scores = output_dict["scores"].cpu()
    out_labels = output_dict["labels"].cpu()

    fig, ax = plt.subplots(figsize=(12, 12))
    ax.imshow(input_image, aspect='equal')

    num_boxes = out_boxes.shape[0]
    max_vis = 40
    thres = 0.5 # 阈值
 
    for idx in range(0, min(num_boxes, max_vis)):

        score = out_scores[idx].numpy()
        bbox = out_boxes[idx].numpy()
        class_name = COCO_INSTANCE_CATEGORY_NAMES[out_labels[idx]]

        if score < thres:
            continue

        ax.add_patch(plt.Rectangle((bbox[0], bbox[1]), bbox[2] - bbox[0], bbox[3] - bbox[1], fill=False,
                                   edgecolor='red', linewidth=3.5))
        ax.text(bbox[0], bbox[1] - 2, '{:s} {:.3f}'.format(class_name, score), bbox=dict(facecolor='blue', alpha=0.5),
                fontsize=14, color='white')
    plt.show()
    plt.close()



    # appendix
    classes_pascal_voc = ['__background__',
                       'aeroplane', 'bicycle', 'bird', 'boat',
                       'bottle', 'bus', 'car', 'cat', 'chair',
                       'cow', 'diningtable', 'dog', 'horse',
                       'motorbike', 'person', 'pottedplant',
                       'sheep', 'sofa', 'train', 'tvmonitor']

    # classes_coco
    COCO_INSTANCE_CATEGORY_NAMES = [
        '__background__', 'person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus',
        'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'N/A', 'stop sign',
        'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow',
        'elephant', 'bear', 'zebra', 'giraffe', 'N/A', 'backpack', 'umbrella', 'N/A', 'N/A',
        'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball',
        'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard', 'tennis racket',
        'bottle', 'N/A', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl',
        'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza',
        'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed', 'N/A', 'dining table',
        'N/A', 'N/A', 'toilet', 'N/A', 'tv', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone',
        'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'N/A', 'book',
        'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush'
    ]


输入：
input img tensor shape:torch.Size([3, 624, 1270])
pass: 13.840s

输出：
一是：坐标
key:boxes, value:tensor([[2.1388e+01, 4.0842e+02, 5.6309e+01, 5.3991e+02],
        [2.7492e+02, 4.1662e+02, 3.1850e+02, 5.2794e+02],
        [3.3163e+02, 5.0661e+02, 3.8220e+02, 6.2109e+02],
        [1.0627e+03, 5.6293e+02, 1.1683e+03, 6.2370e+02],
        [8.8008e+02, 5.0105e+02, 9.3214e+02, 6.2330e+02],
        [2.9637e+02, 5.2668e+02, 3.4388e+02, 6.2200e+02],
        [1.5381e+02, 3.9281e+02, 1.9044e+02, 4.7901e+02],
        [5.2482e+02, 5.5501e+02, 5.9420e+02, 6.2310e+02],
        [4.3968e+02, 4.7417e+02, 4.9715e+02, 6.1564e+02],
        [9.6593e+02, 4.4682e+02, 1.0049e+03, 5.7216e+02],
        [1.0311e+03, 4.7705e+02, 1.0740e+03, 6.1917e+02],
        [7.1512e+02, 5.5515e+02, 7.6445e+02, 6.2252e+02],
        [5.9517e+02, 5.6860e+02, 6.5844e+02, 6.2400e+02],
        [1.9183e+02, 3.9135e+02, 2.1817e+02, 4.5500e+02],
        [9.2349e+02, 4.2543e+02, 9.6887e+02, 5.4163e+02],
        [8.4533e+02, 4.2685e+02, 8.8472e+02, 5.3358e+02],
        [5.7697e-01, 3.6250e+02, 1.9273e+01, 4.2032e+02],
        [7.8785e+02, 4.5489e+02, 8.3018e+02, 5.5748e+02],
        [5.9754e+02, 4.3986e+02, 6.4339e+02, 5.7236e+02],
        [7.5374e+02, 5.4186e+02, 8.4093e+02, 6.2392e+02],
        [6.8067e+02, 5.3767e+02, 7.2788e+02, 6.2329e+02],
        [1.0173e+03, 5.0085e+02, 1.0504e+03, 5.4632e+02],
        [8.1195e+02, 4.2308e+02, 8.4457e+02, 5.3206e+02],
        [1.1842e+03, 5.6938e+02, 1.2687e+03, 6.2373e+02],
        [7.5443e+02, 3.9087e+02, 7.9018e+02, 4.9879e+02],
        [5.3105e+02, 3.9078e+02, 5.6281e+02, 4.8724e+02],
        [8.9093e+02, 4.1321e+02, 9.2183e+02, 5.0890e+02],
        [9.0156e+02, 4.5113e+02, 9.1980e+02, 4.7044e+02],
        [4.9166e+02, 4.8392e+02, 5.1212e+02, 5.2901e+02],
        [7.1177e+02, 4.7322e+02, 7.4841e+02, 5.6356e+02],
        [1.1422e+03, 4.1848e+02, 1.1851e+03, 5.2724e+02],
        [1.1043e+03, 4.1396e+02, 1.1432e+03, 5.1554e+02],
        [1.5299e+02, 4.0617e+02, 1.7880e+02, 4.3980e+02],
        [9.6673e+02, 4.7046e+02, 9.9373e+02, 5.1017e+02],
        [4.8157e+02, 5.2469e+02, 4.9799e+02, 5.6309e+02],
        [3.3969e+02, 3.4014e+02, 3.6644e+02, 4.0998e+02],
        [1.1228e+01, 3.0504e+02, 2.5386e+01, 3.4646e+02],
        [5.6783e+02, 4.4703e+02, 6.0337e+02, 5.6745e+02],
        [1.0672e+03, 4.0854e+02, 1.1082e+03, 5.1371e+02],
        [7.0498e+02, 4.0970e+02, 7.3973e+02, 4.9432e+02],
        [2.5139e+02, 3.2950e+02, 2.7345e+02, 3.9105e+02],
        [1.1737e+03, 4.1148e+02, 1.2080e+03, 5.2497e+02],
        [1.6692e+02, 2.8142e+02, 1.8108e+02, 3.1289e+02],
        [3.0409e+02, 4.6405e+02, 3.1880e+02, 5.0083e+02],
        [3.6005e+02, 3.9337e+02, 3.8882e+02, 4.8300e+02],
        [1.3484e+02, 3.2502e+02, 1.5079e+02, 3.6977e+02],
        [1.0540e+03, 5.0612e+02, 1.0702e+03, 5.3384e+02],
        [1.0107e+03, 4.4346e+02, 1.0457e+03, 5.4820e+02],
        [9.8965e+02, 3.7219e+02, 1.0162e+03, 4.4769e+02],
        [8.3097e+02, 3.9531e+02, 8.5813e+02, 4.6470e+02],
        [4.6970e+02, 4.5238e+02, 5.0836e+02, 5.7045e+02],
        [1.5863e+02, 3.3730e+02, 1.7745e+02, 3.7866e+02],
        [1.5346e+02, 4.0810e+02, 1.7282e+02, 4.4108e+02],
        [5.5801e+02, 3.8345e+02, 5.8827e+02, 4.8299e+02],
        [9.6700e+02, 4.7294e+02, 9.9018e+02, 5.0854e+02],
        [3.8862e+02, 3.7365e+02, 4.2910e+02, 5.0485e+02],
        [4.9743e+02, 3.8817e+02, 5.2440e+02, 4.8490e+02],
        [6.0864e+01, 2.8248e+02, 7.6250e+01, 3.1515e+02],
        [6.8809e+02, 4.9485e+02, 7.2735e+02, 5.5286e+02],
        [6.5060e+02, 4.9366e+02, 7.0111e+02, 6.1884e+02],
        [6.6512e+02, 4.5297e+02, 6.8753e+02, 4.8096e+02],
        [2.0731e+02, 3.9242e+02, 2.2674e+02, 4.5651e+02],
        [3.3188e+02, 3.0842e+02, 3.4601e+02, 3.4885e+02],
        [6.0170e+01, 3.0998e+02, 7.7779e+01, 3.4435e+02],
        [1.0159e+03, 4.9616e+02, 1.0568e+03, 5.4726e+02],
        [1.1761e+03, 5.3929e+02, 1.2377e+03, 6.1400e+02],
        [6.3865e+02, 4.2180e+02, 6.7230e+02, 5.2063e+02],
        [4.6562e+02, 3.9251e+02, 4.8681e+02, 4.2763e+02],
        [5.6223e+01, 3.1221e+02, 7.0839e+01, 3.4422e+02],
        [4.3124e+02, 3.2679e+02, 4.6978e+02, 3.9345e+02],
        [2.8342e+02, 3.0273e+02, 2.9939e+02, 3.3403e+02],
        [1.7359e+02, 3.9106e+02, 1.9323e+02, 4.5638e+02],
        [4.7852e+02, 4.7405e+02, 5.1008e+02, 5.2955e+02],
        [6.6626e+02, 4.1746e+02, 7.0461e+02, 4.9124e+02],
        [7.4063e+02, 4.8192e+02, 7.6984e+02, 5.5984e+02],
        [4.1674e+02, 3.6833e+02, 4.4251e+02, 4.5964e+02],
        [7.4635e+02, 3.5432e+02, 7.7786e+02, 4.1237e+02],
        [8.7581e+02, 3.5277e+02, 8.9965e+02, 4.2111e+02],
        [9.6405e+02, 3.4505e+02, 9.8138e+02, 3.9366e+02],
        [5.9925e+02, 3.9358e+02, 6.2953e+02, 4.5713e+02],
        [1.0104e+03, 4.4925e+02, 1.0562e+03, 6.0309e+02],
        [1.9035e+02, 3.3621e+02, 2.1258e+02, 3.8854e+02],
        [4.4140e+02, 5.9187e+02, 4.8636e+02, 6.2350e+02],
        [1.2040e+03, 4.6967e+02, 1.2527e+03, 5.5478e+02],
        [1.8247e+02, 2.8248e+02, 1.9429e+02, 3.0939e+02],
        [3.0101e+02, 3.0192e+02, 3.2035e+02, 3.5139e+02],
        [1.0764e+03, 4.9216e+02, 1.1278e+03, 5.8641e+02],
        [1.0449e+03, 3.4934e+02, 1.0654e+03, 4.0475e+02],
        [5.1159e+02, 3.8448e+02, 5.3611e+02, 4.8216e+02],
        [3.1655e+02, 3.1366e+02, 3.3138e+02, 3.5103e+02],
        [9.4753e+02, 3.4062e+02, 9.6557e+02, 3.9751e+02],
        [5.8450e+02, 3.9833e+02, 6.1503e+02, 4.8090e+02],
        [1.0924e+03, 3.8405e+02, 1.1197e+03, 4.3034e+02],
        [7.4493e+02, 3.8010e+02, 7.5996e+02, 4.0455e+02],
        [5.1159e+02, 3.4380e+02, 5.3484e+02, 3.9000e+02],
        [1.1097e+03, 3.0709e+02, 1.1257e+03, 3.4568e+02],
        [1.0731e+03, 4.9901e+02, 1.1604e+03, 6.1909e+02],
        [6.6789e+02, 3.3650e+02, 6.8846e+02, 3.8195e+02],
        [3.9529e+02, 4.2961e+02, 4.2192e+02, 4.6252e+02],
        [9.1005e+02, 4.1943e+02, 9.3937e+02, 5.1179e+02]])

二是：类别
key:labels, value:tensor([ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
         1,  1,  1, 31,  1,  1,  1,  1,  1, 31, 27,  1,  1,  1, 27, 27, 31,  1,
         1,  1,  1,  1,  1,  1,  1, 31,  1,  1, 31,  1,  1,  1,  1,  1, 31,  1,
        31,  1,  1,  1,  1,  1, 31,  1,  1,  1, 27,  1,  1, 31,  1,  1,  1,  1,
        27,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
         1,  1,  1, 31,  1,  1,  1,  1, 31,  1])
三是：类别置信度
key:scores, value:tensor([0.9861, 0.9850, 0.9780, 0.9778, 0.9771, 0.9736, 0.9489, 0.9457, 0.9451,
        0.9073, 0.8725, 0.8721, 0.8539, 0.8525, 0.8394, 0.8079, 0.7984, 0.7772,
        0.7599, 0.7479, 0.7290, 0.7090, 0.6798, 0.6636, 0.6636, 0.6547, 0.6513,
        0.6507, 0.6486, 0.6380, 0.6087, 0.6002, 0.5873, 0.5867, 0.5682, 0.5653,
        0.5568, 0.5564, 0.5498, 0.5368, 0.5271, 0.5193, 0.5159, 0.4953, 0.4537,
        0.4505, 0.4494, 0.4458, 0.4408, 0.4390, 0.4288, 0.4184, 0.4058, 0.3984,
        0.3913, 0.3878, 0.3873, 0.3766, 0.3633, 0.3479, 0.3471, 0.3450, 0.3420,
        0.3408, 0.3378, 0.3357, 0.3273, 0.3202, 0.3140, 0.3099, 0.2969, 0.2955,
        0.2953, 0.2906, 0.2810, 0.2803, 0.2800, 0.2782, 0.2759, 0.2721, 0.2699,
        0.2681, 0.2658, 0.2644, 0.2599, 0.2527, 0.2498, 0.2456, 0.2371, 0.2361,
        0.2312, 0.2309, 0.2293, 0.2239, 0.2210, 0.2201, 0.2136, 0.2110, 0.2064,
        0.1998])

OpenCV 笔记(25)：图像的仿射变换 Java与Android技术栈 opencv 笔记人工智能计算机视觉
1.几何变换图像的几何变换是指将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置，其实质是改变像素的空间位置，估算新空间位置上的像素值。几何变换不改变图像的像素值，只是在图像平面上进行像素的重新安排。以下是常用的几种几何变换：旋转：将图像旋转指定角度。缩放：按缩放因子调整图像大小，使其变大或变小。平移：将图像从当前位置移动到新位置。错切：沿特定轴倾斜图像。仿射变换：一个更广泛的类别，包括单个变换
Kotlin Bytedeco OpenCV 图像图像49 仿射变换图像裁剪深色風信子 kotlin opencv 仿射变换图像裁剪 bytedeco javacpp
KotlinBytedecoOpenCV图像图像49仿射变换图像裁剪1添加依赖2测试代码3测试结果在OpenCV中，仿射变换（AffineTransformation）和透视变换（PerspectiveTransformation）是两种常用的图像几何变换方法。变换方法适用场景仿射变换简单的几何变换（平移、旋转、缩放、剪切）。透视变换改变图像视角和模拟3D投影效果。变换方法解释特点应用场景实现方法
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
利用MediaWikiDump解析和处理Wiki数据 srudfktuffk python
MediaWikiXMLDumps包含了Wiki页面及其所有修订的内容，但不包括与站点相关的数据，比如用户帐户、图像和编辑日志。因此，虽然它们没有创建Wiki数据库的完整备份，却在处理Wiki内容时具有独特的价值。技术背景介绍MediaWiki是许多Wiki（例如Wikipedia）后台的开源软件。使用MediaWikiXMLDumps，你可以获得Wiki页面的详细修订历史记录。这在数据分析和内容
3D Gaussian Splatting 部署学术菜鸟小晨最新人工智能技术三维重建
简介：3DGaussianSplatting是一种用一组2d图像创建3d场景的方法，你只需要一个场景的视频或者一组照片就可以获得这个场景的高质量3d表示，使你可以从任何角度渲染它。它们是一类辐射场方法（如NeRF），但同时训练速度更快（同等质量）、渲染速度更快，并达到更好或相似的质量。3DGaussianSplatting可以实现无界且完整的场景1080p分辨率下进行高质量实时（≥100fps）视
OpenCV相机标定与3D重建(64)用于迭代地优化图像点的位置函数undistortImagePoints()的使用 jndingxin OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述计算无畸变图像点的位置。cv::undistortImagePoints这个函数用于迭代地优化图像点的位置，以补偿镜头畸变，并且允许指定终止条件来控制迭代过程。函数原型voidcv::undistortImagePoints(InputArraysrc,Outpu
OpenCV相机标定与3D重建(65)对图像点进行去畸变处理函数undistortPoints()的使用 jndingxin OpenCV opencv
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述从观测到的点坐标计算理想点坐标。该函数类似于undistort和initUndistortRectifyMap，但它操作的是稀疏点集而不是光栅图像。此外，该函数执行与projectPoints相反的变换。对于3D对象，它不会重建其3D坐标；但对于平面对象，如果指定
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
OpenCV相机标定与3D重建(2)鱼眼相机模型 jndingxin OpenCV 数码相机 opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述鱼眼相机是一种具有非常宽视野的相机，通常会产生强烈的径向畸变。鱼眼相机模型旨在捕捉这种畸变，以便能够准确地处理和校正图像。鱼眼相机模型通常使用多项式函数来描述径向畸变。定义：设P是世界参考系中的一个3D点，其坐标为X(存储在矩阵X中）。点P在相机参考系中的坐标向量
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
html 大概的知识点 clock的时钟前端 html 前端
html01-标签的用法文字内容换行水平线02-html基本骨架 Document 03-标签的关系嵌套，并列04-注释添加或者删除都是ctrl+/05-标题标签标题标签一共6个级别06-换行和水平线标签强制换行的标签是什么？水平线标签是有了这个，会出现一条水平线09-格式化标签文本格式化标签加粗加粗倾斜倾斜下划线下划线删除线删除线10-图像化标签//alt表示替换文
OpenCV相机标定与3D重建(63)校正图像的畸变函数undistort()的使用 jndingxin OpenCV opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述转换图像以补偿镜头畸变。该函数通过变换图像来补偿径向和切向镜头畸变。此函数仅仅是initUndistortRectifyMap（使用单位矩阵R）和remap（使用双线性插值）的组合。有关执行的具体变换详情，请参阅前者函数。对于在源图像中没有对应像素的目的图像中的像
ApexCharts 图表入门例子后端java
常见的图形库系列常见的图形库概览-00-overview常见的图形库概览-01-Chart.js入门例子常见的图形库概览-03-D3.js入门例子HighCharts交互式图表-01-入门介绍Plotly函数图像绘制ApexCharts图表入门例子Victory图表基于React，适合React项目，支持移动端Recharts入门例子AntVG2入门例子图表库C3.js入门例子图表库GoogleC
YOLOv11目标检测模型部署到微信小程序上小阿技术 YOLO 目标跟踪人工智能微信小程序目标检测计算机视觉 python
1.效果YOLOv11目标检测模型部署到微信小程序上2.后端主要代码importosimporttimeimportnumpyasnpimporttorchfromflaskimportFlask,request,send_fileimportcv2fromultralyticsimportYOLO#导入YOLOv11模型，需要提前安装ultralytics库#初始化Flask应用app=Flas
一文大白话讲清楚webpack基本使用——8——开发环境和生产环境的配置和区别 16年上任的CTO webpack webpack 前端 node.js webpack开发环境 webpack生产环境
一文大白话讲清楚webpack基本使用——8——开发环境和生产环境的配置和区别1.建议按文章顺序从头看，一看到底，豁然开朗第一篇：一文大白话讲清楚啥是个webpack第二篇：一文大白话讲清楚webpack基本使用——1——完成webpack的初步构建第三篇一文大白话讲清楚webpack基本使用——2——css相关loader的配置和使用第四篇一文大白话讲清楚webpack基本使用——3——图像相关
基于多模态信息抽取的菜品知识图谱构建思维导图-java架构用心去追梦 java 架构开发语言
构建一个基于多模态信息抽取的菜品知识图谱，特别是在Java架构下的实现，可以按照以下结构来组织思维导图的内容。这个思维导图将帮助理解从数据获取、处理到知识图谱构建的关键步骤，并且涵盖技术选型和系统设计。思维导图结构1.项目背景知识图谱的意义提升搜索体验推荐系统优化菜品知识图谱的目标食材关联菜系分类健康饮食建议2.多模态数据收集文本数据源美食博客和论坛配方网站图像数据源社交媒体图片餐厅菜单照片视频数
MATLAB符号函数绘制各种函数图像，ezplot()函数 ezplot3()函数 Python数据分析与机器学习可视化函数图像 matlab画图 matlab 开发语言信息可视化
我们学习常遇见的函数种类有显函数，隐函数，参数方程三种，对于隐函数绘制图像比较麻烦，给大家介绍一种简单实用的一中画函数的方法。函数介绍二维曲线ezplot()函数ezplot()函数用于绘制显函数，隐函数，参数方程二维图像，函数格式ezplot(f）直接绘制图像ezplot(f,[min,max])指定函数x的值域范围三维曲线ezplot3()函数ezplot3()函数用于绘制显函数，隐函数，参数
gradio库的基本使用 Echo..... python python
Gradio（通过pipinstallgradio安装）是一个用于创建交互式界面的Python库。它允许你基于预训练模型、函数或任意代码块创建实时演示和部署模型的图形用户界面（GUI）。使用Gradio库，你可以轻松创建Web界面，用于输入数据、调用模型、显示结果，并为用户提供与模型交互的功能。它支持多种输入类型（如文本框、图片上传、滑块等）和输出展示方式（如图像展示、文本展示等）。你可以根据需要
利用jieba库和wordcloud库绘制词云图像 baichui python学习 python
目录jieba库的使用利用jieba库获取红楼梦中人物名字的出现频次wordcloud库的使用根据红楼梦中人物出现频次，制作词云图jieba库的使用jieba库是优秀的中文分词工具，能对文本进行分词处理常用函数:lcut与cutlcut函数接受一个中文文本字符串，对该文本进行分词处理，返回一个分词列表（推荐使用）而jieba.cut生成的是一个生成器，generator,可以通过for循环来取里面
学习记录：OpenMV 摄像头的一个简单示例，主要实现了对摄像头的基本设置和图像采集，并计算和显示采集图像的帧率。 DIY机器人工房 openmv学习笔记学习 opencv python
代码解释：整体功能：此代码是使用OpenMV摄像头的一个简单示例，主要实现了对摄像头的基本设置和图像采集，并计算和显示采集图像的帧率。首先，对摄像头进行初始化，包括重置、设置像素格式和帧大小，并等待设置生效。然后创建一个时间对象用于计算帧率。最后在一个无限循环中不断采集图像并打印出每秒采集的帧数。#此作品遵循MIT许可证授权。#版权所有(c)2013-2023OpenMVLLC。保留所有权利。#h
c#视觉应用开发中如何在C#中进行图像颜色空间转换？ openwin_top C#视觉应用开发问题系列 c#开发语言计算机视觉视觉检测 .net
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在C#中进行图像颜色空间转换，通常涉及将图像从一种颜色空间转换到另一种颜色空间，例如从RGB转换到灰度、HSV或YUV等。为了实现这些转换，您可以使用多种库和技术，包括.NET自带的System.D
QT开发技术【显示raw图像】增援未来章北海 C++QT开发技术 qt 开发语言
一、思路读取raw文件，利用QImage显示*RAW文件**是数码相机或其他摄影设备中生成的未处理的图像数据文件，通常包含更多细节和信息，提供了更大的后期编辑空间。与标准的JPEG或PNG格式不同，RAW文件并不直接显示为图像，而是保留了相机传感器的原始数据，允许用户对图像进行更精细的处理和优化。需要固定像素二、代码演示intnPixelWidth=ui->spinBox_PixelWidth->
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
Python自动化运维：一键掌控服务器的高效之道蒙娜丽宁 Python杂谈运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在互联网和云计算高速发展的今天，服务器数量的指数增长使得手动运维和管理变得异常繁琐。Python凭借其强大的可读性和丰富的生态系统，成为实现自动化运维的理想语言。本文以“Python自动化运维：编写自动化脚本进行服务器管理”为主题，深入探讨了如何利用Py
opencv c++ 调用 cornerHarris函数一直报错OpenCV(4.5.5) Error: Assertion failed (src.type() == CV_8UC1 || src. Wsyoneself cv opencv
报错：OpenCV(4.5.5)Error:Assertionfailed(src.type()==CV_8UC1||src.type()==CV_32FC1)in。。。原因：该函数的源矩阵（第一个参数）必须是单通道图像解决：三通道转为单通道之后再调用cvtColor(src,sc_img,COLOR_RGB2GRAY);//将三通道转为单通道cornerHarris(sc_img,dst,2,3
基于C++和ONNX Runtime的YOLOv5目标检测实战浪浪山小白兔 c++YOLO 目标检测
1.前言在计算机视觉领域，目标检测是一项关键任务，其应用广泛，涵盖了安防监控、自动驾驶、工业检测等众多领域。YOLOv5作为一种先进的目标检测算法，以其速度快、精度高的特点备受关注。本文将详细介绍如何使用C++结合ONNXRuntime推理引擎来部署YOLOv5模型，实现高效的目标检测。2.ONNX与YOLOv52.1ONNX简介ONNX（OpenNeuralNetworkExchange）是一种
conv2former模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习人工智能 python 神经网络 conda
模型背景在Conv2Former模型提出之前，视觉识别领域的研究主要集中在两个方向：传统卷积神经网络（ConvNets）新兴的视觉Transformer（ViTs）ConvNets通过堆叠基本模块和采用金字塔结构取得了显著进展，但往往忽略了全局上下文信息的显式建模。ViTs则通过自注意力机制有效捕捉全局依赖关系，在多个视觉任务中展现出优异性能。然而，ViTs在处理高分辨率图像时面临计算成本过高的问
昇腾910-PyTorch 实现 GoogleNet图像分类深度学习图像识别
PyTorch实现GoogleNet用于图像分类本实验主要介绍了如何在昇腾上，使用pytorch对经典的GoogleNet模型在公开的CIFAR10数据集进行分类训练的实战讲解。内容包括GoogleNet模型创新点介绍、GoogleNet网络架构剖析与GoogleNet网络模型代码实战分析等等。本实验的目录结构安排如下所示：GoogleNet网络模型创新点介绍GoogleNet的网络架构剖析Goo
应用跳转歌曲播放页转场卡顿性能优化工具使用案例
场景导入目标规则使用性能检测工具检测性能问题使用性能分析工具进一步分析性能问题根因优化方案及优化收益场景导入某应用首页点击最下方播放圆盘跳转到歌曲播放页用肉眼观测有明显的抖动卡顿。如果不通过性能工具集进行分析，开发者需要：1、复现问题；2、抓取trace；3、分析trace找出丢帧问题点。操作步骤多，耗时较长。本场景通过采用静态检查工具进行问题发现、定位及修改。目标规则CodeLinter目标检测
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

图像目标检测

图像目标检测

你可能感兴趣的:(图像目标检测)