aeeeeeep

使用Opencv+Python的AR小demo

摘要

浅浅了解一下 Python OpenCV，试着给自己的 iphone 8 做一下相机标定

定义

增强现实( AR ) 是一种真实世界环境的交互式体验，其中存在于现实世界中的对象通过计算机生成的感知信息得到增强，有时跨越多种感官模式，包括视觉、听觉、触觉、体感和嗅觉。AR 可以定义为一个包含三个基本特征的系统：真实和虚拟世界的结合、实时交互以及虚拟和真实对象的准确 3D 配准。重叠的感觉信息可以是建设性的（即对自然环境的补充）或破坏性的（即对自然环境的掩蔽）。这种体验与物理世界无缝交织，因此被视为真实环境的沉浸式体验。[4]通过这种方式，增强现实改变了人们对现实世界环境的持续感知，而虚拟现实完全用模拟环境取代了用户的现实世界环境。增强现实与两个主要同义词相关：混合现实和计算机介导的现实。

——以上内容来自Wiki百科

类别

Vision based AR（基于计算机视觉的AR）

Marker-Based AR （基于标定的AR）

如：

Marker-Less AR（基于特征点的AR)

如：

LBS based AR（基于地理位置信息的AR）

如：

本文将具体讲解和实验基于特征点的AR技术

Demo 演示

1. 演示环境

iphone 8 手机：App Store 下载 Focus [+] # 手动对焦拍摄
计算机：vim，python和 conda
OpenCV 棋盘标定纸

2. 准备图片

参考图片
用例图片

3. 相机标定原理

从世界坐标系转换到图像坐标系，求投影矩阵 $P$ 的过程

分为两步

3.1 从世界坐标系转换为相机坐标系

这一步是三维点到三维点的转换，包括 $R, t$ （相机外参）等参数

$\widetilde{X}_{c a m}=R(\widetilde{X}-\widetilde{C})$

$\widetilde{X}$ 为 $X$ 在世界坐标中的位置
$R$ 为旋转矩阵
$\widetilde{C}$ 为相机原点 $C$ 所在世界坐标中的位置
$\widetilde{X}_{c a m}$ 为 $ X $ 在相机坐标系中的位置

3.2 从相机坐标系转换为图像坐标系

这一步是三维点到二维点的转换，包括 $K$ （相机内参）等参数

$C$ 为相机的中心点，也是相机坐标系的中心点
$Z$ 为相机的主轴
$p$ 为相机的像平面，也就是图片坐标系所在的二维平面
$C$ 点到 $p$ 点的距离 $f$ ，为相机的焦距

可得到
$\begin{aligned} x &=f X / Z \\ y &=f Y / Z \\ (X, \quad Y, \quad Z) & \mapsto(f X / Z, \quad f Y / Z) \end{aligned}$

由图可知偏移量

$\quad Y, \quad Z) \mapsto\left(f X / Z+p_{x}, \quad f Y / Z+p_{y}\right)$
矩阵形式为
$\left(\begin{array}{c} X \\ Y \\ Z \\ 1 \end{array}\right) \mapsto\left(\begin{array}{c} f X+Z p_{x} \\ f Y+Z p_{y} \\ Z \end{array}\right)=\left[\begin{array}{ccc} f & p_{x} & 0 \\ & f & p_{y} & 0 \\ & & 1 & 0 \end{array}\right]\left(\begin{array}{c} X \\ Y \\ Z \\ 1 \end{array}\right)$

化简得
$\left(\begin{array}{c} f X+Z p_{x} \\ f Y+Z p_{y} \\ Z \end{array}\right)=\left[\begin{array}{cc} f & p_{x} \\ & f & p_{y} \\ & & 1 \end{array}\right]\left[\begin{array}{llll} 1 & & & 0 \\ & 1 & & 0 \\ & & 1 & 0 \end{array}\right]\left(\begin{array}{l} X \\ Y \\ Z \\ 1 \end{array}\right)$

则
$K=\left[\begin{array}{ccc} f & & p_{x} \\ & f & p_{y} \\ & & 1 \end{array}\right]$

设旋转矩阵 $R$ 为单位矩阵 $I$ ，平移矩阵 $t$ 为0

$\begin{aligned} P &=K[R \mid t] \\ &=K[I \mid 0] \end{aligned}$

畸变参数本例未考虑到，不作讨论

4. 获得相机标定矩阵

4.1 手动对焦，固定焦距，拍摄各个方面的标定板

4.2 具体过程

提取角点本例使用的标定板来自 calib 有13 * 9 个角点
提取亚像素角点提高精度
标定

4.3 结果

得到 iphone 8 的相机标定矩阵为 (代码见camera_calibration.py)

     [[1.09358481e+03 0.00000000e+00 5.12119524e+02]
      [0.00000000e+00 1.08983166e+03 6.61345525e+02]
      [0.00000000e+00 0.00000000e+00 1.00000000e+00]]

5. 特征处理

5.1 特征检测

使用ORB法进行特征检测，ORB基于FAST算法，FAST算法的原理如下

任选图像中的一点 $P$ ，以该点为圆形， $r$ 为半径确定一个圆，在圆上均匀取 $m$ 个像素点，设定一个阈值 $t$ ，如果 $m$ 个像素点中，有连续 $N$ 个像素点的大小均大于或小于 $t$ ，则这个点就是角点。但是在进行FAST进行角点检测时，边缘位置的部分易混淆，针对这种情况，ORB算法通过增加图像金字塔和计算角度的方法，用Harris角点检测器把 $N$ 个关键点进行等级排序，使用者可提取前n个自己需要的点。不同的是，ORB在进行特征点匹配时，检测出的角点需要满足尺度不变形和旋转不变性。

尺度不变形

通过对初始图像的按1/2的比例不断下采样(即按1/2的比例不断缩放)，得到一系列图像，形成图像金字塔。对每层图像，进行FAST角点检测

旋转不变形

采用灰度质心法进行计算每个特征点的主方向
$\mathrm{m}_{p q}=\sum_{x, y} x^{p} y^{q} I(x, y)$
其中 $x, y$ 分别表示像素点周围圆上所选取点的横坐标和纵坐标， $I (x, y)$ 表示灰度值大小， $p, q$ 表示指数，角度计算的方法如下
$\theta=\operatorname{atan} 2(\mathrm{m_{01}}, \mathrm{m_{10}})$

5.2 特征描述

ORB法采用BRIEF描述子计算算法实现，BRIEF算法可分为两步

特征点大小的对比

以特征点为中心，取邻域窗口，在窗口上选择两个点p(x)和p(y)，比较两个点像素值的大小
$\tau(p ; x, y):=\left\{\begin{array}{cc} 1 & if\quad p(x)τ(p;x,y):={10ifp(x)<p(y) otherwise $

重复第一步进行像素值大小的比较，形成二进制编码

OBR算法对BRIEF有两种改变，分别为 steer BRIEF 和 rBRIEF

steer BRIEF具备旋转不变形的特征，已知 $ /theta $，将该点周围的点旋转 $ /theta $ 度，得到新的点对
$D_{\theta}=R_{\theta} D$

$R$ 为旋转矩阵
旋转后，在新的位置上比较像素值的大小，得到描述子
rBRIEF算法通过改变描述子的计算方法，进一步减弱同一图像中特征点的描述子的相关性，对每个角点，考虑其 $31 X 31$ 的邻域，使用领域中每个点周围的 $5 X 5$ 的邻域的像素值平均值作为该点的像素值，进而比较点对的大小。上面计算可得到 $(31 - 5 + 1) * (31 - 5 + 1) = 729$ 个子窗口，提取点对的方法有 $729 X 728 = 265356$ 种，通过在这 $265356$ 中方法中选取 $256$ 种取法，形成描述子

结果

5.3 特征匹配

本例使用 Brute-Force Matcher 进行特征匹配，也就是暴力匹配

结果

6. 映射

将参考图像表面的平面的点映射到用例图像的平面上，也就是单应性变换，单应性变换是将一个平面（齐次坐标）中的点映射到另一个平面的二维投影变换
$\left[\begin{array}{l} x^{\prime} \\ y^{\prime} \\ z^{\prime} \end{array}\right]=\left[\begin{array}{lll} h_{1} & h_{2} & h_{3} \\ h_{4} & h_{5} & h_{6} \\ h_{7} & h_{8} & h_{9} \end{array}\right]\left[\begin{array}{l} x \\ y \\ z \end{array}\right]$

从两个图像中传递点集，它将找到该对象的透视变换，至少需要四个正确的点才能找到转换，但两幅图像之间的单应性变换包含不适合的点。会导致匹配时出现错误，影响结果，使用 RANSAC 迭代法验证拟合

结果

7. 3D 绘制

使用 yarolig的OBJFileLoader 加载 3D obj 模型 (代码见 objloader_simple.py)

8. 结果

ar_python_opencv.py

import cv2
import numpy as np
import math
import matplotlib.pyplot as plt
from objloader_simple import *
referenceImage = cv2.imread('/home/pacaep/Tests/OpenCvArDemo/img/referenceImage.png',0)
plt.imshow(referenceImage, cmap = 'gray')
sourceImage = cv2.imread('/home/pacaep/Tests/OpenCvArDemo/img/sourceImage.png',0)
plt.imshow(sourceImage, cmap='gray')

orb = cv2.ORB_create()

referenceImagePts = orb.detect(referenceImage, None)
sourceImagePts = orb.detect(sourceImage, None)

referenceImagePts, referenceImageDsc = orb.compute(referenceImage, referenceImagePts)
sourceImagePts, sourceImageDsc = orb.compute(sourceImage, sourceImagePts)

referenceImageFeatures = cv2.drawKeypoints(referenceImage, referenceImagePts,
                                                                                        referenceImage, color = (0,255,0), flags = 0)
sourceImageFeatures = cv2.drawKeypoints(sourceImage, sourceImagePts,
                                                                                        sourceImage, color = (0,255,0), flags = 0)

plt.figure(figsize=(10,5))
plt.subplot(1,2,1)
plt.axis("off")
plt.imshow(referenceImageFeatures, cmap = 'gray')
plt.title('Reference Image Features')
plt.subplot(1,2,2)
plt.axis("off")
plt.imshow(sourceImageFeatures,cmap='gray')
plt.title('Source Image Features')
plt.tight_layout()
plt.show()

MIN_MATCHES = 30
bf = cv2.BFMatcher(cv2.NORM_HAMMING, crossCheck = True)
referenceImagePts, referenceImageDsc = orb.detectAndCompute(referenceImage, None)
sourceImagePts, sourceImageDsc = orb.detectAndCompute(sourceImage, None)
matches = bf.match(referenceImageDsc, sourceImageDsc)
matches = sorted(matches, key = lambda x: x.distance)

if len(matches) > MIN_MATCHES:
    idxPairs = cv2.drawMatches(referenceImage, referenceImagePts,
                                sourceImage, sourceImagePts, matches[:MIN_MATCHES],0,flags =2)

    plt.figure(figsize=(12,6))
    plt.axis('off')
    plt.imshow(idxPairs, cmap='gray')
    plt.title('Matching between features')
    plt.show()

else:
    print("Not enough matches have been found - %d/%d" %(len(matches), MIN_MATCHES))
    matchesMask = None

if len(matches) > MIN_MATCHES:
    sourcePoints = np.float32([referenceImagePts[m.queryIdx].pt for m in matches]).reshape(-1,1,2)
    destinationPoints = np.float32([sourceImagePts[m.trainIdx].pt for m in matches]).reshape(-1,1,2)
    homography, mask = cv2.findHomography(sourcePoints, destinationPoints, cv2.RANSAC, 5.0)
    matchesMask = mask.ravel().tolist()

    h, w = referenceImage.shape
    corners = np.float32([[0, 0], [0, h - 1], [w - 1, h - 1], [w - 1, 0]]).reshape(-1, 1, 2)
    transformedCorners = cv2.perspectiveTransform(corners, homography)
    
    sourceImageMarker = cv2.polylines(sourceImage, [np.int32(transformedCorners)], True,
                                      255, 5, cv2.LINE_AA)

else:
    print("Not enough matches are found - %d/%d" % (len(matches), MIN_MATCHES))
    matchesMask = None

drawParameters = dict(matchColor=(0, 255, 0), singlePointColor=None,
                      matchesMask=matchesMask, flags=2)
result = cv2.drawMatches(referenceImage, referenceImagePts, sourceImageMarker,
                         sourceImagePts, matches, None, **drawParameters)

plt.figure(figsize=(12, 6))
plt.imshow(result, cmap='gray')
plt.show()

camera_parameters = np.array([[1108.38916, 0,          513.796472],
                              [0,          1111.41724, 661.637500],
                              [0,          0,          1]])

obj = OBJ('/home/pacaep/Tests/OpenCvArDemo/models/fox.obj', swapyz = True)

def projection_matrix(camera_parameters, homography):
    homography = homography * (-1)
    rot_and_transl = np.dot(np.linalg.inv(camera_parameters), homography )
    col_1 = rot_and_transl[:,0]
    col_2 = rot_and_transl[:,1]
    col_3 = rot_and_transl[:,2]

    l = math.sqrt(np.linalg.norm(col_1, 2) * np.linalg.norm(col_2, 2))
    rot_1 = col_1 / l
    rot_2 = col_2 / l
    translation = col_3 / l
    
    c = rot_1 + rot_2
    p = np.cross(rot_1, rot_2)
    d = np.cross(c,p)
    rot_1 = np.dot(c/np.linalg.norm(c,2) + d / np.linalg.norm(d,2), 1/math.sqrt(2))
    rot_2 = np.dot(c/np.linalg.norm(c,2) - d / np.linalg.norm(d,2), 1/math.sqrt(2))
    rot_3 = np.cross(rot_1, rot_2)
    
    projection = np.stack((rot_1, rot_2, rot_3, translation)).T
    return np.dot(camera_parameters, projection)

def render(img, obj, projection, model, color=False):
    vertices = obj.vertices
    scale_matrix = np.eye(3)*6
    h,w = model.shape

    for face in obj.faces:
        face_vertices = face[0]
        points = np.array([vertices[vertex -1] for vertex in face_vertices])
        points = np.dot(points, scale_matrix)
    
        points = np.array([[p[0] + w / 2, p[1] + h/2, p[2]] for p in points])
        dst = cv2.perspectiveTransform(points.reshape(-1,1,3), projection)
        imgpts = np.int32(dst)
        
        cv2.fillConvexPoly(img, imgpts, (80, 217, 81))
    return img

sourcePoints = np.float32([referenceImagePts[m.queryIdx].pt for m in matches]).reshape(-1,1,2)
destinationPoints = np.float32([sourceImagePts[m.trainIdx].pt for m in matches]).reshape(-1,1,2)

homography, _ = cv2.findHomography(sourcePoints,destinationPoints, cv2.RANSAC, 5.0)
matchesMask = mask.ravel().tolist()
h, w = referenceImage.shape
corners = np.float32([[0,0],[0,h-1],[w-1,h-1],[w-1,0]]).reshape(-1,1,2)
transformedCorners = cv2.perspectiveTransform(corners, homography)
frame = cv2.polylines(sourceImage, [np.int32(transformedCorners)], True, 255,3,cv2.LINE_AA)
projection = projection_matrix(camera_parameters, homography)
frame = render(frame, obj, projection, referenceImage, True)

plt.figure(figsize=(6,12))
plt.imshow(frame, cmap='gray')
plt.show()

camera_calibration.py

import cv2
import numpy as np
import glob

criteria = (cv2.TERM_CRITERIA_MAX_ITER | cv2.TERM_CRITERIA_EPS, 30, 0.001)

objp = np.zeros((9 * 13, 3), np.float32)
objp[:, :2] = np.mgrid[0:13, 0:9].T.reshape(-1, 2)

obj_points = []
img_points = []

images = glob.glob("/home/pacaep/Tests/OpenCvArDemo/calibration_img/*.png")
i=0;
for fname in images:
    img = cv2.imread(fname)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    size = gray.shape[::-1]
    ret, corners = cv2.findChessboardCorners(gray, (13, 9), None)

    if ret:
    
        obj_points.append(objp)
    
        corners2 = cv2.cornerSubPix(gray, corners, (5, 5), (-1, -1), criteria)
        if [corners2]:
            img_points.append(corners2)
        else:
            img_points.append(corners)
    
        cv2.drawChessboardCorners(img, (13, 9), corners, ret)
        i+=1;
        cv2.imwrite('conimg'+str(i)+'.png', img)
        cv2.waitKey(1500)

print(len(img_points))
cv2.destroyAllWindows()

ret, mtx, dist, rvecs, tvecs = cv2.calibrateCamera(obj_points, img_points, size, None, None)

print("ret:", ret)
print("mtx:\n", mtx)
print("dist:\n", dist)
print("rvecs:\n", rvecs)
print("tvecs:\n", tvecs )

print("-----------------------------------------------------")

img = cv2.imread(images[2])
h, w = img.shape[:2]
newcameramtx, roi = cv2.getOptimalNewCameraMatrix(mtx,dist,(w,h),1,(w,h))
print (newcameramtx)
print("------------------use undistort-------------------")
dst = cv2.undistort(img,mtx,dist,None,newcameramtx)
x,y,w,h = roi
dst1 = dst[y:y+h,x:x+w]
cv2.imwrite('calibresult.png', dst1)
print ("dst:", dst1.shape)

objloader_simple.py

class OBJ:
    def __init__(self, filename, swapyz=False):
        self.vertices = []
        self.normals = []
        self.texcoords = []
        self.faces = []
        material = None
        for line in open(filename, "r"):
            if line.startswith('#'): continue
            values = line.split()
            if not values: continue
            if values[0] == 'v':
                v = list(map(float, values[1:4]))
                if swapyz:
                    v = v[0], v[2], v[1]
                self.vertices.append(v)
            elif values[0] == 'vn':
                v = list(map(float, values[1:4]))
                if swapyz:
                    v = v[0], v[2], v[1]
                self.normals.append(v)
            elif values[0] == 'vt':
                self.texcoords.append(map(float, values[1:3]))
            elif values[0] == 'f':
                face = []
                texcoords = []
                norms = []
                for v in values[1:]:
                    w = v.split('/')
                    face.append(int(w[0]))
                    if len(w) >= 2 and len(w[1]) > 0:
                        texcoords.append(int(w[1]))
                    else:
                        texcoords.append(0)
                    if len(w) >= 3 and len(w[2]) > 0:
                        norms.append(int(w[2]))
                    else:
                        norms.append(0)
                self.faces.append((face, norms, texcoords))

传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
【雕爷学编程】MicroPython手册之 ESP32-CAM 机器人目标跟踪驴友花雕机器人目标跟踪人工智能嵌入式硬件 python MicroPython ESP32-CAM
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
长尾形分布论文速览三十篇【60-89】木木阳 Long-tailed 人工智能
长尾形分布速览（60-89）这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。1.长尾持续学习与对抗学习长尾持续学习(Paper60):通过优化器状态重用来减少遗忘，提高在长尾任务中的持续学
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
【数据标注师】目标跟踪标注试着数据标注师目标跟踪人工智能计算机视觉数据标注师目标跟踪标注
目录一、**目标跟踪标注的四大核心挑战**二、**五阶能力培养体系**▶**阶段1：基础规则内化（1-2周）**▶**阶段2：复杂场景处理技能**▶**阶段3：专业工具mastery**▶**阶段4：领域深度专精▶**阶段5：效率突破方案三、**精度控制五大核心技术**四、**质检与错误防御体系**1.**四维质检法**：2.**高频错误防御表**：五、**持续进阶体系**1.**复杂场景专项**
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
多目标跟踪行走的小部落目标跟踪人工智能计算机视觉
侦探联盟：多目标跟踪大作战适合对象：高中生关键点：多目标跟踪、传统方法、深度学习、卡尔曼滤波、匈牙利算法、CNN、Re-ID序章：神秘的闹市阴影夜晚的星城，一场盛大的街头音乐节即将开幕。灯光下，形形色色的人在广场上游走。人声、音乐声交织成宏大的交响。突然，警局接到一封匿名信：有人要在音乐节上搞破坏，还不止一个人。“多目标追踪联盟”火速集结：他们擅长在人群中盯梢，每一个侦探都有独特的本领。今天，他们
【图像处理入门】10. 计算机视觉基础：从人脸识别到文档矫正小米玄戒Andrew 图像处理：从入门到专家图像处理计算机视觉人工智能 CV 算法 opencv python
摘要本文聚焦计算机视觉经典应用场景，带你实现人脸识别、文档扫描矫正和目标跟踪三大项目。通过Haar级联分类器、透视变换、CamShift算法等技术，结合OpenCV实战代码，掌握从特征检测到图像几何变换的完整流程，将图像处理知识升级为计算机视觉工程能力。一、项目1：基于Haar级联的人脸识别系统1.技术原理Haar级联分类器通过级联多个简单的Haar特征强分类器，快速检测图像中的目标（如人脸）。核
基于YOLOv8的人脸识别与跟踪系统设计与实现 YOLO实战营 YOLO ui 目标检测目标跟踪深度学习
1.项目背景与意义随着智能安防、智能监控、人机交互等领域的快速发展，人脸识别与跟踪技术受到了广泛关注。它不仅在安防监控系统中用于身份认证与异常检测，也在智能门禁、自动考勤和营销系统中发挥重要作用。传统的人脸检测多依赖Haar级联或基于特征的检测方法，准确率和鲁棒性有限。深度学习方法，尤其是YOLOv8等先进目标检测框架，实现了实时且高准确度的人脸检测。同时，结合人脸识别（身份验证）和多目标跟踪，可
OpenCV Video 模块使用指南（Python 版） ice_junjun OpenCV opencv python 人工智能
一、模块概述video模块是OpenCV的视频分析核心，提供以下核心功能：背景建模：运动检测（MOG2/KNN背景减除）光流法：物体运动估计（LK金字塔光流）目标跟踪：单目标/多目标跟踪（KCF、MOSSE等算法）视频分析：运动轨迹提取、异常行为检测二、核心功能详解与实战1.背景减除（运动检测）1.1算法对比算法名称特点适用场景核心参数示例代码MOG2混合高斯模型，自适应学习率室内外场景（如监控视
多假设跟踪关联目标进行数据匹配 ytttr873 算法
多假设跟踪（MultipleHypothesisTracking,MHT）是一种强大的数据关联方法，广泛应用于目标跟踪、数据匹配等领域。它通过同时考虑多个假设来解决目标关联问题，能够有效处理目标数量变化、目标交叉、遮挡以及噪声干扰等情况。1.多假设跟踪（MHT）的基本原理1.1数据关联问题在目标跟踪和数据匹配中，数据关联是一个核心问题。简单来说，我们需要将传感器观测到的数据（如雷达回波、摄像头图像
深度学习篇---OC-SORT实际应用效果 Ronin-Lotus 深度学习篇上位机知识篇深度学习 python OC-SROT
OC-SORT算法在实际应用中的效果可从准确性、鲁棒性、效率三个核心维度评估，其表现与传统多目标跟踪算法（如SORT、DeepSORT）相比有显著提升，尤其在复杂场景中优势突出。以下是具体分析：一、准确性：目标关联更可靠1.遮挡场景下的ID保持能力优势表现：传统算法（如SORT）依赖卡尔曼滤波预测目标位置，当目标长时间遮挡时，预测误差会累积导致轨迹丢失或ID切换。OC-SORT通过以观测为中心的恢
多目标跟踪笔记2023 AI算法网奇数据结构与算法目标跟踪笔记人工智能
目录cvpr2023多目标跟踪算法汇总：MixFormerV2ovtrack模型284MMotionTrackFocusOnDetails:OnlineMulti-objectTrackingwithDiverseFine-grainedRepresentation1、摘要2、方法Observation-CentricSORT:RethinkingSORTforRobustMulti-Object
毕设--基于Flask的智能个人财务管理系统做科研的狗 flask python 后端毕设毕业设计 scikit-learn
本文旨在探讨基于Flask框架的智能个人财务管理系统的设计与实现，该系统旨在帮助用户更好地管理个人财务，提供一系列便捷且实用的功能。系统的主要功能包括用户注册与登录、收支管理、预算制定与管理、财务分析与报告、资产管理、财务目标跟踪、数据导入与导出、以及管理员管理功能等。从技术层面来看，前端将采用Vue框架以提升用户界面的交互体验，后端则选用Python语言结合Flask框架进行开发，数据库方面计划
基于中心点预测的视觉评估与可视化流程视觉AI 目标检测+轨迹预测目标跟踪算法人工智能计算机视觉数据结构算法
基于中心点预测的视觉评估与可视化流程基于中心点预测的视觉评估与可视化流程一、脚本功能概览二、可视化与评分机制详解1.真实框解析2.调用模型处理帧3.预测中心点与真实值的对比4.打分策略5.图像可视化三、目录结构要求四、运行方式五、应用场景与拓展思路六、总结七，完整代码基于中心点预测的视觉评估与可视化流程在图像或视频目标跟踪任务中，我们经常需要评估预测中心点与真实中心点之间的差异，以衡量模型的精度和
基于BoxMOT的目标检测与跟踪全流程详解 Hi20240217 学习环境搭建目标检测人工智能计算机视觉
基于BoxMOT的目标检测与跟踪全流程详解一、技术背景与应用场景二、环境搭建2.1Docker容器配置2.2目录结构规划三、关键资源准备3.1数据集选择3.2模型选择3.3视频素材准备四、核心组件安装4.1基础组件安装4.2OpenCV定制编译4.3下载BoxMOT框架,配置环境变量五、目标跟踪实战演示六、性能评估七、参考链接一、技术背景与应用场景目标检测与跟踪是计算机视觉领域的核心技术，广泛应用
KMeans, KNN, Meanshift 机器灵基础算法理论 KMeans KNN Meanshift
这三个玩意，因为要么带K，要么带Mean，所以吗，放在一起介绍一下：Meanshift因为我本身是图像处理出身，最早接触的是Meanshift，其经常用于图像分割，目标跟踪等方面，下面首先说一下Meanshift:算法步骤：在未被标记的数据点中随机选择一个点作为起始中心点center；找出以center为中心半径为radius的区域中出现的所有数据点，认为这些点同属于一个聚类C。同时在该聚类中记录
基于OpenCV的物体跟踪：CSRT算法知舟不叙 opencv 算法人工智能物体跟踪
文章目录引言一、系统概述二、CSRT算法简介三、核心代码解析1.初始化跟踪器和摄像头2.主循环结构3.目标选择与跟踪初始化4.目标跟踪与结果显示5.资源释放四、系统使用说明五、完整代码六、总结引言目标跟踪是计算机视觉领域的重要应用之一，广泛应用于视频监控、人机交互、增强现实等领域。本文将介绍如何使用OpenCV中的CSRT跟踪器实现一个简单的实时目标跟踪系统，通过摄像头捕获视频流并对用户选定的目标
粒子滤波器解读 DuHz 人工智能神经网络深度学习机器学习信号处理信息与通信
粒子滤波器解读引言粒子滤波器是一种强大的非线性滤波技术，用于估计动态系统的状态。与卡尔曼滤波器不同，粒子滤波器可以处理任意的非线性性和非高斯性，这使其在机器人定位、目标跟踪、计算机视觉等领域得到广泛应用。基本概念粒子滤波器的核心思想是使用一组加权样本（称为"粒子"）来近似目标状态的后验概率分布。每个粒子代表状态空间中的一个可能状态，而其权重则表示该状态的可能性或概率。想象在一个迷雾中的森林里寻找宝
opencv学习:光流估计及完整代码实现夜清寒风学习计算机视觉 opencv 人工智能
光流估计是什么？是空间运动物体在观测成像平面上的像素运动的“瞬时速度”，根据各个像素点的速度矢量特征，可以对图像进行动态分析，例如目标跟踪。基本原理（1）亮度恒定：同一点随着时间的变化，其亮度不会发生改变。（2）小运动：随着时间的变化不会引起位置的剧烈变化，只有小运动情况下才能用前后帧之间单位位置变化引起的灰度变化去近似灰度对位置的偏导数。（3）空间一致：一个场景上邻近的点投影到图像上也是邻近点，
无人机视觉：连接像素与现实世界 —— 像素与GPS坐标双向转换指南 Lunar* 算法与优化无人机
在无人机航拍应用中，一个核心的需求是将图像上的某个点与现实世界中的地理位置精确对应起来。无论是目标跟踪、地图测绘还是农情监测，理解图像像素与其对应的经纬度（GPS坐标）之间的关系至关重要。本文将详细介绍如何实现单个像素坐标到GPS坐标的双向转换，并提供基于Python的实现思路。核心问题像素坐标->GPS坐标：已知图像上一个点的像素坐标(u,v)，以及拍摄时无人机的状态（位置、姿态、相机参数），如
深入理解与实现GM-PHD滤波算法：C++应用指南快撑死的鱼算法杂谈 C++（C语言）算法大揭秘算法 c++开发语言
前言多目标跟踪（Multi-TargetTracking,MTT）是自动驾驶、雷达系统、机器人视觉等领域中的重要技术。高斯混合概率假设密度（GaussianMixtureProbabilityHypothesisDensity,GM-PHD）滤波器作为一种有效的多目标跟踪算法，因其能够在处理杂波和新生目标时表现出色而广受关注。本文将详细介绍GM-PHD滤波算法，并通过C++代码示例展示其实现。希望
计算机视觉笔记第三章：目标检测唐风绸繆计算机视觉人工智能计算机视觉目标检测视觉检测
计算机视觉笔记：第一章图像分类-CSDN博客计算机视觉笔记第二章图像语义分割-CSDN博客计算机视觉笔记第三章：目标检测-CSDN博客计算机视觉第四章：图像识别、目标跟踪-CSDN博客计算机视觉第五章多目视觉（立体视觉）-CSDN博客标定图像中目标的位置，并给出目标的类别目标检测和语义分割的区别：语义分割：包含低层的像素级别的处理方法，也包含高层的语义级别的处理方法目标检测：基本都是高层的语义级别
YOLO学习笔记｜ YOLOv8与卡尔曼滤波实现目标跟踪与预测（附代码）单北斗SLAMer YOLO学习从零到1 目标检测目标跟踪 YOLO python
YOLOv8与卡尔曼滤波实现目标跟踪与预测一、原理与公式二、分模块代码实现1.**卡尔曼滤波模块**2.**目标检测模块（YOLOv8）**3.**跟踪器模块（SORT算法）**4.**主程序流程**三、关键优化点四、匈牙利算法原理与公式五、Python代码实现1.**基础版匈牙利算法（手动实现）**2.**优化版（基于`scipy`库）**六、在目标跟踪中的应用示例1.**代价矩阵计算（IOU）
目标检测YOLO实战应用案例100讲- 无人机平台下露天目标检测与计数林聪木目标检测 YOLO 无人机
目录知识储备基于YOLOv8改进的无人机露天目标检测与计数一、环境配置与依赖安装二、核心代码实现（带详细注释）1.改进YOLOv8模型定义（添加注意力机制）2.无人机视角数据增强（drone_augment.py）3.多目标跟踪与计数（tracking_counter.py）4.完整推理流程（main.py）三、关键技术优化点四、数据集配置示例前言目标检测算法研究现状分析基于检测方法的目标计数研究
BoxMOT：Yolov8+多目标跟踪方案_笔记1 山山而川_R 视觉大模型_1 YOLO
代码地址：boxmot一、安装环境1、condacreate-ntrackpython==3.10-ycondaactivatetrack二、boxmot安装安装以linux系统为例，假定该系统已经安装有python>=3.8,且建立好虚拟环境。将boxmot安装到yolo_tracking目录：gitclonehttps://github.com/mikel-brostrom/yolo_trac
Windows下创建MOT15数据集的符号链接显示“设备不支持符号链接。”的问题编程绿豆侠 windows 深度学习目标跟踪
写在前面最近在做目标跟踪的项目，然后我想从最基本的SORT算法开始做起，在下载完项目代码，准备看看视频的跟踪效果时，发现需要下载MOT15数据集，按照官方的说明，需要在下载并解压MOT15数据集后创建一个符号链接，如下所示。上面这个是linux环境下的命令，我参考了这篇博文，尝试在Windows环境下创建符号链接，然后出现如下报错：原因我在上网查询资料的时候发现SORT算法的github中有人提出
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟