熊猫小妖

【Python - OpenCV】数字图像项目实战（四） - 位姿估计

目录大纲

理论架构

基础知识汇总篇：
API详解：

基础梗概

1. 仿射变换和透视变换
2. 图像坐标系、相机坐标系和世界坐标系的定义，及三者之间的变换关系。
3. 相机的内、外参数矩阵
4. 线性法求解相对位姿
5. 张氏标定方法

代码实践

相机标定
相机投影

理论架构

基础知识汇总篇：

https://blog.csdn.net/weixin_42237113/article/details/104500993

API详解：

https://blog.csdn.net/weixin_42237113/article/details/104488809

基础梗概

1. 仿射变换和透视变换

仿射变换

又称仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。仿射变换是在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射（来自拉丁语，affine，“和…相关”）由一个非奇异的线性变换(运用一次函数进行的变换)接上一个平移变换组成。基本表达形式如下所示：

举例说明：一张图片，经过逆时针旋转30度图像变换，相关图片的变化可以称之为仿射变换。实际上，平移、缩放、旋转都可以成为仿射变化的一种特殊情况。

透视变化

透视变换（Perspective Transformation)是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面（透视面）绕迹线（透视轴）旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。简单来说，就是把物体的三维图像转变成二维特征的过程，称之为透视变化，用公式表示如下：

举例说明：鸟瞰铁轨是平行的，但是站在地上看向铁轨在远处相交到了一点。

2. 图像坐标系、相机坐标系和世界坐标系的定义，及三者之间的变换关系。

图像坐标系、相机坐标系和世界坐标系

图像处理、立体视觉等等方向常常涉及到四个坐标系：世界坐标系、相机坐标系、图像坐标系、像素坐标系。例如下图：

构建世界坐标系只是为了更好的描述相机的位置在哪里，在双目视觉中一般将世界坐标系原点定在左相机或者右相机或者二者X轴方向的中点。接下来的重点，就是关于这几个坐标系的转换。也就是说，一个现实中的物体是如何在图像中成像的。

世界坐标系与相机坐标系

其中从世界坐标系到相机坐标系的沿着不同坐标轴的旋转关系关系如下所示：

加上平移矩阵，可以得到P点在相机坐标系中的坐标：

相机坐标系与图像坐标系

此时投影点p的单位还是mm，并不是pixel，需要进一步转换到像素坐标系。

图像坐标系与像素坐标系

像素坐标系和图像坐标系都在成像平面上，只是各自的原点和度量单位不一样。图像坐标系的原点为相机光轴与成像平面的交点，通常情况下是成像平面的中点或者叫principal point。图像坐标系的单位是mm，属于物理单位，而像素坐标系的单位是pixel，我们平常描述一个像素点都是几行几列。所以这二者之间的转换如下：其中dx和dy表示一个像素点每一列和每一行分别代表多少mm。dx，dy依据不同相机的分辨率高低而不同。

那么通过下面四个坐标系的转换就可以得到一个点从世界坐标系如何转换到像素坐标系的。

四个坐标系之间存在着下述关系 ( 矩阵依次左乘 ):

3. 相机的内、外参数矩阵

相机内参数是与相机自身特性相关的参数，比如相机的焦距、像素大小等；

相机外参数是在世界坐标系中的参数，比如相机的位置、旋转方向等。

在问题2中已经详细推导过世界坐标系下的坐标转化到图像像素坐标系下的转换公式。
在该式中，fx、fy、u0、v0只与摄像机内部参数有关，故称矩阵M1为内参数矩阵。

 其中fx ＝ f/dX ,fy = f/dY ,分别称为x轴和y轴上的归一化焦距；
 f是相机的焦距，dX和dY分别表示传感器x轴和y轴上单位像素的尺寸大小。
 u0和v0则表示的是光学中心，即摄像机光轴与图像平面的交点，通常位于图像中心处，故其值常取分辨率的一半。

现以Canon 70d相机为例进行求解其内参数矩阵：

焦距 f = 50mm   分辨率：1920×1080    传感器尺寸：22.5×15 mm

根据以上定义可以有：

u0 = 1920/2= 960                v0 = 1080/2 = 540 
dx = 22.5/1920 =0.01171875             dy = 15/1080 = 0.013889
fu = f/dx =  4266.667                 fv = f/dy = 3599.9712

4. 线性法求解相对位姿

基于空间多点相对位姿测量

通过相机标定或者相机自身参数计算获取相机内参数和畸变系数建立世界坐标系转换为像素坐标系的方程目的是求解外参数矩阵的旋转向量和平移向量通过方程组的变换，消去第三维的坐标，最后得到一个关于旋转向量和平移向量的公式。扩展到多个点的情况下，有六个或以上的特征点且非共面的时候，就可解得一个关于旋转向量和平移向量的矩阵组利用矩阵的QR分解，得到最终的旋转矩阵和平移矩阵。最后通过旋转矩阵计算旋转角，使得相机坐标系和世界坐标系完全平行。注意：在实现过程中，一般使用solvePnP方法进行计算，传入参数：目标坐标系的3D点，图像平面点坐标，相机内参数，畸变系数，最后就可以得到旋转向量和平移向量

输入信息:
相机的内参数多个空间上的特征点(非共面,>=6个)在目标坐标系(3D)和相平面坐标系(2D)坐标。

输出信息:
目标坐标系相对相机坐标系的位置和姿态。

基于平面多特征点相对位姿测量

通过相机标定或者相机自身参数计算获取相机内参数和畸变系数建立世界坐标系转换为像素坐标系的方程目的是求解外参数矩阵的旋转向量和平移向量通过方程组的变换，消去第三维的坐标，最后得到一个关于旋转向量和平移向量的公式。扩展到多个点的情况下，有四个或以上的特征点且非共面的时候，就可解得一个关于旋转向量和平移向量的矩阵组利用矩阵的QR分解，得到最终的旋转矩阵和平移矩阵。最后通过旋转矩阵计算旋转角，使得相机坐标系和世界坐标系完全平行。注意：在实现过程中，一般使用solvePnP方法进行计算，传入参数：目标坐标系的3D点，图像平面点坐标，相机内参数，畸变系数，最后就可以得到旋转向量和平移向量

输入信息:
相机内参数多个平面上的特征点（>=4个）在目标坐标系(3D)和相平面坐标系(2D)坐标

输出信息:
目标坐标系相对相机坐标系的位置和姿态。

5. 张氏标定方法

输入条件

目标物体的多个pose的图片数据，一般最少10张。
通过图片数据，获取目标坐标系的3D点和图像平面点坐标。

输出量

相机内参数矩阵

畸变系数

旋转变量

平移变量

主要步骤

设定标定板
旋转标定板或相机，采集标定板图像的不同pose
对一个pose,计算单应矩阵(类似M矩阵)
有三个以上Pose，根据各单应矩阵计算线性相机参数
使用非线性优化方法计算非线性参数
最后得到相机内参数、矩阵畸变系数以及每张图片的旋转变量和平移变量。

代码实践

相机标定

1.利用棋盘格图案和你身边能找到的相机(笔记本或台式机的摄像头，手机相机等均可)完成相机标定，并给出结果的可信性分析。（使用python-opencv实现）

1.1.2 step1 准备工作
本次作业使用设备：

（1）自制A4纸大小的标定板（10 x 7 黑白棋盘，棋盘格 13mm x 13mm）
（2）普通手机一部（像素为2448 x 3264, 竖拍）
共拍摄照片12张

1.1.3 step2 输入数据获取
棋盘格是10x8个格子组成,但是相关API读取的是里面的内部角点（不包含最外边的角点，否则会报错），所以是9X6。根据像素坐标和3维世界坐标系相关矩阵计算公式：

上面矩阵关系简写为：

I = M1M2W
根据张氏标定方法，通过带入多个角点矩阵I, 世界坐标点W（Z=0，默认图片处于X,Y轴平面，减少变量），可以反算出相机内矩阵M1、相机外矩阵M2=[R|T]内各个变量。同时也会求出相关畸变参数矩阵。

因此只需要获取实际图片的世界坐标W，还有对应角点坐标矩阵I。角点坐标通过findChessboardCorners粗提取，然后使用cornerSubPix生成亚像素点；世界坐标点，默认设定Z=0，按照棋盘角点从左到右，一次生成

(0,0,0), (113,0,0), (213,0,0) ,.
(13,0，0)，(13,113,0), (13,213)…
…
注：如果不知道棋盘实际尺寸，可以设定成

(0,0,0), (1,0,0), (2,0,0) ,…, (8,5,0)
所求的相机内参数矩阵M1不变，但是外参数M2不同。

#coding:utf-8

import cv2
import numpy as np
import glob
from tqdm import tqdm

#定义棋盘大小: 注意此处是内部的行、列角点个数，不包含最外边两列，否则会出错
chessboard_size = (9,6)

# 生成54×3的矩阵，用来保存棋盘图中9*6个内角点的3D坐标，也就是物体点坐标 
objp = np.zeros((np.prod(chessboard_size),3),dtype=np.float32)
# 通过np.mgrid生成对象的xy坐标点，每个棋盘格大小是130mm
# 最终得到z=0的objp为(0,0,0), (1*13,0,0), (2*13,0,0) ,...
objp[:,:2] = np.mgrid[0:chessboard_size[0], 0:chessboard_size[1]].T.reshape(-1,2)*13

# print("object is %f", objp)

# 定义数组，来保存监测到的点
obj_points = []  # 保存世界坐标系的三维点
img_points = []  # 保存图片坐标系的二维点


# 设置终止条件： 迭代30次或者变动 < 0.001
criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 30, 0.001)

# 读取目录下的所有图片
calibration_paths = glob.glob('./calibaration/*.jpg')

# 为方便显示，使用tqdm显示进度条
for image_path in tqdm(calibration_paths):
    # 读取图片
    img = cv2.imread(image_path)
    # 图像二值化
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # 找到棋盘格内角点位置
    ret, corners = cv2.findChessboardCorners(gray, chessboard_size, None)

    if ret == True:
        obj_points.append(objp)
        # 亚像素级角点检测，在角点检测中精确化角点位置
        corners2 = cv2.cornerSubPix(gray, corners, (5, 5), (-1, -1), criteria)
        img_points.append(corners2)

        # 在图中标注角点,方便查看结果
#         img = cv2.drawChessboardCorners(img, chessboard_size, corners2, ret)
#         img = cv2.resize(img, (400,600))
#         cv2.imshow('img', img)
#         cv2.waitKey(0)
    
cv2.destroyAllWindows()
print("finish all the pic count")

1.1.4 step3 相机参数获取¶
可以通过calibrateCamera获取相机相关内参数(fx, fy,u0, v0)[此处alpha=0，可能略有偏差]、外参数（R,T）、畸变参数(k1,k2,p1,p2,s1,s2)

# 相机标定
ret, mtx, dist, rvecs, tvecs = cv2.calibrateCamera(obj_points, img_points, gray.shape, None, None)

# 显示和保存参数
print("#######相机内参#######")
print(mtx)
print("#######畸变系数#######")
print(dist)
print("#######相机旋转矩阵#######")
print(rvecs)
print("#######相机平移矩阵#######")
print(tvecs)
np.savez('C.npz', mtx=mtx, dist=dist, rvecs=rvecs, tvecs=tvecs) #分别使用mtx,dist,rvecs,tvecs命名数组

1.1.5 step3 相机参数获取（非必要项）
可以选择使用一张图片，查看一下去除畸变之后图片效果。在这之前，我们需要使用getOptimalNewCameraMatrix来重新生成相机矩阵，从而减少原图的有效像素的丢失。它有一个参数alpha，叫做尺度因子，取值0~1。如果alpha=0，原图像会损失最多的有效像素；如果alpha=1，原图像中的所有像素都能够得到保留。 getOptimalNewCameraMatrix还返回一个图像ROI，可以用来裁剪结果。

最终效果图参见calibresult.jpg

# 使用一张图片看看去畸变之后的效果
img2 = cv2.imread('./calibaration/left_01.jpg')
print("orgininal img_point  array shape",img.shape)
# img2.shape[:2]取图片 高、宽；
h,  w = img2.shape[:2]
print("pic's hight, weight: %f,  %f"%(h, w))
# img2.shape[:3]取图片的 高、宽、通道
# h,  w ,n= img2.shape[:3]
# print("PIC shape", (h, w, n))


newcameramtx, roi = cv2.getOptimalNewCameraMatrix(
    mtx, dist, (w, h), 1, (w, h))  # 自由比例参数

dst = cv2.undistort(img2, mtx, dist, None, newcameramtx)

# 根据前面ROI区域裁剪图片
x,y,w,h = roi
dst = dst[y:y+h, x:x+w]
cv2.imwrite('calibresult.jpg', dst)

畸变比较小，消除后也进行了图片裁剪

1.1.6 step4 重投影误差
重投影误差是一个判别畸变参数准确度的参考指标，它越接近于0越好。给定畸变矩阵，旋转矩阵和平移矩阵，首先将物体点坐标变换到图像点坐标，可以使用projectPoints 函数实现。然后计算变换后得到的图像点和我们之前检测到的角点坐标的l2范数平均值（即加和开方求平均）。

# 计算所有图片的平均重投影误差
total_error = 0
for i in range(len(obj_points)):
    img_points2, _ = cv2.projectPoints(obj_points[i], rvecs[i], tvecs[i], mtx, dist)
    error = cv2.norm(img_points[i], img_points2, cv2.NORM_L2)/len(img_points2)
    total_error += error
print("total error: {}".format(total_error/len(obj_points)))

1.1.7 1.3 图像数据结果分析¶
手机相关参数如下：

	f = 4
	分辨率：2448 x 3264
	手机单个像素尺寸像素大小约为 Δx=Δy：1.4um

手动计算，预计相关参数如下：

 u0'=2448/2=1224, 
 v0'=3264/2=1632
 fx'=fy'=f/Δx=4/1.4*10^3 = 2857.14286

而通过step1-step4实际计算相关内参数：

fx = 2.69528836e+03
fy = 2.69629880e+03
u0 = 1.23297127e+03
v0 = 1.61522815e+03

相关内参计算大致都在正常误差内，比较合理。

相机投影

在1基础上，使用同一相机，将棋盘格放在前方1m左右固定，然后使用线性方法进行相对位姿估计，然后评价结果的合理性。

实验条件：

还是使用同样的相机：（像素为2448 x 3264, 竖拍）
将自制标定板（10 x 7, 格子大小13mm）放置在大约1000mm（1m）处，摆拍一张照片。

理论原理：

由推导过程可知，旋转变量R、位移变量T是世界坐标系变化到相机坐标系的旋转，平移变量。当标定板（世界坐标系xy平面）和相机平面（相机坐标系xy平面）大致平行的时候，二者的z轴大致平行，所以T在z轴上的位移距离大致等于两者的在现实场景中的真实距离，即大致等于1000mm。

另外可以通过事先选定世界坐标系下的3个点，利用3D->2D投影，在图像坐标系的原点处画出相关点的映射图像，也可以侧面说明相关的线性方法的相对位姿估计的正确性。

import cv2
import numpy as np
from math import degrees as dg

# 加载相机标定的内参数、外参数矩阵
with np.load('C.npz') as X:
    mtx, dist, _, _ = [X[i] for i in ('mtx', 'dist', 'rvecs', 'tvecs')]
 
 print(mtx, dist)

#定义棋盘大小
chessboard_size = (9,6)

# 世界坐标系下的物体位置矩阵（Z=0）
objp = np.zeros((np.prod(chessboard_size),3),dtype=np.float32)
objp[:,:2] = np.mgrid[0:chessboard_size[0], 0:chessboard_size[1]].T.reshape(-1,2)*13

# 像素坐标
test_img = cv2.imread("./test/100cm.jpg")
gray = cv2.cvtColor(test_img, cv2.COLOR_BGR2GRAY)


# 找到图像平面点角点坐标
ret, corners = cv2.findChessboardCorners(gray, chessboard_size, None)

if ret:
    _, R, T, _, = cv2.solvePnPRansac(objp, corners, mtx, dist)
    print("旋转向量",R)
    print("平移向量",T)
    
sita_x = dg(R[0][0])
sita_y = dg(R[1][0])
sita_z = dg(R[2][0])

print("sita_x is  ", sita_x)
print("sita_y is  ", sita_y)
print("sita_z is  ", sita_z)

分析：

由上面计算可知：
位移变量沿着z轴的运动位移为960.23210427，沿着x,y,z旋转角度（角度制）分别为4.21度，0.167度， 0.796度；
可见世界坐标和相机坐标之间，基本没有怎么旋转，x,y,z轴基本处于平行状态，都是通过平移实现的。而且世界坐标和像极坐标之间距离为960.232，与实际现实中所处的1000mm基本相符。所以相对位姿基本计算正确。

2.2 3D->2D投影

import cv2
import numpy as np
import glob

# 加载相机标定的数据
with np.load('C.npz') as X:
    mtx, dist, _, _ = [X[i] for i in ('mtx', 'dist', 'rvecs', 'tvecs')]


def draw(img, corners, imgpts):
    """
    在图片上画出三维坐标轴
    :param img: 图片原数据
    :param corners: 图像平面点坐标点
    :param imgpts: 三维点投影到二维图像平面上的坐标
    :return:
    """
    # corners[0]是图像坐标系的坐标原点；imgpts[0]-imgpts[3] 即3D世界的坐标系点投影在2D世界上的坐标
    corner = tuple(corners[0].ravel())
    # 沿着3个方向分别画3条线
    cv2.line(img, corner, tuple(imgpts[0].ravel()), (255, 0, 0), 5)
    cv2.line(img, corner, tuple(imgpts[1].ravel()), (0, 255, 0), 5)
    cv2.line(img, corner, tuple(imgpts[2].ravel()), (0, 0, 255), 5)
    return img

#定义棋盘大小
chessboard_size = (9,6)

# 初始化目标坐标系的3D点
objp = np.zeros((np.prod(chessboard_size),3),dtype=np.float32)
objp[:,:2] = np.mgrid[0:chessboard_size[0], 0:chessboard_size[1]].T.reshape(-1,2)

# 初始化三维坐标系
axis = np.float32([[3, 0, 0], [0, 10, 0], [0, 0, -50]]).reshape(-1, 3)  # 坐标轴

# 加载打包所有图片数据
images = glob.glob('test/100cm.jpg')
for fname in images:
    img = cv2.imread(fname)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # 找到图像平面点坐标点
    ret, corners = cv2.findChessboardCorners(gray, chessboard_size, None)
    if ret:
        # PnP计算得出旋转向量和平移向量
        _, rvecs, tvecs, _ = cv2.solvePnPRansac(objp, corners, mtx, dist)
        print("旋转变量", rvecs)
        print("平移变量", tvecs)
        # 计算三维点投影到二维图像平面上的坐标
        imgpts, jac = cv2.projectPoints(axis, rvecs, tvecs, mtx, dist)
        # 把坐标显示图片上
        img = draw(img, corners, imgpts)
        cv2.imwrite("3d_2d_project.jpg",img)


cv2.destroyAllWindows()

在图像中，相关3D投影的坐标系如下所示：

遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
python-opencv cv2.findContours()函数 fjswcjswzy opencv python笔记 python opencv
示例代码：image,contours,hierarchy=cv2.findContours(contour,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)输入：contour：带有轮廓信息的图像；cv2.RETR_TREE：提取轮廓后，输出轮廓信息的组织形式，除了cv2.RETR_TREE还有以下几种选项：cv2.RETR_EXTERNAL：输出轮廓中只有外侧轮廓信
python如何判断NoneTpye #如花 opencv 人工智能计算机视觉 python
python如何判断NoneTpye最近用python-opencv解析多个视频文件，解析到第一个视频的最后一帧，出现了NoneTpye报错为了让循环继续，需要判断解析出来的图片是否为NoneType。试了几种方法#第一种方法img==None当img为空时，表达式为True。但是当img解析出了图片时，返回的是一个array，大小和img一致。正确写法imgisNone用isNone判断None
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
图像处理的作用（6幅图诗）静月园
静月园著2020年1月️4日1自然力出现的图形画面，即无序，又有形。奇妙令人联想无限。好象理石花纹，又类似草木树植。2为何要如此色彩？好奇怪哦！自然的物态鬼斧神工。3孩童们信手涂鸦，但是脑控制了手的动作，所绘画的物体形状代表了孩子们对环境人物的所看，所听，所理解的形状。脑的心理活动影像，被转换成手的动作输出到笔尖的移动动作上，于是我们看到了简单的结构形状图。而对于我们的写作者来说，我们的作家脑内有
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
opencv 之实战项目识别银行卡上的数字 SEVEN-YEARS opencv 计算机视觉人工智能
OpenCV之实战项目：识别银行卡上的数字引言在日常生活中，银行卡的识别是一个常见的需求，特别是在金融领域。本实战项目旨在使用OpenCV库来识别银行卡上的数字。我们将通过模板匹配的方法，结合图像处理技术，来准确识别银行卡上的数字序列。项目准备本项目需要安装Python和OpenCV库。确保已经安装了必要的库，并准备好银行卡图像和数字模板图像。实验素材定义函数importcv2defsort_co
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
MATLAB车牌定位和识别系统清风明月来几时图像算法处理 matlab 开发语言
有很多方法可以实现MATLAB车牌的定位和识别系统。以下是一种可能的实现步骤：车牌定位：使用图像处理技术（如边缘检测、区域生长或颜色分割）来检测图像中的车牌区域。使用形态学操作来排除不符合车牌形状的区域。对车牌区域进行裁剪或调整大小，以便后续的识别。车牌识别：将车牌图像转换为灰度图像。使用图像处理技术（如二值化、滤波或增强）来减少噪音并突出字符。使用字符分割算法将车牌中的字符分开。使用特征提取方法
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
直方图匹配（Histogram Matching）姜太公钓鲸233 计算机视觉人工智能机器学习
直方图匹配（HistogramMatching），也被称为直方图规定化（HistogramSpecification）或直方图修正（HistogramEqualization），是一种图像处理技术，用于调整图像的直方图，以使其与某个目标直方图相匹配。目标直方图通常是用户定义的或者是希望获得的期望分布。直方图匹配的目标是改变图像的像素值分布，从而使其在视觉上更接近目标直方图。这对于图像增强、风格迁移
uint8 姜太公钓鲸233 python numpy
无符号8位整数（uint8）是一种数据类型，通常用于表示整数，但它不包括负数，只能表示非负的整数值。它的范围是从0到255，共有256个不同的可能取值。在计算机中，整数数据类型可以分为有符号和无符号。有符号整数可以表示正数、负数和零，而无符号整数只能表示非负的整数。在图像处理中，无符号8位整数通常用于表示灰度图像的像素值。一个像素的灰度值代表了图像中对应点的亮度强度，通常从0（黑色）到255（白色
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
动手学深度学习（pytorch土堆）-03常见的Transforms #include<菜鸡> 深度学习深度学习 pytorch 人工智能
Composetransforms.Compose是PyTorch中的一个函数，用于将多个图像变换操作组合在一起，形成一个变换流水线。这样可以将一系列的图像处理操作整合为一个步骤，便于对图像进行批量预处理或增强。基本用法transforms.Compose接受一个列表，列表中的每个元素是一个变换操作。这些操作会按照给定的顺序依次作用在输入的图像上。Example:>>>transforms.Com
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
数字图像处理（一系列对图像进行处理、分析和改进的技术）编程日记✧ 智能医疗计算机视觉图像处理人工智能
数字图像处理是指对图像进行一系列的数学和算法处理，以增强、分析或理解图像的内容。这些处理包括从基础的像素操作到复杂的高维变换和机器学习模型。1.图像降噪在图像获取和传输过程中，往往会引入噪声。降噪技术用于减少这些噪声，同时尽量保持图像的细节。常见方法有：均值滤波：将像素邻域内的像素值取平均值，从而平滑图像。这种方法简单但可能会模糊边缘。高斯滤波：使用高斯函数为权重对像素进行加权平均，可以更好地平滑
python图像处理的图像几何变换 yava_free 图像处理 python 计算机视觉
一.图像几何变换图像几何变换不改变图像的像素值，在图像平面上进行像素变换。适当的几何变换可以最大程度地消除由于成像角度、透视关系乃至镜头自身原因所造成的几何失真所产生的负面影响。几何变换常常作为图像处理应用的预处理步骤，是图像归一化的核心工作之一[1]。一个几何变换需要两部分运算：空间变换：包括平移、缩放、旋转和正平行投影等，需要用它来表示输出图像与输入图像之间的像素映射关系。灰度插值算法：按照这
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默