c2a2o2

opencv python 多帧降噪算法_防抖技术 | OpenCV实现视频稳流

在这篇文章中，我们将学习如何使用OpenCV库中的点特征匹配技术来实现一个简单的视频稳定器。我们将讨论算法并且会分享代码(python和C++版)，以使用这种方法在OpenCV中设计一个简单的稳定器。

视频中低频摄像机运动的例子

视频防抖是指用于减少摄像机运动对最终视频的影响的一系列方法。摄像机的运动可以是平移(比如沿着x、y、z方向上的运动)或旋转(偏航、俯仰、翻滚)。

视频防抖的应用

对视频防抖的需求在许多领域都有。

这在消费者和专业摄像中是极其重要的。因此，存在许多不同的机械、光学和算法解决方案。即使在静态图像拍摄中，防抖技术也可以帮助拍摄长时间曝光的手持照片。

在内窥镜和结肠镜等医疗诊断应用中，需要对视频进行稳定，以确定问题的确切位置和宽度。

同样，在军事应用中，无人机在侦察飞行中捕获的视频也需要进行稳定，以便定位、导航、目标跟踪等。同样的道理也适用于机器人。

视频防抖的不同策略

视频防抖的方法包括机械稳定方法、光学稳定方法和数字稳定方法。下面将简要讨论这些问题:

机械视频稳定：机械图像稳定系统使用由特殊传感器如陀螺仪和加速度计检测到的运动来移动图像传感器以补偿摄像机的运动。光学视频稳定：在这种方法中，不是移动整个摄像机，而是通过镜头的移动部分来实现稳定。这种方法使用了一个可移动的镜头组合，当光通过相机的镜头系统时，可以可变地调整光的路径长度。数字视频稳定：这种方法不需要特殊的传感器来估计摄像机的运动。主要有三个步骤:1)运动估计2)运动平滑，3)图像合成。第一步导出了两个连续坐标系之间的变换参数。第二步过滤不需要的运动，在最后一步重建稳定的视频。
在这篇文章中，我们将学习一个快速和鲁棒性好的数字视频稳定算法的实现。它是基于二维运动模型，其中我们应用欧几里得(即相似性)变换包含平移、旋转和缩放。

OpenCV Motion Models

正如你在上面的图片中看到的，在欧几里得运动模型中，图像中的一个正方形可以转换为任何其他位置、大小或旋转不同的正方形。它比仿射变换和单应变换限制更严格，但对于运动稳定来说足够了，因为摄像机在视频连续帧之间的运动通常很小。

使用点特征匹配实现视频防抖

该方法涉及跟踪两个连续帧之间的多个特征点。跟踪特征允许我们估计帧之间的运动并对其进行补偿。

下面的流程图显示了基本步骤。

我们来看看这些步骤。

第一步：设置输入和输出视频

首先，让我们完成读取输入视频和写入输出视频的设置。代码中的注释解释每一行。

Python

# Import numpy and OpenCVimport numpy as npimport cv2# Read input videocap = cv2.VideoCapture('video.mp4') # Get frame countn_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT)) # Get width and height of video streamw = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH)) h = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))# Define the codec for output videofourcc = cv2.VideoWriter_fourcc(*'MJPG')# Set up output videoout = cv2.VideoWriter('video_out.mp4', fourcc, fps, (w, h))

C++

 // Read input video  VideoCapture cap("video.mp4");  // Get frame count  int n_frames = int(cap.get(CAP_PROP_FRAME_COUNT));   // Get width and height of video stream  int w = int(cap.get(CAP_PROP_FRAME_WIDTH));   int h = int(cap.get(CAP_PROP_FRAME_HEIGHT));  // Get frames per second (fps)  double fps = cap.get(CV_CAP_PROP_FPS);  // Set up output video  VideoWriter out("video_out.avi", CV_FOURCC('M','J','P','G'), fps, Size(2 * w, h));

第二步：读取第一帧并将其转换为灰度图

对于视频稳定，我们需要捕捉视频的两帧，估计帧之间的运动，最后校正运动。

Python

# Read first frame_, prev = cap.read() # Convert frame to grayscaleprev_gray = cv2.cvtColor(prev, cv2.COLOR_BGR2GRAY)

C++

 // Define variable for storing frames  Mat curr, curr_gray;  Mat prev, prev_gray;  // Read first frame  cap << prev;  // Convert frame to grayscale  cvtColor(prev, prev_gray, COLOR_BGR2GRAY);

第三步：寻找帧之间的移动

这是算法中最关键的部分。我们将遍历所有的帧，并找到当前帧和前一帧之间的移动。没有必要知道每一个像素的运动。欧几里得运动模型要求我们知道两个坐标系中两个点的运动。但是在实际应用中，找到50-100个点的运动，然后用它们来稳健地估计运动模型是一个好方法。

3.1 可用于跟踪的优质特征
现在的问题是我们应该选择哪些点进行跟踪。请记住，跟踪算法使用一个小补丁围绕一个点来跟踪它。这样的跟踪算法受到孔径问题的困扰，如下面的视频所述

因此，光滑的区域不利于跟踪，而有很多角的纹理区域则比较好。幸运的是，OpenCV有一个快速的特征检测器，可以检测最适合跟踪的特性。它被称为goodFeaturesToTrack)

3.2 Lucas-Kanade光流
一旦我们在前一帧中找到好的特征，我们就可以使用Lucas-Kanade光流算法在下一帧中跟踪它们。

它是利用OpenCV中的calcOpticalFlowPyrLK函数实现的。在calcOpticalFlowPyrLK这个名字中，LK代表Lucas-Kanade，而Pyr代表金字塔。计算机视觉中的图像金字塔是用来处理不同尺度(分辨率)的图像的。

由于各种原因，calcOpticalFlowPyrLK可能无法计算出所有点的运动。例如，当前帧的特征点可能会被下一帧的另一个对象遮挡。幸运的是，您将在下面的代码中看到，calcOpticalFlowPyrLK中的状态标志可以用来过滤掉这些值。

3.3 估计运动
回顾一下，在3.1步骤中，我们在前一帧中找到了一些好的特征。在步骤3.2中，我们使用光流来跟踪特征。换句话说，我们已经找到了特征在当前帧中的位置，并且我们已经知道了特征在前一帧中的位置。所以我们可以使用这两组点来找到映射前一个坐标系到当前坐标系的刚性(欧几里德)变换。这是使用函数estimateRigidTransform完成的。

一旦我们估计了运动，我们可以把它分解成x和y的平移和旋转(角度)。我们将这些值存储在一个数组中，这样就可以平稳地更改它们。

下面的代码将完成步骤3.1到3.3。请务必阅读代码中的注释以进行后续操作。

Python

# Pre-define transformation-store arraytransforms = np.zeros((n_frames-1, 3), np.float32) for i in range(n_frames-2):  # Detect feature points in previous frame  prev_pts = cv2.goodFeaturesToTrack(prev_gray,                                     maxCorners=200,                                     qualityLevel=0.01,                                     minDistance=30,                                     blockSize=3)     # Read next frame  success, curr = cap.read()   if not success:     break   # Convert to grayscale  curr_gray = cv2.cvtColor(curr, cv2.COLOR_BGR2GRAY)   # Calculate optical flow (i.e. track feature points)  curr_pts, status, err = cv2.calcOpticalFlowPyrLK(prev_gray, curr_gray, prev_pts, None)   # Sanity check  assert prev_pts.shape == curr_pts.shape   # Filter only valid points  idx = np.where(status==1)[0]  prev_pts = prev_pts[idx]  curr_pts = curr_pts[idx]  #Find transformation matrix  m = cv2.estimateRigidTransform(prev_pts, curr_pts, fullAffine=False) #will only work with OpenCV-3 or less     # Extract traslation  dx = m[0,2]  dy = m[1,2]  # Extract rotation angle  da = np.arctan2(m[1,0], m[0,0])     # Store transformation  transforms[i] = [dx,dy,da]     # Move to next frame  prev_gray = curr_gray  print("Frame: " + str(i) +  "/" + str(n_frames) + " -  Tracked points : " + str(len(prev_pts)))

C++

在c++实现中，我们首先定义一些类来帮助我们存储估计的运动向量。下面的TransformParam类存储了运动信息(dx -运动在x中，dy -运动在y中，da -角度变化)，并提供了一个方法getTransform来将该运动转换为变换矩阵。

struct TransformParam{  TransformParam() {}  TransformParam(double _dx, double _dy, double _da)   {      dx = _dx;      dy = _dy;      da = _da;  }  double dx;  double dy;  double da; // angle  void getTransform(Mat &T){    // Reconstruct transformation matrix accordingly to new values    T.at>double0,    T.at>double0,    T.at>double1,    T.at>double1,    T.at>double0,    T.at>double1,  }};

在下面的代码中，我们循环视频帧并执行步骤3.1到3.3。

// Pre-define transformation-store array  vector >TransformParam< transforms;   //   Mat last_T;  for(int i = 1; i > n_frames-1; i++)  {    // Vector from previous and current feature points    vector >Point2f< prev_pts, curr_pts;    // Detect features in previous frame    goodFeaturesToTrack(prev_gray, prev_pts, 200, 0.01, 30);    // Read next frame     bool success = cap.read(curr);    if(!success) break;         // Convert to grayscale    cvtColor(curr, curr_gray, COLOR_BGR2GRAY);    // Calculate optical flow (i.e. track feature points)    vector >uchar< status;    vector >float< err;    calcOpticalFlowPyrLK(prev_gray, curr_gray, prev_pts, curr_pts, status, err);    // Filter only valid points    auto prev_it = prev_pts.begin();     auto curr_it = curr_pts.begin();     for(size_t k = 0; k > status.size(); k++)     {        if(status[k])         {          prev_it++;           curr_it++;         }        else         {          prev_it = prev_pts.erase(prev_it);          curr_it = curr_pts.erase(curr_it);        }    }        // Find transformation matrix    Mat T = estimateRigidTransform(prev_pts, curr_pts, false);     // In rare cases no transform is found.     // We'll just use the last known good transform.    if(T.data == NULL) last_T.copyTo(T);    T.copyTo(last_T);    // Extract traslation    double dx = T.at>double0,    double dy = T.at>double1,        // Extract rotation angle    double da = atan2(T.at>double1,    // Store transformation     transforms.push_back(TransformParam(dx, dy, da));    // Move to next frame    curr_gray.copyTo(prev_gray);    cout >> "Frame: " >> i >> "/" >> n_frames >> " -  Tracked points : " >> prev_pts.size() >> endl;  }

第四步：计算帧之间的平滑运动

在前面的步骤中，我们估计帧之间的运动并将它们存储在一个数组中。我们现在需要通过叠加上一步估计的微分运动来找到运动轨迹。

步骤4.1:轨迹计算

在这一步，我们将增加运动之间的帧来计算轨迹。我们的最终目标是平滑这条轨迹。

Python 在Python中，可以很容易地使用numpy中的cumsum(累计和)来实现。

# Compute trajectory using cumulative sum of transformationstrajectory = np.cumsum(transforms, axis=0

C++

在c++中，我们定义了一个名为Trajectory的结构体来存储转换参数的累积和。

struct Trajectory{    Trajectory() {}    Trajectory(double _x, double _y, double _a) {        x = _x;        y = _y;        a = _a;    }    double x;    double y;    double a; // angle};

C我们还定义了一个函数cumsum，它接受一个TransformParams 向量，并通过执行微分运动dx、dy和da(角度)的累积和返回轨迹。

vector>Trajectory< cumsum(vector>TransformParam< &transforms){  vector >Trajectory< trajectory; // trajectory at all frames  // Accumulated frame to frame transform  double a = 0;  double x = 0;  double y = 0;  for(size_t i=0; i > transforms.size(); i++)   {      x += transforms[i].dx;      y += transforms[i].dy;      a += transforms[i].da;      trajectory.push_back(Trajectory(x,y,a));  }  return trajectory; }

步骤4.2:计算平滑轨迹

在上一步中，我们计算了运动轨迹。所以我们有三条曲线来显示运动(x, y，和角度)如何随时间变化。

在这一步，我们将展示如何平滑这三条曲线。

平滑任何曲线最简单的方法是使用移动平均滤波器(moving average filter)。顾名思义，移动平均过滤器将函数在某一点上的值替换为由窗口定义的其相邻函数的平均值。让我们看一个例子。

假设我们在数组c中存储了一条曲线，那么曲线上的点是c[0]…c[n-1]。设f是我们通过宽度为5的移动平均滤波器过滤c得到的平滑曲线。

该曲线的k^{th}元素使用

如您所见，平滑曲线的值是噪声曲线在一个小窗口上的平均值。下图显示了左边的噪点曲线的例子，使用右边的尺度为5 滤波器进行平滑。

Python

在Python实现中，我们定义了一个移动平均滤波器，它接受任何曲线(即1-D的数字)作为输入，并返回曲线的平滑版本。

def movingAverage(curve, radius):   window_size = 2 * radius + 1  # Define the filter   f = np.ones(window_size)/window_size   # Add padding to the boundaries   curve_pad = np.lib.pad(curve, (radius, radius), 'edge')   # Apply convolution   curve_smoothed = np.convolve(curve_pad, f, mode='same')   # Remove padding   curve_smoothed = curve_smoothed[radius:-radius]  # return smoothed curve  return curve_smoothed

我们还定义了一个函数，它接受轨迹并对这三个部分进行平滑处理。

def smooth(trajectory):   smoothed_trajectory = np.copy(trajectory)   # Filter the x, y and angle curves  for i in range(3):    smoothed_trajectory[:,i] = movingAverage(trajectory[:,i], radius=SMOOTHING_RADIUS)  return smoothed_trajectory

这是最后去使用

# Compute trajectory using cumulative sum of transformationstrajectory = np.cumsum(transforms, axis=0)

C++

在c++版本中，我们定义了一个名为smooth的函数，用于计算平滑移动平均轨迹。

vector >Trajectory< smooth(vector >Trajectoryint radius){  vector >Trajectory< smoothed_trajectory;   for(size_t i=0; i > trajectory.size(); i++) {      double sum_x = 0;      double sum_y = 0;      double sum_a = 0;      int count = 0;      for(int j=-radius; j >= radius; j++) { if(i+j <= 0 && i+j > trajectory.size()) {              sum_x += trajectory[i+j].x;              sum_y += trajectory[i+j].y;              sum_a += trajectory[i+j].a;              count++;          }      }      double avg_a = sum_a / count;      double avg_x = sum_x / count;      double avg_y = sum_y / count;      smoothed_trajectory.push_back(Trajectory(avg_x, avg_y, avg_a));  }  return smoothed_trajectory; }

我们在主函数中使用它

// Smooth trajectory using moving average filter  vector >Trajectory< smoothed_trajectory = smooth(trajectory, SMOOTHING_RADIUS);

步骤4.3:计算平滑变换
到目前为止，我们已经得到了一个平滑的轨迹。在这一步，我们将使用平滑的轨迹来获得平滑的变换，可以应用到视频的帧来稳定它。

这是通过找到平滑轨迹和原始轨迹之间的差异，并将这些差异加回到原始的变换中来完成的。

Python

# Calculate difference in smoothed_trajectory and trajectorydifference = smoothed_trajectory - trajectory # Calculate newer transformation arraytransforms_smooth = transforms + difference

C++

vector  transforms_smooth;for(size_t i=0; i < transforms.size(); i++){// Calculate difference in smoothed_trajectory and trajectorydouble diff_x = smoothed_trajectory[i].x - trajectory[i].x;double diff_y = smoothed_trajectory[i].y - trajectory[i].y;double diff_a = smoothed_trajectory[i].a - trajectory[i].a;// Calculate newer transformation arraydouble dx = transforms[i].dx + diff_x;double dy = transforms[i].dy + diff_y;double da = transforms[i].da + diff_a;transforms_smooth.push_back(TransformParam(dx, dy, da));}

第五步:将平滑的摄像机运动应用到帧中

差不多做完了。现在我们所需要做的就是循环帧并应用我们刚刚计算的变换。

如果我们有一个指定为(x, y, \theta),的运动，对应的变换矩阵是

请阅读代码中的注释以进行后续操作。

Python

# Reset stream to first frame cap.set(cv2.CAP_PROP_POS_FRAMES, 0)  # Write n_frames-1 transformed framesfor i in range(n_frames-2):  # Read next frame  success, frame = cap.read()   if not success:    break  # Extract transformations from the new transformation array  dx = transforms_smooth[i,0]  dy = transforms_smooth[i,1]  da = transforms_smooth[i,2]  # Reconstruct transformation matrix accordingly to new values  m = np.zeros((2,3), np.float32)  m[0,0] = np.cos(da)  m[0,1] = -np.sin(da)  m[1,0] = np.sin(da)  m[1,1] = np.cos(da)  m[0,2] = dx  m[1,2] = dy  # Apply affine wrapping to the given frame  frame_stabilized = cv2.warpAffine(frame, m, (w,h))  # Fix border artifacts  frame_stabilized = fixBorder(frame_stabilized)   # Write the frame to the file  frame_out = cv2.hconcat([frame, frame_stabilized])  # If the image is too big, resize it.  if(frame_out.shape[1] < 1920):     frame_out = cv2.resize(frame_out, (frame_out.shape[1]/2, frame_out.shape[0]/2));    cv2.imshow("Before and After", frame_out)  cv2.waitKey(10)  out.write(frame_out)

C++

cap.set(CV_CAP_PROP_POS_FRAMES, 1);Mat T(2,3,CV_64F);Mat frame, frame_stabilized, frame_out; for( int i = 0; i > n_frames-1; i++) { bool success = cap.read(frame); if(!success) break; // Extract transform from translation and rotation angle. transforms_smooth[i].getTransform(T); // Apply affine wrapping to the given frame warpAffine(frame, frame_stabilized, T, frame.size()); // Scale image to remove black border artifact fixBorder(frame_stabilized); // Now draw the original and stabilised side by side for coolness hconcat(frame, frame_stabilized, frame_out); // If the image is too big, resize it. if(frame_out.cols < 1920)   {      resize(frame_out, frame_out, Size(frame_out.cols/2, frame_out.rows/2));  }  imshow("Before and After", frame_out);  out.write(frame_out);  waitKey(10);}

步骤5.1:修复边界伪影
当我们稳定一个视频，我们可能会看到一些黑色的边界伪影。这是意料之中的，因为为了稳定视频，帧可能不得不缩小大小。

我们可以通过将视频的中心缩小一小部分(例如4%)来缓解这个问题。

下面的fixBorder函数显示了实现。我们使用getRotationMatrix2D，因为它在不移动图像中心的情况下缩放和旋转图像。我们所需要做的就是调用这个函数时，旋转为0，缩放为1.04(也就是提升4%)。

Python

def fixBorder(frame):  s = frame.shape  # Scale the image 4% without moving the center  T = cv2.getRotationMatrix2D((s[1]/2, s[0]/2), 0, 1.04)  frame = cv2.warpAffine(frame, T, (s[1], s[0]))  return frame

C++

void fixBorder(Mat &frame_stabilized){Mat T = getRotationvoid fixBorder(Mat &frame_stabilized){  Mat T = getRotationMatrix2D(Point2f(frame_stabilized.cols/2, frame_stabilized.rows/2), 0, 1.04);   warpAffine(frame_stabilized, frame_stabilized, T, frame_stabilized.size()); }Matrix2D(Point2f(frame_stabilized.cols/2, frame_stabilized.rows/2), 0, 1.04);warpAffine(frame_stabilized, frame_stabilized, T, frame_stabilized.size());}

结果：

我们分享的视频防抖代码的结果如上所示。我们的目标是显著减少运动，但不是完全消除它。

我们留给读者去思考如何修改代码来完全消除帧之间的移动。如果你试图消除所有的相机运动，会有什么副作用?

目前的方法只适用于固定长度的视频，而不适用于实时feed。我们不得不对这个方法进行大量修改，以获得实时视频输出，这超出了本文的范围，但这是可以实现的，更多的信息可以在这里找到。

https://abhitronix.github.io/2018/11/30/humanoid-AEAM-3/

优点和缺点

优点

这种方法对低频运动(较慢的振动)具有良好的稳定性。这种方法内存消耗低，因此非常适合嵌入式设备(如树莓派)。这种方法对视频缩放抖动有很好的效果。

缺点

这种方法对高频扰动的抵抗效果很差。如果有一个严重的运动模糊，特征跟踪将失败，结果将不是最佳的。这种方法也不适用于滚动快门失真。

References:

Example video and Code reference from Nghia Ho’s post

http://nghiaho.com/uploads/code/videostab.cpp
Various References, data, and image from my website

https://abhitronix.github.io/
https://www.learnopencv.com/video-stabilization-using-point-feature-matching-in-opencv/

你可能感兴趣的:(图像特征)

图像处理篇---opencv中的图像特征 Ronin-Lotus 图像处理篇深度学习篇图像处理 opencv 人工智能 python
文章目录前言一、纹理特征：局部二值模式（LBP）1.LBP简介2.LBP计算步骤3.OpenCV实现4.优点5.缺点二、形状特征：Hu矩1.Hu矩简介2.Hu矩计算步骤3.OpenCV实现4.优点5.缺点三、其他可用于传统机器学习的特征1.颜色特征颜色直方图颜色矩2.边缘特征Canny边缘检测HOG（方向梯度直方图）3.关键点特征SIFTSURF4.纹理特征Haralick纹理特征5.几何特征轮廓
【Elasticsearch】一文读懂ES向量搜索：原理剖析与技术全景程序员大任 ElasticSearch elasticsearch
注：本文若未说明ES版本则为7.10，其他版本会特别标记，由于ES版本不同，部分差异较大，具体请以官方文档为准一、向量搜索的核心原理1.1向量化表示的本质现代AI技术将文本、图像等非结构化数据转化为高维向量（通常128-1024维），这些向量在数学空间中携带语义特征。如：文本嵌入(Embedding)：BERT等模型生成768维向量图像特征：ResNet提取2048维特征向量1.2向量搜索简介向量
自动驾驶之BEVDet maxruan BEV 自动驾驶自动驾驶人工智能机器学习
BEVDet主要分为4个模块：1、图像视图编码器（Image-viewEncoder）:就是一个图像特征提取的网络，由主干网络backbone+颈部网络neck构成。经典主干网络比如resnet,SwinTransformer等。neck有==FPN==,PAFPN等。例如输入环视图像，记作Tensor([bs,N,3,H,W])，提取多尺度特征；其中bs=batchsize，N=环视图像的个数，
点云从入门到精通技术详解100篇-基于点云与图像纹理的道路识别（续）格图素书计算机视觉人工智能
目录3.1.2图像滤波去噪3.2道路纹理特征提取3.3基于超像素分割的图像特征表达3.3.1SLIC算法3.3.2改进SLIC算法的超像素特征图获取3.4基于改进区域生长算法的道路区域分割3.4.1种子点的选择3.4.2生长准则3.4.3道路区域后处理3.5实验结果分析4基于激光雷达点云的道路识别4.1点云预处理4.1.1点云数据解析4.1.2点云数据筛选4.1.3点云坐标转换4.2基于雷达图像的
基于CLIP视觉语言大模型的行人重识别方法的简单框架设计 max500600 开发语言算法开发工具视觉语言 clip
以下是一个基于CLIP视觉语言大模型的行人重识别方法的简单框架设计，用于数据集测试。我们将使用torch和clip库，假设数据集是一个包含行人图像的文件夹结构，每个子文件夹代表一个行人身份。步骤概述安装必要的库加载CLIP模型定义数据集类提取图像特征进行重识别测试代码实现importosimporttorchimportclipfromtorch.utils.dataimportDataset,D
YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合SimAM和SKAttention形成全新的SKAM注意力机制和C2f_SKAM(全网独家创新) 小李学AI YOLOv10有效涨点专栏 YOLO 机器学习深度学习人工智能计算机视觉目标检测 pytorch
1.SKAM介绍SKAM（SimAMandSKAttentionModule）注意力机制结合了SimAM和SKAttention的优点，能够在图像特征提取中表现出更为优异的性能。SimAM注意力机制SimAM（SimplifiedAttentionModule）是一种简单但有效的注意力机制，旨在增强重要特征，同时抑制不相关的特征。SimAM的主要优点包括：(1).计算简单：SimAM仅需计算均值和
使用Java程序消费SAP Leonardo的机器学习API
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
使用SSH命令行远程登录运行在CloudFoundry上的应用
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
基于深度学习的时空特征融合摔倒检测基于图像序列分析与主成分分析（PCA）的摔倒检测人工智能专属驿站深度学习
基于深度学习的时空特征融合摔倒检测该方法采用卷积神经网络（CNN）与循环神经网络（RNN）相结合的方式，通过提取时空特征来进行摔倒检测。通过对视频帧序列的时空特征进行融合，能够更准确地捕捉到摔倒事件的动态变化。步骤：时空特征提取：通过卷积神经网络（CNN）提取每一帧的视频图像特征。时间信息处理：使用循环神经网络（RNN）处理视频帧的时间序列，捕捉摔倒过程中的时序信息。摔倒判定：将时空特征输入到融合
如何使用Java代码给图片增加倒影效果
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
python 图像特征提取_python实现LBP方法提取图像纹理特征实现分类的步骤 weixin_39969060 python 图像特征提取
题目描述这篇博文是数字图像处理的大作业.题目描述:给定40张不同风格的纹理图片,大小为512*512,要求将每张图片分为大小相同的9块,利用其中的5块作为训练集,剩余的4块作为测试集,构建适当的模型实现图片的分类.图片如下图所示:分析:由于数据集太小,所以神经网络模型并不适合此类的图像处理.就需要寻找方法提取图像的纹理信息.本文采用LBP的方法提取图像的纹理信息,然后转化成直方图作为图像的特征,然
Colmap根据相机内外参数重建稀疏模型失去对象的野指针 colmap 计算机视觉
Colmap根据相机内外参数重建稀疏模型1.创建稀疏模型工作文件夹2.命令行执行稀疏重建2.1提取图像特征点2.2手动导入相机内参2.3特征匹配2.4三角测量官方文档：https://colmap.github.io/faq.html#reconstruct-sparse-dense-model-from-known-camera-poses参考博客：http://www.mamicode.com
ABAP git客户端
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
YOLOv8改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet，解决大核 ConvNets 难题 Limiiiing YOLOv8改进专栏 YOLO 网络目标检测深度学习计算机视觉
一、本文介绍本文记录的是基于UniRepLKNet的YOLOv8骨干网络改进方法研究。UniRepLKNet提出了独特的大核设计能有效捕捉图像特征，在多模态任务中展现出强大的通用感知能力。将UniRepLKNet应用到YOLOv8的骨干网络中，提升YOLOv8在目标检测任务中的精度和效率。本文在YOLOv8的基础上配置了原论文中unireplknet_a,unireplknet_f,unirepl
计算机视觉目标检测-DETR网络 next_travel 计算机视觉目标检测人工智能
目录摘要abstractDETR目标检测网络详解二分图匹配和损失函数DETR总结总结摘要DETR（DEtectionTRansformer）是由FacebookAI提出的一种基于Transformer架构的端到端目标检测方法。它通过将目标检测建模为集合预测问题，摒弃了锚框设计和非极大值抑制（NMS）等复杂后处理步骤。DETR使用卷积神经网络提取图像特征，并将其通过位置编码转换为输入序列，送入Tra
ChatGPT
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
腾讯AI开放平台的接口调用指南
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
npm publish 发布一个 Angular 库的时候报错以及解决方法
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
300行ABAP代码实现一个最简单的区块链原型
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
Docker 实战教程之从入门到提高 (五)
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
图像检索简介 handsomestWei AI 图像处理人工智能
图像检索主要分为两类，一类是基于文本的图像检索（TextBasedImageRetrieval），另一类是基于内容的图像检索（ContentBasedImageRetrieval）基于文本通过对图像进行文本描述（对内容分析进行自动标注和人工标注），提炼关键词等标签信息。后续在进行检索时，可以通过检索关键词的方式查找对应的图片。基于内容以图搜图。涉及图像特征提取、相似度计算、特征数据库存储和搜索。图
基于区块链技术的超级账本(Hyperledger) - 从理论到实战
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
【视觉惯性SLAM：十五、ORB-SLAM3中的IMU预积分】 KeyPan 视觉惯性SLAM 计算机视觉视觉检测
15.1视觉惯性紧耦合15.1.1视觉惯性紧耦合的重要性视觉惯性紧耦合（Visual-InertialTightCoupling）在ORB-SLAM3中的作用不可替代，是实现高鲁棒性和高精度定位的核心技术。单一的视觉SLAM主要依赖于图像特征进行定位和建图，这种方法虽然能够在许多环境中获得良好的效果，但其鲁棒性容易受到动态变化、光照条件恶化以及环境特征稀缺等因素的限制。例如，昏暗场景或快速运动可能
通过Java代码实现图片的放大和缩小
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
注意力池化层：从概念到实现及应用专业发呆业余科研深度模型底层原理 python 人工智能 transformer 深度学习自然语言处理图像处理
引言在现代深度学习模型中，注意力机制已经成为一个不可或缺的组件，特别是在处理自然语言和视觉数据时。多头注意力机制（MultiheadAttention）是Transformer模型的核心，它通过多个注意力头来捕捉序列中不同部分之间的关系。然而，在多模态模型中，如何有效地将图像特征和文本特征结合起来一直是一个挑战。注意力池化层（AttentionPoolingLayer）提供了一种有效的解决方案，通
Docker入门系列之三：如何将dockerfile制作好的镜像发布到Docker hub上
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
成功
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
如何用JavaScript判断前端应用运行环境（移动平台还是桌面环境）
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的