计算机视觉life

代码解读 | VINS 视觉前端

本文作者是计算机视觉life公众号成员蔡量力，由于格式问题部分内容显示可能有问题，更好的阅读体验，请查看原文链接：代码解读 | VINS 视觉前端

vins前端概述

在搞清楚VINS前端之前，首先要搞清楚什么是SLAM前端？

SLAM的前端、后端系统本身没有特别明确的划分，但是在实际研究中根据处理的先后顺序一般认为特征点提取和跟踪为前端部分，然后利用前端获取的数据进行优化、回环检测等操作，从而将优化、回环检测等作为后端。

而在VINSMONO中将视觉跟踪模块（featuretrackers）为其前端。在视觉跟踪模块中，首先，对于每一幅新图像，KLT稀疏光流算法对现有特征进行跟踪。然后，检测新的角点特征以保证每个图像特征的最小数目，并设置两个相邻特征之间像素的最小间隔来执行均匀的特征分布。接着，将二维特征点去畸变，然后在通过外点剔除后投影到一个单位球面上。最后，利用基本矩阵模型的RANSAC算法进行外点剔除。

VINS_MONO原文中还将关键帧的选取作为前端分，本文暂不讨论，后续文章会详细介绍。

VINS-Mono将前端封装为一个ROS节点，该节点的实现在feature_tracker目录下的src中，src里共有3个头文件和3个源文件：

featuretrackernode.cpp构造了一个ROS节点featuretrackernode，该节点订阅相机图像话题数据后，提取特征点，然后用KLT光流进行特征点跟踪。featuretracker节点将跟踪的特征点作为话题进行发布，供后端ROS节点使用。同时featuretracker_node还会发布标记了特征点的图片，可供Rviz显示以供调试。如下表所示:

操作	话题	消息类型	功能
Subscribe	image	sensor_msgs::ImageConstPtr	订阅原始图像，传给回调函数
Publish	feature	sensor_msgs::PointCloud	跟踪的特征点，供后端优化使用
Publish	feature_img	sensor_msgs::Image	跟踪特征点图片，输出给RVIZ，调试用

featuretracker.h和featuretracker.cpp实现了一个类FeatureTracker，用来完成特征点提取和特征点跟踪等主要功能，该类中主要函数和实现的功能如下：

函数	功能
bool inBorder()	判断跟踪的特征点是否在图像边界内
void reduceVector()	去除无法跟踪的特征点
void FeatureTracker::setMask()	对跟踪点进行排序并去除密集点
void FeatureTracker::addPoints()	添将新检测到的特征点n_pts
void FeatureTracker::readImage()	对图像使用光流法进行特征点跟踪
void FeatureTracker::rejectWithF()	利用F矩阵剔除外点
bool FeatureTracker::updateID()	更新特征点id
void FeatureTracker::readIntrinsicParameter()	读取相机内参
void FeatureTracker::showUndistortion()	显示去畸变矫正后的特征点
void FeatureTracker::undistortedPoints()	对角点进行去畸变矫正，并计算每个角点的速度

tictoc.h中是作者自己封装的一个类TICTOC，用来计时；
parameters.h和parameters.cpp处理前端中需要用到的一些参数；

流程图

代码解读

featuretrackernode系统入口main() 函数：

ROS初始化和输出调试信息：

   //ros初始化和设置句柄
   ros::init(argc, argv, "feature_tracker");
   ros::NodeHandle n("~");
   //设置logger的级别。 只有级别大于或等于level的日志记录消息才会得到处理。
   ros::console::set_logger_level(ROSCONSOLE_DEFAULT_NAME, ros::console::levels::Info);

读取配置参数：

   //读取config->euroc->euroc_config.yaml中的一些配置参数
   readParameters(n);

读取相机内参读取每个相机对应内参，单目时NUMOFCAM=1：

   for (int i = 0; i < NUM_OF_CAM; i  ) 
       trackerData[i].readIntrinsicParameter(CAM_NAMES[i]);

判断是否加入鱼眼mask来去除边缘噪声
订阅话题IMAGE_TOPIC，当有图像进来的时候执行回调函数：

   ros::Subscriber sub_img = n.subscribe(IMAGE_TOPIC, 100, img_callback);

将处理完的图像信息用PointCloud实例featurepoints和Image的实例ptr消息类型，发布到"feature"和"featureimg"的topic

   pub_img = n.advertise("feature", 1000);
   pub_match = n.advertise("feature_img",1000);
   pub_restart = n.advertise("restart",1000);

回调函数imf_callback

判断是否为第一帧，若为第一帧，将该帧的时间赋给 firstimagetime和lastimagetime ,然后返回

   if(first_image_flag)
       {
           first_image_flag = false;
           first_image_time = img_msg->header.stamp.toSec();//记录图像帧的时间
           last_image_time = img_msg->header.stamp.toSec();
           return;
       }

通过判断时间间隔，有问题则restart

   if (img_msg->header.stamp.toSec() - last_image_time > 1.0 || img_msg->header.stamp.toSec() < last_image_time)

发布频率控制（不是每来一张图像都要发布，但是都要传入readImage()进行处理），保证每秒钟处理的图像不超过FREQ，此处为每秒10帧

   if (round(1.0 * pub_count / (img_msg->header.stamp.toSec() - first_image_time)) <= FREQ)
   {
       PUB_THIS_FRAME = true;
       // 时间间隔内的发布频率十分接近设定频率时，更新时间间隔起始时刻，并将数据发布次数置0
      if (abs(1.0 * pub_count / (img_msg->header.stamp.toSec() - first_image_time) - FREQ) < 0.01 * FREQ)
       {
       first_image_time = img_msg->header.stamp.toSec();
       pub_count = 0;
       }
   }
   else
       PUB_THIS_FRAME = false;

将图像编码8UC1转换为mono8
处理图片：readImage()
判断是否显示去畸变矫正后的特征点
更新全局ID，将新提取的特征点赋予全局id

   for (unsigned int i = 0;; i  )
   {
       bool completed = false;
       for (int j = 0; j < NUM_OF_CAM; j  )
           if (j != 1 || !STEREO_TRACK)
               completed |= trackerData[j].updateID(i);
       if (!completed)
           break;
   }

将特征点id，矫正后归一化平面的3D点(x,y,z=1)，像素2D点(u,v)，像素的速度(vx,vy)，封装成sensormsgs::PointCloudPtr类型的featurepoints实例中，发布到pubimg，将图像封装到cvbridge::cvtColor类型的ptr实例中发布到pub_match
发布消息的数据：

pubimg.publish(featurepoints)

pub_match.publish(ptr->toImageMsg())

readimage()

判断EQUALIZE的值，决定是否对图像进行直方图均衡化处理：createCLAHE()
若为第一次读入图片，则：previmg = curimg = forw_img = img；若不是第一帧，则：forw_img = img，其中curimg 和 forwimg 分别是光流跟踪的前后两帧，forwimg 才是真正的当前帧，curimg 实际上是上一帧，prev_img 是上一次发布的帧。

   prev_img = cur_img = forw_img = img;//避免后面使用到这些数据时，它们是空的

调用 cv::calcOpticalFlowPyrLK()进行光流跟踪，跟踪前一帧的特征点 curpts 得到 forwpts，根据 status 把跟踪失败的点剔除(注意 prev, cur, forw, ids, track_cnt都要剔除)，而且还需要将跟踪到图像边界外的点剔除。

   cv::calcOpticalFlowPyrLK(cur_img, forw_img, cur_pts, forw_pts, status, err, cv::Size(21, 21), 3);

判断是否需要发布该帧图像：

否(PUBTHISFRAME=0)：当前帧 forw 的数据赋给上一帧 cur，然后在这一步就结束了。

是(PUBTHISFRAME=0)：

调用rejectWithF()对prevpts和forwpts做RANSAC剔除outlier，函数里面主要是调用了cv::findFundamentalMat() 函数，然后将然后所有剩下的特征点的 trackcnt 加1，trackcnt数值越大，说明被追踪得越久。

      void FeatureTracker::rejectWithF()
      {
          if (forw_pts.size() >= 8)
          {
              ROS_DEBUG("FM ransac begins");
              TicToc t_f;
      
              vector un_cur_pts(cur_pts.size()), un_forw_pts(forw_pts.size());
              for (unsigned int i = 0; i < cur_pts.size(); i  )
              {
      
                  Eigen::Vector3d tmp_p;
                  //根据不同的相机模型将二维坐标转换到三维坐标
                  m_camera->liftProjective(Eigen::Vector2d(cur_pts[i].x, cur_pts[i].y), tmp_p);
                  //转换为归一化像素坐标
                  tmp_p.x() = FOCAL_LENGTH * tmp_p.x() / tmp_p.z()   COL / 2.0;
                  tmp_p.y() = FOCAL_LENGTH * tmp_p.y() / tmp_p.z()   ROW / 2.0;
                  un_cur_pts[i] = cv::Point2f(tmp_p.x(), tmp_p.y());
      
                  m_camera->liftProjective(Eigen::Vector2d(forw_pts[i].x, forw_pts[i].y), tmp_p);
                  tmp_p.x() = FOCAL_LENGTH * tmp_p.x() / tmp_p.z()   COL / 2.0;
                  tmp_p.y() = FOCAL_LENGTH * tmp_p.y() / tmp_p.z()   ROW / 2.0;
                  un_forw_pts[i] = cv::Point2f(tmp_p.x(), tmp_p.y());
              }
      
              vector status;
              //调用cv::findFundamentalMat对un_cur_pts和un_forw_pts计算F矩阵
              cv::findFundamentalMat(un_cur_pts, un_forw_pts, cv::FM_RANSAC, F_THRESHOLD, 0.99, status);
              int size_a = cur_pts.size();
              reduceVector(prev_pts, status);
              reduceVector(cur_pts, status);
              reduceVector(forw_pts, status);
              reduceVector(cur_un_pts, status);
              reduceVector(ids, status);
              reduceVector(track_cnt, status);
              ROS_DEBUG("FM ransac: %d -> %lu: %f", size_a, forw_pts.size(), 1.0 * forw_pts.size() / size_a);
              ROS_DEBUG("FM ransac costs: %fms", t_f.toc());
          }
      }

调用setMask()函数，先对跟踪到的特征点 forwpts 按照跟踪次数降序排列(认为特征点被跟踪到的次数越多越好)，然后遍历这个降序排列，对于遍历的每一个特征点，在 mask中将该点周围半径为 MINDIST=30 的区域设置为 0，在后续的遍历过程中，不再选择该区域内的点。
在mask中不为0的区域，调用goodFeaturesToTrack提取新的角点npts，通过addPoints()函数push到forwpts中，id初始化-1，track_cnt初始化为1（由于跟踪过程中，上一帧特征点由于各种原因无法被跟踪，而且为了保证特征点均匀分布而剔除了一些特征点，如果不补充新的特征点，那么每一帧中特征点的数量会越来越少）。

      cv::goodFeaturesToTrack(forw_img, n_pts, MAX_CNT - forw_pts.size(), 0.01, MIN_DIST, mask);

调用undistortedPoints() 函数根据不同的相机模型进行去畸变矫正和深度归一化，计算速度。

reference

https://github.com/QingSimon/VINS-Mono-code-annotation/blob/master/VINS-Mono详解.pdf
https://blog.csdn.net/wangshuailpp/article/details/78461171
https://blog.csdn.net/qq_41839222/article/details/85797156
https://qingsimon.github.io/post/
关注公众号，点击“学习圈子”，“SLAM入门“”，从零开始学习三维视觉核心技术SLAM，3天内无条件退款。早就是优势，学习切忌单打独斗，这里有教程资料、练习作业、答疑解惑等，优质学习圈帮你少走弯路，快速入门！

推荐阅读

如何从零开始系统化学习视觉SLAM？从零开始一起学习SLAM | 为什么要学SLAM？从零开始一起学习SLAM | 学习SLAM到底需要学什么？从零开始一起学习SLAM | SLAM有什么用？从零开始一起学习SLAM | C 新特性要不要学？从零开始一起学习SLAM | 为什么要用齐次坐标？从零开始一起学习SLAM | 三维空间刚体的旋转从零开始一起学习SLAM | 为啥需要李群与李代数？从零开始一起学习SLAM | 相机成像模型从零开始一起学习SLAM | 不推公式，如何真正理解对极约束?从零开始一起学习SLAM | 神奇的单应矩阵从零开始一起学习SLAM | 你好，点云从零开始一起学习SLAM | 给点云加个滤网从零开始一起学习SLAM | 点云平滑法线估计从零开始一起学习SLAM | 点云到网格的进化从零开始一起学习SLAM | 理解图优化，一步步带你看懂g2o代码从零开始一起学习SLAM | 掌握g2o顶点编程套路从零开始一起学习SLAM | 掌握g2o边的代码套路从零开始一起学习SLAM | 用四元数插值来对齐IMU和图像帧零基础小白，如何入门计算机视觉？SLAM领域牛人、牛实验室、牛研究成果梳理我用MATLAB撸了一个2D LiDAR SLAM可视化理解四元数，愿你不再掉头发最近一年语义SLAM有哪些代表性工作？视觉SLAM技术综述汇总 | VIO、激光SLAM相关论文分类集锦研究SLAM，对编程的要求有多高？2018年SLAM、三维视觉方向求职经验分享2018年SLAM、三维视觉方向求职经验分享深度学习遇到SLAM | 如何评价基于深度学习的DeepVO，VINet，VidLoc？AI资源对接需求汇总：第1期AI资源对接需求汇总：第2期AI资源对接需求汇总：第3期
计算机视觉是人工智能之眼。公众号已原创170篇文章，兼具系统性，严谨性，易读性，菜单栏点击“汇总分类”查看原创系列包括：三维视觉、视觉SLAM、深度学习、机器学习、深度相机、入门科普、CV方向简介、手机双摄、全景相机、相机标定、医学图像、前沿会议、机器人、ARVR、行业趋势等。同时有入门基础、项目实战、面试经验、教学资料等干货。一键关注星标，加技术交流群，一起进步。

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
导致格式错误的 Lambda 代理响应的原因以及如何修复它 zqhdz米时空汇编
当人们尝试使用AWSAPIGateway和AWSLambda构建无服务器应用程序时，经常出现的一个问题是_由于配置错误而执行失败：Lambda代理响应格式错误。_没有什么比通用错误消息更糟糕的了，它们不会告诉您解决问题所需的任何内容，对吧？AWS并不是以其错误消息设计而闻名，如果甚至可以这样称呼它的话，更不用说为您提供解决问题的方法了。那么如何修复这个Lambda错误以及是什么原因造成的呢？花椒壳
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
xwiki html和css,MediaWiki vs. XWiki Ake阿科多语言信息技术编程数据库操作系统
140Afar,Abkhazian,Afrikaans,Amharic,Arabic,Assamese,Aymara,Azerbaijani,Bashkir,Byelorussian,Bulgarian,Bihari,Bislama,Bengali;Bangla,Tibetan,Breton,Catalan,Corsican,Czech,Welsh,Danish,German,Bhutani,Gr
2021-07-07 潇洒二爷
一辆特斯拉“花格子S型”小车，突然起火，电子技术的车门也失灵TeslaModelSPlaidbrokeintofirewithfailureofelctronicdoors一辆“花格子牌”（ModelSPlaid）特斯拉轿车，在6月29日这天，车主正在路上行驶，突然烈焰腾飞，他的代理律师说，他被短时间困在车内，因为几个电动门都打不开。事情在几天前发生于费城外，这名男子拿到这款特斯拉之后，号称是世界
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS