Q-沐风听雨-

Contour Detection and Hierarchical Image Segmentation

本文大部分内容来自下面的参考链接，加上自己对源代码和论文的一些理解。写下来以备后续查找！

一、论文原理分析

算法路线：gPb—->OWT—–>UCM

每一部分的功能：

gPb（Global Pb）：计算每一个pixel作为boundary的可能性，即pixel的weight；
OWT（Oriented Watershed Transform）将上述gPb的结果转换为多个闭合的regions；
UCM（Ultrametric Contour Map）将上述regions集，转换为hierarchical tree。

这里出现了很多名词，如：什么是hierarchical tree？什么是Oriented Watershed Transform。

1.1 gPb（Global Probability of Boundary）

gPb是mPb和sPb的加权和。
mPb是什么？sPb是什么？

- step1：计算G(x,y,θ)
对于每一个pixel，以其为圆心，做一个圆形：

用倾斜角为θ的直径，将圆形划分为两个区域，对于每一个区域中的pixels，做出它们的histogram，如下：

使用histogram数据，计算其卡方距离：

该距离即为G(x,y,θ)，代表pixel(x,y)以θ为方向的gradient magnitude；

- step2：计算mPb
普通的Pb算法，将一幅图片，分解为4个不同的feature channels，分别为brightness、color a、color b以及texture channel，其中前三个channels是基于CIE color space。

而每个pixel的weight就是由这4个channels下计算得到的G(x,y,θ)值的加权和。

针对普通的Pb算法，作者提出了multiscale的方法，即为mPb。

它的原理是在原有Pb算法的基础上，同时使用多个圆形直径长度δ（作者使用三个，[ δ/2 ,δ, 2δ]），针对每一个δ，计算其G（x，y，θ），最终公式如下：

公式中的i代表channel，s代表scale。
意思是，对于每一个pixel，我们计算其在不同直径条件下的每一个feature channel的和，作为其mPb值。
α代表每一个不同直径条件下的每一个feature channel的权重，是针对F-measure进行gradient ascent得到，使用的训练集是BSDS。

- step3：计算sPb
作者首先作出了一个sparse symmetric affinity matrix W，其中每一个元素Wij的计算如下：

i，j代表两个距离不超过半径r（单位：像素，作者在代码中设定r=5）的像素，p是两个像素连成的线段上的任意一个点，找到某两个pixel连成的线段上的pixel的weight的最大值。ρ是常数，作者代码中设定为ρ= 0.1。

该矩阵W代表pixels之间的相似度，通过令：

得到矩阵D，由：

计算得到前n+1个特征向量，代码中作者使用的是n=16.

接着，作者将每一个特征向量视为一幅图片，使用Gaussian Directional Derivative Filters对其进行卷积操作，得到：

从而得到sPb计算公式：

其中的参数：是将特征向量的物理解释问题视为mass-spring system得到的。

- step4：计算gPb
综合mPb和sPb，得到gPb。

β参数前面前文已经解释，参数γ是使用BSDS训练集，通过在
F-measure =
上进行gradient ascent得到。

最后，对于该gPb值进行sigmoid函数变换，使其值处于0-1之间，作为该pixel作为boundary的probability，我在下文都将其称为pixel的weight。

1.2 OWT（Oriented Watershed Transform）

对于每一个pixel，代入八个设定的角度θ∈[0, pi]，取其最大值作为边缘的权重。该E(x,y,θ)即为gPb公式。

这样，每一个pixel均被赋予一个0到1之间的值，其值大小表示该pixel是boundary的可能性。

接着使用WT（Watershed Transform）技术，将以上的输入转化为一系列Po（regions）和Ko（arcs）。如图：

图中，红点为其region的minimal，arcs为其边界。

原来的WT算法，是使用该arc上的pixels的weight的平均值作为其强度。

然而这种方法，会导致一些弱arc的某些pixels因为处于强arc的周边，在计算的过程中，选择了针对强arc的方向θ，从而该pixel的值偏大，于是弱arc的强度也相应偏大。

此句话的意思为：计算某一个arc pixel的值时，有八个方向的权重可以选择，之前的选择方案是无论什么情况下均选择使得E(x,y,θ)最大的θ方向的值，而并没有考虑arc的走势，可能会导致本来值应该较小的元素，因为θ方向E(x,y,θ)值最大，取该方向后，导致计算出来的该像素点的值也偏大

如下图所示，两个石头像的中间，有许多横的强arc：

原图中并没有这些横的强arc边缘，这是不合理的。

作者提出的OWT，是在原来WT的基础上，对所有处在arc上的pixel，重新选择合理的方向θ，计算E（x, y, θ），从而对arc的强度值作调整，方法如下：

这里对所有处在arc上的pixels重新选择方向，计算arc强度，那么如何判断哪些pixels处于arc上呢？使用原始WT计算一遍，得到哪些pixels属于regions，哪些pixels属于arcs，然后对于处于arc上的所有pixels重新计算其权值，计算方法为：选择沿着弧线方向的E（x, y, θ）得到E(x,y)；最后计算每个arc的强度，即arc上所有pixels的weight的平均值。

过程如下：

对于每一个arc，将该arc subdivide（分割）为许多线段，如图：
计算每个线段的方向，使用o(x,y)表示其方向
使用下面的公式，重新计算每一个pixel的gPb（E(x,y)）值：
重新计算每个arc的强度，即取arc上所有pixels的weight的平均值作为arc最终的权重值。

左为修改前，右为修改后：

前面的内容总结为：使用四个通道特征（brightness、color a、color b and texture），三个半径尺寸，计算得到每个像素点在八个方向的权重，该权重大小指示该像素点为边界的可能性大小，即该点值某个方向的值越大，表示该点的为边界的可能性越大；取使得E(x,y,theta)最大的theta，得到gPb，即pixel(x,y)为边界的可能性E(x,y)，以得到的E(x,y)作为输入，使用WT将所有像素点分为Po（regions）和Ko（arcs），原来WT算法中arcs的权重直接采用该arc上所有pixels的权重的均值，现在重新计算arc上每个像素点沿arc方向的E(x,y,o(x,y))的值，然后再取arc上所有pixels的均值作为arc的值。

因为，如果不重新计算，直接取均值，有可能一条弧线上，一个权重较小的点，挨着一个权重较大的点，均值将使得该权重较小点的权重偏大。如图中横线，本来值较小，因为相交点沿红线方向的权重较大，如果相交点取沿红线方向的值，那么弧上点的值取平均的时候，该横线的整体权重被拉大。修改后，相交点，该点沿着红线方向的值较大，沿着横线方向的权重较小，所以横线的整体权重变得相对更加准确些。

为什么要计算一个像素点八个方向的权重？我觉得就是想要知道在哪个方向的时候，该像素点两边的差距最大，即边缘方向的问题，所以八个方向的计算是为了第二步，OWT的使用。
WT，分水岭算法，使用E(x,y)作为其输入，将所有像素点分为Po（regions）和Ko（arcs），原来的arcs的权重直接采用该arc上所有pixels的权重的均值，现在重新计算arc上每个像素点沿arc方向的E(x,y,o(x,y))的值，然后再取arc上所有pixels的均值作为arc的值。

1.3 UCM（Ultrametric Contour Map）

为了在不同细节层次上对图像进行segmentation，作者使用了Ultrametric Contour Map（UCM）。

OWT算法已经output出细节度最高的regions集合，接下来，作者作出一个graph，如下：

其中，Po是regions，Ko是arcs，W(Ko)是该arc的强度。该图以region作为node，若两region相邻，则其对应的两个node相连，连接强度为W(Ko);

下一步，设两两regions之间的dissimilarity为其共同arc的强度平均值。

使用一种基于graph的merging技术，以两两regions之间的dissimilarity作为衡量标准，将regions按照dissimilarity升序排列，依次将dissimilarity小的region合并，直到最后只有一个region，这样，就完成了hierarchical tree的建设。

Hierarchical Tree的构建过程，类似于Huffman树的构建过程

在这颗树中，因为生成树的每一个步骤，都是去除dissimilarity最小的arc，从而将两个region合并，因此，树中某个region元素的高度就代表着合并得到该region时，去除的arc的强度值大小，即：

H(R) = W(C)

因此，可以得到一个矩阵：

该矩阵的元素代表细节度最高的segmentation下，所有regions两两之间的dissimilarity，其值由两region的最小公共所属region的高度

决定。

元素值计算公式如下：

总结：Hierarchical Tree
Hierarchical Tree将OWT得到的结果，以regions为顶点，arc的强度为权重，使用graph的merging技术，类似于Huffman树的构建过程，每次从候选集中选择两个最小的node合并，本文即为每次从候选regions中选择两个拥有最小dissimilarity的regions，即两个最相近的regions。
本文设两两regions之间的dissimilarity为其共同arc的强度平均值
如果两个regions相邻，则其dissimilarity即为两个regions共同arc的强度；如果两个regions不相邻，则取其公共区域的高度，如下图所示：

设：
D（R1，R）=avg（arc1） %R1和R的距离为两个regions公共弧的平均值
D（R，R2）=avg（arc2）
那么，D（R1，R2）= max（D（R1，R），D（R，R2））
因为，假设arc1的平均值小于arc2，即D（R1，R）< D（R，R2）,那么R和R1会先合并，设合并后的regions称为R3，那么R3与R2之间的dissimilarity即为arc2的平均值，因为R3和R2的公共弧为arc2。所以，R1和R2之间的dissimilarity如上。

对上面两个公式的计算仍然是不甚理解！！！

这是一个Ultrametric Contour Map（UCM）

因此，可以设定不同的阈值k，从而得到不同细节度的segmentation。

1.4 总结

作者在原有的方法上，主要做了这四个方面的革新：

在contour detector部分中的mPb环节引入了multiscale的概念，提出了mPb算法，可以将其视作普通Pb算法的加强版，公式如下：
在contour detector部分中的sPb环节，对特征向量采取Gaussian directional derivative filters卷积操作，公式如下：
提出了OWT（Oriented Watershed Transform），对原来算法中受强boundary影响而存在问题的pixel，结合其所属arc的方向再次计算其weight。
将OWT生成的region集合组合成UCM（Ultrametric Contour Map），使得我们可以通过阈值k来输出不同细节度的图像轮廓。

二、部分代码说明

如果需要分割效果图，运行BSR/grouping中代码，如果要看P-R曲线图就运行BSR/bench代码。

想要理解原理，最好下载源码。

在grouping中有文件夹：data、interactive、lib和source；文件example.m、run_bsds500.m
data文件夹下：包含运行程序要输入的源文件和输出文件；
lib文件夹：.m中使用addpath指令，将该目录下的文件加入到工作目录中，其下文件为使用mex编译过的C++文件或要使用的.m文件。
source文件夹下：源文件，lib中某些文件是使用source中的源文件编译所得。

下面主要对该接口函数内部实现进行简要说明：
接口函数的注释分为以下几个部分：

/*Compute bg histogram smoothing kernel*/
/*get_image*/
/*mirror border*/
/*convert to grayscale*/
/*gamma correct*/
/*convert to Lab*/
/*quantize color channels*/
/*compute texton filter set*/
/*compute textons*/
/*return textons*/
/*compute bg at each radius*/
/*compute cga at each radius*/
/*compute cgb at each radius*/
/*compute tg at each radius*/
/*return textons*/

分别对应程序运行中输出的内容为：

lib_image命名空间下的函数，如
lib_image::grayscale()
lib_image类定义在：
BSR/grouping/source/gpb_src/include/math/libraries/lib_image.hh中；
相应的函数实现在
BSR/grouping/source/gpb_src/src/math/libraries/lib_image.cc中。

其中的一些代码实现如下所示，代码布置比较容易看懂，作者将相关函数的实现集中在一起，并有较为详细的说明。

/*Image processing functions*/
class lib_image{
    public:

    /***********************************************
        **Image color space transforms.**
          -----------------------------
     Input RGB images should be scaled so that range 
     of possible values for each color channel is [0,1].
    ************************************************/
    /*Compute a grayscale image from an RGB image*/
    static matrix<> grayscale(
        const matrix<> &, /*r*/
        const matrix<> &, /*g*/
        const matrix<> & /*b*/
        );
    /*Normalize a grayscale image so that intensity values lie in [0,1]*/
    static void grayscale_normalize(matrix<> &);
    /*Normalize a grayscale image so that intensity values span the full [0,1] range*/
    static void grayscale_normalize_stretch(matrix<> &);

    /*Gamma correct the RGB image using the given correction value*/
    static void rgb_gamma_correct(
        matrix<>&, /*r*/
        matrix<>&, /*g*/
        matrix<>&, /*b*/
        double /*gamma*/
    );

    /*Normalize an Lab image so that values for each channel lie in [0,1]*/
    static void lab_normalize(
        matrix<>&,/*l*/
        matrix<>&,/*a*/
        matrix<>&/*b*/
    );

    /*Convert from RGB color space to XYZ color space*/
    static void rgb_to_xyz(
        matrix<>&, /*r (input) --> x(output)*/
        matrix<>&, /*g (input) --> y(output)*/
        matrix<>&  /*b (input) --> z(output)*/
    );

    /*Convert from RGB color space to Lab color space*/
    static void rgb_to_lab(
        matrix<>&, /*r (input) --> l(output)*/
        matrix<>&, /*g (input) --> a(output)*/
        matrix<>&  /*b (input) --> b(output)*/
    );
    ......

    /*  **用到的几个函数解析.** */

    /***********************************************
        **Gaussian Kernels.**
          -----------------------------
    The kernels are evaluated at integer coordinates in the range[-s,s] (in the 1D case) or 
    [-s_x,s_x]*[-s_y,s_y](in the 2D case), where s is the specified support.
    ************************************************/
    //一维的情形
    /* The length of the returned vector is 2*support + 1
    the support defaults to 3*sigma.
    The kernel is normalized to have unit L1 norm.
    */
    static matrix<> gaussian(
        double = 1, /*sigma*/
        unsigned int =0, /*derivative(0,1,2)*/
        bool = false /*take hilbert transform?*/
    );
    static matrix<> gaussian(
        double, /*sigma*/
        unsigned int , /*derivative(0,1,2)*/
        bool,  /*take hilbert transform?*/
        unsigned long /*support*/
    );
    //二维的情形
    static matrix gaussian_2D(
        double =1, /*sigma x*/
        double =1, /*sigma y*/
        double =0, /*orientation*/
        unsigned int =0, /*derivation in y-direction(0,1 or 2)*/
        bool =false /*take hilbert transform in y-direction?*/
    );
    static matrix gaussian_2D(
        double , /*sigma x*/
        double , /*sigma y*/
        double , /*orientation*/
        unsigned int; /*derivation in y-direction(0,1 or 2)*/
        bool , /*take hilbert transform in y-direction?*/
        unsigned long, /*x support*/
        unsigned long /*y support*/
    );
    /***********************************************
    Quantize image values into uniformly spaced bins in [0,1].
    Return the assignments and (optionally) bin centroids.
    ************************************************/
    static matrixlong> quantize_values(
        const matrix<>&,   /*image*/
        unsigned long      /* number of bins */ 
    );
    /***********************************************
        **Difference of histogram(2D).**
          -----------------------------

    ************************************************/
}

auto_collection< matrix<>, array_list< matrix<> > > lib_image::hist_gradient_2D(
   const matrix<unsigned long>&                 labels,
   unsigned long                                r,
   unsigned long                                n_ori,
   const matrix<>&                              smoothing_kernel,
   const distanceable_functor,double>& f_dist)
{
   /* construct weight matrix for circular disc */
   matrix<> weights = weight_matrix_disc(r);
   /* compute oriented gradient histograms */
   return lib_image::hist_gradient_2D(
      labels, weights, n_ori, smoothing_kernel, f_dist
   );
}

/*
 * Construct weight matrix for circular disc of the given radius.
 */
matrix<> weight_matrix_disc(unsigned long r) {
   /* initialize matrix */
   unsigned long size = 2*r + 1;
   matrix<> weights(size, size);
   /* set values in disc to 1 */
   long radius = static_cast<long>(r);
   long r_sq = radius * radius;
   unsigned long ind = 0;
   for (long x = -radius; x <= radius; x++) {
      long x_sq = x * x;
      for (long y = -radius; y <= radius; y++) {
         /* check if index is within disc */
         long y_sq = y * y;
         if ((x_sq + y_sq) <= r_sq)
            weights[ind] = 1;
         /* increment linear index */
         ind++;
      }
   }
   return weights;
}

参考文献

1、作者公布文章和资源下载地址为：
http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html
2、 Contour Detection and Hierarchical Image Segmentation 源码编译运行
http://blog.csdn.net/blitzskies/article/details/19686179
其中包括连接，对bench的测试，即P-R曲线的测试。
3、Contour Detection and Hierarchical Image Segmentation 伯克利的一篇图像分割论文理解与学习
http://blog.csdn.net/alex_luodazhi/article/details/47337327

遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
图像处理的作用（6幅图诗）静月园
静月园著2020年1月️4日1自然力出现的图形画面，即无序，又有形。奇妙令人联想无限。好象理石花纹，又类似草木树植。2为何要如此色彩？好奇怪哦！自然的物态鬼斧神工。3孩童们信手涂鸦，但是脑控制了手的动作，所绘画的物体形状代表了孩子们对环境人物的所看，所听，所理解的形状。脑的心理活动影像，被转换成手的动作输出到笔尖的移动动作上，于是我们看到了简单的结构形状图。而对于我们的写作者来说，我们的作家脑内有
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
opencv 之实战项目识别银行卡上的数字 SEVEN-YEARS opencv 计算机视觉人工智能
OpenCV之实战项目：识别银行卡上的数字引言在日常生活中，银行卡的识别是一个常见的需求，特别是在金融领域。本实战项目旨在使用OpenCV库来识别银行卡上的数字。我们将通过模板匹配的方法，结合图像处理技术，来准确识别银行卡上的数字序列。项目准备本项目需要安装Python和OpenCV库。确保已经安装了必要的库，并准备好银行卡图像和数字模板图像。实验素材定义函数importcv2defsort_co
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
MATLAB车牌定位和识别系统清风明月来几时图像算法处理 matlab 开发语言
有很多方法可以实现MATLAB车牌的定位和识别系统。以下是一种可能的实现步骤：车牌定位：使用图像处理技术（如边缘检测、区域生长或颜色分割）来检测图像中的车牌区域。使用形态学操作来排除不符合车牌形状的区域。对车牌区域进行裁剪或调整大小，以便后续的识别。车牌识别：将车牌图像转换为灰度图像。使用图像处理技术（如二值化、滤波或增强）来减少噪音并突出字符。使用字符分割算法将车牌中的字符分开。使用特征提取方法
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
直方图匹配（Histogram Matching）姜太公钓鲸233 计算机视觉人工智能机器学习
直方图匹配（HistogramMatching），也被称为直方图规定化（HistogramSpecification）或直方图修正（HistogramEqualization），是一种图像处理技术，用于调整图像的直方图，以使其与某个目标直方图相匹配。目标直方图通常是用户定义的或者是希望获得的期望分布。直方图匹配的目标是改变图像的像素值分布，从而使其在视觉上更接近目标直方图。这对于图像增强、风格迁移
uint8 姜太公钓鲸233 python numpy
无符号8位整数（uint8）是一种数据类型，通常用于表示整数，但它不包括负数，只能表示非负的整数值。它的范围是从0到255，共有256个不同的可能取值。在计算机中，整数数据类型可以分为有符号和无符号。有符号整数可以表示正数、负数和零，而无符号整数只能表示非负的整数。在图像处理中，无符号8位整数通常用于表示灰度图像的像素值。一个像素的灰度值代表了图像中对应点的亮度强度，通常从0（黑色）到255（白色
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
动手学深度学习（pytorch土堆）-03常见的Transforms #include<菜鸡> 深度学习深度学习 pytorch 人工智能
Composetransforms.Compose是PyTorch中的一个函数，用于将多个图像变换操作组合在一起，形成一个变换流水线。这样可以将一系列的图像处理操作整合为一个步骤，便于对图像进行批量预处理或增强。基本用法transforms.Compose接受一个列表，列表中的每个元素是一个变换操作。这些操作会按照给定的顺序依次作用在输入的图像上。Example:>>>transforms.Com
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
数字图像处理（一系列对图像进行处理、分析和改进的技术）编程日记✧ 智能医疗计算机视觉图像处理人工智能
数字图像处理是指对图像进行一系列的数学和算法处理，以增强、分析或理解图像的内容。这些处理包括从基础的像素操作到复杂的高维变换和机器学习模型。1.图像降噪在图像获取和传输过程中，往往会引入噪声。降噪技术用于减少这些噪声，同时尽量保持图像的细节。常见方法有：均值滤波：将像素邻域内的像素值取平均值，从而平滑图像。这种方法简单但可能会模糊边缘。高斯滤波：使用高斯函数为权重对像素进行加权平均，可以更好地平滑
python图像处理的图像几何变换 yava_free 图像处理 python 计算机视觉
一.图像几何变换图像几何变换不改变图像的像素值，在图像平面上进行像素变换。适当的几何变换可以最大程度地消除由于成像角度、透视关系乃至镜头自身原因所造成的几何失真所产生的负面影响。几何变换常常作为图像处理应用的预处理步骤，是图像归一化的核心工作之一[1]。一个几何变换需要两部分运算：空间变换：包括平移、缩放、旋转和正平行投影等，需要用它来表示输出图像与输入图像之间的像素映射关系。灰度插值算法：按照这
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
Python中cv2 (OpenCV, opencv-python)库的安装、使用方法demo最新详细教程猫头虎 AI人工智能技术专栏 python opencv 开发语言计算机视觉语音识别目标检测神经网络
Python中cv2(OpenCV,opencv-python)库的安装、使用方法demo最新详细教程文章目录Python中cv2(OpenCV,opencv-python)库的安装、使用方法demo最新详细教程摘要引言正文OpenCV库概述安装OpenCV环境要求安装命令验证安装基础使用方法读取和显示图像图像处理示例❓常见问题解答小结参考资料表格总结总结和未来展望温馨提示摘要本文全面介绍了Pyt
c#视觉应用开发中如何使用Emgu CV在C#中进行图像处理？ openwin_top C#视觉应用开发问题系列 c#图像处理开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位EmguCV是OpenCV的.NET包装器，可以让开发者在.NET语言（如C#）中使用OpenCV的功能进行图像处理。在进行图像处理时，EmguCV提供了丰富的API可以使用。以下是使用EmguCV
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR