CleMints

计算机视觉基础-图像分割(阈值化)

Task05 OpenCV框架实现基于阈值化的图像分割

一、前言
二、阈值化图像分割
- 2.1 原理
- 2.2 基本全局阈值处理
- 2.3 OTSU(最大类间方差法)
- 2.4 自适应阈值分割法
- 2.5 最大熵阈值分割算法
三、基于OpenCV的C++代码实现
- 3.1基本全局阈值处理（含噪声）：
- 3.2Ostu最大类间方差法
- 3.2最大熵阈值分割算法

一、前言

图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或相似性，而在不同区域间表现出明显的不同。简单的说就是在一副图像中，把目标从背景中分离出来。对于灰度图像来说，区域内部的像素一般具有灰度相似性，而在区域的边界上一般具有灰度不连续性。

一般来说，图像分割是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。到目前为止，图像分割可以分为两大方向：传统分割方法和深度学习的分割方法。
传统分割算法主要有4种，分为：

基于阈值的分割方法
基于区域的图像分割方法
基于边缘检测的分割方法
结合特定工具的图像分割算法(小波变换、遗传算法等)

深度学习的分割方法主要有：

基于特征编码（feature encoder based）：VGGnet、ResNet以及改进模型等
基于区域选择（regional proposal based）：R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN以及改进模型等
基于RNN的图像分割：ReSeg模型等
基于上采样/反卷积的分割方法：FCN、SetNet
基于提高特征分辨率的分割方法：Dilated Convolution模式
基于特征增强的分割方法
基于CRF/MRF的方法

下面介绍传统数字图像分割方法中的基于阈值化的方法。

二、阈值化图像分割

2.1 原理

阈值化图像分割是通过设定不同的特征阈值(Feature Threshold)，把图像象素点分为若干类，这些特征阈值通常来自原始图像的灰度或彩色特征。

图像阈值化的目的是要按照灰度级，对像素集合进行一个划分，得到的每个子集形成一个与现实景物相对应的区域，各个区域内部具有一致的属性，而相邻区域不具有这种一致属性。这样的划分可以通过从灰度级出发选取一个或多个阈值来实现。单个阈值时，对于原始图像 $f (x ， y)$ ，按照一定的准则找到特征值T，可将图像分割为黑(灰度值为0)白(灰度值为1)两个部分，即为我们通常所说的图像二值化，这样就可以单独处理我们感兴趣的黑色或白色区域了，公式可表示为：

可见，阈值分割算法的关键是按一定的准则确定阈值，如果能确定一个合适的阈值就可准确地将图像分割开来。阈值确定后，将阈值与像素点的灰度值逐个进行比较，从而得到阈值化图像。

阈值分割的优点是计算简单、运算效率较高、速度快，并且特别适用于目标和背景占据不同灰度级范围的图像。

根据《数字图像处理(第三版)》和网上相关博客参考，介绍一种常用的阈值化图像分割方法，包括全局阈值、自适应阈值、最佳阈值及改进方法等等。

2.2 基本全局阈值处理

一般选取阈值就是图像直方图的视觉检测。将区分度大的两个灰度级部分之间进行划分，取T为阈值来分开它们。在此基础上学习一种自动地选择阈值的算法，方法如下：

针对全局阈值选择初始估计值 $T$ ；
用T分割图像，G1是所有灰度值大于T的像素组成，G2是所有灰度值小于等于T的像素组成；
3.分别计算G1和G2区域内的平均灰度值 $m 1$ 和 $m 2$ ；
4.计算出新的阈值:
$T=\frac{1}{2}(m1+m2)$
重复步骤2.-4.，直到在连续的重复中，T的差异比预先设定的参数小为止；

2.3 OTSU(最大类间方差法)

OTSU算法也称最大类间差法，有时也称之为大津算法，由大津于1979年提出。它是按图像的灰度特性,将图像分成背景和前景两部分。因方差是灰度分布均匀性的一种度量,背景和前景之间的类间方差越大,说明构成图像的两部分的差别越大,当部分前景错分为背景或部分背景错分为前景都会导致两部分差别变小。因此,使类间方差最大的分割意味着错分概率最小。

OSTU算法的特点：

优点：计算简单，不受图像亮度和对比度的影响
缺点：对图像噪声敏感；只能针对单一目标分割；当目标和背景大小比例悬殊、类间方差函数可能呈现双峰或者多峰，这个时候效果不好。

原理：
假设一幅大小为 $M \times N$ 像素的数字图像有 $L（{0,1,2...,L-1}）$ 个不同的灰度级， $n_i$ 表示灰度级为 $i$ 的像素数，则灰度级概率可表示为为： $p_i=n_i/MN$ ，且
$\sum_{i=1}^{L-1}p_{i}=1,p_i\geqslant 0$

现在，若可选择一个阈值 $T ( k ) = k ( 0 < k < L − 1 ) T(k)=k(0，使得它把输入图像阈值化处理为两类 C 1 C_1 和 C 2 C_2 ，其中 C 1 C_1 由图像中灰度值在范围 [ 0 , k ] [0,k] 内的所有像素组成， C 2 C_2 由灰度值在范围 [ k + 1 , L − 1 ] [k+1,L-1] 内的所有像素组成，则可得像素被分为 C 1 、 C 2 C_1、C_2 中的概率 P 1 ( k ) 、 P 2 ( k ) P_1(k)、P_2(k) 分别为： P 1 ( k ) = ∑ i = 0 k p i P_1(k)=\sum_{i=0}^{k}p_i P 2 ( k ) = ∑ i = k + 1 L − 1 p i = 1 − P 1 ( k ) P_2(k)=\sum_{i=k+1}^{L-1}p_i=1-P_1(k) 根据贝叶斯公式，可得分配到 C 1 、 C 2 C_1、C_2 的像素的平均灰度值为： m 1 ( k ) = ∑ i = 0 k i P ( i / C 1 ) = ∑ i = 0 k i P ( C 1 / i ) P ( i ) / P ( C 1 ) = 1 P 1 ( k ) ∑ i = 0 k i p i m_1(k)=\sum_{i=0}^{k}iP(i/C_1)=\sum_{i=0}^{k}iP(C_1/i)P(i)/P(C_1)=\frac{1}{P_1(k)}\sum_{i=0}^{k}ip_i$

$m_2(k)=\sum_{j=0}^{k}jP(j/C_2)=\sum_{j=k+1}^{L-1}jP(C_2/j)P(j)/P(C_2)=\frac{1}{P_2(k)}\sum_{j=k+1}^{L-1}jp_j$
其中， $P_1(k)$ 、 $P_2(k)$ 由上式给出， $P(i/C_1)$ 项是灰度值 $i$ 得概率， $i$ 来自 $C_1$ 类； $P(j/C_2)$ 项是灰度值 $j$ 得概率， $j$ 来自 $C_2$ 类。
设灰度级 $k$ 的所有灰度级累加均值为 $m$ ，公式为：
$m=\sum_{i=0}^{k}ip_i$
则整个图像的平均灰度（全局均值） 可由下式给出：
$m_G=\sum_{i=0}^{L-1}ip_i$

再根据全局均值和阈值分割后的两部分均值之间的关系，有：
$\left\{\begin{matrix} P_1m_1+P_1m_1=m_G\\ P_1+P_2=1 \end{matrix}\right.$
为了清楚说明，暂时忽略了阈值 $k$ ，则可以根据方差的概念，得到类间方差表达式为：
$\sigma^2=P_1(m_1-m_G)^2+P_2(m_2-m_G)^2$

化简并消去 $m_2$ 和 $P_2$ 项，可得：
$\sigma^2=\frac{(m_GP_1-m)^2}{P_1(1-P_1)}$

遍历图像灰度级0-255，可求出使得类间方差 $\sigma^2$ 最大的阈值 $k$ ，以上就是通过Ostu方法求全局阈值的全部过程了。

在OpenCV中使用函数threshold() 来实现方框滤波操作，其函数模型如下：

double threshold(Mat InputArray src,  //原始图像
				 Mat OutputArray dst,  //目标图像
				 double thresh,  //阈值
				 double maxval,  //目标图像最大值
				 int type  //阈值分割类型
				 )

这个type就代表不同的分割类型，OpenCV有以下几种方式可以参考：

Otsu算法的一些改进方法：

由于噪声会在一定程度上影响阈值T的选择，当原始图像含有噪声时，可以在阈值处理前将图像进行平滑处理，消除噪声的影响。
对于处理那些位于或接近物体和背景间边缘的像素，可以通过边缘改进的阈值处理方法来分离灰度级，使得前景和后景灰度差更大。
当背景照明高度不均匀时，需要进行阈值处理的难度就增大，为了解决这个问题，运用局部统计的可变阈值处理的算法进行解决。

…

2.4 自适应阈值分割法

2.5 最大熵阈值分割算法

最大熵阈值分割法和OTSU算法类似，假设将图像分为背景和前景两个部分。熵代表信息量，图像信息量越大，熵就越大，最大熵算法就是找出一个最佳阈值使得背景与前景两个部分熵之和最大。
原理：
数字图像中给定一个估算的概率密度函数 $p (g)$ ，数字图像中的熵定义为：

假设分割阈值为t(0<=t $C_0$

三、基于OpenCV的C++代码实现

3.1基本全局阈值处理（含噪声）：

#include
#include
#include
#include
using namespace cv;

// 添加Gussia噪声
void addGaussianNoise(Mat &m, int mu, int sigma)
{
     
    // 产生高斯分布随机数发生器
    std::random_device rd;
    std::mt19937 gen(rd());
    std::normal_distribution<> d(mu, sigma); //高斯噪声

    auto rows = m.rows; // 行数
    auto cols = m.cols * m.channels(); // 列数

    for (int i = 0; i < rows; i++){
     
        auto p = m.ptr<uchar>(i); // 取得行首指针
        for (int j = 0; j < cols; j++){
     
            auto tmp = p[j] + d(gen);
            tmp = tmp > 255 ? 255 : tmp;
            tmp = tmp < 0 ? 0 : tmp;
            p[j] = tmp;
        }
    }
}

int mean_pixel(Mat& src){
     
	//计算图像平均灰度
    int c=src.cols,r=src.rows;
    int sum=0;
     for(int i=0;i<r;i++){
     
        for(int j=0;j<c;j++){
     
                sum =sum+(int)src.ptr<uchar>(i)[j];
        }
    }
    return (int)round(sum/(r*c));
}

int main()
{
     
    Mat img=imread("C:/Users/Administrator/Desktop/beauty.jpg",0); //灰度图读入
    Size dsize = Size(round(0.3 * img.cols), round(0.3 * img.rows));//Size型 改变尺寸
    resize(img, img, dsize, 0, 0, INTER_LINEAR); //使用双线性插值缩放一下尺寸
    
    //addGaussianNoise(img,0,0.2); //添加噪声

    //基本全局阈值处理
    int r=img.rows,c=img.cols;
    Mat dst=img.clone();
    int count = 0;

    int g_max(0),g_min(0);
    int max_count(0),min_count(0);

    int T_next; //计算下一次平均灰度
    int T=mean_pixel(img);

    bool done = false;
    while(!done){
     
        count  = count+1;
        for(int i=0;i<r;i++){
     
            for(int j=0;j<c;j++){
     
                if(img.ptr<uchar>(i)[j] < T){
     
                    g_max += img.ptr<uchar>(i)[j];
                    max_count++;
                }
                else{
     
                    g_min += img.ptr<uchar>(i)[j];
                    min_count++;
                }
            }
        }

        T_next = 0.5*((int)g_max/max_count+(int)g_min/min_count);

        done = abs(T-T_next)<0.5;  //直到符合条件跳出循环
        T =T_next; //否则继续
 
    }
    std::cout<<"count="<<count<<std::endl;
    std::cout<<"T="<<T<<std::endl;

    //二值化处理
	for (int i = 0; i < r; ++i){
     
	    uchar* ptr = dst.ptr<uchar>(i);
		for (int j = 0; j < c; ++j){
     
			if (ptr[j]> T)
				ptr[j] = 255;
			else
				ptr[j] = 0;
		}
	}
    
    cv::imshow("srcImage",img);
    cv::imshow("dstImage",dst);
    cv::waitKey();
    return 0;
}

实验结果如下：

count=6.T=160;也就是自动选择六次才达到预定的阈值分割目标，此时阈值为160。

3.2Ostu最大类间方差法

#include 
#include 
#include 
using namespace std;
using namespace cv;
 
int myOtsu(Mat & src)
{
     
	int th;
	const int GrayScale = 256;	//单通道图像总灰度256级
	int pixCount[GrayScale] = {
     0};//每个灰度值所占像素个数
	int pixSum = src.cols * src.rows;//图像总像素点
	float pixPro[GrayScale] = {
     0};//每个灰度值所占总像素比例
	float p0, p1, p0tmp, p1tmp, m0, m1, deltaTmp, deltaMax = 0; 
 
    //以下给出了两种 图像像素访问的方法（1）.at方法  （2）.ptr指针访问（快一些）
	for(int i = 0; i < src.cols; i++){
     
		for(int j = 0; j < src.rows; j++){
     
            //.at方法 只适合灰度值为8位的图像
			pixCount[src.at<uchar>(j,i)]++;//统计每个灰度级中像素的个数  
		}
	}
    /*for (int i = 0; i < r; ++i){
		const uchar* ptr = src.ptr(i);
		for (int j = 0; j < c; ++j){        //统计每个灰度级中像素的个数
			graynum[ptr[j]]++;
		}
	}*/

 
	for(int i = 0; i < GrayScale; i++)
	{
     
		pixPro[i] = pixCount[i] * 1.0 / pixSum;//计算每个灰度级的像素数目占整幅图像的比例  
	}
 
	for(int i = 0; i < GrayScale; i++)//遍历所有从0到255灰度级的阈值分割条件，测试哪一个的类间方差最大
	{
     
		p0 = p1 = p0tmp = p1tmp = m0 = m1 = deltaTmp = 0;  
        //w0（p0tmp）、w1(p1tmp)表示像素被分为C1、C2类中的概率(累计和)
        //u0/u1表示像素被分为C1、C2类中的平均灰度
        //deltaTmp和deltaMax维护一个最大类间方差

		for(int j = 0; j < GrayScale; j++){
     
			if(j <= i)//C1类
			{
     
				p0 += pixPro[j];
				p0tmp += j * pixPro[j]; 
			}
			else//C2类
			{
     
				p1 += pixPro[j];
				p1tmp += j * pixPro[j];
			}
		}
		m0 = p0tmp / p0;
		m1 = p1tmp / p1;
		deltaTmp = (float)(p0 *p1* pow((m0 - m1), 2)); //类间方差公式 g = w1 * w2 * (u1 - u2) ^ 2
		if(deltaTmp > deltaMax) 
		{
     
			deltaMax = deltaTmp;
			th = i;  
		}  
	}
	return th;
}
 
int main()
{
     
	Mat src = imread("C:/Users/Administrator/Desktop/beauty.jpg",0);//单通道读取图像
    Size dsize = Size(round(0.2 * src.cols), round(0.2 * src.rows));//Size型 改变尺寸
    resize(src, src, dsize, 0, 0, INTER_LINEAR); //使用双线性插值缩放一下尺寸
	/*my_dst: 自己实现的大津法 得到的处理图像
	otsu_dst：opencv自带的大津法 得到的处理图像
	sub：两个处理图像相差图
	*/
	Mat my_dst, otsu_dst, sub;

	/*my_th: 自己实现的大津法 得到的最大类件方差 即阈值
	th：opencv自带的大津法 得到的最大类件方差 即阈值
	*/
	int my_th, th;
 
	/*计算开销时间，对比两个算法效率*/
	long my_start = clock();  //开始时间
	{
     
		my_th = myOtsu(src);
		threshold(src,my_dst,my_th,255,CV_THRESH_BINARY);
	}
	long my_finish = clock();   //结束时间
	long my_t = my_finish-my_start;
	printf("The run time is:%9.3lf\n", my_t, "ms!\n"); //输出时间
	cout << "myOtsu threshold >> " << my_th << endl;
 
	long otsu_start = clock();  //开始时间
	{
     
		th = threshold(src,otsu_dst,0,255,CV_THRESH_OTSU);
	}
	long otsu_finish = clock();   //结束时间
	long t = my_finish-my_start;
	printf("The run time is:%9.3lf\n",  (double) t / CLOCKS_PER_SEC, "ms!\n"); //输出时间
	cout << "Otsu threshold >> " << th << endl;
 
	subtract(otsu_dst,my_dst,sub);//两图像相减
	imshow("src",src);
	imshow("myOtsu",my_dst);
	imshow("Otsu",otsu_dst);
	imshow("Sub",sub);
	
	waitKey(0);
	return 0;
}

自己实现的Ostu和OpenCV自带的Ostu函数得到的阈值都是152，从色差图中也能看出来它们实现的效果一样。

3.2最大熵阈值分割算法

#include 
#include 
#include 
#include  

int Max_Entropy(cv::Mat& src, cv::Mat& dst, int thresh, int p){
     	
    const int Grayscale = 256;	
    int Graynum[Grayscale] = {
      0 };	
    int r = src.rows;	
    int c = src.cols;	
    for (int i = 0; i < r; ++i){
     		
        const uchar* ptr = src.ptr<uchar>(i);   		
        for (int j = 0; j < c; ++j){
        			
            if (ptr[j] == 0)				//排除掉黑色的像素点				
                continue;			
            Graynum[ptr[j]]++;		
        }	
    } 	
    
    float probability = 0.0; //概率	
    float max_Entropy = 0.0; //最大熵	
    int totalpix = r*c;	
    for (int i = 0; i < Grayscale; ++i){
      		
        float HO = 0.0; //前景熵		
        float HB = 0.0; //背景熵 

        //计算前景像素数		
        int frontpix = 0;		
        for (int j = 0; j < i; ++j){
     			
            frontpix += Graynum[j];		
        }		
        
        //计算前景熵		
        for (int j = 0; j < i; ++j){
     			
            if (Graynum[j] != 0){
     				
                probability = (float)Graynum[j] / frontpix;				
                HO = HO + probability*log(1/probability);			
            }		
        } 		
        
        //计算背景熵		
        for (int k = i; k < Grayscale; ++k){
     			
            if (Graynum[k] != 0){
     				
                probability = (float)Graynum[k] / (totalpix - frontpix);				
                HB = HB + probability*log(1/probability);			
            }		
        } 		
        
        //计算最大熵		
        if(HO + HB > max_Entropy){
     			
            max_Entropy = HO + HB;			
            thresh = i + p;		
        }	
    } 	
    
    //阈值处理	
    src.copyTo(dst);	
    for (int i = 0; i < r; ++i){
     		
        uchar* ptr = dst.ptr<uchar>(i);		
        for (int j = 0; j < c; ++j){
     			
            if (ptr[j]> thresh)				
            ptr[j] = 255;			
            else				
            ptr[j] = 0;		
        }	
    }	
            
    return thresh;
}  

int main(){
     	
    cv::Mat src = cv::imread("C:/Users/Administrator/Desktop/beauty.jpg",0); //读入灰度图	
    if (src.empty()){
     		
        return -1;	
    }	
    cv::Size dsize = cv::Size(round(0.3 * src.cols), round(0.3 * src.rows));//Size型 改变尺寸
    cv::resize(src, src, dsize, 0, 0, cv::INTER_LINEAR); //使用双线性插值缩放一下尺寸
        
    cv::Mat dst, dst2;	
    int thresh = 0;	
    thresh = Max_Entropy(src, dst, thresh,30); //Max_Entropy	
    std::cout << "Mythresh=" << thresh << std::endl;		
    
    double  Otsu = 0;	
    Otsu = cv::threshold(src, dst2, Otsu, 255, CV_THRESH_OTSU + CV_THRESH_BINARY);	
    std::cout << "Otsuthresh=" << Otsu << std::endl;

    
    cv::imshow("srcImage", src);	
    cv::imshow("maxEntropy", dst);	
    cv::imshow("Otsuthresh", dst2);	
    cv::waitKey(0);}

实现效果：

通过调整阈值偏置，可以实现Ostu的全局阈值分割的效果，

参考博客：
【1】《数字图像处理（第三版）》_冈萨雷斯
【2】图像分割最全综述
【3】OTSU方法：https://blog.csdn.net/mary_0830/article/details/89597672
【4】最大熵阈值分割算法原理及实现

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
Sora文本生成影像模型背后的创新原理与挑战 noVonN c语言深度学习算法区块链人工智能
引言随着人工智能技术的飞速发展，OpenAI作为行业领导者，在文本生成领域取得重大突破之后，近日又推出了其在影像生成领域的最新力作——Sora。这款模型将自然语言处理与计算机视觉技术相结合，旨在通过输入文本描述来快速创作出逼真的电影场景，为内容创作者提供了前所未有的艺术表达工具。然而，正如OpenAI所指出的那样，尽管Sora展现出了令人惊叹的创造力，但它在仿真复杂物理现象和理解具体事例因果关系方
深度学习驱动下的字符识别：挑战与创新逼子歌神经网络深度学习字符识别卷积神经网络图像处理特征提取
一、引言1.1研究背景深度学习在字符识别领域具有至关重要的地位。随着信息技术的飞速发展，对字符识别的准确性和效率要求越来越高。字符识别作为计算机视觉领域的一个重要研究方向，其主要目的是将各种形式的字符转换成计算机可识别的文本信息。近年来，深度学习技术在字符识别领域取得了显著的进展。国内研究者主要使用基于模板匹配的方法、基于统计模型的方法、基于神经网络的方法等各种方法进行字符识别研究。目前，国内各大
【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数阿_旭 AI应用软件开发实战深度学习实战深度学习 python 行人检测行人追踪过线计数
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多