SoftGit

基于OpenCV的双目深度估计实现与改进

双目深度估计

一、传统方法

常用的方法有SAD匹配算法，BM算法，SGBM算法，GC算法

1.1、SAD算法

SAD(Sum of absolute differences)是一种图像匹配算法，基本思想是：差的绝对值之和。此算法常用于图像块匹配，将每个像素对应数值之差的绝对值求和，据此评估两个图像块的相似度。该算法快速、但并不精确，通常用于多级处理的初步筛选。

基本流程：

（1）构造一个小窗口,类似于卷积核；

（2）用窗口覆盖左边的图像,选择出窗口覆盖区域内的所有像素点；

（3）同样用窗口覆盖右边的图像并选择出覆盖区域的像素点；

（4）左边覆盖区域减去右边覆盖区域，并求出所有像素点灰度差的绝对值之和；

（5）移动右边图像的窗口，重复（3）-（4）的处理（这里有个搜索范围,超过这个范围跳出）；

（6）找到这个范围内SAD值最小的窗口,即找到了左图锚点的最佳匹配的像素块。

1.2 BM算法

![image](https://images2015.cnblogs.com/blog/451660/201601/451660-20160114151753835-1022576108.png)

BM 算法对图像进行双向匹配，首先通过匹配代价在右图中计算得出匹配点。然后相同的原理及计算在左图中的匹配点。比较找到的左匹配点和源匹配点是否一致，如果你是，则匹配成功。

优点是速度很快，但是效果不佳。

基于OpenCV的实现

void BM()
{
　　IplImage * img1 = cvLoadImage("left.png",0);
    IplImage * img2 = cvLoadImage("right.png",0);
    CvStereoBMState* BMState=cvCreateStereoBMState();
    assert(BMState);
    BMState->preFilterSize=9;
    BMState->preFilterCap=31;
    BMState->SADWindowSize=15;
    BMState->minDisparity=0;
    BMState->numberOfDisparities=64;
    BMState->textureThreshold=10;
    BMState->uniquenessRatio=15;
    BMState->speckleWindowSize=100;
    BMState->speckleRange=32;
    BMState->disp12MaxDiff=1;

    CvMat* disp=cvCreateMat(img1->height,img1->width,CV_16S);
    CvMat* vdisp=cvCreateMat(img1->height,img1->width,CV_8U);
    int64 t=getTickCount();
    cvFindStereoCorrespondenceBM(img1,img2,disp,BMState);
    t=getTickCount()-t;
    cout<<"Time elapsed:"<

 
  其中minDisparity是控制匹配搜索的第一个参数，代表了匹配搜苏从哪里开始，numberOfDisparities表示最大搜索视差数uniquenessRatio表示匹配功能函数，这三个参数比较重要，可以根据实验给予参数值 . 
  1.3 SGBM算法 
   OpenCV中的SGBM算法是一种半全局立体匹配算法，立体匹配的效果明显好于局部匹配算法，但是同时复杂度上也要远远大于局部匹配算法。算法主要是参考Stereo Processing by Semiglobal Matching and Mutual Information。 opencv中实现的SGBM算法计算匹配代价没有按照原始论文的互信息作为代价，而是按照块匹配的代价。 
  minDisparity：最小视差，默认为0。此参数决定左图中的像素点在右图匹配搜索的起点，int 类型； 
  **numDisparities：**视差搜索范围长度，其值必须为16的整数倍。最大视差 maxDisparity = minDisparity + numDisparities -1； 
  **blockSize：**SAD代价计算窗口大小，默认为5。窗口大小为奇数，一般在33 到2121之间； 
  **P1、P2：**能量函数参数，P1是相邻像素点视差增/减 1 时的惩罚系数；P2是相邻像素点视差变化值大于1时的惩罚系数。P2必须大于P1。需要指出，在动态规划时，P1和P2都是常数。 
  一般建议：
 P1 = 8cnsgbm.SADWindowSizesgbm.SADWindowSize；P2 = 32cnsgbm.SADWindowSizesgbm.SADWindowSize； 
  实验总结： 
   
   blockSize(SADWindowSize) 越小，也就是匹配代价计算的窗口越小，视差图噪声越大；blockSize越大，视差图越平滑；太大的size容易导致过平滑，并且误匹配增多，体现在视差图中空洞增多； 
   惩罚系数控制视差图的平滑度，P2>P1，P2越大则视差图越平滑； 
   八方向动态规划较五方向改善效果不明显，主要在图像边缘能够找到正确的匹配 
   
  1.4 GC算法 
  GC算法在OpenCV3中已经没有了相应的API，因为这种方法虽然效果好，但是计算量实在是太大，不实用。 
  二、深度学习方法 
   深度图除了应用传统方法计算之外，还可以通过最近几年非常火热的机器学习，深度学习等技术进行实现。目前在无人驾驶领域有迫切的应用。深度估计不仅仅可以用双目进行深度估计，甚至还可以用单目图像进行深度估计。双目深度估计在三维重建，HCI，AR，自动驾驶等领域至关重要，单目深度估计也有意义。尽管有不少硬件能够直接得到深度图，但它们都有各自的缺陷。比如3D LIDAR设备非常昂贵；基于结构光的深度摄像头比如Kinect等在室外无法使用，且得到的深度图噪声比较大；而双目摄像头需要利用立体匹配算法，计算量比较大，而且对于低纹理场景效果不好。单目摄像头相比来说成本最低，设备也较普及，所以从单目摄像头估计出深度仍然是一个可选的方案，应用比其它方案更加广泛。举个SLAM的例子，对于单目SLAM来说，从单张图（或者是静止的图序列）是无法在几何上得到深度的。如果能通过算法给出一个粗略的深度估计（相当于从数据集中获得图像的深度先验），对于算法的收敛性和鲁棒性也是一个很大的提升 。 
  2.1 PSMNet（双目）–CVPR2018 
   PSMNet（Pyramid Stereo Matching Network）是利用双目立体图像中进行深度估计的，它提出了一个全新的金字塔匹配网络在立体匹配中利用全局环境信息。空间金字塔池化（SPP）和空洞卷积（dilated convolution）用来扩大感受野。通过这个方法，PSMNet将像素级别的特征拓展到包含不同尺度感受野的区域级别的特征，将全局和局部特征信息结合起来构成匹配代价卷以获得更加可靠的视差估计值。除此之外，本文还设计了一个结合了中间监督的堆叠沙漏3D卷积神经网络去调整匹配代价卷（类似传统算法中的代价聚合过程）。这个堆叠的沙漏3D-CNN重复进行由精到粗再由粗到精（top-down/bottom-up）的过程来提高对全局信息的利用程度。 
  下图是PSMNet的整体网络结构： 
   
  其中最重要的部分是空间金字塔池化模块 
   单独从一个像素的强度（灰度或RGB值）很难判断环境关系。因此借助物体的环境信息来丰富图像特征能够有助于一致性估计，尤其对于不适定区域。在本文中，物体（例如汽车）和次级区域（车窗，轮胎等）的关系由SPP模块学习来结合多层级的环境信息。 
   在何凯明的论文中，SPP被设计用来去除CNN中的尺寸约束。由SPP生成的不同级别的特征图被平整后送入全卷积层用于分类，在此之后SPP被用于语义分割问题。ParseNet使用全局平均池化来结合全局环境信息。PSPNet拓展了ParseNet，采用包含不同尺度和次级区域信息的分层全局池化。在PSPNet中，SPP模块使用自适应平均池化把特征压缩到四个尺度上，并紧跟一个1*1的卷积层来减少特征维度，之后低维度的特征图通过双线性插值的方法进行上采样以恢复到原始图片的尺寸。不同级别的特征图都结合成最终的SPP特征图。 
   在本文中，我们为SPP设计了4个尺度的平均池化：6464，3232，1616，88。并与PSPNet一样，采用了1*1卷积和上采样。在简化模型测试中（ablation study）,我们设计了大量的实验来展示不同级别的特征图的影响。 
   本文的实验结果在KITT数据集上取得了最好的成绩。 
  ###2.2 DORN（单目）-CVPR2018 
   本文（Deep Ordinal Regression Network for Monocular Depth Estimation）是ROB2018中深度预测的冠军方案，它与传统的深度预测方法不同。传统的方法是利用视角、纹理、目标大小、目标位置、遮挡关系最为深度预测的特征线索；当前使用的基于深度卷积网络的方法大多采用的是用于图像分类的特征提取网络，这些网络由于有池化层的操作或者步长较大的卷积曹祖，导致预测的分辨率较低，虽然可以通过转置卷积、跨层连接等方式进行分辨率的方法，但是这样网络结构的复杂度和时间开销和计算成本相应增加 。本文提出的方案采用扩张卷积的方式进行多尺度融合。网络结构如下图： 
   
  这个方法中最重要的亮点是提出了多尺度融合方法。网络中的 ASPP部分采用不同扩张系数的扩张卷积操作，能够在不改变图像分辨率的前提下，有效得到不同感受野大小的卷积操作，进而得到多尺度融合特征 
  三、实验 
   由于SGBM算法视差效果好速度快的特点，常常被广泛应用和改进，所以我就没有对其他算法进行重新实现，只在Codeing Test中实验了SGBM算法，并对该算法进行了改进。 
  3.1 SGBM算法的实现 
  Mat SGBM(Mat left,Mat right)
{
  Mat disp,color(disp.size(),CV_8UC3);
	int mindisparity = 0;
	int ndisparities = 64;  
	int SADWindowSize = 11; 
	//SGBM
	cv::Ptr sgbm = cv::StereoSGBM::create(mindisparity, ndisparities, SADWindowSize);
	int P1 = 8 * left.channels() * SADWindowSize* SADWindowSize;
	int P2 = 32 * left.channels() * SADWindowSize* SADWindowSize;
	sgbm->setP1(P1);
	sgbm->setP2(P2);
	sgbm->setPreFilterCap(15);
	sgbm->setUniquenessRatio(10);
	sgbm->setSpeckleRange(2);
	sgbm->setSpeckleWindowSize(100);
	sgbm->setDisp1![微信截图_20180918210933](E:\学习\深度学习\活体检测\双目摄像头\因特尔测试\display_results\微信截图_20180918210933.png)
}


 
  3.2 灰度转伪彩色 
   为了让实验效果更佳的明显，我对实验结果进行了彩色可视化，具体是算法试下如下： 
  Mat gray2Color(Mat img)
{
   
   Mat img_color(img.rows, img.cols, CV_8UC3);//构造RGB图像
   #define IMG_B(img,y,x) img.at(y,x)[0]
   #define IMG_G(img,y,x) img.at(y,x)[1]
   #define IMG_R(img,y,x) img.at(y,x)[2]
   uchar tmp2=0;
   for (int y=0;y(y,x);
         if (tmp2 <= 51)
         {
            IMG_B(img_color,y,x) = 255;
            IMG_G(img_color,y,x) = tmp2*5;
            IMG_R(img_color,y,x) = 0;
         }
         else if (tmp2 <= 102)
         {
            tmp2-=51;
            IMG_B(img_color,y,x) = 255-tmp2*5;
            IMG_G(img_color,y,x) = 255;
            IMG_R(img_color,y,x) = 0;
         }
         else if (tmp2 <= 153)
         {
            tmp2-=102;
            IMG_B(img_color,y,x) = 0;
            IMG_G(img_color,y,x) = 255;
            IMG_R(img_color,y,x) = tmp2*5;
         }
         else if (tmp2 <= 204)
         {
            tmp2-=153;
            IMG_B(img_color,y,x) = 0;
            IMG_G(img_color,y,x) = 255-uchar(128.0*tmp2/51.0+0.5);
            IMG_R(img_color,y,x) = 255;
         }
         else
         {
            tmp2-=204;
            IMG_B(img_color,y,x) = 0;
            IMG_G(img_color,y,x) = 127-uchar(127.0*tmp2/51.0+0.5);
            IMG_R(img_color,y,x) = 255;
         }
      }
   }
    return img_color;
}
 
  3.3 实验效果 
    
  
    图1 原始图片（Right） 视差图 视差图转为伪彩色 
   
  
 
   
   
  
    图2 原始图片（Right） 视差图 视差图转为伪彩色 
   
   
  
    图3 原始图片（Right） 视差图 视差图转为伪彩色 
   
  3.2 对SGBM算法的改进 
   从上面的可视化深度图中可以看出，深度信息中存在许多的空洞，为了填充这些缺失的空洞值，对算法SGBM进行了改进。 
  改进思路： 
   ① 以视差图dispImg为例。计算图像的积分图integral，并保存对应积分图中每个积分值处所有累加的像素点个数n（空洞处的像素点不计入n中，因为空洞处像素值为0，对积分值没有任何作用，反而会平滑图像）。 
  ② 采用多层次均值滤波。首先以一个较大的初始窗口去做均值滤波（积分图实现均值滤波就不多做介绍了，可以参考我之前的一篇博客），将大区域的空洞赋值。然后下次滤波时，将窗口尺寸缩小为原来的一半，利用原来的积分图再次滤波，给较小的空洞赋值（覆盖原来的值）；依次类推，直至窗口大小变为3x3，此时停止滤波，得到最终结果。 
  ③ 多层次滤波考虑的是对于初始较大的空洞区域，需要参考更多的邻域值，如果采用较小的滤波窗口，不能够完全填充，而如果全部采用较大的窗口，则图像会被严重平滑。因此根据空洞的大小，不断调整滤波窗口。先用大窗口给所有空洞赋值，然后利用逐渐变成小窗口滤波覆盖原来的值，这样既能保证空洞能被填充上，也能保证图像不会被过度平滑。 
  算法实现： 
  //将噪声和空洞进行填充
Mat insertDepth32f(cv::Mat depth)
{
    const int width = depth.cols;
    const int height = depth.rows;
    float* data = (float*)depth.data;
    cv::Mat integralMap = cv::Mat::zeros(height, width, CV_64F);
    cv::Mat ptsMap = cv::Mat::zeros(height, width, CV_32S);
    double* integral = (double*)integralMap.data;
    int* ptsIntegral = (int*)ptsMap.data;
    memset(integral, 0, sizeof(double) * width * height);
    memset(ptsIntegral, 0, sizeof(int) * width * height);
    for (int i = 0; i < height; ++i)
    {
        int id1 = i * width;
        for (int j = 0; j < width; ++j)
        {
            int id2 = id1 + j;
            if (data[id2] > 1e-3)
            {
                integral[id2] = data[id2];
                ptsIntegral[id2] = 1;
            }
        }
    }
    // 积分区间
    for (int i = 0; i < height; ++i)
    {
        int id1 = i * width;
        for (int j = 1; j < width; ++j)
        {
            int id2 = id1 + j;
            integral[id2] += integral[id2 - 1];
            ptsIntegral[id2] += ptsIntegral[id2 - 1];
        }
    }
    for (int i = 1; i < height; ++i)
    {
        int id1 = i * width;
        for (int j = 0; j < width; ++j)
        {
            int id2 = id1 + j;
            integral[id2] += integral[id2 - width];
            ptsIntegral[id2] += ptsIntegral[id2 - width];
        }
    }
    int wnd;
    double dWnd = 2;
    while (dWnd > 1)
    {
        wnd = int(dWnd);
        dWnd /= 2;
        for (int i = 0; i < height; ++i)
        {
            int id1 = i * width;
            for (int j = 0; j < width; ++j)
            {
                int id2 = id1 + j;
                int left = j - wnd - 1;
                int right = j + wnd;
                int top = i - wnd - 1;
                int bot = i + wnd;
                left = max(0, left);
                right = min(right, width - 1);
                top = max(0, top);
                bot = min(bot, height - 1);
                int dx = right - left;
                int dy = (bot - top) * width;
                int idLeftTop = top * width + left;
                int idRightTop = idLeftTop + dx;
                int idLeftBot = idLeftTop + dy;
                int idRightBot = idLeftBot + dx;
                int ptsCnt = ptsIntegral[idRightBot] + ptsIntegral[idLeftTop] - (ptsIntegral[idLeftBot] + ptsIntegral[idRightTop]);
                double sumGray = integral[idRightBot] + integral[idLeftTop] - (integral[idLeftBot] + integral[idRightTop]);
                if (ptsCnt <= 0)
                {
                    continue;
                }
                data[id2] = float(sumGray / ptsCnt);
            }
        }![微信截图_20180918210755](E:\学习\深度学习\活体检测\双目摄像头\因特尔测试\display_results\微信截图_20180918210755.png)
    return depth;
}

 
  改进效果 
   
  
    图4 原始图片（Right） 视差图 视差图填充之后 
   
   
  
    图5 原始图片（Right） 视差图 视差图填充后 
   
   
  
    图6 视差图彩色图 视差图填充后的彩色图 
   
  通过实验发现，改进后的算法比原来的效果要好不少，例如图6中填充后的视差彩色图的噪声明显比没有填充的视差图少很多。说明改进之后还是很有效的。 
  四、总结 
   不管是传统方法还是深度学习的方法进行深度估计都有各自的优点，但是我更看好应用深度学习的方法。因为深度学习的方法可以学习到更多的特征，不仅仅是多尺度的特征还可以是多层次的特征。目前在自动驾驶领域应用的也多数是深度学习的方法进行深度估计，因为效果明显优于传统的方法。 
  ##参考文献： 
   
   https://www.cnblogs.com/polly333/p/5130375.html
 https://www.cnblogs.com/riddick/p/8486223.html?utm_source=debugrun&utm_medium=referral
 Chang, Jia-Ren, and Yong-Sheng Chen. “Pyramid Stereo Matching Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
 Fu, Huan, et al. “Deep Ordinal Regression Network for Monocular Depth Estimation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
探秘AI大模型：一键获取深度学习精华-PPT全面解读曹筱习Dwayne
探秘AI大模型：一键获取深度学习精华-PPT全面解读【下载地址】AI大模型PPT资源下载本仓库提供了一个名为“ai大模型ppt”的资源文件下载。该资源文件详细介绍了AI大模型的相关内容，包括但不限于AI大模型的定义、应用场景、技术架构、发展趋势等。通过这份PPT，您可以深入了解AI大模型的核心概念和实际应用，为您的学习和研究提供有力支持项目地址:https://gitcode.com/open-s
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
大模型学习应用 6: Vercel 部署自动获取微信公众号文章获取项目大地之灯大模型应用与学习学习微信大模型应用开发 python github flask
大模型落地开发实战指南！请关注微信公众号：「AGI启程号」深入浅出，助你轻松入门！数据分析、深度学习、大模型与算法的综合进阶，尽在CSDN博客主页本文将详细介绍如何在Vercel平台上部署自动微信公众号文章获取项目，包括项目结构、代码实现、部署流程以及常见问题的解决方案。注意：本项目源代码github链接，可自行克隆到自己的代码仓库完成vercel部署，注意需要稳定ip输出（微信白名单需求），免费
ChatGPTNextChat项目重构计划（九）：NextChat 解析API路由处理逻辑 stream.ts
大模型落地开发实战指南！请关注微信公众号：「AGI启程号」深入浅出，助你轻松入门！数据分析、深度学习、大模型与算法的综合进阶，尽在CSDN博客主页目录一、文件作用概述二、导入模块与类型定义三、核心函数详细解析`fetch(url,options)`四、`fetch`函数详细步骤解析步骤1:检测Tauri环境并准备请求参数步骤2:创建数据流(`TransformStream`)步骤3:定义关闭数据流
Transformer、BERT等模型原理与应用案例程序猿全栈の董（董翔）人工智能热门技术领域 transformer bert 深度学习
Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed"中提出。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同，Transformer完全依赖自注意力机制来处理输入序列的全局依赖关系。核心组件多头自注意力机制(Mul
大模型卷积神经网络（CNN）的架构原理 hao_wujing cnn 架构人工智能
大家读完觉得有帮助记得关注和点赞！！！一、卷积神经网络（CNN）的核心原理与架构CNN是一种专为结构化数据（如图像、文本）设计的深度学习模型，其核心在于层次化特征提取与参数高效共享，使其成为大模型中视觉和多模态任务的基础组件。1.核心结构分层解析输入层接收预处理后的数据（如图像去均值、归一化），为后续卷积操作提供标准化输入39。卷积层（核心）局部感知：每个卷积核（如3×3）仅处理输入数据的局部区域
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

基于OpenCV的双目深度估计实现与改进

双目深度估计

一、传统方法

1.1、SAD算法

1.2 BM算法

1.3 SGBM算法

1.4 GC算法

二、深度学习方法

2.1 PSMNet（双目）–CVPR2018

三、实验

3.1 SGBM算法的实现

3.2 灰度转伪彩色

3.3 实验效果

3.2 对SGBM算法的改进

四、总结

你可能感兴趣的:(深度学习)