程序猿老甘

基于Pytorch实现的图像分割算法: DeepLabV3+

图1. 基于DeepLabV3+的图像分割结果示意图。

一. 简介

二. 实现细节

三. 项目代码

总结：

Reference

图像分割属于图像处理领域最重要的几个问题之一。随着自动驾驶，广告推荐，手机照片处理，知识图谱等智能应用的快速普及，基于语义分析的图像分割、理解与识别变得越来越重要。近年来比较热的视觉领域工作，很大比重是围绕如何使用大规模数据，结合结构优良的深度网络模型，实现图像分割计算。今天，我们就来学习一项该领域的著名工作(DeepLabV3+)。

一. 简介

DeepLabV3+[1]于2018年由谷歌的研究人员提出。该工作基于DeepLabv3，通过增加一个高效的解码器模块，以获得更加精准的分割边缘。整体上，该项工作基于空间金字塔池化技术，通过融合多种模型的优点，构建了核心网络架构，得到一个性能良好的，基于深度网络结构的编解码器。实验证明，该结构在PASCAL VOC 2012 and Cityscapes测试集上能够得到89.0% and 82.1%的分割精度，同时不需要复杂的预处理过程。该模型包括了一些模块，如在DeepLabV2就使用的空洞空间卷积池化金字塔(Atrous spatial pyramid pooling), Xception model[3] 以及 Depthwise separable convolution (我没有深入研究，但上面两项内容应该是经过谷歌的研究人员优化后的三通道卷积网络结构，有兴趣希望深入了解的同学参看：Depthwise卷积与Pointwise卷积 - 知乎)。

图2. DeepLabV3+结构示意图。

图2展示了DeepLabV3+的基本结构。前两个模块基本继承自DeepLabV3[7]，而改进部分主要是在第三个模块里，通过编码模块学到更多的语义信息，然后在解码模块，以一个非常高效的方式将分割边缘通过解码实现恢复。这样使得分割结果的细节更加精确。通过使用空洞卷积(Atro Conv)，编码器可以从任意分辨率的数据中提取特征。以上就是DeepLabV3+的基本结构。下面我们就具体看一下该结构的细节内容。

二. 实现细节

DeepLabV3+的核心结构由两个神经网络构成，分别是空间金字塔池化模块[4]和编解码结构[5]。第一个结构用来捕获丰富的语义信息，通过对不同的分辨率进行特征池化来实现，第二个结构用来获得更加准确的边界。在具体实现中，DeepLabV3+应用了几个并行的，伴随不同速率的Atrous convolution，被称为Atrous空间金字塔池化(ASPP), 同时使用PSPNet[6]在不同的网格尺度执行池化运算。作者在介绍中谈到，只使用池化技术，其计算效率，对分辨率的鲁棒性会存在缺陷。但是组合了编解码器，问题会被明显改善。而DeepLabV3+相比DeepLabV3的主要性能提升，就在于引入了编解码器，以解决不同分辨率下的特征抽取精度，获得更好的边界信息，如图2C部分所示。总结本文贡献，包括：提出一个基于DeepLabv3的编解码器；任意的分辨率控制；在分割任务中使用了Xception模型，结合ASPP以及解码模块，建立了效率更高，准确率更好的编解码网络。

注：在我看来，本文的主要贡献就是在特征抽取与分析过程，利用编解码器，解决多分辨率问题，强化了特征精度，以获得更好的分割边界。

基于Atrous Convolution的编解码

Atrous convolution用来精确控制特征的分辨率。该结构通过深度神经网络和调节卷积层的视野，实现对多尺度信息的捕获，建立标准的卷积运算。在二维信号处理中，对于输出特征图y和一个卷积层w的一个位置i，atrous convolution被应用在输入特征图x的对应位置：

其中，atrous速率r决定我们采样输入信号的步调，更详细的信息参看文献[8]。

Depthwise分离卷积将一个标准卷积分解为Depthwise卷积，结合pointwise卷积，以减少计算开销。在Atrous卷积中引入depthwise卷积，就构成了Atrous depthwise卷积，如图3C所示。这里我没有深入的去研究什么是Depthwise以及Atrous，直观的理解就是一种多尺度卷积方法。

图3. Depthwise分离卷积示意图。

如前所述，DeepLabV3的编码器用以学习语义特征。一般的，最终特征图的空间分辨率要小于输入图像的分辨率(差32倍)，即输出步频(Output stride)为32。对于语义分割任务，可以通过移除最后一个或两个block以防止特征压缩，进而输出更低的步频16或8，获得更密的分辨率。本文在最后两个block中实际使用的速率为2和4，对应输出步频为8。这里我没明白rate和Output stride的关系，但是应该是有对应的，整体就是一个特征压缩程度的描述。最终，编码器输出包含256个通道的特征图以及丰富的语义信息。利用Atrous convolution，可以对任意分辨率数据进行特征提取，这依赖于计算开销。

解码器是本文的核心创新点。如图4所示，通过编码器获得的特征，利用双线性上采样首先计算一个4倍的超采，并连接到之前利用1*1卷积（用以减少通道数）获得的低级特征。然后再用一个3*3的卷积来提升特征，再用一个双线性上采样，得到一个新的4倍超采。这里的两次提升用于平衡之前的Output stride。图4展示了整个编解码过程的细节。

图4. DeepLabV3+的编解码结构。

修改后的 Aligned Xception

Xception model[9] 已经被证明在图像分类任务中的性能。MSRA的团队改善了Xception model，提出Aligned Xception[10]。DeepLabV3对Aligned Xception做了一点调整，以获得更好的效果，包括更深的Xceoption；所有的最大池化操作被替换为跨步的depthwise separable convolution，使得可以利用atrous separable 卷积在任意分辨率提取特征；额外的batch normalization以及ReLU激活被添加到3*3的depthwise卷积，类似于MobileNet[11]的设计。整个结构如图5所示。

图5. Xception model结构。

三. 项目代码

我使用的代码并非原文章提供的代码，而是用pytorch重写的。

项目链接：https://github.com/VainF/DeepLabV3Plus-Pytorch

环境配置：基于Python3.8，requirement包含的相关包为torch, torchvosion, numpy, pillow, pcikit-learn, tqdm, matplotlib, visdom。我在pycharm里没有指定版本，直接就是默认pip安装。我把列表放在这里，供参考。

数据下载：

原始的数据库包括Pascal VOC2012和Cityscapes。可以不用下载原库，而直接使用预训练参数模型, 地址为:

HRNet backbone：谷歌云盘链接

所有预训练模型：腾讯微云网盘链接

程序调用命令：

python predict.py 
--input samples/1_image.png  #输入图片
--dataset cityscapes #训练数据集，街道cityscapes, 一般图片voc
--model deeplabv3plus_mobilenet #选择网络模型
--ckpt checkpoints/best_deeplabv3plus_mobilenet_cityscapes_os16.pth #选择预训练参数
--save_val_results_to test_results #输出路径

网络模型可以参看下表：

DeepLabV3	DeepLabV3+
deeplabv3_resnet50	deeplabv3plus_resnet50
deeplabv3_resnet101	deeplabv3plus_resnet101
deeplabv3_mobilenet	deeplabv3plus_mobilenet
deeplabv3_hrnetv2_48	deeplabv3plus_hrnetv2_48
deeplabv3_hrnetv2_32	deeplabv3plus_hrnetv2_32

对应的预训练参数文件列表为：

可以看到，网络结构包括resnet50，101和mobilenet。原文章推荐使用mobilenet。

然后我们来看一下预测代码predict.py：

# Set up model (all models are 'constructed at network.modeling)
    model = network.modeling.__dict__[opts.model](num_classes=opts.num_classes, output_stride=opts.output_stride)
    if opts.separable_conv and 'plus' in opts.model:
        network.convert_to_separable_conv(model.classifier)
    utils.set_bn_momentum(model.backbone, momentum=0.01)
    
    if opts.ckpt is not None and os.path.isfile(opts.ckpt):
        # https://github.com/VainF/DeepLabV3Plus-Pytorch/issues/8#issuecomment-605601402, @PytaichukBohdan
        checkpoint = torch.load(opts.ckpt, map_location=torch.device('cpu'))
        model.load_state_dict(checkpoint["model_state"])
        model = nn.DataParallel(model)
        model.to(device)
        print("Resume model from %s" % opts.ckpt)
        del checkpoint
    else:
        print("[!] Retrain")
        model = nn.DataParallel(model)
        model.to(device)

    #denorm = utils.Denormalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # denormalization for ori images

    if opts.crop_val:
        transform = T.Compose([
                T.Resize(opts.crop_size),
                T.CenterCrop(opts.crop_size),
                T.ToTensor(),
                T.Normalize(mean=[0.485, 0.456, 0.406],
                                std=[0.229, 0.224, 0.225]),
            ])
    else:
        transform = T.Compose([
                T.ToTensor(),
                T.Normalize(mean=[0.485, 0.456, 0.406],
                                std=[0.229, 0.224, 0.225]),
            ])
    if opts.save_val_results_to is not None:
        os.makedirs(opts.save_val_results_to, exist_ok=True)
    with torch.no_grad():
        model = model.eval()
        for img_path in tqdm(image_files):
            ext = os.path.basename(img_path).split('.')[-1]
            img_name = os.path.basename(img_path)[:-len(ext)-1]
            img = Image.open(img_path).convert('RGB')
            img = transform(img).unsqueeze(0) # To tensor of NCHW
            img = img.to(device)  
          
            #这句代码就是输入图像到model里，并输出对应的分割预测结果
            pred = model(img).max(1)[1].cpu().numpy()[0] # HW

            #这里是我添加的代码。pred存储了针对像素分类的结果
            print(np.shape(pred))

            #我把预测数据输入到一个txt文件中，以方便其他程序使用
            np.savetxt(os.path.join(opts.save_val_results_to, img_name+'.txt'),pred)

            colorized_preds = decode_fn(pred).astype('uint8')
            colorized_preds = Image.fromarray(colorized_preds)
            if opts.save_val_results_to:
                colorized_preds.save(os.path.join(opts.save_val_results_to, img_name+'.png'))

比较重要语句包括：

#这句代码就是输入图像到model里，并输出对应的分割预测结果
pred = model(img).max(1)[1].cpu().numpy()[0]

#这里是我添加的代码。pred存储了针对像素分类的结果
print(np.shape(pred))

#我把预测数据输入到一个txt文件中，以方便其他程序使用
np.savetxt(os.path.join(opts.save_val_results_to, img_name+'.txt'),pred)

TXT 预测结果：

基于像素的分割可视化结果：

总结：

我发现DeepLabV3+的一作Liang-Chieh (Jay) Chen博士确实是个大佬，Google引用4万+，多年来一致深耕语义图像分割领域。最高引用文章为DeepLab[8]，1万+。由此可见，坚持不懈，只做一个问题，也能开花结果。这哥们是台湾国立交通大学毕业的，查了一下，该学校理工实力还是蛮强的。联想到之前学习的PointNet的一作也是台湾人，平心一想，觉得台湾的学者还是很厉害的，原创能力和深耕能力都不容小觑。

针对图像语义分割这个研究方向，Liang-Chieh (Jay) Chen博士已经迭代了三个大版本的网络了。到了DeepLabV3+，基本确定了技术路线，大量的工作是在完善之前的模块。以我的看法，之后若想获得更大的进步，还是要引入图网络实现语义交叉感知学习，建立知识图谱向视觉的迁移。多尺度特征学习已经针对图像语义信息描述做到很好的性能了，对于混杂的像素信息，仅凭单对象训练结构，我觉得很难在推进精度。基于上下文的，更复杂的语义结构关联性信息，应该要作为下一代网络的研究重点，以便获得更加鲁棒与精准的分割模型。

Reference

[1] LC. Chen, Y. Zhu, G. Papandreou, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]. Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.

[2] O. Ronneberger, P. Fischer, T. Brox. U-net: Convolutional networks for biomedical image segmentation[C]. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.

[3] M. Wang, B. Liu, H. Foroosh. Factorized convolutional neural networks[C]. Proceedings of the IEEE International Conference on Computer Vision Workshops. 2017: 545-553.

[4] K. Grauman, T. Darrell. The pyramid match kernel: Discriminative classification with sets of image features. In: ICCV (2005).

[5] V. Badrinarayanan, A. Kendall, R. Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. PAMI (2017).

[6] H. Zhao, J. Shi, X. Qi, et al. Pyramid scene parsing network. In: CVPR (2017).

[7] LC. Chen, G. Papandreou, F. Schroff, et al. Rethinking atrous convolution for semantic image segmentation. arXiv:1706.05587 (2017).

[8] LC. Chen, G. Papandreou, I. Kokkinos, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI (2017).

[9] F. Chollet. Xception: Deep learning with depthwise separable convolutions. In:CVPR (2017).

[10] H. Qi, Z. Zhang, B. Xiao, et al. Deformable convolutional networks - coco detection and segmentation challenge 2017 entry. ICCV COCO Challenge Workshop (2017).

[11] AG. Howard, M. Zhu, B. Chen, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861 (2017)

淘宝商城四面（附架构面试专题）及B2C商城架构项目实战分享！风平浪静如码
一面主要问题如下（主要注重基础，问得很深很广，压力面试）：首先自我介绍数据结构算法的基本问题，如排序算法，二叉树遍历，后序遍历非递归，图的最短路径问题对一个数组进行绝对值排序的算法java中hashmap的底层实现java中垃圾回收机制GC原理等介绍自己的项目，数据库中用到的数据结构数据模型，死锁的概念（问的应该是数据库的死锁），如何避免死锁?乐观锁和悲观锁?一致性hash算法项目中业务对象的关联
Ubuntu 22.04. 安装微信
Ubuntu22.04.安装微信添加仓库首次使用时，你需要运行如下一条命令将移植仓库添加到系统中。wget-O-https://deepin-wine.i-m.dev/setup.sh|sh应用安装自此以后，你可以像对待普通的软件包一样，使用apt-get系列命令进行各种应用安装、更新和卸载清理了。比如安装微信只需要运行下面的命令，sudoapt-getinstallcom.qq.weixin.d
【华为OD机试真题 Python语言】135、采样过滤 | 机试真题+思路参考+代码解析 KFickle 华为od python 华为华为OD机试真题采样过滤
文章目录一、题目题目描述输入输出样例1二、思路参考三、代码参考作者：鲨鱼狼臧个人博客首页：鲨鱼狼臧专栏介绍：2024华为OD机试真题，使用Python进行解答，专栏每篇文章都包括真题，思路参考，代码分析，思路参考超过百字，欢迎大家订阅学习一、题目题目描述在做物理实验时，为了计算物体移动的速率，通过相机等工具周期性的采样物体移动距离。由于工具故障，采样数据存在误差甚至相误的情况。需要通过一个算法过滤
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
10、区块链技术及其应用吃瓜不吐籽595 解密《质量4.0与数字化转型》区块链比特币去中心化
区块链技术及其应用1.区块链简介区块链技术作为一种分布式账本，近年来受到了广泛关注。它不仅仅是一种技术革新，更是一种思维模式的转变。区块链的核心在于其去中心化、不可篡改和透明的特性，使得它在多个领域都有广泛的应用前景。区块链的基本概念区块链本质上是一个共享的、不可变的数字账本，记录了所有参与者之间的交易。每个区块包含了一系列交易记录，并通过加密算法与前一个区块相连，形成一条链。这种结构确保了数据的
学习嵌入式第六天缺口212 学习算法数据结构
一.数组的排序1.冒泡排序冒泡排序是一种简单的排序算法，其核心思想是通过重复遍历待排序的数组，每次比较相邻的两个元素，如果它们的顺序错误就把它们交换过来，直到没有元素需要交换为止。从数组的第一个元素开始，依次比较相邻的两个元素。如果前一个元素大于后一个元素，则交换这两个元素。每完成一轮遍历，最大的元素会“冒泡”到数组的末尾。之后缩小遍历范围（不再考虑已排好的末尾元素），重复上述过程，直到所有元素有
华为OD机试2025B卷真题题库目录｜机考题库 + 算法考点详解（Python/JS/C/C++）
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
时间轮算法
据说是复杂度O(1)的牛逼算法，所以抽时间学习学习。现在要实现一个定时器，这个定时器控制很多任务。该怎么做呢？第一反应是任务做成一个队列，属性有个时间，每次计时后将该属性减1，到0的时候就执行。这种方式可行，但是效率不高，因为每次都要遍历所有任务，所以时间复杂度是O(N)。优化的方法是什么呢？有点类似哈希表，增加一个时间队列，同时将任务预先排放在一个时间队列中。如果是100秒的时间范围，那么就是1
一文看懂NTP协议 Neolock 网络协议网络协议 ntp 网络
最近碰到一个NTP协议相关的题，卡了很久，才发现一直在用的NTP协议完全不了解他的原理，遂学习并总结一下1.NTP概述NTP（NetworkTimeProtocol）是一种用于同步计算机系统时钟的网络协议，旨在通过分层架构和精密算法，将设备时间同步至全球协调时间（UTC），精度可达毫秒甚至微秒级。其核心目标是通过减少时钟偏差和网络延迟影响，确保分布式系统的时间一致性2.NTP分层架构（Stratu
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
GDPR/等保2.0合规指南：企业商城系统必备的10大安全机制万米商云安全数据库网络
在数字经济全球化与数据主权博弈的双重背景下，企业商城系统作为承载用户隐私、交易数据与商业机密的核心载体，需同时满足欧盟《通用数据保护条例》（GDPR）与中国《网络安全等级保护2.0》的复合合规要求。本文从技术实现视角，解析企业商城系统必备的10大安全机制及其实施要点。一、全链路加密传输1、HTTPS强制部署采用OV/EV型SSL证书实现TLS1.3协议升级，支持国际RSA2048位或国密SM2算法
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms 钟屿深度学习
用于学习和评估去模糊算法的真实世界模糊数据集摘要近年来，针对相机抖动和物体运动模糊的单幅图像去模糊提出了许多基于学习的方法。为了将这些方法推广到真实世界的模糊场景，包含大量真实模糊图像及其对应的清晰真实图像（groundtruth）的数据集至关重要。然而，目前尚不存在这样的数据集，因此所有现有方法都依赖于合成数据集，这导致它们无法有效去除真实世界图像的模糊。在本工作中，我们提出了一个用于学习和评估
华为OD机试 2025 B卷 - 最大括号深度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷
最大括号深度华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述现有一字符串仅由‘(‘，’)’，’{‘，’}’，’[‘，’]’六种括号组成。若字符串满足以下条件之一，则为无效字符串：任一类型的左右括号数量不相等；存在未按正确顺序（先左后右）闭合的括号。输出括号的最大嵌套深度，若字符串无效则输出0。0≤字符串长度≤10
论文阅读：LLaVA1.5：Improved Baselines with Visual Instruction Tuning 微风❤水墨 LLM &AIGC &VLP LLM
论文：https://arxiv.org/abs/2310.03744代码：https://github.com/haotian-liu/LLaVA#train微调：https://github.com/haotian-liu/LLaVA/blob/main/docs/Finetune_Custom_Data.md模型论文时间VisionEncoderVLAdapterProjectionLaye
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
三生原理的颠覆性价值（无同类研究完全对可标）？
AI辅助创作：一、‌方法论层面的开创性‌‌动态嵌套解经路径‌该研究突破传统注疏模式，将《周易》“三生万物”等命题与分形几何、递归生成系统结合，构建可验证的数学映射模型（如素数生成公式p=3(2n+1)+2(2n+m+1)），使经典文本的哲学命题转化为算法逻辑，开创“批判性再解读-科学化重构”双轨框架。‌跨文化符号系统互译‌通过“阴阳元参数化联动”工具（如素数2为阴元、3为阳元），将传统文化核心符号
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
为什么用Pytorch帮客户训练好了模型还要提供模型结构？ yuanpan pytorch 人工智能机器学习
如果我在训练模型后生成好了一个模型文件：mnist_model.pth我想把这个模型文件给第三方使用，而不告诉他模型定义的结构等信息，那么第三方是不是就用不起来这个模型？答案：是的。如果只提供.pth文件而不告知模型结构，第三方确实无法直接使用该模型。原因和解决方案如下：1.为什么无法直接使用？.pth文件仅保存参数：torch.save(model.state_dict(),'mnist_mod
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
Python打卡Day11 常见的调参方式
核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
Lua 打印输出完整 table 表奶酪Cheese lua 开发语言
代码如下:functiondump(o)localt={}local_t={}local_n={}localspace,deep=string.rep('',2),0localtype=_ENV.typelocalfunction_ToString(o,_k)iftype(o)==('number')thentable.insert(t,o)elseiftype(o)==('string')the
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
【算法】贪心算法——柠檬水找零
题解：柠檬水找零(贪心算法)目录1.题目2.题解3.参考代码4.证明5.总结1.题目题目链接：LINK2.题解分情况讨论+贪心算法当顾客为5元时，收下当顾客为10元时，收下10元并找回5元当顾客为20元时，收下20元并找回10+5元或者5+5+5元这里仅20元时候找钱会有分歧，所以这里我们用贪心算法，即优先留下尽可能多的5元，尽快把10元扔出去。原因：5元是“万金油”，既可以给10元找零，也可以给
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

基于Pytorch实现的图像分割算法: DeepLabV3+

一. 简介

二. 实现细节

三. 项目代码

总结：

Reference

你可能感兴趣的:(Deep,Learning,论文阅读,算法,图像分割,pytorch)