SpikeKing

Stable Diffusion - 扩展 SegmentAnything 和 GroundingDINO 实例分割算法插件的配置与使用

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/131918652

Paper and GitHub：

Segment Anything: SAM - Segment Anything
- GitHub: https://github.com/facebookresearch/segment-anything
Grounding DINO: Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
- 定位 DINO: 结合DINO与基于语言的预训练用于开放集合的目标检测
- GitHub: https://github.com/IDEA-Research/GroundingDINO

Segment Anything:

Segment Anything 是关于图像分割领域的研究，提出了一个新的任务、模型和数据集，能够根据输入的提示（如点或框）生成高质量的物体掩码，或者对于整张图像进行分割。这个模型被称为 Segment Anything Model (SAM)，使用了一个高效的模型结构，结合卷积神经网络和 Transformer 架构。SAM在一个由 11M 张图像和 1.1B 个掩码组成的大规模数据集上进行了训练，这个数据集被称为 SA-1B。SAM 具有强大的零样本迁移能力，能够适应不同的图像分布和任务。在多个分割任务上评估 SAM 的性能，发现零样本表现令人印象深刻，甚至超过了之前的全监督结果。

SAM的主要贡献：

提出了一个新的图像分割任务，即 Segment Anything (SA)，要求模型根据输入的提示（如点或框）生成物体掩膜，或者对整张图像进行分割。
设计并实现一个高效且强大的图像分割模型，即 Segment Anything Model (SAM)，使用基于 ResNet-50 的卷积神经网络作为编码器，和基于 ViT-B/16 的 Transformer 作为解码器。
利用 SAM 在一个数据收集循环中，构建目前最大的图像分割数据集（远远超过之前的数据集），即 SA-1B，包含了 11M 张经过许可和隐私保护的图像，以及 1.1B 个物体掩码。
评估 SAM 在多个分割任务上的零样本迁移能力，包括 COCO、ADE20K、Cityscapes、Mapillary Vistas、Open Images V6等，发现在所有任务上都取得了优异的结果，甚至超过了之前的全监督方法。

Grounding DINO:

Grounding DINO 是开放集合的目标检测器，通过结合基于 Transformer 的检测器 DINO 和基于语言的预训练模型，可以检测出任意人工输入的类别名字或者相关表达的目标。

开放集合的目标检测是指在没有给定类别标签的情况下，根据人类的语言输入，识别出图像中的目标，并且给出其位置和类别信息。这是一个具有挑战性和实用性的任务，可以应用于多种场景，比如搜索引擎、智能助理、无人驾驶等。然而，现有的目标检测器通常是基于有限的类别集合进行训练和测试的，也就是说，只能检测出预先定义好的类别，而不能处理新颖或未知的类别。为了解决这个问题，Grounding DINO 有效融合语言和视觉模态，使得检测器可以根据语言输入来扩展其概念范围，并且可以处理多种形式的语言输入，比如类别名字、属性描述、指代表达等。

具体来说，Grounding DINO 采用 DINO 作为基础的目标检测器，DINO 是一种基于Transformer的端到端的目标检测器，不需要锚框或者预定义的特征金字塔，而是使用可学习的查询向量来表示目标，并且使用自注意力机制来捕捉图像中的全局上下文信息。为了使 DINO 能够处理开放集目标检测任务，Grounding DINO 提出 3 个关键的改进点：

特征增强器（Feature Enhancer）：这是一个基于 Transformer 的编码器，将图像特征和语言特征进行融合，并且输出一个增强后的图像特征表示。这样可以使得图像特征包含更多与语言输入相关的信息，从而提高检测器对新颖或未知类别的泛化能力。
语言引导查询选择（Language-Guided Query Selection）：这是一个基于 Transformer 的解码器，将增强后的图像特征和语言特征作为输入，并且输出一个查询向量集合。这个查询向量集合可以根据语言输入来动态地调整其数量和内容，从而更好地匹配图像中与语言输入相关的目标。
跨模态解码器（Cross-Modality Decoder）：这是一个基于 Transformer 的解码器，将查询向量集合和增强后的图像特征作为输入，并输出最终的检测结果。这个解码器可以利用自注意力机制来进行跨模态融合，并且可以使用多头注意力机制来进行多尺度特征融合。

除了以上 3 个改进点之外，Grounding DINO 还使用了一种基于语言的预训练方法，叫做 Grounded Pre-Training（GPT），可以在大规模无标注数据上对模型进行预训练，从而提高模型对语言和视觉模态之间关系的理解能力。GPT 主要包括 2 个阶段：

自监督预训练（Self-Supervised Pre-Training）：这个阶段使用了一种基于对比学习的方法，叫做 MOCO，可以在无标注的图像上学习图像特征的表示。同时，这个阶段还使用了一种基于掩码语言模型的方法，叫做 BERT，可以在无标注的文本上学习语言特征的表示。这两种方法分别对应于图像编码器和语言编码器，可以分别提取图像和语言的低层特征，并且可以通过一个对齐损失函数来进行联合优化，从而使得图像和语言的特征在同一个空间中对齐。
监督预训练（Supervised Pre-Training）：这个阶段使用了一种基于多任务学习的方法，可以在有标注的数据上对模型进行微调，从而提高模型对语言和视觉模态之间关系的理解能力。这个阶段主要包括 3 个任务：
- 目标检测（Object Detection）：这个任务使用 COCO 数据集，是一个常用的目标检测数据集，包含了 80 个类别和超过 20 万张图像。这个任务可以使模型学习如何根据类别名字来检测出图像中的目标，并给出其位置和类别信息。
- 属性检测（Attribute Detection）：这个任务使用 LVIS 数据集，是一个新颖的目标检测数据集，包含了 1200 个类别和超过 100 万张图像。这个任务可以使模型学习如何根据属性描述来检测出图像中的目标，并给出其位置和属性信息。
- 指代表达理解（Referring Expression Comprehension）：这个任务使用 RefCOCO/+/g 数据集，是一个常用的指代表达理解数据集，包含了超过 14 万个指代表达和超过 5 万张图像。这个任务可以使模型学习如何根据指代表达来检测出图像中的目标，并且给出其位置和指代信息。

通过以上 2 个阶段的预训练，模型可以在不同的语言输入形式下，对不同的目标类别进行有效的检测。

SD的启动命令：

nohup python -u launch.py --listen --port 9301 --xformers --no-half-vae --enable-insecure-extension-access --theme dark --gradio-queue > nohup.62.out &

参数 --xformers 有效降低显存占用，提升出图速度。

示例图像，提示词来源于真实图像的导出：

1girl,bag,black hair,earrings,full body,glasses,handbag,jewelry,lipstick,looking at viewer,makeup,pantyhose,pencil skirt,polka dot,polka dot dress,sheer legwear,skirt,smile,solo,standing,sunglasses,wall,
a woman in a pink dress leaning against a wall with a white purse and a handbag on her hip,Carol Bove,feminine,a cubist painting,op art,
best quality,masterpiece,ultra high res,(photorealistic:1.4),
Negative prompt: (badhandv4:1.2),(ng_deepnegative_v1_75t, bad_prompt_version2-neg, EasyNegative:0.9),
(worst quality, low quality:1.3),(depth of field, blurry:1.2),(greyscale, monochrome:1.1),croped,lowres,text,jpeg artifacts,(logo,signature,watermark,username,artist name,title:1.3),
Steps: 30, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Seed: 3576157745, Size: 768x1024, Model hash: e4a30e4607, Model: 麦橘写实_MajicMIX_Realistic_v6, Denoising strength: 0.3, Clip skip: 2, ADetailer model: face_yolov8n.pt, ADetailer prompt: "detailed face, close-up, portrait,", ADetailer confidence: 0.3, ADetailer dilate/erode: 4, ADetailer mask blur: 4, ADetailer denoising strength: 0.4, ADetailer inpaint only masked: True, ADetailer inpaint padding: 32, ADetailer model 2nd: hand_yolov8s.pt, ADetailer prompt 2nd: "detailed hand, perfect hand,", ADetailer confidence 2nd: 0.3, ADetailer dilate/erode 2nd: 4, ADetailer mask blur 2nd: 4, ADetailer denoising strength 2nd: 0.4, ADetailer inpaint only masked 2nd: True, ADetailer inpaint padding 2nd: 32, ADetailer version: 23.7.6, Hires upscale: 2, Hires steps: 10, Hires upscaler: 8x_NMKD-Superscale_150000_G, Version: v1.4.0
Used embeddings: badhandv4 [dba1], ng_deepnegative_v1_75t [1a3e], bad_prompt_version2-neg [afea], EasyNegative [119b]

图像：

SAM 插件：segment-anything

GroundingDINO的Huggingface工程：Huggingface - GroundingDINO

1. SAM 模型

安装插件，搜索segment anything，下载 SAM 模型，即：

cd stable_diffusion_webui_docker/extensions/sd-webui-segment-anything/models/sam

bypy downfile /stable_diffusion/extensions/segment_anything/sam_vit_h_4b8939.pth sam_vit_h_4b8939.pth

启用 Segment Anything (分离图像元素) 脚本，点击 人物的裙子，出现黑点，即：

再点击 预览分割结果，即出现全部的分割项，物体从小到大，预览有些形变，真实图像正常，即：

即将所需的裙子部分全部分割出来。

2. GroundingDINO 模型

进入 segment anything 的配置页面，启用本地 Groudingdino 功能，这样就可以直接使用 Huggingface 的工程：

下载 Huggingface 的 GroundingDINO 组件：

cd stable_diffusion_webui_docker/extensions/sd-webui-segment-anything/models/

bypy downdir /huggingface/GroundingDINO grounding-dino

在使用时，还需下载 bert-base-uncased 与 tokenizer.json，大约 440 M。

启用 GroundingDINO：

选择所使用的模型，主要用于目标检测。
选择提示词，用于标识所要分割物体。

即：

即 GroundingDINO 通过提示词，进行目标检测，再结合 Segment Anything 的实例分割，可以取得更好的性能。

Bug: 遇到 [Errno 39] Directory not empty: '/stable_diffusion_webui_docker/venv/lib/python3.8/site-packages/~IL'

关闭 SD 服务，删除 ~IL 文件夹，再重新启动，即可。

3. 局部重绘

保持之前的图像与 Mask，原图与模版的效果如下：

使用 图生图 的 上传重绘模版 功能，上传原图与Mask，设置如下：

缩放模式：仅调整大小
蒙版模式：重绘蒙版内容
蒙版区域内容处理：填充(fill)
重绘区域：整张图片 ，边缘更加和谐
同时开启 ControlNet 的 软边缘(SoftEdge) 模式，强化纹理效果。

即：

提示词：

yellow pencil skirt,polka dot dress,skirt,

yellow pencil skirt,polka dot dress,skirt,
best quality,masterpiece,ultra high res,(photorealistic:1.4),

负向提示词：

(ng_deepnegative_v1_75t, bad_prompt_version2-neg, EasyNegative:0.9),
(worst quality, low quality:1.3),(depth of field, blurry:1.2),(greyscale, monochrome:1.1),lowres,jpeg artifacts,

增加 局部重绘 (Inpaint) 功能，同时，控制模式 选择 更偏向提示词。

裙子颜色的依次效果如下：

袜子提示词，修改颜色属性，注意不同随机种子差别较大：

(black color wrap hip pantyhose:1.3),thights,stockings,high heels,
best quality,masterpiece,ultra high res,(photorealistic:1.4),

采样模式：DDIM，随机种子：3474825489，ControlNet控制模型：更偏向提示词，提升重绘幅度至：0.8

颜色：image、black、pink、blue、yellow，袜子颜色的依次效果如下：

具体信息：

(black color wrap hip pantyhose:1.3),thights,stockings,high heels,
best quality,masterpiece,ultra high res,(photorealistic:1.4),
Negative prompt: (ng_deepnegative_v1_75t, bad_prompt_version2-neg, EasyNegative:0.9),
(worst quality, low quality:1.3),(depth of field, blurry:1.2),(greyscale, monochrome:1.1),lowres,jpeg artifacts,
Steps: 20, Sampler: DDIM, CFG scale: 7, Seed: 3474825489, Size: 1536x2048, Model hash: e4a30e4607, Model: 麦橘写实_MajicMIX_Realistic_v6, Denoising strength: 0.8, Clip skip: 2, Mask blur: 4, ControlNet 0: “preprocessor: none, model: control_v11p_sd15_softedge [a8575a2a], weight: 1, starting/ending: (0, 1), resize mode: Just Resize, pixel perfect: True, control mode: My prompt is more important, preprocessor params: (512, -1, -1)”, Version: v1.4.0

即通过 Segment Anything + Grounding DINO + ControlNet + Inpaint 实现局部重绘。

DETRs with Collaborative Hybrid Assignments Training论文阅读与代码分享总结快乐论文阅读
关键词：协作混合分配训练【目标检测】Co-DETR：ATSS+FasterRCNN+DETR协作的先进检测器（ICCV2023）-CSDN博客摘要：在这篇论文中，作者观察到在DETR中将过少的Query分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名
【Vim Masterclass 笔记22】S09L40 + L41：同步练习11：Vim 的配置与 vimrc 文件的相关操作（含点评课内容）安冬的码畜日常 Vim Masterclass vim 笔记 vim配置 vim同步练习 vim options vim option-list
文章目录S09L40Exercise11-VimSettingsandtheVimrcFile1训练目标2操作指令2.1.打开vimrc-sample文件2.2.尝试各种选项与设置2.3.将更改内容保存到vimrc-sample文件2.4.将文件vimrc-sample的内容复制到寄存器2.5.创建专属vimrc文件2.6.对于Mac、Linux或Unix用户2.7.对于Windows用户2.8.
动手写分布式缓存 11 qq_50996930 Go语言学习专栏分布式缓存
main函数实现定义一个map模拟数据库。varmysql=map[string]string{"Tom":"630","Jack":"589","Sam":"567",}为多个端口处创建rpc服务服务名就是ip+端口。将各个服务器的ip+端口加到每个服务器的哈希环里。为每个服务器创建缓存池组。缓存池组和rpc服务绑定。持续监听端口addrs:=[]string{"localhost:9999",
[samba路径配置的注意小点] 沉木渡香基础环境搭建杂七杂八 linux 运维服务器
samba配置好路径依然无法访问。在配置samba的共享路径时，不用选用/home/user_1/下的某个路径做为共享路径，这会导致user_2,user_3均无法访问。可以选择/media/，/mnt/，或者直接在/home下包含user_1的路径
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
解锁辅助驾驶新境界：基于昇腾 AI 异构计算架构 CANN 的应用探秘倔强的石头_ AIGC 人工智能架构
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《AI大模型》期待您的关注目录一、引言二、CANN是什么1.异构计算与人工智能的关系2.CANN的定义和作用3.CANN的技术优势三、基于CANN的辅助驾驶AI应用原理1.目标检测算法2.智能检测流程3.算力平台支持四、基于CANN的辅助驾驶AI优势1.高效训练2.精准检测3.快速编程4.产业应用五、部署实操六
YOLOv10全网最新创新点改进系列：YOLOv10融合SwinTransformer模块，分辨率每层变成一半，而通道数变成两倍,有效提升小目标检测效果！ AI棒棒牛 YOLO 目标检测人工智能模型改进 yolov10 创新 sci写作
YOLOv10全网最新创新点改进系列：YOLOv10融合SwinTransformer模块，分辨率每层变成一半，而通道数变成两倍,有效提升小目标检测效果！所有改进代码均经过实验测试跑通！截止发稿时YOLOv10已改进40+！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，关注B站up主：Ai学术叫叫兽er！购买相关资料后畅享一对一答疑！YOLOv10全网最新创
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
全网最全Stable diffusion保姆级教程「安装-配置-画图」，小白必收藏！！ AI想象家 stable diffusion AI作画 midjourney 人工智能深度学习
随着chatgpt爆火之后，越来越多的人开始关注人工智能，人工智能相关的其他应用如AI绘画，也再次得到人们的关注。AI绘画的确很上头，最近几天小编也研究一下，这里把研究的过程以及中间遇到的问题整理一下，我这里遇到的问题，相信新入门的小白也会遇到，希望本文对你能有一定的帮助。给大家带来了全新保姆级教程资料包（文末可获取）目前常用的AI绘画工具主要有两种：stablediffusion和midjour
docker离线安装及部署各类中间件（x86系统架构） m0_67403143 面试学习路线阿里巴巴 docker 中间件系统架构
前言：此文主要针对需要在x86内网服务器搭建系统的情况一、docker离线安装1、下载docker镜像https://download.docker.com/linux/static/stable/x86_64/版本：docker-23.0.6.tgz2、将docker-23.0.6.tgz文件上传到服务器上面，这里放在了/home下3、创建docker.service文件#进入/etc/syst
vid2vid-zero：使用Stable Diffusion进行零样本视频编辑 ScienceLi1125 3D视觉 stable diffusion
Paper:WangW,JiangY,XieK,etal.Zero-shotvideoeditingusingoff-the-shelfimagediffusionmodels[J].arXivpreprintarXiv:2303.17599,2023.Introduction:UnreleasedCode:https://github.com/baaivision/vid2vid-zero目录一
开源AI图像工具—Stable Diffusion 蚂蚁在飞- 人工智能 stable diffusion
StableDiffusion是一种基于深度学习的生成式模型，用于图像生成、图像修复和风格转换等任务。它是由StabilityAI和CompVis团队联合开发的。StableDiffusion在生成高质量图像方面表现出色，并且是开源的，可以自由使用和扩展。StableDiffusion的核心技术1.扩散模型(DiffusionModels):•基于概率生成模型。•从噪声中逐步反向生成清晰的图像。•
智能优化算法应用：堆优化算法优化脉冲耦合神经网络的图像自动分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法神经网络人工智能
智能优化算法应用：堆优化算法优化脉冲耦合神经网络的图像自动分割文章目录智能优化算法应用：堆优化算法优化脉冲耦合神经网络的图像自动分割1.堆优化算法2.PCNN网络3.实验结果4.参考文献5.Matlab代码摘要：本文利用堆优化算法对脉冲耦合神经网络的参数进行优化，以信息熵作为适应度函数，提高其图像分割的性能。1.堆优化算法堆优化算法原理请参考：https://blog.csdn.net/u0118
深入理解AIGC背后的核心算法：GAN、Transformer与Diffusion Models 忘梓. 杂文 AIGC 算法生成对抗网络
深入理解AIGC背后的核心算法：GAN、Transformer与DiffusionModels前言随着人工智能技术的发展，AIGC（AIGeneratedContent，人工智能生成内容）已经不再是科幻电影中的幻想，而成为了现实生活中的一种新兴力量。无论是自动生成文章、绘制图像、生成音乐还是创作视频，AIGC都在各个内容创作领域崭露头角。然而，这些“智能创作”的背后究竟依赖于哪些算法？今天，我们将
基于纵横交叉算法优化的最小交叉熵图像多阈值分割 python 图像算法打怪图像分割算法 python 开发语言
基于纵横交叉算法优化的最小交叉熵图像多阈值分割python文章目录基于纵横交叉算法优化的最小交叉熵图像多阈值分割python1.最小交叉熵阈值分割原理2.基于纵横交叉优化的多阈值分割3.算法结果：4.参考文献：5.Python代码摘要：本文介绍基于最小交叉熵的图像分割，并且应用纵横交叉算法进行阈值寻优。1.最小交叉熵阈值分割原理1993年，Li等人将交叉熵的概念引入到图像处理领域，提出了基于一维灰
Java：函数式(Functional)接口我是小水水啊 Java java 开发语言
文章目录1什么是函数式接口2如何理解函数式接口3举例Java内置函数式接口1之前的函数式接口2四大核心函数式接口3.4.3其它接口内置接口代码演示5练习1什么是函数式接口只包含一个抽象方法（SingleAbstractMethod，简称SAM）的接口，称为函数式接口。当然该接口可以包含其他非抽象方法。你可以通过Lambda表达式来创建该接口的对象。（若Lambda表达式抛出一个受检异常(即：非运行
RT-DETR改进策略【Neck】| PRCV 2023，SBA（Selective Boundary Aggregation）：特征融合模块，描绘物体轮廓重新校准物体位置，解决边界模糊问题 Limiiiing RT-DETR改进专栏人工智能计算机视觉深度学习 RT-DETR
一、本文介绍本文主要利用DuAT中的SBA模块优化RT-DETR的目标检测网络模型。SBA模块借鉴了医疗图像分割中处理边界信息的独特思路，通过创新性的结构设计，在维持合理计算复杂度的基础上，巧妙融合浅层的边界细节特征与深层的语义信息，实现边界特征的精准提取与语义信息的有效整合。将其应用于RT-DETR的改进过程中，能够使模型着重聚焦于目标物体的边界区域，降低背景及其他无关信息的影响，强化目标物体的
VMware vSphere Web Services SDK编程指南（五）- 5.4 客户端应用(Web 服务器会话令牌) joexk vSphere Web Services SDK编程指南 vmware vSphere web services sdk
5.4Web服务器会话令牌本章包括以下主题：■5.1vCenter服务器连接■5.2与vCenter服务器建立一个单点登录会话■5.3使用用户名和密码凭证建立一个会话■5.4Web服务器会话令牌■5.5vSphereAPI的多个版本■5.6标识由服务器支持的API版本■5.7Sample应用程序接前篇从第4节开始与其他Web服务一样，vSphereWeb服务通过在HTTP头中使用一个令牌来标识会话
Android Kotlin MVP 架构项目教程常樱沙Vigour
AndroidKotlinMVP架构项目教程android-kotlin-mvp-architectureThisrepositorycontainsadetailedsampleappthatimplementsMVParchitectureinKotlinusingDagger2,Room,RxJava2,FastAndroidNetworkingandPlaceholderView项目地址:
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
YOLOv8改进，YOLOv8检测头融合DiverseBranchBlock，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要一种卷积神经网络（ConvNet）的通用构建模块，以在不增加推理时间成本的情况下提高性能。该模块被命名为多样分支块（DiverseBranchBlock，DBB），通过结合不同尺度和复杂度的多样分支来丰富特征空间，包括卷积序列、多尺度卷积和平均池化，从而增强单个卷积的表示能力。在训练后，DBB可以等效地转换为一个单独的卷积层以进行部署。与新型ConvNet架构的进步不同，DBB在保持宏观架构的
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码) YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，
2017-SIGGRAPH-Google,MIT-(HDRNet)Deep Bilateral Learning for Real-Time Image Enhancements WX Chen HDR技术深度学习神经网络机器学习
双边网格本质上是一个可以保存边缘信息的3维的数据结构。对于一张2维图片,在2维空间中增加了一维代表像素的强度slice操作(上采样)BilateralGuidedUpsampling这篇文章用双边网格实现图像的操作算子的加速。算法的核心思想是将一幅高分辨率的图像通过下采样转换成一个双边网格,在双边网格中每个格子就是一个图像的仿射变换算子,它的原理是在空间与值域相近的区域内,相似输入图像的亮度经算子
Stable Diffusion 3(SD 3)模型分享 szboy2003 stable diffusion 图像处理视觉检测 AI作画
整理了StableDiffusion3(SD3)模型，分享如下：sd3_medium.safetensors链接:https://pan.baidu.com/s/1aYq0MTmKj0U9fBNexV-7sw?pwd=5566提取码:5566sd3_medium_incl_clips_t5xxlfp8.safetensors链接:https://pan.baidu.com/s/1cg3zESBk0
K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
ASP.NET Core N-Tier 架构 Web API 项目教程蓬为宜
ASP.NETCoreN-Tier架构WebAPI项目教程aspnetcore.ntier.NETCoreN-TierarchitectureWebApisampleproject.项目地址:https://gitcode.com/gh_mirrors/as/aspnetcore.ntier项目介绍ASP.NETCoreN-Tier架构WebAPI项目是一个示例项目，展示了如何使用ASP.NETC
YOLOv9改进，YOLOv9检测头融合，适合目标检测、分割任务挂科边缘 YOLOv9改进目标检测人工智能计算机视觉 YOLO
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
YOLOv8改进，YOLOv8检测头融合RFAConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

Stable Diffusion - 扩展 SegmentAnything 和 GroundingDINO 实例分割算法 插件的配置与使用

1. SAM 模型

2. GroundingDINO 模型

3. 局部重绘

你可能感兴趣的:(stable,diffusion,sam,grounding,dino,图像分割,目标检测)

Stable Diffusion - 扩展 SegmentAnything 和 GroundingDINO 实例分割算法插件的配置与使用