Chaoy6565

学习记录——SegNetr、EGE-UNet、R2AU-Net、PHNet、CFNet

SegNetr: Rethinking the local-global interactions and skip connections in U-shaped networks

前导：

集中于设计复杂的自注意力模块，以弥补基于卷积操作捕获长距离上下文依赖的不足，从而增加了网络的参数和计算复杂性；
过于简单地融合编码器和解码器的特征，忽略了它们之间空间位置的关联性。
论文引入了一种新颖的SegNetr块，可以在任意阶段动态地执行局部-全局交互，并且具有线性复杂度。同时，论文设计了一种通用的信息保留跳跃连接，用于保留编码器特征的空间位置信息，并与解码器特征进行准确融合。

SegNetr 是一个典型的分层 U 型网络，其中包括 SegNetr 块和 IRSC 两个重要组件。为了使网络更轻量化，作者基于 MBConv 作为基础卷积构建块。SegNetr 块在编码器和解码器阶段实现了动态的局部-全局交互。使用补丁合并将分辨率降低两倍，同时不丢失原始图像信息。此外，IRSC 则用于融合编码器和解码器的特征，减少随着深度增加而网络丢失的细节信息。

SegNetr 块，这是 SegNetr 整个网络的核心组件，通过局部-全局交互实现特征的动态处理。它使用 MBConv 作为基础卷积模块，并引入局部和全局分支来实现交互。

此处，局部分支时通过计算非重叠小补丁的注意力矩阵，实现局部交互。而全局分支通过对空间上非连续补丁的聚合和位移操作，实现全局交互。局部和全局分支最终通过加权求和进行融合。这种设计不仅减少了计算复杂度，还更好地捕捉了图像中的局部和全局信息。

信息保留跳跃连接通过 Patch Merging 和 Patch Reverse ，实现了编码器和解码器特征的融合。其中，Patch Merging 的具体操作时将输入特征图的分辨率降低，同时扩展通道维度，以保留更多高分辨率的细节信息。而 Patch Reverse 用于恢复编码器的空间分辨率，并与解码器的上采样特征进行融合。这样可以更好地恢复特征图的细节和位置信息，提高分割的准确性。

EGE-UNet: an Efficient Group Enhanced UNet for skin lesion segmentation

上海交大 2023 MICCAI

基于 U-Net 进行魔改，用于解决医学图像（尤其是皮肤病变）分割中面临的问题。由于它是针对移动健康应用开发的，解决了当前许多模型所面临的高参数和计算负载问题。
EGE-UNet融合了两个主要模块：

Group multi-axis Hadamard Product Attention module (GHPA)
Group Aggregation Bridge module (GAB)

GHPA 利用哈达玛积注意力机制（HPA），通过将输入特征进行分组，对不同轴进行 HPA 操作，从多个视角提取病变信息。这种方法是受到多头自注意力机制(MHSA)的启发，而 HPA 则可以减少模型大小，因为它的复杂性被设计为线性的，而且不同于 MHSA 的二次复杂性。
什么是哈达玛积？转
GAB 通过分组聚合将不同规模的高级语义特征和低级细节特征以及解码器生成的掩码进行融合，从而有效提取多尺度信息，这对医学图像的分割至关重要。

GHPA 模块

HPA采用可学习权值，并对输入进行标准乘积运算以获得输出。随后，受MHSA中的多头模式的启发，我们提出了GHPA，它将输入分成不同的组，并在每个组中执行HPA。然而，值得注意的是，我们在不同的组中对不同的轴进行HPA，这有助于进一步从不同的角度获得信息。另一方面，对于GAB，由于医学图像中分割目标的大小和形状不一致，需要获取多尺度信息[19]。因此，GAB基于分组聚合将大小不同的高层和低层特征集成在一起，并在此基础上引入掩码信息辅助特征融合。通过将上述两个模块与UNet相结合，我们提出了EGE-UNet，它以极低的参数和计算量获得了优异的分割性能。

GAB

它接受三个输入：

低级特征
高级特征
掩码

首先，使用深度可分卷积（DW）和双线性插值调整高级特征的大小，以匹配低级特征的大小。其次，我们将两个特征图沿着通道维度划分为四个组，并将低级特征的一组与高级特征的一组连接起来，得到四组融合特征。对于每组融合特征，掩码被连接。接下来，对不同的组应用带有3个核大小和不同扩张率的扩张卷积，以便提取不同尺度的信息。最后，沿着通道维度连接四个组，然后应用核大小为1的普通卷积以实现不同尺度特征之间的交互。

A FEW-SHOT ATTENTION RECURRENT RESIDUAL U-NET FOR CRACK SEGMENTATION

本文主要探讨了一种关于小样本语义分割的道路裂缝自动分割算法，其基于具有循环残差和注意力模块的U-Net架构——Recurrent Residual and Attention U-Net。当一些新的校正样本被送入分类器时，采用再训练策略可以动态地微调U-Net的权重。

如上图(a)所示，本文基于U-Net网络并结合循环残差和注意力模块提出了一种适用于道路裂缝分割的网络，称为R2AU-Net。与标准U-Net相比，R2AU-Net 结合了递归残差卷积层，可确保更好地表示分割任务的特征和注意力区域，以突出显示通过跳跃连接传递的显着特征。
此外，本文针对以往方法仅能从以训练的标注数据中学习的限制，引入了一种基于 R2AU-Net 的半监督学习范式few-shot refinement方案，它能够根据用户的反馈灵活的调整模型的行为和权重，进一步提高分割性能，如上图(b)所示。

A Permutable Hybrid Network for Volumetric Medical Image Segmentation

2023
本文将CNN和MLP相结合，提出了一种新的混合网络PHNet，以实现准确的3D医学图像分割。PHNet采用编码器-解码器结构，其中编码器利用2.5D CNN结构，可以利用医学图像固有的等向性，并通过捕获不同方向上体积医学图像的变化信息密度来避免浅层损失信息。论文进一步提出了MLPP，一种可以在计算效率高的情况下保持位置信息并集成全局相互依赖性的多层排列感知器模块。为了提高计算效率，引入了令牌token组操作，可以高效地在令牌级别上聚合特征映射，从而减少所需的计算量。本文首次提出将CNN和MLP进行结合，并应用于3D医学图像分割。

网络框架

结构如上图：采用编码器-解码器架构，编码器由两个主要组件组成：2.5D卷积模块和多层置换感知器（MLPP）模块。2.5D卷积阶段提取局部特征，输出的特征图传递给MLPP模块以学习全局特征。解码器对分层特征进行处理以进行最终预测。

2.5D Convolution

本文通过引入卷积层来提取局部特征，这是基于先前关于医学图像分析偏差的研究[1]和3D体积医学图像的各向异性本质而得出的结论。3D体积图像如CT和MRI扫描常常由于其厚切片扫描而受到各向异性问题的影响，导致高面内IP分辨率和低面外TP分辨率，这种差异在COVID-19-20中特别明显，其IP分辨率平均为0.74mm，而TP分辨率仅为5mm。为了解决这一问题，本文使用2D卷积块来捕获IP信息，直到特征在三个轴面（横断、冠状和矢状）上形成近似均匀的分辨率，然后使用3D卷积块来处理体素信息。每个编码器层由两个残差卷积块组成，每个块包括两个顺序的Conv-IN-ReLU操作。

Multi-Layer Permute Perceptron (MLPP)

尽管卷积神经网络（CNN）通过深层堆叠卷积层能够建模长距离依赖关系，但研究表明：基于多层感知器MLP的网络在学习全局上下文方面更有效。因此本文设计了MLPP模块（如上图2b所示）用以提取深层的全局信息。MLPP模块按顺序分解平面内IP特征和垂直方向TP特征的训练。作者分别将这两个块称为IP-MLP和TP-MLP。为了实现跨轴令牌之间的通信，作者还在IP-MLP中提出了一个辅助注意力分支，称为AA-MLP。具体细节如下：

Decoder

本文的解码器采用纯CNN架构，使用转置卷积逐渐上采样特征映射以匹配输入图像分辨率。在上采样过程之后，使用残差卷积块来细化特征映射。为了进一步提高分割准确性，作者在编码器和解码器之间包括跳跃连接，允许保留low-level的细节信息。

本文提出了一种新的可置换混合网络PHNet，用于3D体积医学图像分割任务。PHNet集成了2D CNN、3D CNN和MLP，以实现局部和全局特征的提取和集成。此外，本文还引入了一个可置换的MLP块，以解决空间信息丢失问题并最小化计算负担。通过在两个公共数据集上进行的广泛实验证明，所提出的方法优于现有的SOTA方法。结合不同任务的特点，考虑精度与计算负载问题，系统地研究CNN、Transformer和MLP之间的效率、有效性和交互作用，会是一个不错的idea。

CFNet: Cascade Fusion Network for Dense Prediction

一种新颖的多尺度融合方法
CVPR 2023
现有的SOTA方法通常先通过主干网络提取多尺度特征，然后通过轻量级模块（如 FPN）融合这些特征。然而，我们认为通过这样的范例来融合多尺度特征可能是不够充分，因为与重量级主干网络相比，分配给特征融合的参数是有限的。
为此，我们提出了一种名为级联融合网络（CFNet）的新架构用于提升密集预测性能。除了用于提取初始高分辨率特征的主干和几个模块外，我们还引入了几个级联stage，使得CFNet能够生成更丰富的多尺度特征。每个stage都包括一个用于特征提取的子主干和一个用于特征集成的轻量级的转换模块。这种设计使得可以更深入有效地融合特征与整个主干的大部分参数。最后，我们在目标检测、实例分割和语义分割等任务中验证了CFNet 的有效性。

近几年，CNN和Transformer在许多计算机视觉任务中取得了令人满意的成果，包括图像分类、目标检测、语义分割等任务。对于图像分类任务，CNN和transformer网络在架构设计中均遵循逐渐减小特征图的空间大小的方式，来获取最高级语义特征进行预测。然而，对于许多密集预测任务，例如检测和分割，则需要多尺度特征来处理不同尺度的目标。
众所周知，特征金字塔网络 (FPN) 被广泛用于多尺度特征提取和融合，如上图(a)所示。然而，我们认为使用这样的范例可能不足以融合多尺度特征，因为与重量级主干网络相比，分配给特征融合的参数是有限的。例如，考虑基于主干 ConvNeXt-S 构建的 FPN，融合模块与主干的参数比例小于 10%。
那么，在计算资源不变的情况下，如果我们想为特征融合分配更多的参数，一个直观的方法是使用更小的主干并扩大融合模块。然而，使用较小的主干意味着整个模型从大规模预训练（例如 ImageNet 分类预训练）中获益较少，这对于训练数据有限的下游任务至关重要。那么我们如何分配更多的参数来实现特征融合，同时保持一个简单的模型架构，使得模型仍然可以最大程度地受益于大规模的预训练权重呢？
先回顾一下FPN的融合模块。为了融合多尺度特征，来自相邻层的特征首先通过逐元素相加进行整合，然后使用单个 3×3 卷积对求和特征进行变换。我们将这两个步骤命名为特征集成和特征转换。很明显，我们可以堆叠更多的卷积来转换集成特征，但它同时也引入了更多的参数，为主干留下的参数更少。从另一个角度思考，我们是否可以将特征整合操作插入主干，以便利用它之后的所有参数来转换整合后的特征。

CFNet主要思想是将特征集成操作插入至骨干网络中，使得更多参数能够用于特征融合，极大地增加了特征融合的丰富度。本文提出的CFNet方法的主要贡献如下：

本文提出的CFNet能够有效改善密集任务（检测、分割）性能；
由于CFNet架构的简易性，能够轻松从大规模预训练权重中获益；
在目标检测和实例分割任务上超越ConvNeXt以及Swin Transformer 1~2%精度。

上图展示了CFNet网络架构。输入一张尺寸大小为的 RGB 图像，经过一个 stem 和 N 个连续的块(block)处理，提取到的高分辨率特征。stem 由两个步幅(stride)为 2 的卷积层组成，每个卷积层后面跟着一个 LayerNorm 层和一个 GELU 单元。CFNet 中的块(block)可以是之前的一些研究中提出的任何设计，例如 ResNet 瓶颈块、ConvNeXt 块、Swin Transformer 块等。

在CFNet 的多级结构中，高分辨率的特征经过一个步幅(stride)为 2 的卷积层降采样后，被送入个级联的stage中。所有的stage都共享相同的结构，但是它们可能具有不同数量的块(block)。在每个stage的最后一个块组中，应用了关注块(focal block)。值得注意的是，每个阶段输出带有步幅为 8、16、32 的特征 P3、P4、P5，但只有 P3 特征被送入后续stage。最后，由最后一个阶段输出的融合特征 P3、P4 和 P5 用于密集预测任务。

转换块用于整合每个stage中不同尺度的特征。如上图所示，我们提出了三种简单的转换块。

Add: 首先使用1×1卷积将C4和C5的通道数量降低以与C3对齐。在执行逐元素相加之前，使用双线性插值操作对齐特征的空间大小。
Concat: 直接上采样C4和C5的特征以与C3的空间大小对齐，然后拼接这些特征，接着使用1×1卷积来减少通道数。
Sequentially Add: 将不同尺度的特征逐步上采样和组合。这个设计类似于FPN中的融合模块，不同之处在于没有额外的卷积来转换相加的特征。

在密集预测任务中，处理各种尺度的目标一直是一个巨大的挑战。通常采用的解决方案是生成不同分辨率的特征。例如，使用步幅为8、16、32、64、128的特征来检测相应尺度的目标。用于生成步幅较大的特征的神经元通常具有较大的感受野。在CFNet的每个stage中，有三个块组用于提取步幅为8、16、32的特征。理想情况下，我们可以提取另外两个分辨率的特征以整合更多的特征尺度，就像和FPN一样。然而，这会引入更多的参数，因为随着特征的空间尺寸缩小，后面的组的通道数量逐渐增加。因此，我们提出了聚焦块，用于扩大每个stage的最后一个块组中神经元的感受野。
如上图所示，本文提出了两种聚焦块的设计，分别在ConvNeXt块和Swin Transformer块中引入了膨胀深度卷积和两个跳跃连接。聚焦块可以同时合并细粒度的局部特征和粗粒度的全局特征进行交互。最近，使用全局注意力或大卷积核来扩大感受野已经得到广泛研究。虽然取得了有竞争力的结果，但将这些操作应用于密集预测任务时，由于输入图像的尺寸过大，通常会引入大量的计算成本和内存开销。相比之下，本文提出的聚焦块仅引入了极少量的额外成本。

End

以上仅作个人学习记录使用

机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
华为OD机试 - 字符串分割转换（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
一、题目描述给定一个非空字符串QS，其被N个‘;’分隔成N+1个子串，给定正整数数组K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并‘-’分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写Q字母；反之，如果它含有的大写字母比小写字母多，则将这个子串的所有小写字母转换为大写字母；大小写字母的数量相等时，不做转换。二、输入描述输入为两行，第
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
什么是数据库的分区技术？破碎的天堂鸟学习教程数据库
数据库分区技术详解数据库分区技术是一种通过将大型表或索引分割成多个逻辑独立、物理可分离的单元（即分区）来优化性能和管理效率的核心策略。以下是其核心要点和应用的全面解析：1.定义与基本原理数据库分区（Partitioning）是一种物理数据库设计技术，通过特定规则（如范围、列表、哈希等）将表或索引划分为更小、更易管理的逻辑单元。每个分区可独立存储于不同物理位置（如磁盘或服务器），但对应用层透明，逻辑
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
又叕最后的作业hhhhhhhhhh MapleInori 编程题目算法 c++
目录题目A:城堡题目B:山洞寻宝图题目C:迷宫题目D:n皇后题目E:最大装载问题题目F:跳马问题（2点）题目G:布线问题题目A:城堡题目描述某城堡被分割成m×n（m≤50，n≤50）个方块，每个方块的四面可能有墙，“#”代表有墙，没有墙分割的方块连在一起组成一个房间，城堡外围一圈都是墙。如果1、2、4和8分别对应左墙、上墙、右墙和下墙，则可以用方块周围每个墙对应的数字之和来描述该方块四面墙的情况，
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION UnknownBody LLM Daily 3d 语言模型人工智能
摘要3D可及性检测是一个具有挑战性的问题，在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签，缺乏理解复杂自然语言的能力，导致在开放世界场景中的泛化能力有限。为了解决这些限制，我们将传统的可及性检测范式重新定义为指令推理可及性分割（IRAS）任务。该任务旨在根据查询推理文本输出可及性掩码区域，避免了输入标签的固定类别。相应地，我们提出了
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
OpenCV多分辨率模板匹配与容错优化实战指南追寻向上 opencv 人工智能计算机视觉
第一章：问题背景与挑战1.1传统模板匹配的局限性模板匹配（TemplateMatching）是计算机视觉中基础且广泛使用的技术，其核心思想是通过滑动窗口在目标图像中寻找与模板最相似的位置。然而，传统方法（如OpenCV的cv2.matchTemplate）在实际应用中存在以下问题：尺寸敏感性当目标的实际尺寸与模板不一致时，匹配结果会严重偏离。例如，在工业检测中，摄像头与物体的距离变化会导致目标缩放
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
ruby分割字符串_Ruby 字符串（String） weixin_39996908 ruby分割字符串
Ruby字符串(String)Ruby中的String对象用于存储或操作一个或多个字节的序列。Ruby字符串分为单引号字符串(')和双引号字符串(")，区别在于双引号字符串能够支持更多的转义字符。单引号字符串最简单的字符串是单引号字符串，即在单引号内存放字符串：'这是一个Ruby程序的字符串'如果您需要在单引号字符串内使用单引号字符，那么需要在单引号字符串使用反斜杠(\)，这样Ruby解释器就不会
ruby分割字符串_Ruby字符串的一些方法狄息桐 ruby分割字符串
最近因为公司需求开始看ruby，先从ruby的基本数据类型开始看看到ruby的字符串类型string，发现ruby中的字符串单双引号是不一样的，这点和Python有那么点不一样主要是我们对字符串进行变量引用的时候要使用双引号如下：可支持全部的转义字符及用#{exp}将Ruby中的值插入字符串中例：i=5str=“abab#{i}cjd”#->abab5cjd“#{‘ho‘*3}happynewye
ruby分割字符串_Ruby字符串孙叔敖夜 ruby分割字符串
构建方法str='helloworld'#只允许`\\`与`\'`转义str="helloworld"#允许所有转义和`#{}`字符串拼接str=%q/helloworld/#等同单引号str=%Q{helloworld}#等同双引号str="abcabc"索引str="abc"s=str[-1]#s=>'c's1=str[2]#s1=>'c'，ruby中的字符视为整数s2=str[1,2]#s2
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
Python库 - skimage 司南锤 PYTHON库 python 开发语言
skimage是scikit-image的缩写，是一个用于图像处理的Python库。提供了丰富的图像处理功能，包括图像滤波、边缘检测、形态学操作、特征提取、图像分割等。skimage是基于NumPy数组构建的，因此可以与NumPy和其他科学计算库（如scipy和matplotlib）无缝集成。安装可以使用pip来安装skimage：pipinstallscikit-image主要模块skimage
YOLOv8n-seg.pt的使用（实例分割，训练自己制作的数据集）再坚持一下！！！ YOLO
Ubuntu+python3一、YOLOV8源码下载参考：GitHub-ultralytics/ultralytics:NEW-YOLOv8inPyTorch>ONNX>OpenVINO>CoreML>TFLite二、数据集制作1.labelme下载：pip3installlabelme2.终端输入labelme,打开labelme。界面“打开目录”，打开图片目录images，进行多边形标注（右键
LeetCode 3280 将日期转换为二进制表示雾月55 leetcode 算法职场和发展数据结构 java
【算法实战】日期转二进制：两种解法的思路与优化（附代码解析）一、问题描述给定一个yyyy-mm-dd格式的日期字符串，要求将年、月、日分别转为无前导零的二进制，并保持year-month-day格式。示例：输入2025-03-15，输出11111101001-11-1111（2025→11111101001，3→11，15→1111）。二、解法一：直接分割转换（新手友好）思路分析分割日期：按-拆分
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发