枫林扬

Mask Transfiner for High-Quality Instance Segmentation

两阶段和基于查询的实例分割方法取得了显著的效果。然而，它们的分节面具仍然非常粗糙。在本文中，我们提出了一种用于高质量和高效的实例分割的掩模转换器。我们的掩模转换器不是在常规的稠密张量上操作，而是将图像区域分解并表示为四叉树。我们基于变压器的方法只处理检测到的容易出错的树节点，并并行地自我纠正它们的错误。虽然这些稀疏的像素只占总数的一小部分，但它们对最终的掩模质量至关重要。这使得MaskTransfiner能够以较低的计算成本预测高度准确的实例掩码。大量的实验表明，Mask Transfiner在三个流行的基准上优于当前的实例分割方法，在COCO和bdd100k上显著提高了+3.0 Mask AP，在Cityscapes上提高了+6.6 boundary AP，显著提高了两阶段和基于查询的框架。我们的代码和训练过的模型可以在http://vis.xyz/pub/transfiner上找到。

1. Introduction

图像实例分割的进步很大程度上是由强大的对象检测范式的发展所驱动的。基于掩码RCNN[12,19,22,25,32]和最近的DETR[14,15,21]的方法在例如COCO挑战[31]上取得了越来越高的性能。虽然这些方法优于目标的检测和定位，但有效预测高精度分割掩码的问题至今仍难以捉摸。

如图3所示，最新的最先进的方法在边界框和分割性能之间仍然有很大的差距，特别是对于最近基于查询的方法。这强烈表明掩膜质量的改善没有跟上检测能力的进步。在图2中，之前的方法所预测的蒙版非常粗糙，通常会过度平滑目标边界。事实上，由于需要高分辨率的深层特征，这需要大量的计算和内存成本，因此高效准确的掩码预测具有很高的挑战性

为了解决这些问题，我们提出了掩模转换器(Mask Transfiner)，这是一种高效的基于变压器的高质量实例分割方法。在图1中，我们的方法首先识别了容易出错的区域，这些区域大多沿目标边界或高频区域散布。为此，我们的网络学习检测非相干区域，这是由降噪掩码本身时的信息丢失定义的。这些不连贯的像素分布稀疏，只占总像素的一小部分。然而，由于它们被证明对最终的分割性能至关重要，它允许我们在细化过程中只处理高分辨率特征图的一小部分。因此，我们构建了一个分层四叉树[16]来表示和处理多尺度上的非相干图像像素。

为了细化非相干四叉节点的掩码标签，我们设计了一个基于变压器的细化网络，而不是标准的卷积网络，因为它们需要在均匀的网格上运行。我们的变压器有三个模块:节点编码器、序列编码器和像素解码器。节点编码器首先丰富了每个非相干点的特征嵌入。序列编码器然后将这些跨多个四叉树层的编码特征向量作为输入查询。最后，像素解码器预测它们对应的掩码标签。与MLP[25]相比，序贯表示和多头注意使Mask Transfiner能够灵活地并行地将不同层次的稀疏特征点作为输入，建模它们的像素级关系，并在较远的距离内在它们之间传播信息。

我们在COCO、Cityscapes和BDD100K基准上广泛分析了我们的方法，其中定量和定性结果表明，Mask Transfiner不仅优于现有的两阶段和基于查询的方法，而且与标准变压器使用相比，在计算和内存成本方面也很高效。我们使用resnet -50在COCO测试开发的41.6 APMask上建立了一个最新的最先进的结果，比最近的SOLQ[14]和queryinst[15]性能好很多。

2. Related Work

两阶段的实例分割方法[2,6,8,19,22,23,28,29]首先检测边界框，然后对每个RoI区域进行分割。Mask R-CNN[19]扩展更快的R-CNN[34]与FCN分支。后续工作[7,12,24,32,33]也对Mask R-CNN模型家族做出了贡献。单阶段方法[5,8,26,27]和基于内核的方法[48]，如PolarMask [44]， YOLOACT [1]， SOLO[40,41]，去掉了提案生成和特征重新池化的步骤，取得了比较好的结果，效率更高。

基于查询的实例分割方法[14,15,17,21,42]，其灵感来自于DETR[4]，最近出现了将分割视为集预测问题的方法。这些方法使用查询来表示感兴趣的对象，并联合对其进行分类、检测和掩码回归。在[14,21]中，利用DCT或PCA算法将对象掩码压缩为编码向量，而QueryInst[15]采用动态掩码头部和掩码信息流。然而，图3中检测和分割性能之间的巨大差距表明，这些基于查询的方法产生的掩码质量仍然不令人满意。与上述方法相比，Mask Transfiner的目标是高质量的实例分割。在我们高效的转换器中，输入查询是不连贯的像素节点，而不是表示对象。该方法适用于两阶段和基于查询的框架。

大多数现有的实例分割细化工作依赖于专门设计的卷积网络[36,47]或mlps[25]。PointRend[25]样本以低置信度得分为特征点，并使用sharedMLP细化它们的标签，其中所选的点由Mask R-CNN的粗糙预测确定。RefineMask[47]结合了细粒度特性，并附加了一个语义头作为指导。后处理方法dbpr[36]提取图像边界块和初始掩码作为输入，使用[38]进行分割。值得注意的是，一些方法[11,35,38,46]专注于细化语义分段细节。然而，由于分割设置更加复杂，每幅图像的对象数量不同，并且需要勾画出相似和重叠的对象，使得实例分割更具挑战性。

与这些优化方法相比，Mask Transfineris是一种端到端实例分割方法，使用变压器进行误差校正。使用轻量级的FCN来预测要细化的区域，而不是基于掩码评分[25]的非确定性抽样。与[25]中的MLP不同，顺序和层次输入表示使Mask Transfiner能够有效地将非局部稀疏特征点作为输入查询，其中变压器的强全局处理自然适合我们的四叉树结构。

3. Mask Transfiner

我们提出了一种有效处理高质量实例分割的方法。MaskTransfiner的总体架构如图5所示。从基本目标检测网络(如掩码R-CNN[19])出发，采用多尺度深度特征金字塔。然后，对象检测头将边界框预测为实例提议。该组件还在低分辨率下生成粗糙的初始掩模预测。有了这些输入数据，我们的目标是预测高度准确的实例分割掩码。

由于分割的大部分错误归因于空间分辨率的损失，我们首先定义这些不连贯区域并在3.1节中分析它们的属性。为了在多个尺度上识别和细化非相干区域，我们使用了四叉树，在第3.2节中讨论。轻相干区域探测器以粗糙的初始掩模和多尺度特征作为输入，对每个尺度的非相干区域进行级联预测。这允许我们的掩模转换器节省巨大的计算和内存负担，因为只有一小部分高分辨率的图像特征是由精细网络本身处理的。我们的细化变压器，详细在3.3节中，工作在检测到的非相干区域。由于它作用于所构建的四叉树上的特征点，而不是在一个统一的网格中，我们设计了一种变压器架构，它共同处理四叉树各级的所有非相干节点。最后，我们提出了掩模转换器的训练策略和实现细节。

3.1. Incoherent Regions

由现有的实例分割方法[14,19]产生的大部分分割错误是由于空间分辨率的损失，如蒙版下采样操作、较小的RoI池大小和系数压缩[14,21]，其中蒙版预测本身是在粗特征尺度上进行的。尽管它效率很高，但由于缺乏高频细节，较低的空间分辨率使得准确预测物体边界具有挑战性。在本节中，我们首先定义了非相干区域，在这些区域中，由于空间分辨率的降低，掩模信息会丢失。然后，通过分析它们的性质，我们观察到很大一部分误差确实位于这些区域。

为了识别非相干区域，我们通过对掩码本身进行下采样来模拟网络中由于下采样而造成的信息丢失。具体来说，信息丢失在掩码无法通过后续上采样步骤正确重构的区域，如图4所示。形式上，让Mlbe是尺度级l的对象的二进制地面真值实例掩模。每个尺度级的分辨率相差2倍，其中l = 0是最细尺度，l = l是粗尺度。我们分别用s#和S”表示2个最近邻的下采样和上采样。尺度为l的非相干区域即得到的二进制掩模为:

在这里，表示逻辑的“排他或”操作，而O#是通过在每个邻域执行逻辑的“或”操作进行2下采样。一个像素(x;y)是因此相干Dl(x;y) = 1，如果原始掩模值Ml1differs从其在更细尺度级别的至少一个像素重建。直观上，非相干区域大多散布在对象实例边界或高频区域，由粗糙掩模缺失或额外预测错误标签的点组成。我们在图5和sup . file中提供了它们的可视化，它们稀疏且不连续地分布在一个典型的图像上。

在表1中，我们对上述定义的非相干区域进行了分析。结果表明，大量的预测误差集中在这些不相关的区域，占所有错误预测像素的43%，而相应的边界框区域只占14%。在非相干区域，粗糙掩模预测的准确率为56%。通过修复边界盒检测器，我们进行了一项oracle研究，为每个对象填充所有这些不连贯的区域，而剩下的部分作为初始掩码预测。与在非相干区域使用初始掩码预测相比，性能从35.5 AP激增到51.0 AP，确实证明了它们对提高最终性能至关重要。

3.2. Quadtree for Mask Refinement

在本节中，我们描述了检测和细化图像中的非相干区域的方法。该方法基于迭代检测和分割每个特征尺度中的非相干区域的思想。通过分离识别出的非相干像素进行进一步细化，我们的方法通过只关注重要区域有效地处理高分辨率特征。为了使我们的方法形式化，我们使用四叉树结构来首先识别跨尺度的非相干区域。然后，我们使用3.3节详细介绍的网络，预测四叉树中所有非相干节点的精细分割标签。最后，利用我们的四叉树将修正后的掩模概率从粗尺度传播到细尺度，以融合来自多个尺度的新预测。

图5的右边部分描述了我们的轻量级模块的设计，以有效地检测多尺度特征金字塔上的非相干区域。采用级联设计，我们首先将最小特征和粗糙物体掩模预测连接起来作为输入，然后使用简单的全卷积网络(4个3 3Convs)和一个二值分类器来预测粗糙相干掩模。然后，对检测到的低分辨率掩模进行上采样，并与相邻层的高分辨率特征融合，以指导更精细的非相干预测，其中只使用单个11 1卷积层。在训练过程中，我们将Eq. 1生成的底层groundtruth不连贯点强化到其上级特征图中父点的覆盖范围内。

我们定义了一个点四叉树来分解检测到的非相干区域。我们的结构如图5所示，其中较高级别的FPN特征(如特征分辨率28 28)中的一个黄点在其相邻的较低级别FPN特征映射(如分辨率56 56)中有四个象限点。这些都是特征点，但粒度不同，因为它们在不同的金字塔层次上。与计算机图形学中使用的传统四叉树“单元”相比，一个四叉树“单元”可以有多个点，我们的点四叉树的细分单元总是在一个单点上，点的划分由检测到的不相干值和二值分类器的阈值决定。

在检测到的非相干点的基础上，我们以最高级特征图中检测到的点作为rootnode，构建了多层次的层次四叉树。选择这些根节点在低层特征图上细分到它们的四个象限，具有更大的分辨率和更多的局部细节。注意，在精细水平上，只有被检测为非相干的象限点才能进一步分解，而非相干树节点的扩展被限制在与之前粗水平上的非相干预测相对应的区域。

我们使用基于转换器的架构来改进四叉树的非相干节点的掩码预测。我们的设计在第3.3节中描述。它直接对四叉树的节点进行操作，联合在每个不相干的节点上提供精制的掩码概率。

基于对掩码预测的改进，我们设计了一种利用四叉树结构的分层掩码传播方案。对于低分辨率的初始粗掩模预测，掩模转换器首先修正四叉树的根级点标签，然后通过最近邻插值将修正后的点标签传播到相邻更细级对应的四个象限。标签校正过程以一种水平的方式有效地对非相干节点进行，直到达到最优四叉树水平。与只修正四叉树上最细叶节点的标记相比，它通过传播标记到中间树层的叶节点，以可忽略的代价扩大了细化区域。

3.3. Mask Transfiner Architecture

在本节中，我们描述了细化网络的架构，该网络将构建的四叉树(章节3.2)的非相干点作为输入，用于最终的分割细化。这些点沿高频区域分布稀疏，且在空间上不相邻。因此，在均匀网格上运行的标准卷积网络并不适用。相反，我们设计了改进的变压器，掩模转换器，它可以并行修正所有非相干四叉树节点的预测。

精确分割模糊点既需要细粒度的深度特征，又需要粗语义信息。因此，网络需要强大的建模能力来充分关联点及其周围环境，包括空间和跨层相邻点。因此，一个可以接受顺序输入并通过多头注意层执行强大的本地和非本地推理的变压器，是我们MaskTransfiner设计的自然选择。与[25]中的MLP相比，变压器的强全局处理更适合四叉树结构。它有利于不同粒度的多层次特征点信息的有效融合和成对点关系的显式建模

图5显示了我们的MaskTransfiner的总体架构。在分层FPN[30]的基础上，以一种多层次、从粗到细的方式处理实例分割。Mask Transfiner不是对每个目标[19]使用单级FPN特征，而是在RoI特征金字塔层中，将非相干图像区域中稀疏检测的特征点作为输入序列，输出相应的分割标签。

给定一幅输入图像，配备FPN的CNNbackbone网络首先提取分层特征映射进行下游处理，我们利用P2到P5的特征级别。基础对象检测器[14,19]将边界框预测为实例提议。然后通过三层fPi提取RoI特征，构建RoI特征金字塔;π1;方形f28增加的fpn的Pi2g;56;112克。startinglevel i计算为i =ji0 + log2(pWH=224)k，其中0 = 4,W和h是RoI的宽度和高度。最粗糙的特性包含更多的上下文和语义信息，而更精细的特性则解析更多的局部细节。

给定第3.2节中讨论的四叉树以及每个节点的相关FPN特征，我们为基于变压器的架构构建输入序列。该序列由四叉树所有三层的所有不连贯节点组成。由此产生的序列大小为C N，其中N为节点总数，C为特征通道维数。值得注意的是，N HW由于高度稀疏。此外，由于变压器的排列不变性，序列的排列顺序无关紧要。与标准变压器编码器相比，Transfiner编码器由两个部分组成:节点编码器和序列编码器。

为了丰富非相干点特征，Mask Transfiner节点编码器使用以下4种不同的信息线索对每个四叉节点进行编码:1)FPN金字塔对应位置和级别提取的细粒度特征。2)基于基础检测器的初始掩码预测提供了区域特异性和语义信息。3)每个RoI中的相对位置编码封装了节点之间的空间距离和关系，捕获了重要的局部依赖性和相关性。4)每个节点的周围环境捕获局部细节，丰富信息。对于每个节点，我们使用从3个邻域提取的特征，通过一个全连接层压缩。直观上，这有助于定位边缘和边界，以及捕捉物体的局部形状。如图5所示，细粒度特征、粗片段线索和上下文特征首先通过FC层连接和融合到原始特征维。然后将位置嵌入添加到生成的特征向量中。

然后，Transfiner的序列转换器编码器联合处理四叉树中各级的编码节点。因此，变压器可以进行全局空间和尺度间的推理。每个序列编码器层都有一个标准的变压器结构，由一个多头自注意模块和全连接的前馈网络(FFN)组成。为了使非相干点序列具有足够的正面和负面参考，我们还使用了最小尺寸的最粗FPN级的所有特征点。与带有深度注意层的标准变压器译码器[4]不同，Mask Transfiner中的像素译码器是一个小的twolayerMLP，它解码树中每个节点的输出查询，以预测最终的掩码标签。

基于所构建的四叉树，我们开发了灵活、自适应的掩模转换器训练和推理方案，将四叉树各级检测到的所有不相干节点组成一个序列进行并行预测。在推理过程中，为了获得最终的对象掩码，掩码传输器在获得非相干节点的细化标签后，遵循四叉树传播方案(章节3.2)。在培训期间，整个Mask Transfinerframework可以端到端的方式进行培训。我们采用多任务损失，

这里，LRefine表示对非相干节点的预测标签和它们的groundtruthlabel进行细化，L1损失。二元交叉熵损失LInc用于检测非相干区域。检测损失LDetect包括来自基检测器的定位和分类损失，例如Faster R-CNN[34]或DETR检测器。最后，LCoarse表示[19]使用的初始粗分段预测的损失。F1;2;3;4g为超参数权值F1:0;1:0;1:0;0:5g。

掩码转换器在两级检测器Faster R-CNN[34]和基于查询的检测器[4]上实现。我们设计了一个3级四叉树，并利用Detectron2[43]中实现的掩码rcnn的超参数和训练计划，对骨干和粗掩码头进行训练。掩模转换器编码器由三个标准变压器层组成。每一层有四个注意头，特征维数为256。在我们的消融研究中，采用了R-50-FPN[20]和Faster R-CNN与1个学习时间表。对于COCO排行榜的比较，我们采用较短的图像侧随机抽样[64,800]的尺度抖动，遵循[8,24,27]中的训练计划。更多细节在Supp.文件中。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

Mask Transfiner for High-Quality Instance Segmentation

你可能感兴趣的:(CV,机器学习,人工智能)