Scabbards_

FC-CLIP-卷积永存：开放词汇分割与单一冻结卷积CLIP

论文链接：https://arxiv.org/abs/2308.02487

Github：GitHub - bytedance/fc-clip: This repo contains the code for our paper Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

机构：约翰霍普金斯

摘要

开放词汇分割是一项具有挑战性的任务，需要在不同的环境中从开放的类别集中分割和识别对象。解决这一挑战的一种方法是利用多模态模型(如CLIP)在共享嵌入空间中提供图像和文本特征，这有效地弥合了封闭词汇表和开放词汇表识别之间的差距。

因此，现有方法通常采用两阶段框架来解决问题，其中输入首先通过掩码生成器，然后通过CLIP模型以及预测的掩码。这个过程涉及多次从原始图像中提取特征，这可能是无效和低效的。相比之下，我们建议使用共享的冷冻卷积CLIP骨干将所有内容构建到单级框架中，这不仅大大简化了当前的两级管道，而且还显著地产生了更好的准确性-成本权衡。由此产生的单级系统，称为FC-CLIP，受益于以下观察结果:冻结的CLIP主干保持了开放词汇表分类的能力，也可以作为强掩码生成器，卷积CLIP可以很好地推广到比对比图像-文本预训练期间使用的更大的输入分辨率。令人惊讶的是，FC-CLIP在各种基准测试中取得了最先进的结果，同时运行速度几乎很快。具体而言，当仅对COCO全景数据进行训练并以零射击方式进行测试时，FC-CLIP在ADE20K上实现26.8 PQ、16.8 AP和3410万ou，在Mapillary远景上实现18.2 PQ、27.9万ou，在cityscape上实现44.0 PQ、26.8 AP、56.2万ou，在相同设置下分别优于现有技术在ADE20K上实现+4.2 PQ、+2.4 AP、+4.2 mIoU，在Mapillary远景上实现+4.0 PQ，在cityscape上实现+20.1 PQ。此外，FC-CLIP的训练和测试时间比同类现有技术显著快7.5倍和6.6倍，同时使用的总模型参数减少5.9倍。同时，FC-CLIP还在各种开放词汇语义分割数据集上设置了新的最先进的性能。

背景

挑战

全视分割（Panoptic segmentation）[42]是一项复杂的计算机视觉任务，旨在预测一组不重叠的掩模，每个掩模都有相应的类标签。它结合了语义分割[35]和实例分割[32]的任务，使其成为一个具有挑战性的问题。目前研究在全光质量（panoptic quality）(PQ)方面取得了重大进展。

然而，注释这种细粒度数据集的成本很高。为了克服封闭式词汇分词的局限性，人们提出了开放式词汇分词[46,85,28,24]。为了确保提供有意义的嵌入，通常使用预训练的文本编码[22,67,55,66]。该编码器可以有效地捕获词和短语的语义，这对开放词汇分词至关重要。

SimBaseline[85]和OVSeg[50]是最近使用两阶段框架使CLIP适应开放词汇分词的两种方法。在这些方法中，首先通过heavy mask generater 对图像进行处理[34,19]，获得掩模建议，然后生成每个掩模图像裁剪，并将其馈送到冻结的CLIP模型中进行分类。MaskCLIP[24]将这种方法扩展到开放词汇全视分割，但另外利用CLIP主干中的掩码提议作为注意掩码，以有效地避免masked crops的多次转发过程。最近，ODISE[84]采用stable diffusion UNet[69,68]作为mask generater的冷冻骨干，显著提高了最先进的性能。然而，尽管取得了这些进步，它们仍然依赖于两阶段框架，其中mask generater 和CLIP分类器分别从原始图像中提取特征，导致效率低下和无效。

因此，一个自然的问题出现了，即是否有可能将掩码生成器和CLIP分类器统一到一个开放词汇分词的单阶段框架中。在它们之间共享特征提取器是一个简单的解决方案，但它带来了两个挑战。

首先，微调CLIP主干可能会破坏图像和文本特征之间的对齐，从而导致在词汇表外类别上的性能差得多。现有方法[85,50,24,84]依赖于另一个独立的主干作为掩模生成器，增加了模型尺寸和计算成本。

其次，CLIP模型通常在相对较低分辨率的输入上进行预训练，而密集预测任务需要更高的分辨率才能获得最佳性能。

为了缓解这两个挑战，我们建议在共享的冷冻卷积CLIP主干上构建掩码生成器和CLIP分类器，从而形成单级框架FC-CLIP。冻结的CLIP主干确保了预训练的图像-文本特征对齐是完整的，允许超出词汇表的分类。它还可以通过附加轻量级像素解码器和掩码解码器作为强掩码生成器[19,89]。当输入大小增大时，基于卷积神经网络(CNN)的卷积CLIP[45]经验显示，与基于vit的CLIP[25]相比，卷积CLIP具有更好的泛化能力。这与全卷积网络在密集预测任务中的成功[58]相呼应。在图1中，我们通过k-means聚类将基于vit和基于cnn的CLIP的学习视觉表示可视化[57]。如图所示，基于cnn的CLIP学习到的特征在不同的输入大小上都更加鲁棒↓

令人惊讶的是，采用单个冻结卷积CLIP作为共享特征提取器的结果是非常简单而有效的设计。具体来说，单阶段FC-CLIP由建立在共享冻结卷积CLIP主干上的三个模块组成: 一个类别无关的掩码生成器，一个词汇内分类器和一个词汇外分类器(参见图2管道之间的比较)。该方法不仅设计简单，而且训练和测试成本都很低。相比之下，我们的模型只有238M的冻结参数和21M的可训练参数。此外，我们的模型训练只需要25.6个V100 GPU天。在推理过程中，我们的模型运行速度也提高了6.6倍。尽管FC-CLIP具有简单的设计，但它在多个数据集上的性能仍然优于以前的方法。仅在COCO全景数据集上训练，FC-CLIP以zero-shot的方式显著超过了先前最先进的ODISE[84]。具体来说，FC-CLIP在ADE20K、Mapillary远景和cityscape上分别达到26.8 PQ(+3.4)、18.2 PQ(+4.0)和44.0 PQ(+20.1)。

方法

问题定义

开放词汇分割的目的是将图像I∈RH×W×3分割成一组带有相关语义标签的掩码:

K个ground truth masks mi∈{0,1}H×W 包含相应的ground truth class标号ci。在训练过程中，使用一组固定的类标签Ctrain，而在推理过程中，使用另一组类别Ctest。在开放词汇设置中，Ctest可能包含训练中未见的新类别，即Ctrain ≠ Ctest。我们遵循先前的工作[24,84]，并假设在测试期间Ctest的类别名称(以自然语言表示)是可用的。

两阶段开放词汇分词

现有作品[85,50,24,84]采用两阶段管道进行开放词汇分词。第一阶段包含一个与类别无关的掩码生成器m，参数为θM，给定输入图像i，它生成一组N个掩码建议{ ^mi}N i=1∈RN×H×W:

在第二阶段，CLIP适配器P接受图像I和掩码提案{{^mi}Ni =1作为输入，其中后者的输入用于引导冻结的CLIP模型CLIP∗(∗表示冻结)。适配器通过forwarding过程进行掩码分类，要么采用masked crop[85,50]，要么采用masked attention[24,84]:

其中{{^ci}Ni =1∈rnx |C|表示N个预测掩码的预测类概率，C∈{Ctrain,Ctest}取决于训练或测试阶段，|C|为类别大小。

它有两个局限性。首先，提取两次图像特征，一次用于生成掩码，另一次用于掩码分类。双特征提取会产生大量的计算量，使得主干参数的扩展成本很高。

其次，掩模生成器通常需要高分辨率输入(例如1024×1024)，而CLIP模型通常使用低分辨率图像(例如224×224)进行预训练。因此，两阶段管道需要将高分辨率图像馈送到掩模生成器中，并将低分辨率图像馈送到CLIP分类器中，这使得模型效率低下。

这个地方要说明的东西和background 里面一模一样....

简单单阶段开放词汇分割

为了避免增加模型大小和重复特征提取的计算成本，可以naïvely将所有内容一起制定为单阶段框架F，其中掩码生成器和掩码分类器共享相同的CLIP-预训练的骨干CLIP(未冻结)，用于从输入图像I中提取特征

FC-CLIP

所提出的FC-CLIP利用冻结的基于cnn的CLIP骨干网的语义特征来生成掩码和进行CLIP分类。与之前的工作[85,50,24,84]不同，之前的工作经常训练一个单独的掩码生成器，忽略了CLIP语义特征的潜在重用，我们将基于cnn的CLIP主干纳入了最先进的分割方法Mask2Former[19]。我们注意到FC-CLIP是一个通用的元架构，可以建立在几种现代分割方法之上[19,89]。我们的方法有几个优点。通过冻结和共享骨干特征，我们的模型在训练和测试期间都显着提高了效率(即避免了特征重复)。基于cnn的CLIP主干不仅可以很好地传输到不同的输入分辨率(从其预训练的图像大小)，而且可以生成多尺度特征图，与现代分割方法无缝兼容[19,89]。

在高层次上，FC-CLIP由三个组件组成:与类无关的掩码生成器、词汇内分类器和词汇外分类器。我们将在下面详细介绍每个组件。

Class-Agnostic Mask Generator

继Mask2Former[19]之后，我们使用了一种增强了多尺度可变形注意力的像素解码器[98]来改进从冻结的基于cnn的CLIP主干中提取的特征。增强的像素特征，连同一组对象查询[7,78]，然后通过一系列掩码解码器，其中每个掩码解码器由掩码交叉注意[19]，自注意[76]和前馈网络组成。通过在对象查询和像素特征之间执行矩阵乘法获得分割logits。通过匈牙利匹配[43]，以一对一的方式将预测的掩码与ground-truth掩码匹配，并相应地进行监督。此外，由于对象查询的数量通常大于标记掩码的数量，因此通过此匹配过程只优化了预测掩码的子集。我们不会对剩余的不匹配的提案进行处罚，从而确保获得更多的掩码提案。

In-Vocabulary Classifier

一旦掩码提案被预测，它们将以对比的方式与类别文本嵌入进行分类，其中每个掩码的类嵌入和类别文本嵌入被投影到一个共同的嵌入空间中。也就是说，用词汇内分类器预测的类概率定义如下:∀i = 1，…N

其中，T为可学习的温度参数，初始化为0.07，用于控制分布的清晰度;cos为余弦距离测量值;vi为第i个预测掩码的类嵌入，该掩码是通过掩码池化对来自像素解码器的最终像素特征进行的，类似于[28]。tj是类j的类别名称的文本嵌入，它是通过将类别名称提供给clip预训练的文本编码器而获得的。注意，这些类别文本嵌入只需要生成一次。然后将它们保存在内存中作为文本分类器，因此在训练期间产生的额外成本可以忽略不计。这就形成了我们的词汇内分类器。

Out-of-Vocabulary Classifier

然而，在推理过程中，我们注意到单独使用词汇内分类器无法推广到完全新的未见过的类，因为模型仅在有限的类别集上训练，因此无法识别各种新概念。为了解决这一问题，我们引入了一个词汇外分类器，该分类器将掩码池化应用于冻结的CLIP主干特征，旨在借用CLIP预训练(完整)的开放词汇识别能力。与其他两阶段方法不同[85,50,24,84]，其中需要一个或多个CLIP前向处理，所采用的词汇外分类器引入了边际额外成本，因为骨干特征已经被提取(并且只执行轻量级掩码池)。然后，用冻结的CLIP主干特征上的掩码池特征替换vi，以类似于Eq.(6)的方式获得词汇外分类器预测的类概率。该分类器严格保持原有的CLIP特征分布，使我们能够更好地识别全新的类别。注意，词汇表外分类器只在测试期间执行。

Combining In- and Out-of-Vocabulary Classifiers

根据之前的研究[30,28,44,84]，我们使用几何集成来融合词汇内和词汇外分类器之间的分类分数。亦即∀j = 1，…, |C |

式中，ci(j)表示ci的第j个元素，下标in和out分别表示词汇内和词汇外分类器。α， β∈[0,1]平衡了词汇内分类器和词汇外分类器对已知类别和未知类别的预测。

实验

结构

我们使用来自OpenCLIP[36]1的ConvNeXt-Large CLIP[56,66]主干在LAION-2B[70]数据集上进行预训练。在CLIP主干之上，我们按照Mask2Former[19]构建掩码生成器。采用9个掩码解码器，以增强的像素特征和一组对象查询作为输入，生成与类别无关的掩码。对于词汇内分类，如下[28]，类嵌入是通过掩码池化像素解码器最终输出的像素特征来获得的。然后，通过预测的类嵌入与类别文本嵌入之间的矩阵乘法得到分类逻辑(softmax之前)。

训练策略

我们遵循[19]，采用相同的训练配方和损失，没有任何特殊的设计。

使用AdamW[39,59]优化器和权值衰减0.05对训练进行优化。

使用1024 × 1024的裁剪尺寸。

我们采用学习率1 × 10−4和multi-step decay schedule。训练批大小为16，模型在COCO panoptic训练集上训练50 epoch[52]。

推理策略

在推理过程中，输入图像的短边将被调整为800，同时确保长边不超过1333。对于城市景观和Mapillary远景，我们将短边尺寸增加到1024。我们采用掩码合并方案[19]进行掩码预测。词汇外分类器仅在对冻结的CLIP骨干特征进行掩码池化的推理期间执行。最终的分类结果然后通过几何集成词汇内和词汇外分类器[30,28,44,84]获得，如Eq.(7)所示，其中我们默认α = 0.4和β = 0.8。继现有技术之后，我们还采用了来自[28,84]的提示工程和来自[30,50]的提示模板。如果未指定，FC-CLIP仅在COCO panoptic数据集上训练[52]。根据之前的研究[28,84]，我们在ADE20K[95]、cityscape[21]和Mapillary远景[62]上对该模型进行了零射击评估，用于开放词汇全视分割。我们还报告了在这些数据集以及PASCAL数据集上的开放词汇语义分割结果[26,61]。用panoptic quality (PQ)[42]、Average Precision (AP)和mean intersection-over-union (mIoU)来评价panoptic分割结果，用mIoU来评价semantic segmentation[26]。请注意，所有结果都是通过仅在COCO全景数据上训练的相同单个检查点获得的。

实验结果

消融实验

总结

限制

在不久的将来，有一些有趣的研究课题有待探索，例如更好地释放CLIP在掩码分割和分类方面的潜力，如何处理冲突或重叠的词汇表(例如，猫与猫头)等。

它依赖于在互联网数据上预先训练的CLIP模型，这可能有偏见，这需要未来的校准研究，以避免误用。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
同城搭子交友小程序：千亿级社交市场的下一个风口？
传统婚恋网站式微，Z世代“轻社交”需求爆发！搭子经济正成为新蓝海：1.市场规模与增长潜力数据：2023年中国陌生人社交市场规模达1500亿元，年复合增长率超20%；趋势：搭子类小程序用户规模突破8000万，预计2025年将占社交市场30%份额。2.竞争格局与差异化机会头部平台：Soul、探探聚焦泛社交，搭子类小程序仍属蓝海；细分场景：运动、美食、游戏等垂直领域搭子需求未被充分满足；下沉市场：三四线
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

FC-CLIP-卷积永存：开放词汇分割与单一冻结卷积CLIP

摘要

背景

挑战

相关工作

视觉语言模型 Vision-language models

封闭词汇分割 Closed-vocabulary segmentation

实例语义分割 Instance segmentation

开放词汇分割 Open-vocabulary segmentation

方法