AI科技大本营

迈向多模态AGI之开放世界目标检测

作者 | 王斌，谢春宇，冷大炜

责编 | 夏萌

出品 | 360人工智能研究院

引言

目标检测是计算机视觉中的一个非常重要的基础任务，与常见的的图像分类/识别任务不同，目标检测需要模型在给出目标的类别之上，进一步给出目标的位置和大小信息，在 CV三大任务（识别、检测、分割）中处于承上启下的关键地位。当前大火的多模态 GPT4在视觉能力上只具备目标识别的能力，还无法完成更高难度的目标检测任务。而识别出图像或视频中物体的类别、位置和大小信息，是现实生产中众多人工智能应用的关键，例如自动驾驶中的行人车辆识别、安防监控应用中的人脸锁定、医学图像分析中的肿瘤定位等等。

已有的目标检测方法如 YOLO系列、R-CNN系列等耳熟能详的目标检测算法在科研人员的不断努力下已经具备很高的目标检测精度与效率，但由于现有方法需要在模型训练前就定义好待检测目标的集合（闭集），导致它们无法检测训练集合之外的目标，比如一个被训练用于检测人脸的模型就不能用于检测车辆；另外，现有方法高度依赖人工标注的数据，当需要增加或者修改待检测的目标类别时，一方面需要对训练数据进行重新标注，另一方面需要对模型进行重新训练，既费时又费力。一个可能的解决方案是，收集海量的图像，并人工标注Box信息与语义信息，但这将需要极高的标注成本，而且使用海量数据对检测模型进行训练也对科研工作者提出了严峻的挑战，如数据的长尾分布问题与人工标注的质量不稳定等因素都将影响检测模型的性能表现。

发表于 CVPR2021的文章 OVR-CNN[1]提出了一种全新的目标检测范式：开放词集目标检测（Open-Vocabulary Detection，OVD，亦称为开放世界目标检测），来应对上文提到的问题，即面向开放世界未知物体的检测场景。OVD由于能够在无需人工扩充标注数据量的情形下识别并定位任意数量和类别目标的能力，自提出后吸引了学术界与工业界持续增长的关注，也为经典的目标检测任务带来了新的活力与新的挑战，有望成为目标检测的未来新范式。具体地，OVD技术不需要人工标注海量的图片来增强检测模型对未知类别的检测能力，而是通过将具有良好泛化性的无类别（class-agnostic）区域检测器与经过海量无标注数据训练的跨模态模型相结合，通过图像区域特征与待检测目标的描述性文字进行跨模态对齐来扩展目标检测模型对开放世界目标的理解能力。跨模态和多模态大模型工作近期的发展非常迅速，如 CLIP[2]、ALIGN[3]与R2D2[4]（链接：https://github.com/yuxie11/R2D2）等，而它们的发展也促进了 OVD的诞生与 OVD领域相关工作的快速迭代与进化。

OVD技术涉及两大关键问题的解决：1）如何提升区域(Region)信息与跨模态大模型之间的适配；2）如何提升泛类别目标检测器对新类别的泛化能力。从这个两个角度出发，下文我们将详细介绍一些 OVD领域的相关工作。

OVD基本流程示意[1]

OVD的基础概念：OVD的使用主要涉及到 few-shot 和 zero-shot两大类场景，few-shot是指有少量人工标注训练样本的目标类别，zero-shot则是指不存在任何人工标注训练样本的目标类别。在常用的学术评测数据集 COCO、LVIS上，数据集会被划分为 Base类和 Novel类，其中Base类对应 few-shot场景，Novel类对应 zero-shot场景。如 COCO数据集包含65种类别，常用的评测设定是 Base集包含48种类别，few-shot训练中只使用该48个类别。Novel集包含17种类别，在训练时完全不可见。测试指标主要参考 Novel类的 AP50数值进行比较。

Open-Vocabulary Object Detection Using Captions

论文地址：https://arxiv.org/pdf/2011.10678.pdf

代码地址：https://github.com/alirezazareian/ovr-cnn

OVR-CNN是 CVPR2021的 Oral-Paper，也是 OVD领域的开山之作。它的二阶段训练范式，影响了后续很多的 OVD工作。如下图所示，第一阶段主要使用 image-caption pairs对视觉编码器进行预训练，其中借助 BERT(参数固定)来生成词掩码，并与加载 ImageNet预训练权重的 ResNet50进行弱监督的 Grounding匹配，作者认为弱监督会让匹配陷入局部最优，于是加入多模态 Transformer进行词掩码预测来增加鲁棒性。

第二阶段的训练流程与 Faster-RCNN类似，区别点在于，特征提取的 Backbone来自于第一阶段预训练得到的 ResNet50的1-3层，RPN后依然使用 ResNet50的第四层进行特征加工，随后将特征分别用于 Box回归与分类预测。分类预测是 OVD任务区别于常规检测的关键标志，OVR-CNN中将特征输入一阶段训练得到的 V2L模块(参数固定的图向量转词向量模块)得到一个图文向量，随后与标签词向量组进行匹配，对类别进行预测。在二阶段训练中，主要使用 Base类对检测器模型进行框回归训练与类别匹配训练。由于 V2L模块始终固定，配合目标检测模型定位能力向新类别迁移，使得检测模型能够识别并定位到全新类别的目标。

如下图所示，OVR-CNN在 COCO数据集上的表现远超之前的 Zero-shot目标检测算法。

RegionCLIP: Region-based Language-Image Pretraining

论文地址：https://arxiv.org/abs/2112.09106

代码地址：https://github.com/microsoft/RegionCLIP

OVR-CNN中使用 BERT与多模态 Transfomer进行 iamge-text pairs预训练，但随着跨模态大模型研究的兴起，科研工作者开始利用 CLIP，ALIGN等更强力的跨模态大模型对 OVD任务进行训练。检测器模型本身主要针对 Proposals，即区域信息进行分类识别，发表于 CVPR2022的 RegionCLIP[5]发现当前已有的大模型，如 CLIP，对裁剪区域的分类能力远低于对原图本身的分类能力，为了改进这一点，RegionCLIP提出了一个全新的两阶段 OVD方案。

第一阶段，数据集主要使用 CC3M，COCO-caption等图文匹配数据集进行区域级别的蒸馏预训练。具体地，

将原先存在于长文本中的词汇进行提取，组成Concept Pool，进一步形成一组关于Region的简单描述，用于训练。
利用基于LVIS预训练的RPN提取Proposal Regions，并利用原始CLIP对提取到的不同Region与准备好的描述进行匹配分类，并进一步组装成伪造的语义标签。
将准备好的Proposal Regions与语义标签在新的CLIP模型上进行Region-text对比学习，进而得到一个专精于Region信息的CLIP模型。
在预训练中，新的CLIP模型还会通过蒸馏策略学习原始CLIP的分类能力，以及进行全图级别的image-text对比学习，来维持新的CLIP模型对完整图像的表达能力。

第二阶段，将得到的预训练模型在检测模型上进行迁移学习。

RegionCLIP进一步拓展了已有跨模态大模型在常规检测模型上的表征能力，进而取得了更加出色的性能，如下图所示，RegionCLIP相比 OVR-CNN在 Novel类别上取得了较大提升。RegionCLIP通过一阶段的预训练有效地的提升了区域(Region)信息与多模态大模型之间的适应能力，但 CORA认为其使用更大参数规模的跨模态大模型进行一阶段训练时，训练成本将会非常高昂。

CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

论文地址：https://arxiv.org/abs/2303.13076

代码地址：https://github.com/tgxs002/CORA

CORA[6]已被收录于 CVPR2023，为了克服其所提出当前 OVD任务所面临的两个阻碍，设计了一个类 DETR的OVD模型。如其文章标题所示，该模型中主要包含了 Region Prompting与 Anchor Pre-Matching两个策略。前者通过 Prompt技术来优化基于 CLIP的区域分类器所提取的区域特征，进而缓解整体与区域的分布差距，后者通过 DETR检测方法中的锚点预匹配策略来提升 OVD模型对新类别物体定位能力的泛化性。

CLIP 原始视觉编码器的整体图像特征与区域特征之间存在分布差距，进而导致检测器的分类精度较低（这一点与 RegionCLIP的出发点类似）。因此，CORA提出 Region Prompting来适应 CLIP图像编码器，提高对区域信息的分类性能。具体地，首先通过 CLIP编码器的前3层将整幅图像编码成一个特征映射，然后由 RoI Align生成锚点框或预测框，并将其合并成区域特征。随后由 CLIP 图像编码器的第四层进行编码。为了缓解 CLIP 图像编码器的全图特征图与区域特征之间存在分布差距，设置了可学习的 Region Prompts并与第四层输出的特征进行组合，进而生成最终的区域特征用来与文本特征进行匹配，匹配损失使用了朴素的交叉熵损失，且训练过程中与 CLIP相关的参数模型全都冻结。

CORA是一个类 DETR的检测器模型，类似于 DETR，其也使用了锚点预匹配策略来提前生成候选框用于框回归训练。具体来说，锚点预匹配是将每个标签框与最接近的一组锚点框进行匹配，以确定哪些锚点框应该被视为正样本，哪些应该被视为负样本。这个匹配过程通常是基于 IoU（交并比）进行的，如果锚点框与标签框的 IoU 超过一个预定义的阈值，则将其视为正样本，否则将其视为负样本。CORA表明该策略能够有效提高对新类别定位能力的泛化性。

但是使用锚点预匹配机制也会带来一些问题，比如只有在至少有一个锚点框与标签框形成匹配时，才可正常进行训练。否则，该标签框将被忽略，同时阻碍模型的收敛。进一步，即使标签框获得了较为准确的锚点框，由于Region Classifier的识别精度有限，进而导致该标签框仍可能被忽略，即标签框对应的类别信息没有与基于CLIP训练的Region Classifier形成对齐。因此，CORA用CLIP-Aligned技术利用CLIP的语义识别能力，与预训练ROI的定位能力，在较少人力情形下对训练数据集的图像进行重新标注，使用这种技术，可以让模型在训练中匹配更多的标签框。

相比于RegionCLIP，CORA在COCO数据集上进一步提升了2.4的AP50数值。

360人工智能研究院在OVD技术上的实践

OVD技术不仅与当前流行的跨/多模态大模型的发展紧密联系，同时也承接了过去科研工作者对目标检测领域的技术耕耘，是传统AI技术与面向通用AI能力研究的一次成功衔接。OVD更是一项面向未来的全新目标检测技术，可以预料到的是，OVD可以检测并定位任意目标的能力，也将反过来推进多模态大模型的进一步发展，有希望成为多模态AGI发展中的重要基石。

360 人工智能研究院近年来的研发重点包括：21年跨模态方向，22年OVD和视频分析方向，23年AIGC和多模态大模型方向。在底层海量图文数据及多模态方向长期技术积累的加持下，360人工智能研究院自研OVD大模型，目前已在互联网、智能硬件等业务中落地，在长尾目标检测、巡店、看护、设备巡检等场景中实现广泛应用。未来我们计划将OVD与多模态大模型MLLM相结合，赋予LLM在基础的视觉能力之外更为重要的开放世界目标检测能力，让多模态大模型的能力向通用人工智能更近一步。

号外

为了推动OVD研究在国内的普及和发展，360人工智能研究院联合中国图象图形学学会举办了2023开放世界目标检测竞赛（链接：https://360cvgroup.github.io/OVD_Contest/），目前竞赛正在火热报名中。竞赛可以帮助大家找到OVD方向的研究同好，与他们切磋交流，并能接触实际业务场景数据，体验OVD技术在实际生产中的优势与魅力，欢迎报名和转发。

360人工智能研究院简介：360人工智能研究院隶属于360技术中台。自2015年成立以来积累了大量人工智能与机器学习前沿能力，范围包括但不限于自然语言理解、机器视觉与运动、语音语义交互等方面，技术水平行业领先，核心成员和团队多次荣获AI相关比赛冠军/提名奖项，发表顶会、顶刊论文数十篇。业务落地方面，研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等360集团全量业务场景支持，支持千万级硬件设备，亿级用户，产生千亿规模数据量。2023年着重攻坚大语言模型、CV大模型和多模态大模型，为360集团和行业 AIGC技术发展应用提供底层技术支撑。

作者简介：

王斌：360人工智能研究院视觉引擎部，算法工程师，专注于OVD方向

谢春宇：360人工智能研究院视觉引擎部，图文多模组技术Leader，专注跨模态方向

冷大炜：360视觉引擎部负责人，带领CV团队在大模型+zero/few shot以及多模态+跨模态方向展开研发工作。

参考文献

[1] Zareian A, Rosa K D, Hu D H, et al. Open-vocabulary object detection using captions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14393-14402.

[2] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.

[3] Li J, Selvaraju R, Gotmare A, et al. Align before fuse: Vision and language representation learning with momentum distillation[J]. Advances in neural information processing systems, 2021, 34: 9694-9705.

[4] Xie C, Cai H, Song J, et al. Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework[J]. arXiv preprint arXiv:2205.03860, 2022.

[5] Zhong Y, Yang J, Zhang P, et al. Regionclip: Region-based language-image pretraining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16793-16803.

[6] Wu X, Zhu F, Zhao R, et al. CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching[J]. arXiv preprint arXiv:2303.13076, 2023.

[7] Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.

【linux】ssh 远程执行命令自动输入密码方式檀越@新空间 s5 Linux学习 linux ssh 服务器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨博客目录一.自动输入密码二.sshpass方式1.安装sshpass2.源码下载3.安装过程4.验证三.expect方式1.脚本2.执行前些天发现了一个巨牛的人工智能
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
AlphaGPT通过国家AIGC生成式算法备案，为法律专业人士提供更加合规可靠的ai技术支持资讯分享周 AIGC 人工智能
在当前互联网信息时代,大模型算法已成各行业不可或缺的核心,不仅改善生活和工作,也在创新中展现巨大潜力。然而,随着算法应用的普及,如何合规管理算法,保护用户权益和隐私,确保公正运行,成为重要议题。日前,国内领先的法律科技企业iCourt宣布,其自主研发的法律垂类领域大模型AlphaGPT成功通过国家生成式模型深度学习合成算法备案。本次备案的通过,彰显了iCourt在法律AI领域有迈向了一个新的里程碑
【AIGC时代】OneCode前端框架入门指南：从环境搭建到第一个应用低代码老李 OneCode实战低代码软件行业学习前端框架
在人工智能生成内容(AIGC)技术飞速发展的今天，前端开发领域正经历着前所未有的变革。AI工具能够批量生成代码，但如何将这些自动生成的代码转化为可维护、高质量的生产级应用，成为开发者面临的核心挑战。OneCode框架凭借其独特的设计理念，在这一背景下展现出显著优势，本文将带您从零开始，快速掌握OneCode框架的使用方法。一、AIGC背景下选择OneCode框架的四大理由AIGC工具的普及为前端开
人工智能驱动下的可再生能源气象预测：构建绿色能源时代的新大脑一ge科研小菜菜人工智能人工智能能源
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、背景：新能源快速发展下的预测焦虑为应对气候变化和实现碳中和目标，全球能源系统正在加速从“化石主导”向“可再生主导”过渡。风能、太阳能等清洁能源已成为未来能源结构的关键支柱。根据国际能源署（IEA）预测，到2050年，全球超70%的电力将来自可再生能源。然而，可再生能源具有显著的**“天气依赖性”和“波动不确定性”**，风速、光照、温度、湿度等
筑牢 AIGC 安全防线：警惕提示词注入攻击 CS创新实验室 AIGC AIGC 安全大模型提示词提示词注入
在AIGC（生成式人工智能）技术蓬勃发展的当下，其在各个领域的应用日益广泛。然而，随着AIGC技术的深入应用，安全问题也逐渐凸显，提示词注入攻击便是其中不容忽视的一大威胁。对于AIGC开发者而言，深入了解提示词注入攻击并做好防范工作，是保障AIGC系统安全稳定运行的关键。提示词注入攻击的基本知识提示词注入攻击是指攻击者通过精心设计和构造提示词，利用AIGC模型对输入文本的处理机制，干扰模型的正常运
AI人工智能助力联邦学习通信效率优化的解决方案 AI智能应用人工智能 ai
AI驱动的联邦学习通信效率优化：从理论到实践的全面解决方案元数据框架标题AI驱动的联邦学习通信效率优化：从理论到实践的全面解决方案关键词联邦学习（FederatedLearning）、通信优化（CommunicationEfficiency）、AI赋能（AI-Enabled）、参数压缩（ParameterCompression）、客户端选择（ClientSelection）、联邦蒸馏（Federa
通义WebSailor：开启网络智能体新时代云资源服务商人工智能 ai
引言：WebSailor的横空出世在人工智能技术迅猛发展的当下，新的模型和智能体不断涌现，一次次刷新着人们对AI能力的认知。2024年7月7日，阿里云的一则消息犹如一颗重磅炸弹投入AI领域的湖面，激起千层浪——通义正式开源网络智能体WebSailor。这一开源举措，瞬间吸引了全球AI开发者、研究者以及科技爱好者的目光，在业界引发了强烈震动。一时间，技术论坛、社交媒体上关于WebSailor的讨论铺
AI人工智能领域，Stable Diffusion掀起的技术风暴 AI大模型应用工坊人工智能 stable diffusion ai
AI人工智能领域，StableDiffusion掀起的技术风暴关键词：AI人工智能、StableDiffusion、技术风暴、图像生成、扩散模型摘要：本文深入探讨了AI人工智能领域中StableDiffusion所掀起的技术风暴。首先介绍了StableDiffusion的背景，包括其目的、预期读者和文档结构等。详细阐述了核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。对核心算法原
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第1-11个视频笔记）胡说八道的Dr. Zhu 深度学习 pytorch 学习
本学习笔记源自于B站up主【我是土堆】的视频教程：PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】本博客是该视频教程中第1-11个视频的详细学习笔记，第12-22个视频、第23-33个视频的详细学习笔记链接如下：PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第12-22个视频笔记）PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第23-33个视频笔记）目录1、P
AI伦理与安全之-哥斯拉与缰绳：如何让“哥斯拉”听懂人类的“悄悄话”？众链网络 AI伦理与安全 AI 人工智能 AI工具 AI智能体
相关文章:AI伦理与安全AI伦理与安全之-镜子与偏见：我们教给它的，究竟是智慧还是偏见？AI伦理与安全之-哥斯拉与缰绳：如何让“哥斯拉”听懂人类的“悄悄话”？AI伦理与安全之-梦境与幻觉：它为何会一本正经地胡说八道？在上一篇中，我们谈到AI像一面“镜子”，会映照出我们数据中的偏见。但那只是AI伦理问题中的“序章”。一个更深邃、更终极的挑战，正横亘在人类与超人工智能（ASI）的未来之间。这个挑战，就
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
PyTorch深度学习优化实战：从理论到实践的现代化技能指南智算菩萨深度学习 pytorch 人工智能
引言：现代PyTorch开发的核心思维在深度学习技术日新月异的今天，掌握PyTorch不仅仅意味着能够搭建和训练神经网络，更重要的是理解如何高效地利用现代硬件资源、优化模型性能并构建可扩展的AI系统。随着PyTorch2.x系列的成熟，特别是最新2.7版本的发布，框架为开发者提供了前所未有的优化工具和性能潜力。本文将深入探讨现代PyTorch开发中的核心优化技能，从编译器优化到注意力机制革新，从内
俄罗斯方块AI深度解析：从算法原理到实现细节智算菩萨 Python小游戏项目实战人工智能算法
俄罗斯方块AI深度解析：从算法原理到实现细节前言俄罗斯方块，这个诞生于1984年的经典游戏，至今仍然是人工智能研究领域的热门课题。当简单的几何形状在网格中不断下落时，看似简单的规则背后却隐藏着复杂的策略决策问题。本文将深入剖析一个基于Python实现的俄罗斯方块AI系统，探讨其如何通过精巧的算法设计实现近乎完美的自动游戏表现。游戏状态的数字化抽象在构建任何游戏AI之前，我们首先需要将人类直观理解的
大语言模型的具身化——LLM-based Agents实战 apollowin123 人工智能语言模型深度学习
1.概述1.1Agent是什么长期以来，研究者们一直在追求与人类相当、乃至超越人类水平的通用人工智能（ArtificialGeneralIntelligence，AGI）。早在1950年代，AlanTuring就将「智能」的概念扩展到了人工实体，并提出了著名的图灵测试。这些人工智能实体通常被称为——代理（Agent）。「代理」这一概念起源于哲学，描述了一种拥有欲望、信念、意图以及采取行动能力的实体
AI原生应用：多模态交互技术的5大核心应用场景解析 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AI-native ai
#AI原生应用：多模态交互技术的5大核心应用场景解析>关键词：多模态交互、AI原生应用、人机交互、深度学习、应用场景>摘要：本文将深入解析多模态交互技术的核心原理，通过智能家居、医疗诊断、自动驾驶、教育创新和虚拟助手五大应用场景，揭示AI如何像人类感官协同工作般理解世界。文章包含技术原理图解、真实案例代码和未来趋势预测。##背景介绍###目的和范围解析多模态交互技术在AI原生应用中的落地实践，涵盖
PyTorch 2.7深度技术解析：新一代深度学习框架的革命性演进智算菩萨深度学习 pytorch 人工智能
引言：站在AI基础设施变革的历史节点在2025年这个充满变革的年份，PyTorch团队于4月23日正式发布了2.7.0版本，随后在6月4日推出了2.7.1补丁版本，标志着这个深度学习领域最具影响力的框架再次迎来了重大突破。这不仅仅是一次常规的版本更新，而是一次面向未来计算架构和AI应用场景的全面重构。从底层硬件支持到上层API设计，从编译器优化到注意力机制革新，PyTorch2.7展现出了前所未有
Boltz-2：革命性生物分子模型，加速药物发现的新引擎花生糖@ AIGC学习资料库 Boltz-2 生物模型 AI
在药物研发领域，预测蛋白质与其他分子间的结合强度（BindingAffinity）始终是核心挑战之一。传统方法如自由能微扰法（FEP）虽然精确，但计算成本极高，难以大规模应用。如今，Boltz-2的诞生打破了这一瓶颈——这是首个开源的深度学习模型，其结合强度预测准确度接近FEP方法，却将速度提升了1000倍，成为药物早期筛选的“加速器”。项目简介Boltz-2是由jwohlwend团队开发的生物分
人工智能在医疗领域的应用：技术革新与未来展望
人工智能（AI）技术正在重塑医疗行业的面貌。从辅助诊断到药物研发，从健康管理到手术机器人，AI的广泛应用不仅提升了医疗效率，还为精准医疗和个性化治疗提供了新可能。根据2025年多份研究报告及政策文件，全球AI医疗市场正以39.4%的年复合增长率高速扩张，预计到2025年，中国市场规模将达349亿元，全球规模则可能突破千亿美元18。本文将从应用场景、技术驱动、挑战与政策支持等维度，探讨AI在医疗领域
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
大语言模型（LLM）课程学习（Curriculum Learning）、数据课程（data curriculum）指南：从原理到实践
在人工智能的浪潮之巅，我们总会惊叹于GPT-4、Llama3.1、Qwen2.5这些顶尖大语言模型（LLM）所展现出的惊人能力。它们似乎无所不知，能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是：它们是如何“学”会这一切的？大多数人会回答：“用海量数据喂出来的。”这个答案只说对了一半。如果你认为只要把互联网上能找到的所有数据（比如15万亿个token）随机打乱，然后“一锅烩”地喂给模型，
Halcon学习之select_shape（）算子参数介绍
一、算子介绍select_shape()是HALCON中用于基于形状特征筛选区域的关键算子，广泛应用于图像分割、目标检测和工业质检等领域。它允许用户根据指定的几何特征从输入区域集合中选择符合条件的区域。至于为什么单独介绍这个算子呢，因为他筛选特征的方式有太多种了，如果可以熟练的掌握这些特征，那在后面的例程学习以及实际应用中，可谓是得心应手了。二、算子参数select_shape(Regions:S
bounding box 回归
【目标检测】基础知识：IoU、NMS、Boundingboxregression-知乎(zhihu.com)
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
为什么让AI洗碗比写诗难百倍？清华教授揭秘具身智能鸿沟 Loving_enjoy 计算机学科论文创新点机器学习人工智能 facebook 课程设计
>**人类小脑数亿年进化出的运动智慧，成了AI最难破解的密码**2025年3月，一位网友困惑地发问：“我想让人工智能替我洗碗做饭洗衣服，没想到现在的AI反而在画画、写歌、搞创作……”对此，全国政协委员、中国科学院自动化研究所研究员赵晓光一针见血地指出：**“大模型没有创新能力，想让AI干体力活还要靠具身智能的发展。”**这个看似矛盾的现象背后，隐藏着人工智能发展进程中一个惊人的认知盲区。清华大学心
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

迈向多模态AGI之开放世界目标检测

你可能感兴趣的:(目标检测,agi,计算机视觉,深度学习,人工智能)