多模态目标检测第12页

YOLOv8优化策略：注意力涨点系列篇 | 多尺度双视觉Dualattention | Dual-ViT，顶刊TPAMI 2023

本文改进：多尺度双视觉Dualattention注意yolo，提升小目标检测能力YOLOv8改进专栏：http://t.csdnimg.cn/hGhVK学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研

会AI的学姐·2024-01-26 15:07

连接分析工具箱 | 利用CATO进行结构和功能连接重建

CATO是一个多模态软件包，使研究人员能够运行从MRI数据到结构和功能连接组图的端到端重建，定制其分析并利用各种软件包对数据进行预处理。

茗创科技·2024-01-26 13:25

什么是多视角回归？

具体而言，多视角回归适用于以下情况：多模态数据：当样本的不同方面由不同的数据源或视角提供时，例如，图像、文本、和数值特征同时描述一个对象。信息丰富性：每个视角提供的信息在某些方面是冗余的，但在其他方面

CA&AI-drugdesign·2024-01-26 13:28

#AIGC##LLM##RAG# RAG：专补LLMs短板_减少LLM幻觉并多模态/RAG 技术最新进展

通过整合先前知识，它提升了大型语言模型的性能，广泛应用于多模态领域和垂直行业。本文深入探讨了RAG技术的演进历程、技术发展、LLMs问题及其解决方案，为读者提供了对这一前沿技术的全面理解。

向日葵花籽儿·2024-01-26 11:23

Python图像处理【19】基于霍夫变换的目标检测

基于霍夫变换的目标检测0.前言1.使用圆形霍夫变换统计图像中圆形对象2.使用渐进概率霍夫变换检测直线2.1渐进霍夫变换原理2.2直线检测3.使用广义霍夫变换检测任意形状的对象3.1广义霍夫变换原理3.2

AI technophile·2024-01-26 10:54

一文深度解读多模态大模型视频检索技术的实现与使用

当视频检索叠上大模型Buff。万乐乐｜技术作者视频检索，俗称“找片儿”，即通过输入一段文本，找出最符合该文本描述的视频。随着视频社会化趋势以及各类视频平台的快速兴起与发展，「视频检索」越来越成为用户和视频平台实现高效查找视频、定位目标内容的新需求。对于个人用户而言，面对海量的在线视频资源，快速准确地通过关键词或描述找到感兴趣的视频十分重要。同时，在个人存储设备如手机或网络云盘中，用户也存在检索自己

阿里云视频云·2024-01-26 10:05

FastDeploy项目简介，使用其进行（图像分类、目标检测、语义分割、文本检测|orc部署）

FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具，支持云边端部署。提供超过160+Text，Vision，Speech和跨模态模型开箱即用的部署体验，并实现端到端的推理性能优化。包括物体检测、字符识别（OCR）、人脸、人像扣图、多目标跟踪系统、NLP、StableDiffusion文图生成、TTS等几十种任务场景，满足开发者多场景、多硬件、多平台的产业部署需求。1、FastD

万里鹏程转瞬至·2024-01-26 09:52

ReinforceNet: A reinforcement learning embedded object detectionframework with region selection net

强化学习嵌入式目标检测框架与区域选择网络摘要摘要近年来，研究人员探索了基于强化学习的目标检测方法。然而，现有的方法总是难以令人满意的性能。

fayetdd·2024-01-26 09:45

Transformers库中owlvit2模型的注意事项

Huggingface中的transformers库中的owlvit2模型具体由三种应用检测targetimage可能存在的目标(与owlvit的主要区别)利用querytext在targetimage上进行目标检测

lanlinbuaa·2024-01-26 07:02

试用Gemini pro

12月15日，Google开放Geminipro，据称是多模态的AI，我尝试了一下。

jifeng_lr·2024-01-26 01:21

关于视觉3d目标检测学习像素深度的一点理解

在真实世界的一个物体，可以通过相机矩阵将其投影到像素坐标系上但是，在像素坐标系上的像素，由于相机的原理，导致它的深度信息已经没有了，所以原理上是没法得到其真实深度的(即3d位置)那么现在的深度学习方法又为什么能预测出物体的深度呢？个人理解：大概的过程就是：通过图像可以预测物体的种类通过物体的种类以及其他一些特征可以预测物体的尺寸根据成像原理，真实物体通过小孔成像原理，投射到像素平面，真实物体的两个

zhaoyqcsdn·2024-01-26 01:04

颜色直方图

优点：一是对于任意一个图像区域，直方图特征的提取简单方便；其二，直方图表征图像区域的统计特征，可以有效表示多模态的特征分布，并且本身具备一定的旋转不变性。亮度直方图以亮度值为横轴，该像素的数量为纵轴。

Good@dz·2024-01-26 01:33

大模型日报-20240125

Meta、纽约大学造了一个OK-Robot画个框、输入文字，面包即刻出现：AI开始在3D场景「无中生有」了首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI2024药物-靶标亲和力预测，上科大团队开发了一种

程序无涯海·2024-01-26 00:16

激光雷达3D目标检测模型调研

1调研目的及结论点云3D目标检测检测为自动驾驶车辆提供精确的类别、方向及几何信息，为自动驾驶车辆更好的感知周围环境提供信息。

奔袭的算法工程师·2024-01-25 17:11

Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models

检索增强的大型语言模型的多模态思维链推理摘要1引言2相关工作3方法4实验5结论摘要大型语言模型（LLM）的发展引起了人们对思维链（CoT）方法的极大关注。

UnknownBody·2024-01-25 17:53

Qt+YOLOv4实现目标检测

环境：系统：win10（显卡：NVIDIAGTX1050）Yolo版本：V4cuda:11.2cudnn:8.1.1opencv:3.4.15VS:20191.编译前准备1.1opencv首先要安装opencv，下载地址如下https://opencv.org/安装3.4.16就可以了1.2安装cuda和cudnn安装教程可以参考我这篇文章。深度学习GPU环境CUDA安装教程2.编译YOLOYOL

QtHalcon·2024-01-25 14:01

Learning to Learn Better Unimodal Representations via Adaptive Multimodal Meta-Learning

文章目录AMML：通过自适应多模态元学习，学会更好地学习单模态表征文章信息研究目的研究内容研究方法1.总体架构2.网络结构3.UnimodalNetwork4.DistributionTransformationLayer5

鱼儿也有烦恼·2024-01-25 13:21

ChatGPT/GPT4科研实践应用与AI绘图技术及论文高效写作

2023年随着OpenAI开发者大会的召开，最重磅更新当属GPTs，多模态API，未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义，不亚于互联网和个人电脑的问世。

梦想的初衷~·2024-01-25 12:58

nlp文本主题提取算法总结

BigARTM(BigAdditiveRegularizationTopicModel):简介：BigARTM是一种多模态、

mqdlff_python·2024-01-25 12:50

目标检测数据集 - 猫狗检测数据集下载「包含VOC、COCO、YOLO三种格式」

数据集介绍：猫狗检测数据集，真实场景高质量图片数据，涉及场景丰富，比如奔跑猫狗数据、睡觉猫狗数据、散步猫狗数据、坐着的猫狗数据、趴着的猫狗数据、不同品种猫狗数据等；适用实际项目应用：公共场所监控或室内监控场景下猫狗检测项目，以及作为监控场景通用猫狗检测或动物检测数据集场景数据的补充；标注说明：采用labelimg标注软件进行标注，标注质量高，提供VOC(xml)、COCO(json)、YOLO(t

极智视界·2024-01-25 09:55

RT-DETR原理与简介（干翻YOLO的最新目标检测项目）

RT-DETR（Real-TimeDetection,Embedding,andTracking）是一种基于Transformer的实时目标检测、嵌入和跟踪模型。

毕设阿力·2024-01-25 09:21

从零开始训练 YOLOv8最新8.1版本教程说明（包含Mac、Windows、Linux端）同之前的项目版本代码有区别

芒果汁没有芒果·2024-01-25 09:49

SAR动目标检测系列：【3】动目标运动参数估计简介

在SAR-MTI领域，不管是单通道还是多通道动目标检测方法，在检测出动目标之后，接下来的任务就是对剩余杂波和噪声中的动目标精确地估计参数。而动目标精确参数估计一般是在方位信号中完成的，对图像

HIT夜枭·2024-01-25 08:34

论文阅读：Vary-toy论文阅读笔记

目录引言整体结构图方法介绍训练visionvocabulary阶段PDF数据目标检测数据训练Vary-toy阶段Vary-toy结构数据集情况引言论文：SmallLanguageModelMeetswithReinforcedVisionVocabularyPaper

Liekkas Kono·2024-01-25 08:45

mask transformer相关论文阅读

DETR为数不多的目标检测里端到端的模型，它把目标检

鱼小丸·2024-01-25 08:43

计算机设计大赛交通目标检测-行人车辆检测流量计数 - 计算机设计大赛

文章目录0前言1\.目标检测概况1.1什么是目标检测？

iuerfee·2024-01-25 07:27

更高效的大模型调优方法，华盛顿大学推出“代理调优”

随着ChatGPT等生成式AI产品朝着多模态发展，基础模型的参数越来越高，想进行权重调优需要耗费大量时间和AI算力。

RPA中国·2024-01-25 06:14

开源计算机视觉库OpenCV详解

物体检测与跟踪：包括人脸检测、目标检测、运动跟踪等。特征提取与匹配：包括角点检测

诗雅颂·2024-01-25 06:28

手把手教你用GPT写提示词；进行文献综述；论文翻译/润色及写作

2023年随着OpenAI开发者大会的召开，最重磅更新当属GPTs，多模态API，未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义，不亚于互联网和个人电脑的问世。

asyxchenchong888·2024-01-25 04:45

UCAS-AOD遥感旋转目标检测数据集——基于YOLOv8obb，map50已达96.7%

论文中特别提到了目标检测的方向健壮性，所以在数据集标注过程中作者对数据进行了一定程度的筛选，使得图像中的物体方向分

MatpyMaster·2024-01-25 03:37

大一c语言课设--五子棋（基于easyx库）

前言本文介绍本人的大一课程设计作业项目：五子棋，本来准备挑战更有难度的机器视觉目标检测系统（对于我来说困难），但是在经历各种不可预测的事情（包括变成小人）之后，还是放弃了，然后写了这个项目（之前就有写过一点

顽强的代码人·2024-01-24 22:43

GitHub Copliot：AI驱动的编程神器

文章目录前言一、引言二、GitHubCopilot的原理2.1自然语言处理（NLP）2.2代码理解2.3训练数据与预训练2.4提示工程与多模态输入三、GitHubCopilot的优势四、实际应用4.1深度集成与无缝体验

快乐的流畅·2024-01-24 21:53

51-13 多模态论文串讲—BEiT v3 论文精读

同时，本文也对多模态大模型作了一个简单的总结。接下来，我们来看BEiT-3论文，题目是ImageasaForeignLanguage:BEiTPretraini

深圳季连AIgraphX·2024-01-24 18:19

51-14 Retentive Network，RetNet 多尺度保留机制序列建模论文精读

我们知道BLIP成了一个非常普适的一个工具，你可以拿这个模型去训练VLMo，训练CoCa，训练BEiT-3，去训练各种各样的多模态模型，因为它的目的就是生成更好的数据。

深圳季连AIgraphX·2024-01-24 18:19

51-12 多模态论文串讲—BLIP 论文精读

视觉语言预训练VLP模型最近在各种多模态下游任务上获得了巨大的成功，目前还有两个主要局限性:(1)模型角度:大多数方法要么采用encoder模型，要么采用encoder-decoder模型。

深圳季连AIgraphX·2024-01-24 18:19

51-16 FusionAD 用于自动驾驶预测与规划任务的多模态融合论文精读

今天要分享的是基于BEV的多模态、多任务、端到端自动驾驶模型FusionAD，其专注于自动驾驶预测和规划任务。这项工作首次发表于2023年8月2日，性能超越了2023CVPR最佳论文UniAD模型。

深圳季连AIgraphX·2024-01-24 18:49

从智能回复到语言准确性，ChatGPT和文心一言谁更胜一筹？

它适合处理较短的文本或需要快速响应的应用场景，例如文学创作、数理逻辑推算、多模态生成等。它的优

清水白石008·2024-01-24 17:29

大模型时代下的智能体与多模态化

一、智能体的崛起智能体，也称为智能代理或智能软件代理，是一种能够自主感知、分析、决策并执行任务的软件实体。随着人工智能技术的不断发展，智能体在各个领域的应用越来越广泛，如智能家居、自动驾驶、医疗诊断等。智能体的崛起得益于深度学习技术的突破，尤其是自注意力机制的出现。通过捕捉输入数据中的内在结构和语义信息，自注意力机制使得智能体能够更好地理解自然语言和图像等模态的信息，从而提升其决策和执行能力。二、

百度_开发者中心·2024-01-24 16:43

20240124-大模型日报

风格乐器精准分析，还能剪辑合成https://mp.weixin.qq.com/s/idTbJr7GhtyQejbqLQ7BtQ能处理音乐的多模态大模型，终于出现了！

程序无涯海·2024-01-24 13:11

YOLOV5单目测距+车辆检测+车道线检测+行人检测（教程-代码）

YOLOv5是一种高效的目标检测算法，结合其在单目测距、车辆检测、车道线检测和行人检测等领域的应用，可以实现多个重要任务的精确识别和定位。首先，YOLOv5可以用于单目测距。

毕设阿力·2024-01-24 13:23

V∗: Guided Visual Search as a Core Mechanism in Multimodal LLMs

然而，这种视觉搜索机制的缺乏，在目前的多模态LLM（MLLM）阻碍了他们的能力，专注于重要的视觉细节，特别是在处理高分辨率和视觉拥挤的图像。

这家伙是个好家伙·2024-01-24 12:37

深入浅出理解目标检测的NMS非极大抑制

一、参考资料物体检测中常用的几个概念迁移学习、IOU、NMS理解目标定位和检测系列（3）：交并比（IOU）和非极大值抑制（NMS）的python实现Pytorch：目标检测网络-非极大值抑制(NMS)二

花花少年·2024-01-24 10:48

【论文+视频控制】23.08DragNUWA1.5：通过集成文本、图像和轨迹来进行视频生成中的细粒度控制（24.01.08开源最新模型）

Fine-grainedControlinVideoGenerationbyIntegratingText,Image,andTrajectory代码：https://github.com/ProjectNUWA/DragNUWA一、简介中国科学技术大学+微软亚洲研究院在NUWA多模态模型

曾小蛙·2024-01-24 09:31

关于图像分割项目的可视化脚本

1.前言之前实现了目标检测和图像分类任务的可视化脚本，本章将最后一个分割任务的可视化脚本实现效果展示如下：代码会在当前目录保存展示好的图片，从左到右依次为，原图、mask图、mask覆盖在原图的掩膜图关于目标检测的可视化

听风吹等浪起·2024-01-24 09:26

多目标跟踪MOT16数据集和评价指标

已开始接触，可能觉得直接将目标检测的算法应用在视频的每一帧就可以完成这个任务了。

pprpp·2024-01-24 07:57

数字图像处理（实践篇）二十六使用cvlib进行人脸检测、性别检测和目标检测

目录1安装cvlib2涉及的函数3实践4其他cvlib一个简单，高级，易于使用的开源Python计算机视觉库。1安装cvlib#安装依赖pipinstallopencv-pythontensorflow#安装cvlibpipinstallcvlib</

Jackilina_Stone·2024-01-24 06:57

LibreChat，一个开源外壳

多模态聊天功能:用户可以上传并通过GPT-4和GeminiVision分析图像。同时，支持更多文件类型和正在开发中的助手API集成。多语言用户界面:支持多种语言，包括英语、中文、德语、西

CCSBRIDGE·2024-01-24 05:27

DDBNet：Anchor-free新训练方法，边粒度IoU计算以及更准确的正负样本 | ECCV 2020

论文针对当前anchor-free目标检测算法的问题提出了DDBNet，该算法对预测框进行更准确地评估，包括正负样本以及IoU的判断。

VincentTeddy·2024-01-24 04:31

用ssh远程linux服务器无法打开图形界面的解决方法

比如，查看图片形式保存的loss结果，目标检测结果等。

xw2017·2024-01-24 01:52

推荐频道

多模态目标检测

YOLOv8优化策略：注意力涨点系列篇 | 多尺度双视觉Dualattention | Dual-ViT，顶刊TPAMI 2023

连接分析工具箱 | 利用CATO进行结构和功能连接重建

什么是多视角回归？

#AIGC##LLM##RAG# RAG：专补LLMs短板_减少LLM幻觉并多模态/RAG 技术最新进展

Python图像处理【19】基于霍夫变换的目标检测

一文深度解读多模态大模型视频检索技术的实现与使用

FastDeploy项目简介，使用其进行（图像分类、目标检测、语义分割、文本检测|orc部署）

ReinforceNet: A reinforcement learning embedded object detectionframework with region selection net

Transformers库中owlvit2模型的注意事项

试用Gemini pro

关于视觉3d目标检测学习像素深度的一点理解

颜色直方图

大模型日报-20240125

激光雷达3D目标检测模型调研

Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models

Qt+YOLOv4实现目标检测

Learning to Learn Better Unimodal Representations via Adaptive Multimodal Meta-Learning

ChatGPT/GPT4科研实践应用与AI绘图技术及论文高效写作

nlp文本主题提取算法总结

目标检测数据集 - 猫狗检测数据集下载「包含VOC、COCO、YOLO三种格式」

RT-DETR原理与简介（干翻YOLO的最新目标检测项目）

从零开始训练 YOLOv8最新8.1版本教程说明（包含Mac、Windows、Linux端 ）同之前的项目版本代码有区别

SAR动目标检测系列：【3】动目标运动参数估计简介

论文阅读：Vary-toy论文阅读笔记

mask transformer相关论文阅读

计算机设计大赛 交通目标检测-行人车辆检测流量计数 - 计算机设计大赛

更高效的大模型调优方法，华盛顿大学推出“代理调优”

开源计算机视觉库OpenCV详解

手把手教你用GPT写提示词；进行文献综述；论文翻译/润色及写作

UCAS-AOD遥感旋转目标检测数据集——基于YOLOv8obb，map50已达96.7%

大一c语言课设--五子棋（基于easyx库）

GitHub Copliot：AI驱动的编程神器

51-13 多模态论文串讲—BEiT v3 论文精读

51-14 Retentive Network，RetNet 多尺度保留机制序列建模论文精读

51-12 多模态论文串讲—BLIP 论文精读

51-16 FusionAD 用于自动驾驶预测与规划任务的多模态融合论文精读

最新AI系统ChatGPT网站H5系统源码，支持Midjourney绘画，GPT语音对话+ChatFile文档对话总结+DALL-E3文生图

从智能回复到语言准确性，ChatGPT和文心一言谁更胜一筹？

大模型时代下的智能体与多模态化

20240124-大模型日报

YOLOV5单目测距+车辆检测+车道线检测+行人检测（教程-代码）

V∗: Guided Visual Search as a Core Mechanism in Multimodal LLMs

深入浅出理解目标检测的NMS非极大抑制

【论文+视频控制】23.08DragNUWA1.5：通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 （24.01.08开源最新模型）

关于图像分割项目的可视化脚本

多目标跟踪MOT16数据集和评价指标

数字图像处理（实践篇）二十六 使用cvlib进行人脸检测、性别检测和目标检测

LibreChat，一个开源外壳

DDBNet：Anchor-free新训练方法，边粒度IoU计算以及更准确的正负样本 | ECCV 2020

用ssh远程linux服务器无法打开图形界面的解决方法

从零开始训练 YOLOv8最新8.1版本教程说明（包含Mac、Windows、Linux端）同之前的项目版本代码有区别

计算机设计大赛交通目标检测-行人车辆检测流量计数 - 计算机设计大赛

【论文+视频控制】23.08DragNUWA1.5：通过集成文本、图像和轨迹来进行视频生成中的细粒度控制（24.01.08开源最新模型）

数字图像处理（实践篇）二十六使用cvlib进行人脸检测、性别检测和目标检测