多模态目标检测第3页

[数据集][目标检测]电力场景输电线均压环歪斜检测数据集VOC+YOLO格式303张2类别

数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：303标注数量(xml文件个数)：303标注数量(txt文件个数)：303标注类别数：2标注类别名称:["normal","skew"]每个类别标注的框数：normal框数=161skew框数=305总框数：466使用标

FL1623863129·2024-08-30 15:27

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

xGen-MM（BLIP-3）：一组开放的大型多模态模型摘要1引言2相关工作3模型架构4训练5数据6实验7消融研究8结论摘要本报告介绍了xGen-MM（也称为BLIP-3），这是一个用于开发大型多模态模型

UnknownBody·2024-08-30 13:47

工地工程车分类检测数据集 6300张带标注 voc yol

格式：VOC和YOLO格式，适用于训练目标检测模型。规模：共包含6300张图像。

计算机视觉从业者·2024-08-30 11:30

【CVPR‘24】BP-Net：用于深度补全的双边传播网络，新 SOTA！

摘要介绍方法1.总体架构2.双边传播模块（BilateralPropagationModule）深度参数化参数生成先验编码3.多模态融合（Multi-modalFusion）4.深度细化（DepthRefinement

BIT可达鸭·2024-08-30 04:50

【目标检测数据集】瓶子分类识别数据集1万张3类VOC+YOLO格式（玻璃瓶金属瓶塑料瓶数据集）

数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：10106标注数量(xml文件个数)：10106标注数量(txt文件个数)：10106标注类别数：3标注类别名称:["glass-bottle","metal-bottle","plastic-bottle"]每个类别标

熬夜写代码的平头哥∰·2024-08-30 01:00

基于深度学习的人类行为模仿

1.背景与意义1.1人类行为的复杂性多模态数据：人类行为包含视觉、听觉、触觉、语言等多种感知信息，如何综合分析这些多模态数据以理解和模仿人类行为是一个挑战。情境依赖性：人类行为通常依赖于特定

SEU-WYL·2024-08-30 01:26

视频图像处理基础--运动目标检测与识别

系列文章目录文章目录系列文章目录前言一、视频图像处理二、运动目标检测与识别--帧差法2.1帧差法2.2算法原理2.3利用帧差法进行目标检测的方法2.4相邻帧帧间差分法的优势和不足2.5改进的帧间差分法三

小豆包的小朋友0217·2024-08-29 16:58

【目标检测数据集汇总】各类目标检测数据集VOC+YOLO格式地址汇总

序号项目名称下载地址1【目标检测数据集】西红柿番茄成熟度检测640张3类别VOC+YOLO格式.zip点我下载2【目标检测数据集】轮船分类检测数据集500张4类别VOC+YOLO格式.zip点我下载3【

熬夜写代码的平头哥∰·2024-08-29 16:24

基于yolov8的8种人脸表情检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】基于YOLOv8的人脸表情检测系统是一个结合了先进目标检测算法（YOLOv8）与深度学习技术的项目，旨在实时或离线地识别并分类人脸表情（如快乐、悲伤、愤怒、惊讶、恐惧、厌恶、中立等）。

FL1623863129·2024-08-29 15:52

[数据集][目标检测]玻璃瓶塑料瓶检测数据集VOC+YOLO格式8943张2类别

数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8943标注数量(xml文件个数)：8943标注数量(txt文件个数)：8943标注类别数：2标注类别名称:["glass-bottle","plastic-bottle"]每个类别标注的框数：glass-bottle框

FL1623863129·2024-08-29 12:30

A Survey on Benchmarks of Multimodal Large Language Models

多模态大型语言模型基准研究综述摘要1引言2前言3感知与理解4认知与推理5特定领域6关键能力7其他模态8结论摘要多模态大型语言模型（MLLM）在学术界和工业界越来越受欢迎，因为它们在视觉问答、视觉感知、理解和推理等各种应用中表现出色

UnknownBody·2024-08-29 11:20

＜数据集＞斯坦福狗狗识别数据集＜目标检测＞

数据集格式：VOC+YOLO格式图片数量：20580张标注数量(xml文件个数)：20580标注数量(txt文件个数)：20580标注类别数：120标注类别名称：['Chihuahua','Japanese_spaniel','Maltese_dog','Pekinese','Shih-Tzu','Blenheim_spaniel','papillon','toy_terrier','Rhodes

深度学习lover·2024-08-29 06:52

Taco数据集的yolo格式

将Taco数据集的1500张图片和原本的coco标注改为yolo格式，方便用yolo算法对垃圾数据集进行目标检测操作。并配上改成中文标签的yaml文件。

lhy12345678910·2024-08-29 06:21

MS COCO数据集目标检测评估（Detection Evaluation）

MSCOCO(MicrosoftCommonObjectsinContext)是一个广泛应用于计算机视觉领域的数据集和评估平台，尤其是在目标检测、分割和人体关键点检测等任务中。

Ambition_LAO·2024-08-28 19:30

【YOLO系列】YOLO介绍

目录前言一、算法特点二、工作原理前言YOLO，全称为"YouOnlyLookOnce"，是一种流行的实时目标检测算法，由JosephRedmon等人于2015年首次提出。

有品位的小丑·2024-08-28 13:19

YOLO系列目标检测数据集大全_yolo数据集(1)

Darknet版YOLOv4猫狗识别训练好的权重文件：https://download.csdn.net/download/zhiqingAI/85541214Darknet版YOLOv3猫狗识别训练好的权重文件：https://download.csdn.net/download/zhiqingAI/85541209DeepSORT-YOLOv5猫狗检测和跟踪+可视化目标运动轨迹yolov7猫狗

2401_84187537·2024-08-28 12:17

使用Tensorflow目标检测API训练自己的数据集

使用官方1.x的目标检测API，安装过程见：https://www.jianshu.com/p/3257a32d4c5a一、制作数据集制作自己的数据集可以参考该方式：https://www.bilibili.com

是我真的是我·2024-08-28 03:21

ms | modelscope源码方式安装

[email protected]:modelscope/modelscope.gitcdmodelscopegitfetchoriginmastergitcheckoutmaster安装依赖如仅需体验多模态领域模型

Mopes__·2024-08-27 10:28

使用MongoDB构建AI：Jina AI将突破性开源嵌入模型变为现实

JinaAI创立于2020年，总部位于德国柏林，主要从事提示工程和嵌入模型业务，已迅速成长为多模态AI领导者。

MongoDB 数据平台·2024-08-27 02:10

【YOLOv10改进[Conv]】感受野注意力卷积RFAConv（2024.3）| 使用RFAConv 改进C2f + 含全部代码和详细修改方式

本文将进行使用RFAConv改进C2f，助力YOLOv10目标检测效果，文中含全部代码、详细修改方式。助您轻松理解改进的方法。改进前和改进后的参数对比：

Jackilina_Stone·2024-08-26 19:17

大模型微调技术（Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA）_adapter微调 p tuning

今年3月15日，GPT-4发布后，也出现了一些多模态的大模型，比如百度的文心一言、讯飞星火认知大模型等等。要想训练一个针对特定领域的大模型，如果采用全量参数微调（FullParameterFutu

Cc不爱吃洋葱·2024-08-26 19:12

国货之光|暴雨机推出面向大模型训练的AI服务器

当前，“百模大战”带来了算力需求的爆发，尤其是以ChatGPT为代表的多模态AI大模型，‌其参数规模和训练数据量均达到了前所未有的规模。‌

BAOYUCompany·2024-08-26 10:44

使用书生万象InternVL大模型进行自定义视频数据集微调时没有petrel_client导致NoneType异常

它是目前已知性能最强的开源多模态大模型(见数值对比表），也是国内首个在MMMU（多学科问答）上突破60的模型。数学基准MathVista的测试中

菜b杨·2024-08-26 06:54

电力行业电气领域相关数据集下载地址汇总输电线路变电站电网应用数据集汇总(全网最全)

例如，输电线路图像数据集通过无人机或直升机拍摄，包含了杆塔、绝缘子、导线等详细图像，为目标检测、分类和异常检测提供了丰富的素材。

FL1623863129·2024-08-26 02:25

[数据集][目标检测]街灯路灯检测数据集VOC+YOLO格式1893张1类别

数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1893标注数量(xml文件个数)：1893标注数量(txt文件个数)：1893标注类别数：1标注类别名称:["streetlight"]每个类别标注的框数：streetlight框数=5133总框数：5133使用标注工

FL1623863129·2024-08-25 23:09

[数据集][目标检测]手钳检测数据集VOC+YOLO格式141张1类别

数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：141标注数量(xml文件个数)：141标注数量(txt文件个数)：141标注类别数：1标注类别名称:["pliers"]每个类别标注的框数：pliers框数=195总框数：195使用标注工具：labelImg标注规则：

FL1623863129·2024-08-25 23:39

YOLOv8独家原创改进：图像去噪 |一种新颖的双分支残差注意，助力低光照、红外小目标检测 | 2024年最新发表（全网独家首发）

解决什么问题：许多网络不能很好地去除图像采集或传输过程中产生的真实噪声(即空间变异噪声)，这严重阻碍了它们在实际图像去噪任务中的应用。创新点：提出了一种新的双分支残差注意网络用于图像去噪，它具有广泛的模型架构和注意引导特征学习的优点。该模型包含两个不同的并行分支，可以捕获互补特征，增强模型的学习能力。我们分别设计了一种新的残差注意力(RAB)和一种新的混合型扩张型残差注意力(HDRAB)。如何跟Y

AI小怪兽·2024-08-25 21:59

通义千问( 五 ) 图片分析

5.多模态5.1.图片分析5.1.1.介绍通义千问VL(Qwen-VL)是阿里云研发的大规模视觉语言模型（LargeVisionLanguageModel,LVLM），可以以图像、文本、检测框作为输入，

春哥的魔法书·2024-08-25 14:15

深度学习（十一）：YOLOv9之最新的目标检测器解读

YOLOv91.YOLOv9:物体检测技术的飞跃发展1.1YOLOv9简介1.2YOLOv9的核心创新1.2.1信息瓶颈:神经网络在抽取相关性时的理论边界1.2.2可逆函数:保留完整的信息流1.2.3对轻型模型的影响：解决信息丢失1.2.4可编程梯度信息(PGI)：解决信息瓶颈1.2.5通用高效层聚合网络（GELAN）：实现更高的参数利用率和计算效率1.2.6结论：合作与创新2.代码1.YOLOv

从零开始的奋豆·2024-08-25 13:39

目标检测 | yolov8 原理和介绍

hero_hilog·2024-08-25 13:39

23 注意力机制—BERT

预训练NLP里的迁移学习BERTBERT动机BERT预训练NLP里的迁移学习在计算机视觉中比较流行，将ImageNet或者更大的数据集上预训练好的模型应用到其他任务中，比如小数据的预测、图片分类或者是目标检测使用预训练好的模型

Unknown To Known·2024-08-25 01:57

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

[CLIP-VIT-L+Qwen]多模态大模型源码阅读-trainer篇前情提要源码阅读导包逐行解读compute_loss方法（重构）整体含义逐行解读save_model函数（重构）整体含义逐行解读create_optimizer

FlowerLoveJava·2024-08-24 22:40

CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇（3）

多模态学习笔记-语言模型篇（3）参考repo:WatchTower-Liu/VLM-learning;url:VLLM-BASE吐槽今天接着昨天的源码继续看，黑神话：悟空正好今天发售，希望广大coder

FlowerLoveJava·2024-08-24 22:10

＜数据集＞工具识别数据集＜目标检测＞

数据集格式：VOC+YOLO格式图片数量：9302张标注数量(xml文件个数)：9302标注数量(txt文件个数)：9302标注类别数：5标注类别名称：['drill','hammer','pliers','screwdriver','wrench']序号类别名称图片数框数1drill58723942hammer353346873pliers192823944screwdriver23935243

深度学习lover·2024-08-24 22:37

《通义千问AI落地—上》：后端接口

为多模态大模型(MultimodalModels)。通义意为“通情，达义”，具备全副AI能力，致力于成为人们的工作、学习、生活助手。功能包括多轮对话、文案创作、逻辑推理、

写完bug就找女朋友·2024-08-24 22:37

[数据集][目标检测]风力发电机叶片损伤检测数据集VOC+YOLO格式5029张8类别

数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5029标注数量(xml文件个数)：5029标注数量(txt文件个数)：5029标注类别数：8标注类别名称:["Drainholeimpairment","LightningStrike","OILLEAKAGE","P

FL1623863129·2024-08-24 14:48

＜数据集＞遥感船舶识别数据集＜目标检测＞

数据集格式：VOC+YOLO格式图片数量：15047张标注数量(xml文件个数)：15047标注数量(txt文件个数)：15047标注类别数：25标注类别名称：['AircraftCarrier','AuxiliaryShips','OtherShip','OtherWarship','Destroyer','Dock','Hovercraft','Submarine','Ferry','Barg

深度学习lover·2024-08-24 07:07

深度学习，创新点，模型改进

机器学习，目标检测，目标识别，语义分割，GAN，CNN等(只要是深度学习均可)编程语言限于Python，pytorch欢迎大家咨询~

揽星河@·2024-08-23 21:00

＜数据集＞考场行为识别数据集＜目标检测＞

数据集格式：VOC+YOLO格式图片数量：2192张标注数量(xml文件个数)：2192标注数量(txt文件个数)：2192标注类别数：2标注类别名称：['cheating','good']序号类别名称图片数框数1cheating128214412good10671261使用标注工具：labelImg标注规则：对类别进行画水平矩形框图片示例：标注示例：

深度学习lover·2024-08-23 18:39

【AIGC半月报】AIGC大模型启元：2024.08（下）

【AIGC半月报】AIGC大模型启元：2024.08（下））(1)Nemotron-4-Minitron（NvidiaLLM）(2)VITA（腾讯优图多模态大模型）(3)mPLUG-Owl3（阿里巴巴多模态大模型

LeeZhao@·2024-08-23 10:19

AIGC：clip-interrogator

文字生成图片是近年来多模态和大模型研究的热门方向，openai提出的CLIP提供了一个方法建立起了图片和文字的联系，但是只能做到给定一张图片选择给定文本语义最相近的那一个，实际项目开发中我们总是需要从一张图片获取描述

微风❤水墨·2024-08-23 10:17

破晓未来视界：neuralsim——3D重构与模拟的神经渲染革命

今天，我们为您揭开一个名为“neuralsim”的开源项目面纱，它基于3D神经渲染技术，旨在通过高效且详尽的方式，重新定义表面重建和多模态传感器仿真。

秋玥多·2024-08-23 09:46

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（2）

多模态学习笔记-语言模型篇（2）参考repo:WatchTower-Liu/VLM-learning;url:vlm-learning吐槽今天的源码看的欲仙欲死，NTK(neuraltangentkernel

FlowerLoveJava·2024-08-23 09:14

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（1）

多模态大模型源码阅读-语言模型篇（1）吐槽今日心得MQwen.py吐槽想要做一个以Qwen-7B-Insturct为languagedecoder,以CLIP-VIT-14为visionencoder的