目标检测论文解读第8页

VLM 系列——Llava1.5——论文解读

一、概述1、是什么Llava1.5是llava的升级全称《ImprovedBaselineswithVisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视

TigerZ*·2024-01-29 21:00

VLM 系列——Qwen-VL 千问—— 论文解读

一、概述1、是什么Qwen-VL全称《Qwen-VL:AVersatileVision-LanguageModelforUnderstanding,Localization,TextReading,andBeyond》，是一个多模态的视觉-文本模型，当前Qwen-VL（20231707）可以完成：图像字幕、视觉问答、OCR、文档理解和视觉定位功能，同时支持多语言对话、多图像交错对话、细粒度识别。基

TigerZ*·2024-01-29 21:00

VLM 系列——Monkey——论文解读

一、概述1、是什么Monkey全称《Monkey:ImageResolutionandTextLabelAreImportantThingsforLargeMulti-modalModels》，是一个多模态的视觉-文本模型，当前版本（20231130）为基于Qwen-vl的三阶段微调（增加了Lora+visualadapter支持更高的分辨率）可以完成对一幅图片进行描述（强项，更细节）、相关事物（

TigerZ*·2024-01-29 21:30

VLM 系列——Object Recognition as Next Token Prediction——论文解读

一、概述1、是什么结合了CLIP的视觉编码器+语言模型Llama的部分参数，将常见的图片描述任务转变为只输出属性，换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的topK属性（英文），用于开放域的图片Tag场景。2、亮点*对图像-标题（从原始标题中提取名词作为参考标签）对进行训练，比图像-问题-答案三元组更容易收集和注释。对于推理，生成文本片段作为标签而不是句子。*解码器具

TigerZ*·2024-01-29 21:29

VLM 系列——Instruct BLIP——论文解读

一、概述1、是什么InstructBLIP全称《InstructBLIP:TowardsGeneral-purposeVision-LanguageModelswithInstructionTuning》，是一个多模态视觉-文本大语言模型，隶属BLIP系列第三篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。（不支持图文交错输入、写代

TigerZ*·2024-01-29 21:29

VLM 系列——COGVLM—— 论文解读

一、概述1、是什么COGVLM全称《VISUALEXPERTFORLARGELANGUAGE》，是一个多模态的视觉-文本模型，当前CogVLM-17B（20231130）可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答，但是这个版本只支持一个图片（为且必为首次输入），只支持英文，几乎不支持写代码（目前测试是的）。2、亮点论文认为：在不损害NLP模型原本能力的情况下，通过“视觉

TigerZ*·2024-01-29 21:29

VLM 系列——Llava——论文解读

一、概述1、是什么Llava全称《VisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视觉编码器，以及LLaMa语言解码器，构建了一个大规模的多模态模型（

TigerZ*·2024-01-29 21:57

【深度学习：目标检测】深度学习中目标检测模型、用例和示例

【深度学习：目标检测】深度学习中目标检测模型、用例和示例什么是物体检测？

jcfszxc·2024-01-29 20:30

目标检测数据集 - 人头检测数据集下载「包含VOC、COCO、YOLO三种格式」

数据集介绍：人头检测数据集，真实场景高质量图片数据，涉及场景丰富，比如课堂行人数据、街景行人数据、车站行人数据、商场行人数据、密集行人数据、超密集行人数据、遮挡行人数据、严重遮挡行人数据等；适用实际项目应用：监控场景下人头检测项目，以及作为监控场景通用人头检测数据集场景数据的补充；标注说明：采用labelimg标注软件进行标注，标注质量高，提供VOC(xml)、COCO(json)、YOLO(tx

极智视界·2024-01-29 18:56

目标检测算法改进系列之添加SCConv空间和通道重构卷积

SCConv-空间和通道重构卷积SCConv（空间和通道重构卷积）的高效卷积模块，以减少卷积神经网络（CNN）中的空间和通道冗余。SCConv旨在通过优化特征提取过程，减少计算资源消耗并提高网络性能。该模块包括两个单元：1.空间重构单元（SRU）：SRU通过分离和重构方法来减少空间冗余。2.通道重构单元（CRU）：CRU采用分割-变换-融合策略来减少通道冗余。论文地址：SCConv:Spatial

我悟了-·2024-01-29 13:01

剑指RT-DETR改进主干EfficientNet模型：重新思考卷积神经网络的模型扩展，使得RT-DETR目标检测模型高效涨点

本篇内容：剑指RT-DETR改进主干EfficientNet模型：重新思考卷积神经网络的模型扩展，YOLO系列高效涨点CSDN芒果汁没有芒果：RT-DETR最新首发创新点改进源代码！！本博客改进源代码改进适用于RT-DETR按步骤操作运行改进后的代码即可论文地址：https://arxiv.org/pdf/1905.11946.pdfEfficientNet论文理论部分+原创最新改进RT-DETR

芒果汁没有芒果·2024-01-29 11:52

MMDetection

什么是MMDetectionMMDetection实际上是一个用于目标检测的工具包，面向深度学习时代的。

pythonSuperman·2024-01-29 09:27

毕业设计过程学习

传统的目标检测算法主要通过人工设计与纹理、颜色和形状相关的特征来进行目标区域特征的提取。随着深度学习和人工智能技术的飞速发展，目标检测技术也取得了很大的成就。

pythonSuperman·2024-01-29 08:55

2024年1月19日Arxiv最热论文推荐：伯克利提出加速3D数据建模新方法、ICLR 2024论文让AI不再遗忘、谷歌新模型让一切皆可分割、北大多模态大模型用语言操控视频修复

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体「AI论文解读达人」提供。

夕小瑶·2024-01-29 08:12

Domain Adaptive Object Detection for Autonomous Driving under Foggy Weather

在晴朗天气下训练的目标检测模型在大雾天气下可能由于域间隙而不够有效。本文提出了一种新的雾天自动驾驶领域自适应目标检测框架。我们的方法利用图像级别和对象级别的自适应来减少图像风格和对象外观的领域差异。

暗魂b·2024-01-29 06:21

自定义目标检测：探索YOLO流程并在自定义数据上进行训练

在这篇文章中，我将详细演示如何加载和增强数据以及边界框，训练目标检测算法，并最终查看我们在测试图像中能够多精确地检测对象。虽然随着时间推移可用的工具包变得更易于使用，但仍然存在一些可能遇到的陷阱。

小北的北·2024-01-29 06:51

经典目标检测YOLO系列(三)YOLOv3算法详解

经典目标检测YOLO系列(三)YOLOv3算法详解不论是YOLOv1，还是YOLOv2，都有一个共同的致命缺陷：小目标检测的性能差。

undo_try·2024-01-29 06:10

基于PaddleDetection目标检测labelme标注自动获取

在百度的PaddleDetection项目的基础上实现目标检测labelme标注的自动获取，需要先训练一个模型，然后通过这个模型去标注，最后用labelme进行微调from__future__importabsolute_importfrom

Dandelion_2·2024-01-29 06:06

【YOLO系列算法俯视视角下舰船目标检测】

YOLO系列算法俯视视角下舰船目标检测数据集和模型YOLO系列算法俯视视角下舰船目标检测YOLO系列算法俯视视角下舰船目标检测可视化结果数据集和模型数据和模型下载：YOLOv6俯视视角下舰船目标检测+训练好的舰船目标检测模型

stsdddd·2024-01-29 06:04

C#简单使用Yolov5的Onnx格式模型进行目标检测

背景最近要离职了，同事需要了解一下C#如何使用yolov5系列onnx格式模型进行目标检测，由于其对C#不熟练，可能会影响公司后续的开发进度，所以趁着还在，赶紧把手尾搞好。

氷凌公子·2024-01-29 06:33

经典目标检测YOLO系列(三)YOLOv3的复现(2)正样本的匹配、损失函数的实现

经典目标检测YOLO系列(三)YOLOv3的复现(2)正样本的匹配、损失函数的实现我们在之前实现YOLOv2的基础上，加入了多级检测及FPN，快速的实现了YOLOv3的网络架构，并且实现了前向推理过程。

undo_try·2024-01-29 06:33

探寻ChatGPT底层模型诞生之路 —— 3篇OpenAI关键论文解读

本文是2023.02.20发表在同名公众号「陌北有棵树」上的一篇文章，个人观点是基础理论的学习现在仍是有必要的，所以搬运过来。最近一段时间ChatGPT的信息铺天盖地，难免眼花缭乱，但是信息太多往往约等于没有信息。同时，当我读了相关论文后发现，目前很多新闻、评论、专业人士的解读等，大部分都还是基于openAI发的几篇论文的。既然如此，为什么不直接读论文来获取一手信息呢？所以接下来我会学习ChatG

陌北有棵树·2024-01-29 06:58

YOLOv8-Seg改进：分层特征融合策略MSBlock | YOLO-MS ,超越YOLOv8与RTMDet，即插即用打破性能瓶颈

t.csdnimg.cn/KLSdv学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研；1）手把手教你如何训练YOLOv8-seg；2）模型创新，提升分割性能；3）独家自研模块助力分割；1.原理介绍摘要：作者旨在为目标检测社区提供一种高效且性能卓越的目标检测器

会AI的学姐·2024-01-28 23:00

在小目标检测上，普通卷积和扩张卷积哪个更具备优势？

在小目标检测上，普通卷积和扩张卷积哪个更具备优势？问题解答：在小目标检测任务上，扩张卷积相对于普通卷积可能具备一些优势，尤其是由于扩张卷积在感受野和多尺度特征捕获方面的性质。

神笔馬良·2024-01-28 19:15

基于深度学习的目标检测入门：Faster R-CNN，YOLO，SSD

在学习深度学习的过程中，经常弹出不同的算法名称，同样是做目标检测的，每篇论文给出了不同的方式，这些算法之间到底有什么区别？目标检测算法有哪些？

Real_man·2024-01-28 18:48

目标检测系列5——Faster R-CNN2（代码实现）

参考黑马程序员教程(1)train.py#trainimportosimporttensorflowastffromtensorflowimportkerasimportnumpyasnpimportmatplotlib.pyplotaspltfromdetection.datasetsimportcoco,data_generatorfromdetection.models.detectorsi

晓码bigdata·2024-01-28 16:19

【GitHub项目推荐--计算机视觉工具箱】【转载】

旅之灵夫·2024-01-28 11:29

Image Enhancement Guided Object Detection in Visually Degraded Scenes

Abstract目标检测准确率在视觉退化场景下降严重。一个普遍的解决方法就是对退化图像进行增强然后再执行目标检测。

暗魂b·2024-01-28 09:21

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程和之前实现的YOLOv2一样，根据《YOLO目标检测》(ISBN:9787115627094)一书，在不脱离YOLOv3的大部分核心理念的前提下

undo_try·2024-01-28 09:50

iou的cpu和gpu源码实现

zwhdldz·2024-01-28 09:10

【Deepsort-yolov5实现无人机视觉检测和跟踪】

无人机视觉检测1.1训练无人机数据集1.2无人机检测结果2.Deepsort跟踪2.1算法原理2.2无人机跟踪实现2.3无人机运动轨迹可视化2.4目标质心点保存2.5目标重识别模型要注意的问题3.飞机目标检测无人机视觉检测和跟踪系列数据集一数据集二数据集三数据集四数据集五数据集六数据集七数据集八无人机视频段

XTX_AI·2024-01-28 08:41

YOLOv3测试和训练

参考文章：学习YOLO系列的个人总结_boss-dog的博客-CSDN博客windows操作系统上运行ultralytics/yolov3进行目标检测_itsgoodtobebad的专栏-CSDN博客0

weixin_42103837·2024-01-27 23:33

深度学习有效改进|增强模块|卷积、注意力机制、损失函数等

深度学习|增强模块|卷积、注意力机制、损失函数等前言本系列主要分享深度学习领域前沿技术，多数为目标检测技术和分割技术，欢迎大家收藏关注。

今天炼丹了吗·2024-01-27 21:26

Faster R-CNN原理

R-CNN->FastR-CNN->FasterR-CNN一、R-CNN（RegionwithCNNfeature)R-CNN是利用深度学习进行目标检测的开山之作。

酸酸甜甜我最爱·2024-01-27 21:12

FPN结构

在FasterR-CNN中就用到FPN结构了，FPN结构对网络的好处在于：针对目标检测任务，cocoAP(IoU从0.5~0.95的均值)提升2.3个点，pascalAP提升3.8个点。

酸酸甜甜我最爱·2024-01-27 21:42

交并比（Intersection over union）

来源：Coursera吴恩达深度学习课程如何判断目标检测算法运作良好呢？接下来，你将了解到并交比（intersectionoverunion）函数，可以用来评价目标检测算法。

双木的木·2024-01-27 20:33

Docker容器中的OpenCV：轻松构建可移植的计算机视觉环境

简介和应用领域：构建Docker镜像部署分享Docker容器1.打包Docker镜像:2.上传到Docker镜像仓库:3.在其他机器上部署并运行容器:前言计算机视觉是一门涉及图像和视频处理的领域，可以应用于目标检测

鸭鸭渗透·2024-01-27 19:40

基于OpenCV和Dlib的深度学习人脸识别技术实践与应用

在算法层面,图像处理、目标检测、语义分割等多个领域的技术不断突破,准确率与效率持续提升。

技术狂潮AI·2024-01-27 19:25

深度学习中图像分类、目标检测、语义分割、实例分割哪个难度大，哪个检测精度容易实现，哪个速度低。请按照难度、精度容易实现程度、速度排名。

问题描述：深度学习中图像分类、目标检测、语义分割、实例分割哪个难度大，哪个检测精度容易实现，哪个速度低。请按照难度、精度容易实现程度、速度排名。

神笔馬良·2024-01-27 15:48

【论文解读】Object Goal Navigation usingGoal-Oriented Semantic Exploration

论文：https://devendrachaplot.github.io/papers/semantic-exploration.pdf代码：https://github.com/devendrachaplot/Object-Goal-Navigation项目：ObjectGoalNavigationusingGoal-OrientedSemanticExplorationexample：1摘要：

LeapMay·2024-01-27 15:27

目标检测中目标的尺寸差异大会存在什么问题？

问题描述：目标检测中目标的尺寸差异大会存在什么问题？问题解答：目标检测中目标的尺寸差异大可能会引发一些问题，这些问题可能包括：定位问题：尺寸差异大的目标可能导致模型在定位目标位置时出现困难。

神笔馬良·2024-01-27 13:54

目标检测类不平衡会存在什么问题？

问题描述：目标检测类不平衡会存在什么问题？问题解答：目标检测中的类别不平衡指的是不同类别的目标在数据集中的样本数量差异较大。

神笔馬良·2024-01-27 13:23

目标检测中类不平衡问题的解决方案分为两种方法:修正模型本身和直接处理数据。请解释一下修正模型本身和直接处理数据这两种方法的定义和特点。

问题描述：目标检测中类不平衡问题的解决方案分为两种方法:修正模型本身和直接处理数据。请解释一下修正模型本身和直接处理数据这两种方法的定义和特点。

神笔馬良·2024-01-27 13:52

[C#]winform部署yolov5实例分割模型onnx

【官方框架地址】https://github.com/ultralytics/yolov5【算法介绍】YOLOv5实例分割是目标检测算法的一个变种，主要用于识别和分割图像中的多个物体。

FL1623863129·2024-01-27 07:24

[C#]winform部署yolov7+CRNN实现车牌颜色识别车牌号检测识别

【官方框架地址】https://github.com/WongKinYiu/yolov7.git【框架介绍】Yolov7是一种目标检测算法，全称YouOnlyLookOnceversion7。

FL1623863129·2024-01-27 07:54

[C++]使用纯opencv部署yolov8旋转框目标检测

【官方框架地址】https://github.com/ultralytics/ultralytics【算法介绍】YOLOv8是一种先进的对象检测算法，它通过单个神经网络实现了快速的物体检测。其中，旋转框检测是YOLOv8的一项重要特性，它可以有效地检测出不同方向和角度的物体。旋转框检测的原理是通过预测物体的边界框和旋转角度来实现的。在YOLOv8中，神经网络不仅预测了物体的边界框位置，还预测了物体

FL1623863129·2024-01-27 07:49

Augmentation for small object detection

一、文章地址Augmentationforsmallobjectdetection二、文章内容提取1.Abstract（1）在目标检测领域小目标和大目标的检测效果有很大的差距。

anycedo·2024-01-27 07:30

【目标检测】不同结构的感受野对CNN网络的影响

一、什么是感受野？1、生物学的感受野万物能见于人，依靠的是人类的视觉系统，其中视网膜起到了关键作用，在视网膜上有许多光感受器细胞，这些光感受器把光信号转换为神经信号（电脉冲），从而刺激大脑皮层中与视觉相关的特定神经细胞，从而在人脑中显现出万物的影像。我们把所有刺激了某一特定神经细胞的光感受器称为该特定神经细胞的感受野(receptivefield)。2、卷积神经网络的感受野感受野用来表示网络内部的

牧世·2024-01-27 04:59

jetson-inference----训练自己的目标检测模型（一）

系列文章目录jetson-inference入门jetson-inference----docker内运行分类任务jetson-inference----训练自己的目标检测模型（一）文章目录系列文章目录前言一

小豆包的小朋友0217·2024-01-27 00:55

jetson-inference----docker内运行分类任务

系列文章目录jetson-inference入门jetson-inference----docker内运行分类任务jetson-inference----训练自己的目标检测模型（一）文章目录系列文章目录前言一

小豆包的小朋友0217·2024-01-27 00:24

推荐频道

目标检测论文解读

VLM 系列——Llava1.5——论文解读

VLM 系列——Qwen-VL 千问—— 论文解读

VLM 系列——Monkey——论文解读

VLM 系列——Object Recognition as Next Token Prediction——论文解读

VLM 系列——Instruct BLIP——论文解读

VLM 系列——COGVLM—— 论文解读

VLM 系列——Llava——论文解读

【深度学习：目标检测】深度学习中目标检测模型、用例和示例

目标检测数据集 - 人头检测数据集下载「包含VOC、COCO、YOLO三种格式」

目标检测算法改进系列之添加SCConv空间和通道重构卷积

剑指RT-DETR改进主干EfficientNet模型：重新思考卷积神经网络的模型扩展，使得RT-DETR目标检测模型高效涨点

MMDetection

毕业设计过程学习

2024年1月19日Arxiv最热论文推荐：伯克利提出加速3D数据建模新方法、ICLR 2024论文让AI不再遗忘、谷歌新模型让一切皆可分割、北大多模态大模型用语言操控视频修复

Domain Adaptive Object Detection for Autonomous Driving under Foggy Weather

自定义目标检测：探索YOLO流程并在自定义数据上进行训练

经典目标检测YOLO系列(三)YOLOv3算法详解

基于PaddleDetection目标检测labelme标注自动获取

【YOLO系列算法俯视视角下舰船目标检测】

C#简单使用Yolov5的Onnx格式模型进行目标检测

经典目标检测YOLO系列(三)YOLOv3的复现(2)正样本的匹配、损失函数的实现

探寻ChatGPT底层模型诞生之路 —— 3篇OpenAI关键论文解读

YOLOv8-Seg改进：分层特征融合策略MSBlock | YOLO-MS ,超越YOLOv8与RTMDet，即插即用打破性能瓶颈

在小目标检测上，普通卷积和扩张卷积哪个更具备优势？

基于深度学习的目标检测入门：Faster R-CNN，YOLO，SSD

目标检测系列5——Faster R-CNN2（代码实现）

【GitHub项目推荐--计算机视觉工具箱】【转载】

Image Enhancement Guided Object Detection in Visually Degraded Scenes

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程

iou的cpu和gpu源码实现

【Deepsort-yolov5实现无人机视觉检测和跟踪】

YOLOv3测试和训练

深度学习有效改进|增强模块|卷积、注意力机制、损失函数等

Faster R-CNN原理

FPN结构

交并比（Intersection over union）

Docker容器中的OpenCV：轻松构建可移植的计算机视觉环境

基于OpenCV和Dlib的深度学习人脸识别技术实践与应用

深度学习中图像分类、目标检测、语义分割、实例分割哪个难度大，哪个检测精度容易实现，哪个速度低。请按照难度、精度容易实现程度、速度排名。

【论文解读】Object Goal Navigation usingGoal-Oriented Semantic Exploration

目标检测中目标的尺寸差异大会存在什么问题？

目标检测类不平衡会存在什么问题？

目标检测中类不平衡问题的解决方案分为两种方法:修正模型本身和直接处理数据。请解释一下修正模型本身和直接处理数据这两种方法的定义和特点。

[C#]winform部署yolov5实例分割模型onnx

[C#]winform部署yolov7+CRNN实现车牌颜色识别车牌号检测识别

[C++]使用纯opencv部署yolov8旋转框目标检测

Augmentation for small object detection

【目标检测】不同结构的感受野对CNN网络的影响

jetson-inference----训练自己的目标检测模型（一）

jetson-inference----docker内运行分类任务