CV矿工

MOTR: End-to-End Multiple-Object Tracking with Transformer 详细解读

文章目录

简介（abstract）
介绍（introduction）
相关工作（related work）
理论（method）
- Query in Object detection
- Detect query and track query
- Tracklet-Aware Label Assignment
- MOTR Architecture
- Query Interaction Module
- - object entrance and exit
  - Temporal Aggregation Network
- Collective average loss
Experments

简介（abstract）

多目标跟踪的关键挑战在于轨迹上目标的时序建模，而现有的TBD方法大多采用简单的启发式策略，如空间和外观相似度。尽管这些方法具有通用性，但它们过于简单，不足以对复杂的变化进行建模，例如通过遮挡进行跟踪。本质上，现有方法缺乏时间建模的能力。这篇论文中，作者提出了MOTR，这是一个真正的完全端到端的跟踪框架。MOTR能够学习建模目标的长程时间变化，它隐式地进行时间关联，并避免了以前的显式启发式策略。基于Transformer和DETR，MOTR引入了track query这个概念，一个track query负责建模一个目标的整个轨迹，它可以在帧间传输并更新从而无缝完成目标检测和跟踪任务。时间聚合网络（temporal aggregation network，TAN）配合多帧训练被用来建模长程时间关系。实验结果表明MOTR达到了SOTA效果。

介绍（introduction）

多目标跟踪是在视频序列的每一帧中定位所有的目标并确定它们的移动轨迹的一个任务。多目标跟踪是极具挑战的一个任务，因为每帧中的目标都可能因为环境的变化而被遮挡，而且跟踪器要想进行长期跟踪或者低帧率的跟踪是比较困难的。这些复杂多样的跟踪场景为MOT方法的设计带来了诸多挑战。

现有的多目标跟踪方法基本上都遵循tracking-by-detection（TBD）范式，它将轨迹的生成分为两个步骤：目标定位和时序关联。对目标定位而言，使用检测器逐帧检测目标即可。而对于时序关联，现有的方法要么使用空间相似性（即基于IoU关联）要么使用外观相似性（即基于ReID关联）。对于基于IoU的方法，计算两帧检测框的两两之间的IoU矩阵，若两个目标之间的IoU高于某个阈值则赋予同一个ID，如下图的(a)所示。基于ReID的方法思路类似，两帧之间目标两两计算特征相似度，具有最高相似度的两个目标赋予同一个ID，不过，单独训练一个检测器和ReID模型代价太大，最近的主流思路是一个模型联合训练检测和ReID分支，这类方法称为JDT（joint detection and tracking）方法，如下图(b)所示。

上述的时序关联方法都是启发式的，并且是相当简单的，因此它们难以建模长时间的物体复杂的空间和外观变化。本质上看，其不具备对时间变化建模的能力，这和深度学习“端到端学习”的理念是不一致的。这些方法也许大多数情况下工作正常，但是对于一些挑战性的场景缺乏鲁棒性，这些场景下IoU和外观是不可信的，而这些复杂场景才是MOT任务的关键。因此，作者为了解决这个问题，构建了一个不需要任何数据关联处理的端到端跟踪框架。

同时本算法是基于DETR算法的，所以先简单介绍下DETR算法：

如下图中的a所示，object queries作为object 代表，会和通过cnn以及encoder得到的image feature一起送入transfomer的decoder（cross attention）中，得到每一个object的bbox，cls等。这样object query就和GT中的object构成了一个bipartite matching问题，直接得到最终结果，而不需要后处理（NMS）

而MOTR则基于DETR算法，将object query扩展成track query。原因很明显，MOT任务是sequence prediction。所以我们将object prediction扩展成sequence prediction就可以了。其中sequence也就是我们常说的object trajectory，最终显式表示为一些列的bbox。

我们再回过头看上图（b），当我们用track query表示track trajectory时，我们将track query和从当前帧得到的feature同时送入decoder中，track query作为隐藏层，影响着所有的跟踪结果，同时track query也会随着视频一帧帧的迭代，作为下一帧的track query。一个object如果和一个track query匹配上，则在其生命周期内，则其bbox结果都可以通过其track query解析出的的bbox，cls等表示。

当然为了实现上诉算法，我们还有两个难点：

如何做到用给track query代表一个object trajectory
如何处理object 产生与消亡

第一点很好解决，用同一个id的bbox去进行监督就好了。当然这里作者提出了个高大上的名字：tracklet-aware label assignment（TALA）。第二个实际用其他算法都有用到的一个query memory（track memory）就可以解决了。这里作者也起了高大上的名字：entrance and exit mechanism。当然具体细节我们后续再详说。

除了上诉方法，作者为了增强模型的时间建模能力，还使用了CAL（collective average loss）和 TAN（temporal aggregation network）。先简单解释下：

CAL:训练的时候，使用video sequence作为输入，然后综合每一帧的loss，根据GT求个标准化结果，用来作为最终的loss，来backward。

TAN：在track query输入到下一帧之前，会经过一个transformer的attention机制网络，起名temporal aggregation network，这个网络的输入还有历史的track queries，这样输出的new track query不就包含了过去的信息么。所以有了时间聚合的作用。

相关工作（related work）

都是常见的介绍，有需要可以看下原论文，主要讲了transformer在CV领域的应用，MOT现状以及iterative sequence prediction。

理论（method）

Query in Object detection

主要讲了DETR算法用的object queries。熟悉DETR的已经了解了。简单概括：

object queries会和image feature一起送入decoder，得到最终的cls，bbox等。同时用了bipartite matching匹配了object querie和gt。

Detect query and track query

主要讲解了如何从detect query 扩展到track query。如上图所示，我们输入decoder的track query是有一部分的empty queries的，这些empty queries就承担了detect query的作用，用来生成新目标，也就是newborn。同时前一帧的detect queries 会作为下一帧的track queries。然后，和DETR不同的是，这里边track query的数量是不定的，会随着物体消亡而删除，是一个动态值。

Tracklet-Aware Label Assignment

文中有两个公式出现，但公式的实际意义不大，象征意义更多，我就不抄录了，感兴趣的可以自己去看下原文。

简单讲下这个高大上的名词的内容。DETR中，没一帧的query和GT都是二分匹配的assignment。但本算法中，会存在newborn object以及继承上一帧的track object。所以这里就分两部分去做assignment。

首先newborn object。用上文提到的track queries 中的empty queries作为DETR中的detect queries，与GT中的newborn object做bipartite matching。作为一个匹配结果。

然后track object。直接上一帧的track matching 和 newborn matching的并集作为匹配结果就可以了。

最后多说一句，为什么这样不会出问题，因为我们的backbone是transformer，attention机制呀，刚好能抑制检测的用来代表跟踪。

MOTR Architecture

如上图所示，结构还蛮清晰的。论文不翻译了，我说下我的理解吧。训练的时候，是一个video sequence送入网络，对单帧来说，图像会先经过一个cnn（什么backbone都ok）网络，进行特真的提取融合，之后送入transformer的encoder得到最终要使用的feature，这一步在图中就是Enc表示的内容。接下来分两种情况，第一种，对第一帧来说，送入empty queries和空集的track queries和上诉的feature进行cross attention，也就是decoder得到要输入下一帧的track queries和prediction（也就是当帧结果）。第二种，对连续帧来说，送入empty queries和上一帧处理过的track queries，以及feature进行cross attention，得到最终结果。上边的empty queries在inference时，都是训练好的哦，就和DETR的object query一样。

这里边还要简单说下，从上一帧得到的track query还要经过一个叫QIM的网络，这个网络用来聚合历史帧的信息，后续还会详细讲。

Query Interaction Module

object entrance and exit

在上面的叙述中，QIM负责接受上一帧的track query输出并生成当前帧的track query输入，在这一节将具体阐述Query Interaction Module（QIM）。QIM主要包括目标进出机制（object entrance and exit mechanism）和时间聚合网络（temporal aggregation network）。

Object Entrance and Exit: 首先来看目标进出机制，我们知道，每个track query表示一个完整轨迹, 然而，一些目标可能在中间某一帧出现或者消失，因此MOTR需要输出一些边界框 $\left \{ box_i,\dots,box_j \right \}$ 假定目标在 $T_i$ 帧出现但在 $T_j$ 帧消失。

MOTR是如何处理目标进出的情况呢？在训练时，track query的学习可以通过二分图匹配的GT来监督。但是，在推理时，使用跟踪得分预测来决定一个轨迹的出现和消失。来看下图，这是QIM的结构图，对 $T_i$ 帧而言，track query set $q_t^i$ 通过QIM从 $T_{i-1}$ 帧生成，然后和empty query set $q_e$ 级联到一起，级联的结果继而输入到decoder并产生原始的包含跟踪得分的track query set $q_{ot}^i$ 。 $q_{ot}^i$ 随机被分割为两个query set，即 $q_{en}^i$ 和 $q_{ce}^i$ ，对目标的进入， $q_{en}^i$ 中的query如果跟踪得分大于进入阈值 $\tau_{en}$ 则被保留，其余的被移除。对目标的退出， $q_{ce}^i$ 的query如果跟踪得分连续M帧低于退出阈值 $\tau_{ex}$ ，将被移除，剩下的query则被保留。

Temporal Aggregation Network

如图四所示，TAN就是用来融合历史信息进入到当前帧的track query。简单来说上一帧的track query和当前帧的track query会作为key和query送入到的muti-head self-attention（MHA）中，然后当前帧的track query作为value进行操作，之后接一个FFN（约等于FC-layer），最后得到下一帧要用的track query。

Collective average loss

Experments

首先是和其他SOTA的比较，MOTR确实取得了相当不错的效果，相比此前基于Transformer的方法也有了不小的提高。

也进行了一些模块的消融实验，如下。

有什么问题和不足，欢迎指正交流~

你可能感兴趣的:(深度学习,MOT,深度学习,神经网络,计算机视觉)

考研导师选择方法 herosunly 考名校研究生经验分享考研选择导师考研导师选择方法
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1LiteLLM1.1生成对话补全1.2响应格式(OpenAIFormat)1.3异步调用1.4流式生成对话补全1.5支持的ollama模型2langchain2.1LangChain简介2.2LangChain架构2.3构建简单LLM应用程序(OllamaLLM)2.3.1生成对话补全2.3.2流式生成对话补全2.4聊天模型(ChatOllama)2.4.1Invoke调用2.4.2st
图神经网络实战（9）——GraphSAGE详解与实现盼小辉丶图神经网络从入门到项目实战图神经网络 GNN pytorch
图神经网络实战（9）——GraphSAGE详解与实现0.前言1.GraphSAGE原理1.1邻居采样1.2聚合2.构建GraphSAGE模型执行节点分类2.1数据集分析2.2构建GraphSAGE模型3.PinSAGE小结系列链接0.前言GraphSAGE是专为处理大规模图而设计的图神经网络(GraphNeuralNetworks,GNN)架构。在科技行业，可扩展性是推动系统增长的关键驱动力。因此
《动手学PyTorch深度学习建模与应用》第二章：2.4-2.6节详解环工人学Python 深度学习 pytorch 人工智能 python 机器学习学习
写在前面：不知不觉已经更了第一个章节，目前的内容都是很基础的内容，有人会问现在ai时代，还有必要学习这些内容吗，我想说的是，越是基础的内容我们越要认真去学习和分析，ai可以快速解决问题，但是我希望我们可以知其所以然，感谢所有支持的收藏和粉丝，希望这些文章对你们有些许帮助！点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写
在Python中高效操作三维和四维数组相乘：人工智能基础 NumPy部分秋‍. python numpy 开发语言人工智能
一、前言在深度学习、科学计算和数据分析领域，处理高维数组是家常便饭。本文将深入探讨三维和四维数组的相乘操作，通过NumPy库演示各种实用技巧。二、核心概念梳理1.数组维度理解三维数组：(层,行,列)可理解为多个二维矩阵的堆叠四维数组：(批次大小,通道数,高度,宽度)常见于图像处理2.关键函数对比函数特性说明支持维度np.multiply元素级相乘任意np.dot标准矩阵点积≤2np.matmul广
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
如何用 DeepSeek 进行卷积神经网络（CNN）的优化一碗黄焖鸡三碗米饭人工智能前沿与实践 cnn 人工智能神经网络机器学习深度学习
如何用DeepSeek进行卷积神经网络（CNN）的优化卷积神经网络（CNN）在计算机视觉任务中取得了巨大的成功，例如图像分类、目标检测和图像生成。然而，尽管CNN在这些任务中表现出色，它们通常需要大量的计算资源，并且在优化过程中可能会遇到一些挑战，如过拟合、训练速度慢、局部最优解等问题。为了更好地优化CNN模型，提高其性能和训练效率，DeepSeek提供了多种优化技术和工具，可以帮助我们系统地进行
英特尔开发板试用：结合OAK深度相机进行评测 OAK中国_官方数码相机
最近英特尔官方发布了一篇文章：主要介绍了如何将英特尔开发板（小挪吒）与OAK深度相机结合使用，并通过OpenVINO™工具套件进行开发和性能评测OAK相机：作为深度数据采集的核心设备，其深度测距功能与OpenVINO™推理相结合，实现了高效的目标检测和深度信息处理。OpenVINO™：作为英特尔的深度学习推理框架，为开发板和OAK相机提供了强大的推理支持。性能优化：通过模型转换和硬件加速，去实现高
VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》 OAK中国_官方 SLAM 人工智能 rpab-map
OAKChina&苏州泛科特机器人联合推出OAK-DSeries&因子空间感知（FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能，我们直接在SLAM底层使用HF-Net模型，该模型同时进行局部特征点检测
深度学习开源数据集大全：从入门到前沿念九_ysl AI 人工智能
在深度学习中，数据是模型训练的基石。本文整理了当前最常用且高质量的开源数据集，涵盖图像、视频、自然语言处理（NLP）、语音与音频等方向，帮助研究者和开发者快速定位所需资源。一、图像类数据集1.MNIST简介：手写数字识别领域的“HelloWorld”，包含6万张训练图像和1万张测试图像，尺寸为28×28的灰度图。特点：适合入门级图像分类任务，支持快速验证算法原型28。下载地址：MNIST官网2.I
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
图像识别-pytorch 星辰瑞云机器学习 cnn pytorch
Pytorch神经网络工具箱神经网络核心组件神经网络的基本组件层：包括卷积层、池化层、全连接层等。层是神经网络的基本结构，输入张量通过层后变为输出张量。模型：由层构成的网络结构，如AlexNet、VGG等。模型可以是预训练的，也可以自己搭建。损失函数：用于衡量预测值与真实值之间的差距，如均方误差。损失函数越小越好。优化器：用于调整权重和偏置，使损失函数最小化。优化器决定了参数的调整方式。误差反传（
建筑兔零基础人工智能自学记录34|深度学习与神经网络2 阿克兔人工智能toto学习人工智能深度学习神经网络
1、人工神经网络ANN从生物课上学到的有关神经元、突触的生物神经网络，被模仿出了简化的人工神经网络（ANN,artificialneuralnetwork）。ANN结构为：输入层、隐藏层、输出层人工神经元：基于生物神经元的数学模型ANN过程：输入---加权求和---激活函数激活函数：类似生物神经元的阈值，达到阈值输出信号（‘神经网络的万能逼近定理’---两层以上神经网络可以逼近任意函数）2、深度学
自然语言处理NLP入门 -- 第十节简单的聊天机器人山海青风 #自然语言处理自然语言处理 chatgpt
一、为什么要做聊天机器人？在互联网时代，我们日常接触到的“在线客服”“自动问答”等，大多是以聊天机器人的形式出现。它能帮我们快速回复常见问题，让用户获得及时的帮助，并在一定程度上减少人工客服的压力。同时，聊天机器人也是了解自然语言处理（NLP）最好的实战项目之一。因为它整合了文字理解（NLU）、对话管理、文本生成（NLG）等多方面知识，既能看到很直观的对话效果，也能结合深度学习模型让机器人变得更智
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
【大模型】大模型分类 IT古董人工智能人工智能大模型
大模型（LargeModels）通常指参数量巨大、计算能力强大的机器学习模型，尤其在自然语言处理（NLP）、计算机视觉（CV）等领域表现突出。以下是大模型的常见分类方式：1.按应用领域分类自然语言处理（NLP）模型如GPT-3、BERT、T5等，主要用于文本生成、翻译、问答等任务。计算机视觉（CV）模型如ResNet、EfficientNet、VisionTransformer(ViT)等，用于图
全过程带你从入门到精通《动手学PyTorch深度学习建模与应用》第二章：2.1-2.3节详解，篇幅超了，缺的后面再补吧环工人学Python 深度学习 pytorch 人工智能 python 机器学习
写在前面：点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写代码。在深度学习的世界里，理解基础概念是构建复杂模型的关键。第二章“深度学习基础与PyTorch实现”将帮助我们深入理解深度学习的核心概念，并通过PyTorch实现这些概念。这一章的内容非常重要，因为它不仅涵盖了神经网络的基本原理，还介绍了激活函数、损失函数和优
基于 Pytorch 的全卷积网络人脸表情识别：从数据到部署的实战之旅那年一路北 Pytorch理论+实践 pytorch 网络人工智能
前言：本文将详细介绍基于Pytorch框架，利用全卷积网络进行人脸表情识别的完整过程，涵盖从数据集的准备、模型的设计与训练，再到模型的部署与预测，通过代码实现以及详细讲解，帮助读者深入理解并掌握这一技术。一、引言人脸表情是人类情感交流的重要方式，不同的表情能够传达出丰富的情感信息。人脸表情识别在智能交互、安防监控、心理健康分析等众多领域有着广泛的应用前景。随着深度学习技术的发展，基于卷积神经网络的
yolo位姿估计实验 jarreyer YOLO
目录介绍实验过程2.1数据集下载2.2模型和数据配置文件修改2.3模型训练参考链接1.介绍1.1简介YOLOv8-Pose是基于YOLOv4算法的姿势估计模型，旨在实现实时高效的人体姿势估计。姿势估计在计算机视觉领域具有重要意义，可广泛应用于视频监控、运动分析、健康管理等领域。1.2背景传统的姿势估计方法常需复杂网络架构和大量计算资源，导致实时性不佳。YOLOv8-Pose通过对YOLOv4算法进
基于yolov8的糖尿病视网膜病变严重程度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的糖尿病视网膜病变严重程度检测系统基于YOLOv8的糖尿病视网膜病变严重程度检测系统是一款利用深度学习技术，专为糖尿病视网膜病变早期诊断设计的智能辅助工具。该系统采用YOLOv8目标检测模型，结合经过标注和处理的医学影像数据集，能够高效且准确地检测并分类糖尿病视网膜病变的不同严重程度。YOLOv8模型以其高速和高精度的特点，在处理眼底图像时展现了强大的能力。通过优化模型
YOLOv5 + SE注意力机制：提升目标检测性能的实践那年一路北 Yolo YOLO 目标跟踪人工智能
一、引言目标检测是计算机视觉领域的一个重要任务，广泛应用于自动驾驶、安防监控、工业检测等领域。YOLOv5作为YOLO系列的最新版本，以其高效性和准确性在实际应用中表现出色。然而，随着应用场景的复杂化，传统的卷积神经网络在处理复杂背景和多尺度目标时可能会遇到性能瓶颈。为此，引入注意力机制成为了一种有效的改进方法。本文将详细介绍如何在YOLOv5中引入SE（Squeeze-and-Excitatio
【深度学习】矩阵的核心问题&解析大数据追光猿数学基础-矩阵深度学习矩阵人工智能
一、基础问题1.如何实现两个矩阵的乘法？问题描述：给定两个矩阵AAA和BBB，编写代码实现矩阵乘法。解法：使用三重循环实现标准矩阵乘法。或者使用NumPy的dot方法进行高效计算。defmatrix_multiply(A,B):m,n=len(A),len(A[0])n,p=len(B),len(B[0])C=[[0for_inrange(p)]for_inrange(m)]foriinrange
pip安装非标准版本号库报错 pip 24.1 will enforce this behaviour change. m0_74397054 pip python 机器学习神经网络
在做神经网络作业安装tensorflow报错pyodbc4.0.0-unsupportedhasanon-standardversionnumber.pip24.1willenforcethisbehaviourchange.Apossiblereplacementistoupgradetoanewerversionofpyodbcorcontacttheauthortosuggestthatth
《OpenCV》——人脸检测 Kai HVZ opencv 人工智能计算机视觉
人脸检测级联分离器具体实现实例（人脸检测）本实例对合照图片进行人脸检测，并圈出人脸位置，使用的OpenCV自带的级联分类器可从OpenCV源文件的data目录下，加载不同的级联分类器的XML文件对不同对象的检测。代码实现python#导入OpenCV库，用于计算机视觉任务，如读取图像、图像处理和显示图像等importcv2#使用cv2.imread函数读取指定路径下的图像文件'hezhao.jpg
【模块】Non-local Neural dearr__ 扒网络模块深度学习 pytorch python
论文《Non-localNeuralNetworks》作用非局部神经网络通过非局部操作捕获长距离依赖，这对于深度神经网络来说至关重要。这些操作允许模型在空间、时间或时空中的任何位置间直接计算相互作用，从而捕获长距离的交互和依赖关系。这种方法对于视频分类、对象检测/分割以及姿态估计等任务表现出了显著的改进。机制非局部操作通过在输入特征图的所有位置上计算响应的加权和来实现，其中权重由位置之间的关系（如
基于yolov10的水果成熟度之石榴成熟度检测 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测目标跟踪计算机视觉人工智能水果成熟度检测视觉检测
石榴成熟度检测**Pomegranate*是一个基于深度学习的系统，旨在自动化检测和分类石榴果实的生长阶段（未成熟、成熟、成熟期）。该系统采用最新的YOLOv10目标检测模型，能够高效地分析图像或视频中的石榴果实，并根据其外观特征识别其生长阶段。通过这种技术，农民可以更好地监控石榴果实的发育过程，优化作物管理，合理安排收获时间，从而提高生产效率和经济收益。系统概述石榴作为一种重要的水果作物，广泛种
[Github推荐]CVPR2019录用论文下载及可视化论文网站 spearhead_cai 计算机视觉深度学习科研论文 CVPR Github 计算机视觉深度学习
简介CVPR是IEEEConferenceonComputerVisionandPatternRecognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。它是IEEE一年一度的学术性会议，会议的主要内容是计算机视觉与模式识别技术。CVPR是世界顶级的计算机视觉会议（三大顶会之一，另外两个是ICCV和ECCV），本会议每年都会有固
yolov5-训练好的模型部署的几种方式-ONNX 黄晓魚 halcon3d PCL点云处理深度神经网络 YOLO C#python
ONNX，即OpenNeuralNetworkExchange，是微软和Facebook发布的一个深度学习开发工具生态系统，旨在让AI开发人员能够随着项目发展而选择正确的工具。ONNX所针对的是深度学习开发生态中最关键的问题之一，在任意一个框架上训练的神经网络模型，无法直接在另一个框架上用。开发者需要耗费大量时间精力把模型从一个开发平台移植到另一个。因此，如何实现不同框架之间的互操作性，简化从研究
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他