摇曳的树

【笔记】文献阅读[Deep-SORT]-SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC

Deep-SORT: SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC

引言
1 介绍
2 使用深度关联度量的SORT
- 2.1 轨迹处理和状态估计
- 2.2 指派问题
- 2.3 匹配级联
- 2.4 深层外观描述
3 实验
4 结论
5 个人理解与笔记

引言

文献阅读笔记，有翻译错误欢迎指出，一起讨论！

简单的在线和实时跟踪方法(SORT)是一种实用的多目标跟踪方法，侧重于简单、有效的算法。在本文中，我们结合外观信息来提高SORT的性能。由于这一改进，我们能够在更长的遮挡时间段内跟踪对象，有效地减少了ID切换的次数。基于原始框架的启发，我们侧重将更多的计算复杂性放在离线预训练阶段，在大规模行人重新识别数据集上学习深度关联度量。而在线应用中，我们使用视觉外观空间中的最近邻查询来建立测量到跟踪的关联。实验评估表明，我们的改进减少了45%的ID切换次数，在高帧速率下获得了具有竞争力的整体性能。

1 介绍

由于目标检测的最新进展，基于检测的跟踪已经成为多目标跟踪的主导范式。在这个范例中，对象轨迹通常在一次处理整个视频批次的全局优化问题中被建立。例如，流网络公式[1，2，3]和概率图模型[4，5，6，7]已经成为这种类型的流行框架。然而，由于批处理，这些方法不适用于目标身份必须在每个时间段都存在的在线场景中。更传统的方法是多假设跟踪(MHT)[8]和联合概率数据关联过滤器(JPDAF)[9]。这些方法在逐帧的基础上执行数据关联。在JPDAF中，单一状态假设是通过根据其关联可能性对独立测量进行加权来产生的。在MHT中，所有可能的假设都会被跟踪，但为了便于计算应用了剪枝方案。这两种方法最近被基于检测跟踪方法中重新考虑[10，11]，并表现出令人振奋的结果。然而，这些方法的性能是以增加计算和实现复杂性为代价的。

SORT是一种十分简单的框架，使用匈牙利方法以测量边界框重叠的关联度量在图像空间中执行卡尔曼滤波和逐帧数据关联。这种简单的方法在高帧速率下实现了良好的性能。在MOT挑战数据集[13]上，使用最先进的行人检测器[14]的SORT在标准检测上的平均排名高于MHT。这不仅强调了目标检测器性能对整体跟踪结果的影响，也是从业者的重要见解。
虽然在跟踪精确度和准确度方面取得了总体良好的性能，但SORTt返回的ID切换次数相对较多。这是因为采用的关联度量只有在状态估计不确定性较低时才是准确的。由于通常应用在在前视图摄影机场景中，因此，SORT在跟踪遮挡方面存在不足。我们通过将关联度量替换为结合了运动和外观信息的更好度量来解决这个问题。特别是，我们应用了卷积神经网络(CNN)，它在大规模的行人重新识别数据集上训练来区分行人。通过集成该网络，我们提高了对漏检和遮挡的鲁棒性，同时使系统易于执行且高效和适用于在线场景。我们的代码和预先训练的CNN模型是公开提供的，以促进研究、实验和实际应用开发。

2 使用深度关联度量的SORT

我们采用传统的单假设跟踪方法，采用递归卡尔曼滤波和逐帧数据关联。在下一节中，我们将更详细地描述该系统的核心部分。

2.1 轨迹处理和状态估计

轨迹处理和卡尔曼滤波框架与[12]中的原始公式基本相同。我们假设一个非常普遍的跟踪场景，其中相机未校准，并且我们没有可用的运动信息。虽然这些情况对过滤框架构成了挑战，但它是近来多目标跟踪基准中考虑的最常见设置[15]。因此，我们的跟踪场景定义在八维状态空间 $(u ， v ， γ ， h \dot{，} x \dot{，} y \dot{，} γ \dot{，} h)$ 上，该空间包含边界框中心位置 $(u ， v)$ 、纵横比 $γ$ 、高度 $h$ 以及它们在图像坐标中的各自速度。我们使用恒速运动的标准卡尔曼滤波和线性观测模型，其中我们将边框坐标 $(u ， v ， γ ， h)$ 作为对物体状态的直接观测。
对于每个轨迹 $k$ ，我们从最近一次成功与检测结果关联开始统计（轨迹失配，即后续帧轨迹没有与预测关联成功）帧数量为 $a_k$ 。计数值在卡尔曼滤波预测期间递增，并在轨迹（再一次）成功与预测关联时重置为0。超过预定义的最大帧龄 $A_{max}$ 的轨迹被视为已离开场景（即轨迹 $A_{max}$ 次没有与预测结果成功关联），并从轨迹集中删除。对于无法与现有轨迹关联的每个检测（未成功分配的检测结果），启动新的轨迹假设。并在前三帧中，这些新轨迹被归类为暂定的（无论是否与预测成功关联都不删除）。其间，我们期望每帧（轨迹）能成功和检测结果关联（即新轨迹连续3帧与预测成功关联）。在其前三帧内未成功关联到检测结果的轨迹将被删除。

2.2 指派问题

传统方法在解决卡尔曼预测状态和新产生的预测之间关联是建立一个可以使用匈牙利算法解决的分配问题。针对这个问题，我们通过组合两种指标来整合运动和外观信息。
为了融合运动信息，我们在卡尔曼预测状态和新产生检测之间使用(取平方的)马氏距离： $d^{(1)}(i,j)=(d_j-y_i)^TS_i^{-1}(d_j-y_i)$ ，其中我们用 $y_i，S_i)$ 表示第 $i$ 个轨迹分布到测量空间的投影，用 $D_j$ 表示第 $j$ 个检测框。马氏距离通过引入状态估计的不确定性来计算检测框与轨迹位置距离的标准偏差。此外，使用该指标通过对马氏距离设置由 $χ^2$ 分布计算得到的置信度阈值95%来排除不太可能的关联，。该指标表示如下： $b_{i,j}^{(1)}=1[d^{(1)}_{(i,j)}\leq t^{(1)}]$
如果第 $i$ 个轨道和第 $j$ 个检测之间的关联是可接受的，则该值评估为1。对于我们的四维测量空间，相应的马氏阈值是 $t^{(1)}=9.4877$ 。
虽然当运动不确定性较低时，马氏距离是一个合适的关联度量，但在我们的图像空间问题描述中，从卡尔曼滤波框架获得的预测状态分布仅提供了对象位置的粗略估计。特别是，未知相机运动可能会在图像平面中引入高速位移，使得马氏距离不适用于被遮挡的跟踪。因此，我们将第二个度量集成到分配问题中。对于每个边界框检测 $d_j$ ，我们计算具有 $r_j‖=1$ 的外观描述符 $r_j$ 。此外，我们为每个轨迹k保留一个相关外观描述符 $Rk=(r_k^{(1)})_{k=1}^{L_k}$ ，其中 $L_k=100$ 。然后，我们的第二个指标计算在外观空间中第i个轨迹和第j个检测之间的最小余弦距离： $d^{(2)}_{(i,j)}=min(1-r_j^Tr_k^{(i)}|r_k^{(i)}\in R_i)$
同样，我们引入一个二进制变量，并根据该指标来指示是否允许关联: $b_{i,j}^{(2)}=1[d^{(2)}_{(i,j)}\leq t^{(2)}]$ 。
并且我们在单独的训练数据集上为该指标找到了合适的阈值。在实践中，我们应用预先训练好的CNN来计算边界框外观描述符。第2.4节介绍了该网络的体系结构。
结合起来，这两个指标通过应用于分配问题的不同方面而相互补充。一方面，马氏距离提供了基于运动的物体可能的位置信息，这对短期预测特别有用。另一方面，余弦距离考虑了外观信息，当运动不那么区分时，这些外观信息对于在长期遮挡后恢复身份特别有用。为了构建关联问题，我们使用加权总和将两个指标组合在一起： $c_{i,j}=\lambda d^{(1)}(i,j)+(1-\lambda)d^{(2)}(i,j)$ ，其中，如果在这两个指标的门控区域内，则我们称关联为可接受的： $b_{i,j}=\prod_{m=1}^2b_{i,j}^{(m)}$
通过超参数 $λ$ 可以控制每个度量对组合关联代价的影响。在我们的实验中，我们发现当相机有大量运动时，设置 $λ = 0$ 是一个合理的选择。在此设置中，关联成本项中仅使用外观信息。然而，马氏门仍然被用来剔除那些基于卡尔曼滤波推断的目标可能位置的不可行分配。

2.3 匹配级联

不是解决全局分配中的检测觉果与轨迹的关联问题，而是引入了一个级联来解决上述的问题，。为了执行该方法，考虑以下情况：当对象被遮挡较长时间时，后续的卡尔曼滤波预测增加了对象位置关联的不确定性。因此，概率质量在状态空间中向外扩散，观测似然变弱。直观地说，关联度量应该通过增加预测到轨迹的距离来解释这种概率质量的扩散。与直观相反的是，当两个轨迹竞争相同的检测时，马氏距离对不确定性更大的（轨迹）反而更有利，因为它有效地减少了检测与投影轨迹平均标准偏差的距离，这是我们不喜欢的结果，因为它会导致轨迹不连续并增加轨迹的不稳定。因此，我们引入了一个匹配级联，给予频繁地看到的对象优先级，将概率传播概念编码到关联可能性中。
清单1概述了我们的匹配算法。作为输入，我们提供轨迹集合 $T$ 和检测结果集合 $D$ 以及最大帧龄指标 $A_{max}$ 。在第1行和第2行中，我们计算关联代价矩阵和关联门控矩阵。然后，我们在轨道帧龄n上迭代，以解决帧龄不断增加轨道的线性分配问题。在第6行中，我们选择在最近得n个帧中尚未与检测相关联的轨道子集 $T_n$ 。在第7行中，我们解决了 $T_n$ 和未匹配得检测结果 $U$ 中之间的线性分配。在第8行和第9行，我们更新匹配集合和未匹配检测的集合，在第11行完成后返回它们。请注意，这个匹配级联优先考虑帧龄较小的轨迹，即最近看到的轨迹。
在最终匹配阶段，我们按照原始SORT算法[12]中，对年龄为n=1的未确认和不匹配的轨迹集运行交集和联合关联。这有助于解决如由于静态场景几何形状的部分遮挡而导致的外观突变，并增加对错误初始化的鲁棒性。

2.4 深层外观描述

通过使用简单的最近邻查询而不增加额外的指标学习，我们的方法的成功应用需要在实际的在线跟踪应用之前，离线训练一个良好区分的特征嵌入。为此，我们使用了一个CNN，它已经在一个大规模的人重新识别数据集[21]上进行了训练，该数据集包含1,261个行人的1,100,000多张图像，使其非常适合于在行人跟踪环境中进行深度度量学习。
我们的网络的CNN架构如表1所示。总而言之，我们采用了具有两个卷积层和六个残差块的残差网络[22]。维度128的全局特征图是在dense层10中计算的。最后一批和 $l_2$ 归一化将特征投影到单位超球面上以与我们的余弦外观度量兼容。在NVIDIA GeForce GTX 1050移动GPU上，网络总共有2,800,864个参数，32个边界框的一次前向传递大约需要30毫秒。因此，该网络非常适合在线跟踪，只要有现代的GPU可用。虽然我们训练过程的细节超出了本文的范围，但我们在GitHub中提供了一个预先训练的模型储存库和一个可用于生成特征的脚本。

3 实验

我们在MOT16基准上评估我们的跟踪器的性能[15]。这一基准评估了七个具有挑战性的测试序列的跟踪性能，包括带有移动摄像头的正面场景以及自上而下的监控设置。作为我们的追踪器的输入，我们依赖于Yu等人提供的检测[16]。他们已经在一系列公共和私人数据集上训练了速度更快的RCNN，以提供出色的性能。为了进行公平的比较，我们对相同的检测重新运行了SORT。
使用 $λ = 0$ 和 $A_max=30$ 帧对测试序列进行评估。与[16]中一样，检测的阈值置信度为0.3。本文方法的其余参数已经在由基准提供的单独的训练序列上找到。评估依据以下指标进行：
多目标跟踪精度(MOTA)：与假阳性、假阴性和ID切换有关的总体跟踪精度[23]。
多目标跟踪精度(MOTP)：根据真实框与检测框之间的重叠计算的总体跟踪精度[23]。
MT：在其生命周期中至少80%成功匹配轨迹的百分比。
ML：在其生命周期内最多20%的成功匹配轨迹的百分比。
IDs：身份ID切换次数。
FM：轨迹失配次数。
我们的评估结果如表2所示。我们的调整成功地减少了ID切换的数量。与SORT相比，ID切换从1423个减少到781个，这是大约45%的降幅。同时，由于在遮挡和失配中保持了对象ID，轨迹的不连续性略有增加。我们还看到，主要被跟踪的物体数量显着增加，而主要丢失的物体减少。总体而言，由于外观信息的整合，我们成功地在更长的遮挡中保持了ID。从我们在补充材料中提供的跟踪的定性分析也可以看出这一点。图1显示了我们的跟踪器的示例性输出。
本文方法在其他在线跟踪框架具有强竞争性。特别是，我们的方法在所有在线方法中返回最少数量的ID切换，同时在MOTA分数、轨迹不连续性和漏检保持竞争性的。跟踪精度大多因大量的误报而受到影响。考虑到它们对MOTA得分的总体影响，对检测应用更大的置信度阈值可能会极大地提高我们算法的报告性能。然而，对跟踪输出的可视化结果表明，这些假阳性大多是由静态场景几何形状的零星探测器响应产生的。由于我们允许的最大轨迹帧龄相对较大，这些轨迹更能匹配到。同时，我们预测的轨迹不存在误报的情况。而是，跟踪器通常在报告有对象位置生成相对稳定的静止轨迹。
我们的实现以大约20赫兹的频率运行，大约一半的时间花在特征生成上。因此，在使用GPS的情况下，该系统仍能保持计算效率并实时运行。

4 结论

我们提出了一种对SORT的扩展，它通过预先训练的关联度量结合了外观信息。由于这一扩展，我们能够在更长的遮挡时间段内进行跟踪，使SORT成为最先进的在线跟踪算法。然而，该算法实现起来仍然很简单，并且可以实时运行。

5 个人理解与笔记

（注：以下内容摘自笔者的硕士学位论文，目前尚在保密中）

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23