YOLOX论文笔记第7页

YOLOV8目标识别——详细记录从环境配置、自定义数据、模型训练到模型推理部署

创新性：Yolov8借鉴了Yolov5、Yolov6、YoloX等模型的设计优点，全面提升改进了

知来者逆·2023-11-17 14:18

在 COCO数据集上训练 YOLOX （代码详解）

在COCO数据集上训练YOLOX（代码详解）目录在COCO数据集上训练YOLOX（代码详解）库导入、cuda版本（一）安装yolox（二）数据集COTS的准备2.1数据集及注释2.2创建COCO文件注释

便签棒糖·2023-11-16 18:16

利用PYQT5结合YOLOX搭建检测系统

今天给大家分享用pyqt5桌面小组件搭建一个检测系统，暂定为公共场合猫狗检测系统，检测算法为YOLOX。

一方热衷.·2023-11-16 18:37

机器学习笔记（伪标签）/论文笔记 Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neu

Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks20131伪标签未标记的数据由监督学习网络标记。（将具有最大预测概率的类作为伪标签）然后使用标记数据和伪标记数据训练网络。2伪标签的损失函数损失函数分为真实标签部分和伪标签部分伪标签部分的权重使用a(t)来进行调节，如果a(t)特别

UQI-LIUWJ·2023-11-16 12:24

【知识增强】A Survey of Knowledge-Enhanced Pre-trained LM 论文笔记

ASurveyofKnowledge-EnhancedPre-trainedLanguageModelsLinmeiHu,ZeyiLiu,ZiwangZhao,LeiHou,LiqiangNie,SeniorMember,IEEEandJuanziLi2023年8月的一篇关于知识增强预训练模型的文献综述论文思维导图思维导图网页上看不清的话，可以存储到本地再看大纲笔记摘要:预训练语言模型(PLMs)

辰阳星宇·2023-11-16 06:37

NovelD: A Simple yet Effective Exploration Criterion论文笔记

NovelD:一种简单而有效的探索准则1、Motivation针对稀疏奖励环境下的智能体探索问题，许多工作中采用各种内在奖励(IntrinsicReward)设计来指导困难探索环境中的探索，例如：ICM：基于前向动力学模型的好奇心驱动探索RND：基于随机网络蒸馏驱动的探索Count-Based：基于伪计数驱动的探索但是本文作者从实验中观察到，如果有多个感兴趣的区域，这些方法有时会很快使智能体被困在

Gabriel17·2023-11-16 06:31

论文笔记——BiFormer

Title:BiFormer:VisionTransformerwithBi-LevelRoutingAttentionPaper:https://arxiv.org/pdf/2303.08810.pdfCode:https://github.com/rayleizhu/BiFormer一、前言众所周知，Transformer相比于CNNs的一大核心优势便是借助自注意力机制的优势捕捉长距离上下文依

Sciws·2023-11-16 06:56

[论文笔记]DDRNet

AbstractDDRNet由两个深度分支组成，在这两个分支之间执行多次双边融合上下文提取器DeepAggregationPyramidPoolingModule(DAPPM)扩大有效感受域，并基于低分辨率特征映射融合多尺度上下文精度高且轻量IntroductionBisenet提出了一种由空间路径和上下文路径组成的新型双边网络，空间路径利用三个相对较宽的3×3卷积层来捕获空间细节，上下文路径是一

Meliodas`·2023-11-16 03:18

论文笔记——Camouflaged Object Detection

文章目录1简介2网络结构2.1SearchModule(SM)2.2IdentificationModule(IM)2020年CVPR的一篇文章，文章名为“伪装物体检测”。代码地址1简介伪装物体：“无缝”嵌入周围环境的物体。分为两类自然伪装物体：一般是动物，如昆虫，头足类动物；人工伪装物体：缺陷，游戏艺术隐藏信息。伪装物体检测与其他任务的区别和联系：我们可以从上面这幅图看出，通用物体指的是图像中所

随机ID·2023-11-15 14:39

多模态情感分析研究综述论文笔记

这里写目录标题论文标题引言论文学术结构1、总体介绍2、介绍叙述式多模态情感分析3、介绍交互式多模态情感分析4、多模态情感分析存在的交互建模科学问题5、结束语阅读论文初体验思维导图论文标题《多模态情感分析研究综述》引言多模态情感分析现已成为自然语言处理领域的核心研究课题之一，分为两类子课题：1、叙述式多模态情感分析2、交互式多模态情感分析论文学术结构1、总体介绍从情感分析这个大方面出发，结合现代社会

Daniel_Muei·2023-11-15 04:27

MobileSAM论文笔记

摘要自Meta研究团队发布SAM（SegmentAnythingModel）项目依赖，因其令人惊艳的零样本迁移特性和与其他视觉应用兼容的高通用性，引起了极大的关注。由于大多数类似的应用都需要运行在资源限制的边缘设备，如手机，因此，本文的目标是通过使用轻量化的encoder替换原始计算量大的encoder使其称为移动友好型模型。一个简单的思路是按照SAM原文训练一个新的轻量化的SAM，但是效果不理想

hello_dear_you·2023-11-13 14:14

论文笔记--Baichuan 2: Open Large-scale Language Models

论文笔记--Baichuan2:OpenLarge-scaleLanguageModels1.文章简介2.文章概括3文章重点技术3.1预训练3.1.1预训练数据3.1.2模型架构3.2对齐3.2.1SFT3.2.2RewardModel

Isawany·2023-11-13 11:15

BEVFormer论文笔记（详细版）

论文论文链接：《BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers》代码链接：https://github.com/zhiqi-li/BEVFormer阅读顺序：我之前在哔哩哔哩上跟着李沐一起读论文，按照他的方法：先看题目（比如这篇文章，它的重点就是Sp

西米611·2023-11-12 13:36

NL2SQL领域：RAT-SQL论文笔记

RAT-SQL:Relation-AwareSchemaEncodingandLinkingforText-to-SQLParsers以关系感知的方法对数据库模式编码和链接的text-to-SQL模型1.问题聚焦：SchemaEncoding：对表结构（表名、列名、列类型、主键、外键等等）进行编码SchemaLinking：把Question中表述的内容与具体的表名和列名对齐2.主要创新点：包含“

mochine·2023-11-12 10:49

论文笔记：SimiDTR: Deep Trajectory Recovery with Enhanced Trajectory Similarity

DASFFA20231intro1.1背景由于设备和环境的限制（设备故障，信号缺失），许多轨迹以低采样率记录，或者存在缺失的位置，称为不完整轨迹恢复不完整轨迹的缺失空间-时间点并降低它们的不确定性是非常重要的一般来说，关于轨迹恢复的先前研究可以分为两个方向第一个方向：模拟用户在不同位置之间的转换模式，以预测用户的缺失位置本质上是一个分类任务，恢复的轨迹通常由位置或POI组成第二个方向：基于记录的不

UQI-LIUWJ·2023-11-12 01:46

论文笔记：AttnMove: History Enhanced Trajectory Recovery via AttentionalNetwork

AAAI20211intro1.1背景将用户稀疏的轨迹数据恢复至细粒度的轨迹数据是十分重要的恢复稀疏轨迹数据至细粒度轨迹数据是非常困难的已观察到的用户位置数据十分稀疏，使得未观察到的用户位置存在较多的不确定性真实数据中存在大量噪声，如何有效的挖掘周期性规律存在一定困难经常在历史轨迹中被访问的地点并不一定会是目标时间窗缺失的地点，如何利用用户历史上的位置数据是另一个挑战1.2论文思路提出了一个基于注

UQI-LIUWJ·2023-11-12 01:14

【论文笔记】Denoising Diffusion Probabilistic Models

PreKnowledge1.条件概率的一般形式P(A,B)=P(B∣A)P(A)P(A,B)=P(B|A)P(A)P(A,B)=P(B∣A)P(A)P(A,B,C)=P(C∣B,A)P(B,A)=P(C∣B,A)P(B∣A)P(A)P(A,B,C)=P(C|B,A)P(B,A)=P(C|B,A)P(B|A)P(A)P(A,B,C)=P(C∣B,A)P(B,A)=P(C∣B,A)P(B∣A)P(A)

xhyu61·2023-11-11 17:02

CRNN论文笔记

CRNN最近在看天池大赛的学习赛零基础入门CV-街景字符编码识别，其中官方给出的demo中baseline就有CRNN版本，因此在这里看一看CRNN的论文。前期知识储备：概率论：了解基本的概率论知识，掌握条件概率的概念和公式CNN：了解卷积神经网络CNN的结构，掌握CNN的基本工作原理LSTM：了解长短时记忆网络LSTM的结构，掌握LSTM的基本工作原理CTC：了解CTC算法的思想，掌握基于DP实

在学习的王哈哈·2023-11-11 12:15

Exploration by random network distillation论文笔记

ExplorationbyRandomNetworkDistillation(2018)随机网络蒸馏探索0、问题这篇文章提出的随机网络蒸馏方法与Curiosity-drivenExplorationbySelf-supervisedPrediction中提出的好奇心机制的区别？猜想：本文是基于随机网络蒸馏提出的intrinsicreward设计方式，好奇心是基于前向动力学模型的误差设计的intri

Gabriel17·2023-11-11 02:30

Count-based exploration with neural density models论文笔记

Count-basedexplorationwithneuraldensitymodels[J].InternationalConferenceonMachineLearning,InternationalConferenceonMachineLearning,2017.基于计数的神经密度模型探索0、问题这篇文章的关键在于弄懂pseudo-count的概念，以及是如何运用pseudo-count去

Gabriel17·2023-11-11 02:57

YOLOX: Exceeding YOLO Series in 2021（2021.8）

文章目录AbstractIntroduction介绍前人的工作提出问题解决YOLOXYOLOX-DarkNet53ImplementationdetailsYOLOv3baselineDecoupledheadStrongdataaugmentationAnchor-freeMultipositivesSimOTAEnd-to-endYOLOOtherBackbonesModiﬁedCSPNeti

怎么全是重名·2023-11-11 02:02

论文笔记：DALL-E2：Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)

本文鉴于作为参考感谢作者论文笔记：DALL-E2：HierarchicalText-ConditionalImageGenerationwithCLIPLatents详解_hierarchicaltext-conditionalimagegenerationwit_nocol

VimpireSC·2023-11-10 22:06

Learning an Animatable Detailed 3D Face Model from In-The-Wild Images论文笔记

LearninganAnimatableDetailed3DFaceModelfromIn-The-WildImages论文笔记论文目标:提出一个端到端的框架,可以从非受控的图片中学习高质量、可动画的3D

binlin1209·2023-11-10 10:28

论文笔记系列-Neural Network Search ：A Survey

论文笔记系列-NeuralNetworkSearch：ASurvey论文笔记NASautomlsurveyreviewreinforcementlearningBayesianOptimizationevolutionaryalgorithm

aiwanghuan5017·2023-11-10 01:17

论文笔记：CVPR2021 Bottom-Up Shift and Reasoning for Referring Image Segmentation

任务名字：ReferringImageSegmentation(RIS)keywords：one-stageRIS、graph、relationreasoning背景：方法比较vision-and-languageapproachesbasedontheirdesigningprinciples,（1）multimodalfusionandrepresentationlearning（2）lang

_击空明兮溯流光_·2023-11-09 23:44

论文笔记：CROSSFORMER: TRANSFORMER UTILIZING CROSSDIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FOREC

ICLR20231intro1.1motivation之前用Transformer预测时间序列的工作，大多集中在建模时间维度的关系上。利用时间维度的自注意力机制，建立不同时间步之间的关系而在多元时间序列预测中，各个变量之间的关系也很重要。之前的模型，主要是将每个时间步的多元变量压缩成一个embedding，再进行时间维度的attention。这种方法的问题是缺少对不同变量之间关系的建模，直接每个时

UQI-LIUWJ·2023-11-09 14:26

Markov Chain Fingerprinting to Classify Encrypted Traffic 论文笔记

0.Abstract在本文中，提出了用于SSL/TLS会话中传输的应用程序流量的随机指纹。这个指纹基于一阶齐次马尔可夫链，模型识别应用程序的准确率，并提供了检测异常对话的可能性。1.Introduction通过SSL/TLS会话时的头部信息创建统计指纹，用于分类应用流量。研究了12个使用SSL/TLS的代表性应用程序的马尔可夫链指纹，建立的模型展现出特定的结构，这种结构能够通过比较应用程序流量和和

想出成果的acmer·2023-11-09 05:55

论文笔记：SSD: Single Shot MultiBox Detector

一、基本信息标题：SSD:SingleShotMultiBoxDetector时间：2016引用格式：Liu,Wei,etal.“Ssd:Singleshotmultiboxdetector.”Europeanconferenceoncomputervision.Springer,Cham,2016.二、研究背景相比FasterRCNN有明显的速度优势，相比YOLO又有明显的mAP优势（不过已经被

snoopy_21·2023-11-09 02:45

论文笔记：AAAI 2019 Hypergraph Neural Networks

1.前言论文链接：http://gaoyue.org/paper/HGNN.pdfgithub：https://github.com/iMoonLab/HGNN在本文中提出了一个用于数据表示学习的超图神经网络(HGNN)框架，它可以在超图结构中编码高阶数据相关性。面对在实践中学习复杂数据表示的挑战，特别是在处理复杂数据时，超图在数据建模方面更加灵活。该方法设计了超边卷积运算来处理表示学习过程中的数

饮冰l·2023-11-08 19:46

【论文笔记】Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting

原文链接：https://arxiv.org/abs/2302.131301.引言运动规划需要预测其余物体的运动，但相应的感知模块如建图、目标检测、跟踪和轨迹预测通常都需要大量人力标注HD地图、语义标签、边界框或物体的轨迹，难以扩展到大型无标签数据集上。3D点云预测是一种自监督方法，但其算法隐式地捕捉传感器的外参（自车运动）、内参（激光雷达的采样模式）和其余物体的形状与运动。但自动驾驶系统需要预测

byzy·2023-11-08 18:50

【论文笔记】RTNH+: Enhanced 4D Radar Object Detection Network using Combined CFAR-based Two-level Preproce

【论文笔记】RTNH+:Enhanced4DRadarObjectDetectionNetworkusingCombinedCFAR-basedTwo-levelPreprocessingandVerticalEncoding

byzy·2023-11-08 18:49

【论文笔记】OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception

原文链接：https://arxiv.org/abs/2303.039911.引言目前缺少自动驾驶场景中的大型环视占用感知数据集。本文提出OpenOccupancy基准，并通过添加密集语义占用标注将nuScenes扩展为nuScenes-Occupancy。使用增强和净化（AAP）流程，以标注并密集化占用标签。首先通过多帧激光雷达点叠加来初始化标签，并使用预训练基准方案建立的伪占用标签增强稀疏标注

byzy·2023-11-08 18:19

【论文笔记】UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

原文链接：https://arxiv.org/pdf/2310.08370.pdf1.引言过去的3D场景理解预训练方法多采用2D图像领域中的想法，可大致分为基于对比的方法和基于MAE的方法。基于对比的方法通过对比损失，在特征空间中将相似的3D点拉进而将不相似的点分开；但正负样本选择的敏感性和增加的延迟使其应用受限。掩膜自编码（MAE）则因为点云数据的稀疏性和不规则性而遇到挑战。本文提出一种新的3D

byzy·2023-11-08 18:32

论文笔记——基于新型多传感器融合策略的移动端双目视觉惯性SLAM闭环算法研究

创新点：新型的多传感器融合策略及移动端优化闭环检测两个部分。1、新型的多传感器融合策略：不同的传感器观测都以优化窗口中的通用帧来表示。每一个通用帧都对应一个定位状态量，而不是多个观测共同约束一个状态量。该系统中，双目相机帧之间构成视觉约束，通用帧之间利用高频IMU预积分进行约束。该设计模式避免了多个传感器之间时间戳对齐及数据近似等问题。2、移动端优化：本文中SLAM算法前端采用了角点检测和光流的方

kkmd66·2023-11-08 14:17

【表面缺陷检测】基于YOLOX的PCB表面缺陷检测（全网最详细的YOLOX保姆级教程，附代码和数据集）

写在前面：首先感谢兄弟们的关注和订阅，让我有创作的动力，在创作过程我会尽最大能力，保证作品的质量，如果有问题，可以私信我，让我们携手共进，共创辉煌。（专栏订阅用户订阅专栏后免费提供数据集和源码一份，超级VIP用户不在服务范围之内，不想订阅专栏的兄弟们可以私信我详聊）“路虽远，行则将至；事虽难，做则必成。只要有愚公移山的志气、滴水穿石的毅力，脚踏实地，埋头苦干，积跬步以至千里，就一定能够把宏伟目标变

机器不学习我学习·2023-11-08 11:57

论文笔记：Spatial-temporal Graphs for Cross-modal Text2Video Retrieval

用于跨模态Text2Video检索的时空图摘要介绍方法A.文本编码B.视频编码C.**联合嵌入空间学习**摘要跨模态文本到视频检索旨在通过文本查询找到相关视频，这对于各种现实世界的应用是至关重要的。解决这个问题的关键是建立视频和文本之间的对应关系，这样来自不同模式的相关样本就可以对齐。由于文本(句子)包含表示对象及其交互的名词和动词，因此检索相关视频需要对视频内容进行细致的理解——不仅是语义概念(

帅帅梁·2023-11-07 15:39

matting系列论文笔记（一）：Deep Image Matting

matting系列论文笔记（一）：DeepImageMatting刚刚入了ImageMatting的坑，后续会更新系列相关的文章。

烤粽子·2023-11-07 09:28

Instant-NGP论文笔记

文章目录论文笔记论文笔记instant-ngp的nerf模型与vanillanerf的模型架构相同。

Iron_lyk·2023-11-06 00:56

论文笔记：Mastering the game of Go with deep neural networks and tree search

MasteringthegameofGowithdeepneuralnetworksandtreesearchNature2015这是本人论文笔记系列第二篇Nature的文章了，第一篇是DQN。

a1424262219·2023-11-05 20:57

META-LEARNING WITH ATTENTION FOR IMPROVED FEW-SHOT LEARNING论文笔记

好久没看到这么好的论文了,这才是论文嘛~普林斯顿大学的ZejiangHou(没找到中文名可能是侯泽江?)论文主要就是在MAML的基础上添加了三个部分,一个是和L2F类似的用额外网络通过输入中间变量或梯度信息计算一个权重来动态调整模型参数达到task-specific的效果,另一个是一种特殊线性分类器构造方法用于作分类器,最后一个是在inner_loop中按无监督手段把queryset里数据视为无标

李耕_嘿嘿嘿黑龙江哈哈哈哈尔滨·2023-11-05 07:37

[论文笔记] SegAN: Adversarial Network with Multi-scale L1 Loss for Medical Image Segmentation

文章于2017年6月提交到Arxiv，投稿于Neuroinformatics(2018)，Publishedonline:3May2018作者单位：DepartmentofComputerScienceandEngineering,LehighUniversity文章截止2019.3.25的引用量为50文章代码见github这篇文章主要的创新点在于不同于之前的公式化loss，作者设计了一个可以进行

hellopipu·2023-11-05 05:40

Scaled-YOLOv4: Scaling Cross Stage Partial Network 论文笔记

Scaled-YOLOv4:ScalingCrossStagePartialNetwork论文链接：https://arxiv.org/abs/2011.08036一、ProblemStatementCSPNet的作者用其CSPNet的方法分别从网络的深度，宽度，结构和输入图像的分辨率改善YOLOV4。二、Direction作者发现在RegNet中，CNN最优的深度为60左右，且当bottlene

Tianchao龙虾·2023-11-04 20:37

【VSLAM系列】三：Vins-Mono论文笔记

VINs-Mono论文1.VINS-Mono的特点：1.未知初始状态的鲁棒性初始化过程2.带imu-camera外参校准和imu校准的紧耦合，基于非线性优化的单目VIO系统3.在线重定位和四个自由度的全局姿态图优化。4.姿态图可以保存，加载，并和局部姿态图进行合并。2.传感器数据处理摄像头和imu数据融合方法：1.松耦合法，imu是独立于摄像头的模块，常使用EKF算法，imu数据此时用于状态传播，

塞拉摩·2023-11-04 19:06

论文笔记 | TIMESNET: TEMPORAL 2D-VARIATION MODELING FOR GENERAL TIME SERIES ANALYSIS 时序数据1D-2D

文章目录一、==*ThesisKeyMessages*==二、==*KeyPoints*==2.1、==*1D-2D*==2.2、==*TimesBlock*==三、==*ArticleReflection*==1、Motivations2、解决方案的关键3、论文工作成果四、总结与讨论CSDN欲寄：https://blog.csdn.net/qq_62631255一、ThesisKeyMessag

欲寄·2023-11-04 17:26

论文笔记：TIMESNET: TEMPORAL 2D-VARIATION MODELINGFOR GENERAL TIME SERIES ANALYSIS

ICLR20231intro时间序列一般是连续记录的，每个时刻只会记录一些标量之前的很多工作着眼于时间维度的变化，以捕捉时间依赖关系——>可以反映出、提取出时间序列的很多内在特征，比如连续性、趋势、周期性等但是现实时间序列数据中的时间序列通常是由很复杂的时间特征组成，不同的时间维度上的变化会糅杂在一起，使得建模时间维度的变化异常困难在深度学习领域，很多模型有很强的建模非线性的能力，因而可以捕获时间

UQI-LIUWJ·2023-11-04 17:54

yolo v1论文笔记

yolov1参考这篇文章https://zhuanlan.zhihu.com/p/46691043摘要weframeobjectdetectionasaregressionproblemtospatiallyseparatedboundingboxesandassociatedclassprobabilities.作者将目标检测问题变成一个回归问题，包括boundingboxes的计算和目标类别的

红鲤鱼遇绿鲤鱼·2023-11-04 13:58

YOLO学习笔记之YOLO v1 论文笔记1（超详细：翻译+理解）

前言一、Abstract（概括）二、Introduction（介绍）三、UnifiedDetection（统一检测）1、NetworkDesign（网络设计）2、Training（训练）3、Inference（推论）4、LimitationsofYOLO（YOLO的局限性）前言看过很多的YOLO中文版学习笔记，干货比较多，但是，有点干，对于很多想要入门的童鞋来说，看着很难理解，一些概念晦涩难懂，一

bufengzj·2023-11-04 13:17

开放词汇视觉定位 OV-VG: A Benchmark for Open-Vocabulary Visual Grounding 论文笔记

开放词汇视觉定位OV-VG:ABenchmarkforOpen-VocabularyVisualGrounding论文笔记一、Abstract二、Abstract三、相关工作A、视觉定位B、短语定位C、

乄洛尘·2023-11-04 04:28

2023-简单点-yolox代码

yolox代码yolox结构瞄一眼net.py代码常规convDWConv第一步第二步CBA一套FocusSPPCSPDarknetFPNPANdecoupledpredictheadloss/trainingrefyolox

简单点好不好的仓库·2023-11-03 18:39

CoCa论文笔记

摘要计算机视觉任务中，探索大规模预训练基础模型具有重要意义，因为这些模型可以可以极快地迁移到下游任务中。本文提出的CoCa（ContrastiveCaptioner），一个极简设计，结合对比损失和captioning损失预训练一个image-textencoder-decoder基础模型，该模型包含对比方法，如CLIP，和生成方法，如SimVLM，的学习能力。与基本的encoder-decoder

hello_dear_you·2023-11-03 18:28

推荐频道

YOLOX论文笔记