VQA论文阅读第17页

Attention is all you need（Transformer）论文阅读笔记

一、背景seq2seq模型（2014年）：https://blog.csdn.net/zyk9916/article/details/118002934Attention模型（2015年）：https://blog.csdn.net/zyk9916/article/details/118498156对于序列建模和转换问题，大量的研究都围绕以RNN为基础的encoder-decoder架构展开。但是

zyk9916·2023-11-16 19:17

【图文】IRRA:跨模态隐式关系推理与对齐 | CVPR2023

详细内容指路zhihuCVPR2023|IRRA论文阅读摘要Text-to-imagePersonRetrieval的目的是根据给定的文本描述查询确定目标个体。

ca1m4n·2023-11-16 14:53

论文阅读：YOLOV: Making Still Image Object Detectors Great at Video Object Detection

发表时间：2023年3月5日论文地址：https://arxiv.org/abs/2208.09686项目地址：https://github.com/YuHengsss/YOLOV视频物体检测（VID）具有挑战性，因为物体外观的高度变化以及一些帧的不同恶化。有利的信息是，与静止图像相比在视频的某一帧中检测，可以从其他帧中获得支持。因此，如何在不同的框架之间聚合特性是VID问题的关键。大多数现有的聚

万里鹏程转瞬至·2023-11-16 12:48

多视图聚类的论文阅读

当聚类的方式使用的是某一类预定义好的相似性度量时，会出现如下情况：数据聚类方面取得了成功，但它们通常依赖于预定义的相似性度量，而这些度量受原始方法的影响:当输入维数相对较高时，往往是无效的。1.DeepMultinetworkEmbeddedClustering2.Deepconvolutionalself-pacedclustering2.1存在问题与提出的解决方法论文的主要贡献：具体而言，在预

mingqian_chu·2023-11-16 04:30

论文阅读：Discovering New Intents with Deep Aligned Clustering（用深度对齐聚类来发现新意图）

论文链接：代码链接：Abstract在对话系统中发现新意图是一项关键的任务，大多数现有的方法在将先验知识从已知的意图转移到新意图上是有限制的。同样，在对分组未标记的意图方面提供高质量的监督信号去学习clustering-friendly的特征也是有困难的。在这篇论文的工作中，提出了一种有效的方法，DeepAlignedClustering（深度对齐聚类）。发现新的意图是对话系统中的一项关键任务。大

我和同桌正在看论文·2023-11-16 04:59

（论文阅读31/100）Stacked hourglass networks for human pose estimation

31.文献阅读笔记简介题目Stackedhourglassnetworksforhumanposeestimation作者AlejandroNewell,KaiyuYang,andJiaDeng,ECCV,2016.原文链接https://arxiv.org/pdf/1603.06937.pdf关键词HumanPoseEstimation研究问题CNN运用于HumanPoseEstimation，

朽月初二·2023-11-16 03:44

（论文阅读32/100）Flowing convnets for human pose estimation in videos

32.文献阅读笔记简介题目Flowingconvnetsforhumanposeestimationinvideos作者TomasPfister,JamesCharles,andAndrewZisserman,ICCV,2015.原文链接https://arxiv.org/pdf/1506.02897.pdf关键词HumanPoseEstimationinVideos研究问题视频中的人体姿态估计研

朽月初二·2023-11-16 03:44

（论文阅读30/100）Convolutional Pose Machines

30.文献阅读笔记CPMs简介题目ConvolutionalPoseMachines作者Shih-EnWei,VarunRamakrishna,TakeoKanade,andYaserSheikh,CVPR,2016.原文链接https://arxiv.org/pdf/1602.00134.pdf关键词ConvolutionalPoseMachines（CPMs）、articulatedposee

朽月初二·2023-11-16 03:14

FSOD论文阅读 - 基于卷积和注意力机制的小样本目标检测

来源:知网标题:基于卷积和注意力机制的小样本目标检测作者:郭永红，牛海涛，史超，郭铖郭永红，牛海涛，史超，郭铖．基于卷积和注意力机制的小样本目标检测[J/OL]．兵工学报.https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002摘要典型的FSOD使用FastR-CNN作为基本的检测框架本文亮点:引入混合扩张卷积确保更大的感受野并减少图像信息的

NXU、辉·2023-11-15 18:18

论文阅读：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

题目：Self-supervisedVideoRepresentationLearningwithCross-StreamPrototypicalContrasting作者：MartineToering一、研究背景传统的自监督对比学习不适用于视频：实例级的对比学习取得了很大进展，但是由于操作是用于经过增强的实例集上的，所以并不适用于探索视频的丰富动态结构。视频本身提供的数据增强，如：视角变化，光线

二苏旧局吖·2023-11-15 13:47

【76】论文阅读Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations

LearningProcedure-awareVideoRepresentationfromInstructionalVideosandTheirNarrationsCVPR2023互联网上丰富的instructionalvideos及其解说为理解程序性活动提供了令人兴奋的途径。在这项工作中，作者建议学习视频表征，基于网络instructionalvideos及其叙述的大规模数据集，在不使用人工注

WXiujie123456·2023-11-15 10:20

论文阅读【79】CVPR 2023 How you feelin’? Learning Emotions and Mental States in Movie Scenes

Howyoufeelin’?LearningEmotionsandMentalStatesinMovieScenesCVPR2023任务：电影故事分析需要理解人物的情绪和心理状态。为了实现这一目标，作者将情感理解定义为在电影场景和每个角色的层面上预测多样化和多标签的情感集。本文工作：提出了EmoTx，这是一种基于多模态Transformer的架构，它可以利用视频、多个角色和对话来进行联合预测。通过

WXiujie123456·2023-11-15 10:50

论文阅读【77】A Ranking-Based Cross-Entropy Loss for Early Classification of Time Series，SCI 一区

ARanking-BasedCross-EntropyLossforEarlyClassificationofTimeSeriesIEEETRANSACTIONSONNEURALNETWORKSANDLEARNINGSYSTEMS，SCI一区Earlyclassificationoftimeseries(ECTS)旨在在观察完整数据之前对时间序列进行分类。它在时间敏感的应用中至关重要，如重症监护病

WXiujie123456·2023-11-15 10:49

论文阅读：Robust High-Resolution Video Matting with Temporal Guidance

发表时间：2021年8月25日项目地址：https://peterl1n.github.io/RobustVideoMatting/论文地址：https://arxiv.org/pdf/2108.11515.pdf我们介绍了一种鲁棒的，实时的，高分辨率的人体视频匹配方法，以实现了新的最先进的性能。我们的方法比以前的方法要轻得多，可以在NvidiaGTX1080TiGPU上以76FPS处理4K和10

万里鹏程转瞬至·2023-11-15 00:02

PP-YOLO论文阅读笔记

PP-YOLO:Aneffectiveandefficientimplementationofobjectdetector期刊:arXivpreprint年份:2020主要内容列举:①:实现一个有效性和效率相对平衡的对象检测器，可以直接应用于实际应用场景;②②:添加了一系列几乎不会增加推断时间的技巧，以提高模型的整体性能;③:PP-YOLO可以在有效性（45.2%mAP)和效率（72.9FPS)之

咕咕咕不咕·2023-11-14 22:50

【论文阅读】GAIN: Missing Data Imputation using Generative Adversarial Nets

论文地址：[1806.02920]GAIN:MissingDataImputationusingGenerativeAdversarialNets(arxiv.org)

轩儿毛肚·2023-11-14 21:51

【论文阅读】MD-GAN: Multi-Discriminator Generative Adversarial Networks for Distributed Datasets

论文地址：[1811.03850]MD-GAN:Multi-DiscriminatorGenerativeAdversarialNetworksforDistributedDatasets(arxiv.org)本文介绍了一种名为MD-GAN的新方法，可以在分布式数据集上训练生成对抗网络（GAN）。文章首先介绍了GAN的背景和构成，然后提出了分布式GAN训练的挑战，即如何在多个工作节点上细粒度地分配

轩儿毛肚·2023-11-14 21:36

【论文阅读】(VAE-GAN)Autoencoding beyond pixels using a learned similarity metric

论文地址;[1512.09300]Autoencodingbeyondpixelsusingalearnedsimilaritymetric(arxiv.org)/一、Introduction主要讲了深度学习中生成模型存在的问题，即常用的相似度度量方式（使用元素误差度量）对于学习良好的生成模型存在一定的障碍，并提出了一种新的方法——使用学习到的相似度度量方式来改善生成模型的性能。同时，该部分还介绍

轩儿毛肚·2023-11-14 21:36

【论文阅读】PC-GAIN: Pseudo-label Conditional Generative Adversarial Imputation Networks for Incomplete Da

论文地址;[2011.07770]PC-GAIN:Pseudo-labelConditionalGenerativeAdversarialImputationNetworksforIncompleteData(arxiv.org)摘要有缺失值的数据集在实际应用程序中非常常见。GAIN是最近提出的用于缺失数据插补的深度生成模型，已被证明优于许多最先进的方法。但GAIN仅使用生成器中的重构损耗来最小化

轩儿毛肚·2023-11-14 21:05

【论文阅读】(CTGAN)Modeling Tabular data using Conditional GAN

论文地址：[1907.00503]ModelingTabulardatausingConditionalGAN(arxiv.org)摘要对表格数据中行的概率分布进行建模并生成真实的合成数据是一项非常重要的任务，有着许多挑战。本文设计了CTGAN，使用条件生成器解决挑战。为了帮助进行公平和彻底的比较建模这类数据的方法，本文设计了一个基准测试，包括7个模拟数据集和8个真实数据集，以及几个贝叶斯网络

轩儿毛肚·2023-11-14 20:52

YOLOv5改进，论文阅读建议

"EfficientNet:RethinkingModelScalingforConvolutionalNeuralNetworks"，这是一篇在2019年提出的论文，提出了一种新的CNN模型缩放方法，可以根据目标任务的复杂性自适应地缩放网络深度、宽度和分辨率，从而在不增加计算量的情况下提高模型精度。"BagofTricksforImageClassificationwithConvolution

DeepQi·2023-11-14 17:20

【目标跟踪】ECO算法论文阅读：ECO: Efficient Convolution Operators for Tracking

文章目录1.论文概要2.研究背景和动机3.相关滤波用于目标跟踪的原理4.ECO算法流程5.ECO算法创新点5.1特征降维：PCA5.2训练集简化：GMM5.3模型更新策略：间歇更新1.论文概要论文下载地址：ECO:EfficientConvolutionOperatorsforTracking发表时间：CVPR2017作者：MartinDanelljan（瑞典），目标跟踪领域的大牛官方代码：htt

ctrl A_ctrl C_ctrl V·2023-11-14 12:18

论文阅读-Practical Secure Aggregation for Privacy-Preserving Machine Learning（谷歌.CCS.2017）

实用的用户隐私机器学习安全聚合的算法1.前置知识门限机制和Shamir秘密共享秘密s通过某种方案被分成n个部分，每个部分被称为份额或者影子，由一个参与者持有，使得：由k个或多于k个参与者所持有的部分可以重构S由少于k个参与者所持有的部分则无法重构S该方案称为（k,n）秘密分割门限方案，k称为门限值shamir于1979年，基于多项式插值算法设计了shamir(t,n)门限共享体制，他的秘密分配算法

md5_NULL·2023-11-14 01:59

Neural Collaborative Filtering 论文阅读和复现

NeuralCollaborativeFiltering论文阅读和复现AbstractMethodsExperimentsandResultsDataset首先是数据理解功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中

Taosolo·2023-11-14 01:47

（论文阅读28/100 人体姿态估计）Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

28.文献阅读笔记简介题目RealtimeMulti-Person2DPoseEstimationusingPartAffinityFields作者ZheCao,TomasSimon,Shih-EnWei,andYaserSheikh,CVPR,2017.原文链接arxiv.org/pdf/1611.08050.pdf【人体姿态估计2】Real-timeMulti-person2dposeesti

朽月初二·2023-11-13 19:16

（论文阅读29/100 人体姿态估计）

29.文献阅读笔记简介题目DeepCut:JointSubsetPartitionandLabelingforMultiPersonPoseEstimation作者LeonidPishchulin,EldarInsafutdinov,SiyuTang,BjoernAndres,MykhayloAndriluka,PeterGehler,andBerntSchiele,CVPR,2016.原文链接h

朽月初二·2023-11-13 19:12

（论文阅读26/100）Weakly-supervised learning with convolutional neural networks

26.文献阅读笔记简介题目Weakly-supervisedlearningwithconvolutionalneuralnetworks作者MaximeOquab，LeonBottou，IvanLaptev，JosefSivic，CVPR，2015原文链接http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Oquab_

朽月初二·2023-11-13 14:50

DeCLIP 论文阅读

DeCLIP:supervisionexistseverywhere:adataefficientcontrastivelanguage-imagepre-trainingparadigm贡献：论文是为了充分利用单模态和多模态，充分利用单模态特征用自监督（SIMSAM和MLM），多模态用图像文本对比学习实现；一个图片的文本描述大部分都是集中在局部区域，作者使用RRC得到一个图像的局部区域进行实现；

B1CK·2023-11-13 14:50

FD-Align论文阅读

FD-Align:FeatureDiscriminationAlignmentforFine-tuningPre-TrainedModelsinFew-ShotLearning（NeurIPS2023）主要工作是针对微调的和之前的prompttuining，adapter系列对比Motivation：通过模型对虚假关联性的鲁棒性来解释全微调的CLIP的out-of-distribution(OOD

B1CK·2023-11-13 14:50

（论文阅读25/100）Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

25.文献阅读笔记Multi-DomainNetwork(MDNet)简介题目LearningMulti-DomainConvolutionalNeuralNetworksforVisualTracking作者HyeonseobNamandBohyungHan原文链接https://arxiv.org/pdf/1510.07945.pdf关键词Multi-DomainNetwork(MDNet)研

朽月初二·2023-11-13 14:49

（论文阅读27/100）Deep Filter Banks for Texture Recognition and Segmentation

27.文献阅读笔记简介题目DeepFilterBanksforTextureRecognitionandSegmentation作者MirceaCimpoi,SubhransuMaji,AndreaVedaldi,原文链接http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Cimpoi_Deep_Filter_Banks

朽月初二·2023-11-13 14:08

[论文阅读] CLRerNet: Improving Confidence of Lane Detection with LaneIoU

Abstract车道标记检测是自动驾驶和驾驶辅助系统的重要组成部分。采用基于行的车道表示的现代深度车道检测方法在车道检测基准测试中表现出色。通过初步的Oracle实验，我们首先拆分了车道表示组件，以确定我们方法的方向。我们的研究表明，现有的基于行的检测器已经能预测出正确的车道位置，而准确表示与地面实况相交-不相交（IoU）的置信度分数是最有利的。基于这一发现，我们提出了LaneIoU，通过考虑局部

大龙唉·2023-11-13 10:10

论文阅读：A Multi-Phase Camera-LiDAR Fusion Network for3D Semantic Segmentation With Weak Supervision

来源：IEEETRANSACTIONSONCIRCUITSANDSYSTEMSFORVIDEOTECHNOLOGY,VOL.33,NO.8,AUGUST20230、0、摘要相机和激光雷达是自动驾驶中不可缺少的感知单元，为三维语义分割提供了互补的环境信息。融合两种模式的信息，实现准确、稳健的语义分词，是语义分词的关键。然而，图像特征的可靠性、不同图像特征的贡献以及图像结果与点云之间的权衡将制约基于融

shiyueyueya·2023-11-12 19:48

论文阅读：PVT v2: Improved Baselines with Pyramid Vision Transformer

来源：PVTv1和PVTv2链接：https://arxiv.org/pdf/2102.12122.pdf链接：https://arxiv.org/pdf/2106.13797.pdfPVTv2是在PVTv1基础上，所以先介绍PVTv1PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutions0、

shiyueyueya·2023-11-12 19:11

RetroMAE论文阅读

1.Introduction在NLP常用的预训练模型通常是由token级别的任务进行训练的，如MLM和Seq2Seq，但是密集检索任务更倾向于句子级别的表示，需要捕捉句子的信息和之间的关系，一般主流的策略是自对比学习（self-contrastivelearning）和自动编码(auto-encoding)。self-contrastivelearning的效果会被数据增强的质量所限制，且需要大量

comli_cn·2023-11-12 19:10

Learning Continuous Exposure Value Representations for Single-Image HDR Reconstruction 论文阅读笔记

这是国立阳明交通大学、联发科和英伟达合作的一篇ICCV2023的HDRReconstruction的论文文章用INR来生成具有连续曝光值的图片，从而能够生成更加多样的LDR图片，而文章发现用更多样的LDR图片训练的网络具有更好的性能，这也是文章的动机。文章说用了INR的思路，其实根本就不是INR，INR的输入是坐标，而这里其实就是把s给repeat成featuremap大小concatenate到

ssf-yasuo·2023-11-12 18:30

Spatially Adaptive Self-Supervised Learning for Real-World Image Denoising 论文阅读笔记

CVPR2023的一篇哈工大发表的真实世界图像去噪的论文，代码开源，nice文章两大要点，一个是BNN一个是LAN。文章的intro中提到，现有的很多方法虽然设计上与噪声的分布无关，但是实际上却只能处理空间独立的噪声。这一部分的介绍很流畅，对现有的一些SSID方法带过的同时，也逐个揭示了其缺点，为后续自己方法的提出进行铺垫。无论是写法上，还是内容上，都可以借鉴，并且其带过的论文，没读过的后续也可以

ssf-yasuo·2023-11-12 18:30

Masked Image Training for Generalizable Deep Image Denoising 论文阅读笔记

CVPR2023港科大（广州）发的一篇denoising的论文，作者里面有上海AILab的董超老师（看introduction的时候看到有一段很像董超老师Networksareslachingoff的论文的思想，说网络overfitting的时候学习了训练集的噪声模式而非图片内容，翻回去作者看，果然有董超老师），文章提出了一种提高现有denoising方法泛化性的方法，动机就是迫使网络学习图像内容

ssf-yasuo·2023-11-12 18:52

BEVFusion4D论文阅读

链接论文：https://arxiv.org/abs/2303.17099Abstract将激光雷达和相机信息聚合到鸟瞰图（BEV）中已成为自动驾驶中三维目标检测的一个重要课题。现有的方法大多采用独立的双分支框架来生成激光雷达和相机BEV，然后进行自适应模态融合。由于点云提供了更准确的定位和几何信息，它们可以作为从图像中获取相关语义信息的可靠空间先验。因此，我们设计了一种激光雷达引导的视图变换器L

西米611·2023-11-12 13:36

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读

一、概要提出新框架BEVFormer，用spatiotemporaltransformer学习统一的BEV表示，来支持多个自动驾驶感知任务。空间上，用cross-attention让每个BEVquery从roiacrosscameraviews中提取空间特征；时间上，用self-attention循环融合历史BEV信息。9.0pointshigherthanpreviousbestartsonnu

北极与幽蓝·2023-11-12 13:36

【论文阅读】Planning-oriented Autonomous Driving

当前的自动驾驶系统是按照顺序的模块组织的，这可能造成误差积累问题，有必要对规划的框架优化，使得感知和预测模块都有助于规划。作者们提出了一个框架UniAD，由四个基于transformer解码器的模块组成感知和预测部分，最后跟一个规划器。Transformer的query用于连通各个模块，来建模驾驶场景中实体的交互。具体如下：BEVFormer：输入是多个相机拍摄的图像序列，将其通过BEVForme

ryb4i·2023-11-12 13:33

论文阅读 | BEVFormer

BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HCYpPMaz-1691371078673)(https://files.mdnice.com/user/27157/b37

moneymyone·2023-11-12 13:02

论文阅读：Fast-BEV: Towards Real-time On-vehicleBird’s-Eye View Perception

Abstract现有的BEV解决方案要么需要大量的资源执行车载推理，要么效果一般。Fast-BEV包含五部分：1）一个轻量化部署友好的视角转换方式，可以快速将2D图像特征转到3D体素空间。2）一个多尺度图像编码器利用多尺度特征。3）高效的BEV编码器，专为车载推理加速。4）对图像和BEV空间的数据增强(DataAugmentation)策略，以避免过拟合。5）一种多帧融合机制利用空间信息。Intr

BlueagleAI·2023-11-12 13:29

TPVFormer论文阅读笔记

Tri-PerspectiveViewforVision-Based3DSemanticOccupancyPrediction论文，代码链接：TPVFormer(wzzheng.net)BEVFormer存在的问题BEV特征空间中的一个特征表示的是其对应世界坐标系中如下图所示红色的部分的特征，可见，在z轴方向上的特征是没有划分的。在做实例分割时（图中蓝色框），由于缺少特征z轴方向上的信息，而导致人

liu liu liu·2023-11-12 13:29

ViT：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文阅读

论文链接ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE0.AbstractTransformer在计算机视觉中的应用有限在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持它们的整体结构本文证明了这种对CNN的依赖是不必要的，并且直接应用于图像块序列的纯转换器可以在图像分类任务上表现得很好1

KrMzyc·2023-11-12 13:59

BEVFormer 论文阅读

论文链接BEVFormerBEVFormer，这是一个将Transformer和时间结构应用于自动驾驶的范式，用于从多相机输入中生成鸟瞰（BEV）特征利用查询来查找空间/时间，并相应地聚合时空信息，从而为感知任务提供更强的表示0.AbstractBEVFormer，通过时空转换器学习统一的BEV表示，以支持多个自动驾驶感知任务过预定义的网格状BEV查询与空间和时间空间相互作用，以利用空间和时间信息

KrMzyc·2023-11-12 13:56

室内低光语义分割框架 LISU: Low-light indoor scene understanding 论文阅读

论文标题：LISU:Low-lightindoorsceneunderstandingwithjointlearningofreflectancerestoration代码：GitHub-noahzn/LISU:Low-lightIndoorSceneUnderstanding期刊：ISPRSJournalofPhotogrammetryandRemoteSensing,2022链接：https:

自监督学习·2023-11-12 09:39

VLDB 2021 COCO 论文阅读

Epoch-basedCommitandReplicationinDistributedOLTPDatabases记录一篇之前读过的论文。。。整篇论文的核心在于Epoch，将传统数据库以事务为粒度提交和恢复变成了以Epoch为粒度来提交和恢复，这样做的好处就是可以减少2PC和同步复制的时间开销。并且提出两种OCC算法，对于Epoch机制来说很有好处。这篇文章理论介绍性居多，对于事务处理的流程做了很

Code_Bells·2023-11-12 00:14

论文阅读——Updatable Learned Index with Precise Positions(VLDB‘21)

1.介绍：索引在现代数据库引擎中起着至关重要的作用，可以加速查询处理。“学习索引”的新模式显著改变了DBMS中索引结构的设计方式。关键的想法是，learnedindex把索引结构当成是一种预测模型，给定一个key，预测这个数据在数据表中的位置。最近关于学习索引的研究为构建数据的索引开辟了一条新的途径。给定一个数据集，学习索引利用机器学习模型来学习数据分布并预测数据集中查找键的位置。它可以通过使用训

allwellright·2023-11-12 00:14

论文阅读笔记：Cold Filter A Meta-Framework for Faster and More Accurate Stream Processing

论文阅读笔记：ColdFilter:AMeta-FrameworkforFasterandMoreAccurateStreamProcessing文章目录论文阅读笔记：ColdFilter:AMeta-FrameworkforFasterandMoreAccurateStreamProcessingAbstract1

烟花再美，不过·2023-11-12 00:40

推荐频道

VQA论文阅读