cvpr2023

探索创新科技： Lite-Mono - 简约高效的小型化Mono框架

探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation

杭律沛Meris·2024-09-15 21:38

论文阅读：GamutMLP A Lightweight MLP for Color Loss Recovery

这篇文章是关于色彩恢复的一项工作，发表在CVPR2023，其中之一的作者是MichaelS.Brown，这个老师是加拿大York大学的，也是ISP领域的大牛，现在好像也在三星研究院担任兼职，这个老师做了很多这种类似的工作

Matrix_11·2024-02-14 05:57

PairLIE论文阅读笔记

LearningaSimpleLow-lightImageEnhancerfromPairedLow-lightInstances.论文链接如下：openaccess.thecvf.com/content/CVPR2023

Alex·Fall·2024-02-07 19:52

AI有道--AI大模型系列文章锦集

GPT-4Office全家桶发布，10亿打工人被革命CVPR2023｜不好意思我要加速度了！FasterNet：更高FLOPS才是更快更强的底气2023-03-16文心一言vsGPT-4实测！

唐伯虎点·蚊香·2024-02-07 19:46

CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce

文章目录摘要引言贡献方法提取实例为中心的表示1.InstanceQuery2.InstanceDecoder3.Multi-ModalPretrainingObjectives4.TransfertoDowntasks转换到下游任务实验预训练数据集实验细节在下游任务上的Evaluationconclusion摘要本文旨在建立一个通用的多模态基础模型，该模型具有可扩展的电子商务中大规模下游应用的能力

万年枝·2024-02-06 06:59

（Re-ID论文精读2）CVPR2023: Patch-wise High-frequency Augmentation for Transformer-basedPerson Re-id

原文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_PHA_Patch-Wise_High-Frequency_Augmentation_for_Transformer-B

达柳斯·绍达华·宁·2024-02-01 17:20

《RT-DETR魔术师》专栏介绍 & CSDN独家改进创新实战 & 专栏目录

RT-DETR魔术师专栏介绍：https://blog.csdn.net/m0_63774211/category_12497375.html✨✨✨魔改创新RT-DETR引入前沿顶会创新（CVPR2023

AI小怪兽·2024-02-01 15:38

CVPR2023：IDEA与清华提出首个一阶段3D全身人体网格重建算法，代码开源！

GitHub-IDEA-Research/OSX:[CVPR2023]Officialimplementationofthepaper"One-Stage3DWhole-BodyMeshRecoverywithComponentAwareTransformer

AI视觉网奇·2024-02-01 07:08

3D人体运动重建

目录FLEX人格网格重建：VirtualMarker虚拟人体网格重建GraMMaRMotioNet数据集：FLEXhttps://github.com/BrianG13/FLEX人格网格重建：CVPR2023

AI视觉网奇·2024-02-01 07:36

CVPR 2023 | SCConv: 即插即用的空间和通道重建卷积

论文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Li_SCConv_Sp

PaperWeekly·2024-01-29 13:32

3d人体姿态 2024 笔记

目录CVPR2023|PoseFormerV2推理代码解决bug：CVPR2022Oral｜PoseConv3D开源cvpr2023GFPosePoseFormerCVPR2023|PoseFormerV2

AI视觉网奇·2024-01-26 15:03

3D点云分割之SAGA（cvpr2023) 配置及使用

SAGA即segmentany3dGaussians,为3D高斯点云下的目标分割。在第一帧图片点击一个目标，可在3D点云中分割出来。papergithub语义分割采用的是SAM(segmentanything),SAM和3dgaussian-splatting结合，通过训练一个MLP，把SAM特征和3D特征进行映射，从而不需要每帧都分割，缩短耗时，达到ms级。训练的损失函数有2个，SAM-guid

蓝羽飞鸟·2024-01-26 07:04

【CVPR 2023 论文解读】TriDet: Temporal Action Detection with Relative Boundary Modeling

发表时间：CVPR2023作者团队：北航，美团，JDExplore代码链接：GitHub-dingfengshi/TriDet:[CVPR2023]Codeforthepaper,TriDet:TemporalActionDetectionwithRelativeBoundaryModeling

Taylor不想被展开·2024-01-21 21:26

Multi-Concept Customization of Text-to-Image Diffusion——【代码复现】

本文是发表于CVPR2023上的一篇论文：[2212.04488]Multi-ConceptCustomizationofText-to-ImageDiffusion(arxiv.org)一、引言本文主要做的工作是对

我是浮夸·2024-01-19 08:21

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

本文发表于CVPR2023论文地址：CVPR2023OpenAccessRepository(thecvf.com)Github官方代码地址：github.com一、Intorduction最近的文本到图像模型能够根据文本提示生成高质量的图像

我是浮夸·2024-01-19 08:13

On Data Scaling in Masked Image Modelin

论文名称：OnDataScalinginMaskedImageModeling发表时间：CVPR2023作者及组织：ZhendaXie,ZhengZhang,HuHan等，来自清华，西安交大，微软亚洲研究院

武乐乐~·2024-01-18 07:49

【CVPR2023】人像卡通化（2D图像-＞3D卡通)

1.3DAvatarGANBridgingDomainsforPersonalizedEditableAvatarsAffiliation:KAUST(PeterWonka),SnapInc.(Hsin-YingLee,MengleiChai,AliaksandrSiarohin,SergeyTulyakov)Authors:RameenAbdal,Hsin-YingLee,PeihaoZhu,M

大江东去浪淘尽千古风流人物·2024-01-17 00:17

【数字人】9、DiffTalk | 使用扩散模型基于 audio-driven+对应人物视频合成说话头（CVPR2023）

CraftingDiffusionModelsforGeneralizedAudio-DrivenPortraitsAnimation代码：https://sstzal.github.io/DiffTalk/出处：CVPR2023

呆呆的猫·2024-01-12 01:13

端到端自动驾驶

UniAD[CVPR2023]:使用transformer架构，统一自动驾驶流程，完成所有检测，跟踪，建图，轨迹预测，占据栅格预测与规划的端到端推理。

yang_daxia·2024-01-11 10:07

文献阅读1

AHierarchicalRepresentationNetworkforAccurateandDetailedFaceReconstructionfromIn-The-WildImages会议/期刊：CVPR2023

瓴龍·2024-01-11 04:06

【占用网络】VoxFormer 基于视觉的3D语义场景方案 CVPR 2023

前言本文分享“占用网络”方案中，来自CVPR2023的VoxFormer，它基于视觉实现3D语义场景补全。

一颗小树x·2024-01-11 03:11

【CVPR2023】使用轻量 ToF 传感器的单目密集SLAM的多模态神经辐射场

目录导读本文贡献本文方法轻量级ToF传感器的感知原理多模态隐式场景表示时间滤波技术实验实验结果消融实验结论未来工作论文标题：Multi-ModalNeuralRadianceFieldforMonocularDenseSLAMwithaLight-WeightToFSensor论文链接：https://openaccess.thecvf.com/content/ICCV2023/html/Liu_

陈子迩·2024-01-09 23:25

ScaleKD: Distilling Scale-Aware Knowledge in Small Object Detector（CVPR2023）

文章目录AbstractIntroductionKDScale-awareKnowledgeDistillationScale-DecoupledFeatureDistillationPreliminaryMotivationMethodologyCross-ScaleAssistantPreliminaryMotivationMethodologyExperimentResultsAblatio

怎么全是重名·2024-01-08 17:18

Autoregressive Visual Tracking（ARTrack）CVPR2023学习笔记

AutoregressiveVisualTracking论文地址：http://openaccess.thecvf.com//content/CVPR2023/papers/Wei_Autoregressive_Visual_Tracking_CVPR

微醺的水·2024-01-07 21:34

CVPR2023 Autoregressive Visual Tracking 理解记录

ARTrackcodewithcommentshttps://github.com/MIV-XJTU/ARTrackARTrack的框架:代码训练主要分为两阶段：第一阶段就是和seqtrack是一样的，就是template和search的图像打成patches送进transformer的encoder和decoder，只不过decoder这里送的querytokens送的是一个[cmd]或者[st

laizi_laizi·2024-01-07 21:32

【复现】DiffTalk

code：GitHub-sstzal/DiffTalk:[CVPR2023]Theimplementationfor"DiffTalk:CraftingDiffusionModelsforGeneralizedAudio-DrivenPortraitsAnimation

李加号pluuuus·2024-01-07 10:57

合集 | 想了解美团视觉技术实践？看这篇文章就够了

↓点击下方各个标题，可直接阅读全文↓斩获CVPR2023竞赛2项冠军｜美团街景理解中视觉分割技术的探索与应用视觉分割技术在街景理解中具有重要地位，同时也面临诸多挑战。

美团技术团队·2024-01-05 17:55

论文阅读：A Rotation-Translation-Decoupled Solution for Robust and Efficient VI Initialization

前言这是一篇发表在CVPR2023上的文章，ARotation-Translation-DecoupledSolutionforRobustandEfficientVisual-InertialInitialization

独孤西·2024-01-05 07:13

CVPR2023 Tutorial Talk | 哈佛博士主讲大型多模态模型：构建和超越多模态GPT-4

来源：CVPR2023TutorialTalk演讲题目：LargeMultimodalModels:TowardsBuildingandSurpassingMultimodalGPT-4主讲人：ChuanyuanLi导读GPT-4现在很流行。今天我将试图帮助大家构建一个最小版本的多模态GPT-4。我将介绍不同的方式来利用大型语言模型(LLM)进行多模态任务。我将重点讲解端到端训练的模型，以便我们可

AI每天一点点·2024-01-04 12:11

论文阅读——EfficientViT（cvpr2023）

EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttention1、从三个角度探讨如何提高visiontransformers的效率：内存访问、计算冗余和参数使用。2.1.MemoryEfficiency红色字体表示操作所花费的时间主要由内存访问决定，而用于计算的时间要小得多。visiontransformers中内存不

じんじん·2023-12-31 02:02

论文阅读——Slide-Transformer（cvpr2023）

Slide-Transformer:HierarchicalVisionTransformerwithLocalSelf-Attention一、分析1、改进transformer的几个思路：（1）将全局感受野控制在较小区域，如：PVT，DAT，使用稀疏全局注意力来从特征图选择稀疏的键对值，并且在所有查询中共享它们。（2）就是SwinTransformer这条窗口注意力范式，输入被分为特殊设计的窗口

じんじん·2023-12-30 06:33

论文阅读《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

论文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Efficient_and_Explicit_Modelling_of_Image_Hierarchies_for_Image_Restoration_CVPR

CV科研随想录·2023-12-28 16:41

【三维生成】稀疏重建、Image-to-3D方法（汇总）

单阶段DiffusionNeRF的三维生成和重建（ICCV2023）1单阶段扩散NeRF训练2图像引导下的采样和微调3一些细节三、ZeroRF：ZeroPretraining的快速稀疏视图360°重建（CVPR2023

杀生丸学AI·2023-12-27 06:34

Exploring the Limits of Masked Visual Representation Learning at Scale论文笔记

论文名称：EVA:ExploringtheLimitsofMaskedVisualRepresentationLearningatScale发表时间：CVPR2023作者及组织：北京人工智能研究院；华中科技大学

hello_dear_you·2023-12-26 13:03

【CVPR2023】可持续检测的Transformer用于增量对象检测

陈子迩·2023-12-24 14:41

CVPR2023、ICCV2023论文题目汇总及词频统计

CVPR2023论文地址：CVPR2023OpenAccessRepository(thecvf.com)ICCV2023论文地址：ICCV2023OpenAccessRepository(thecvf.com

qiang42·2023-12-23 12:50

[CVPR2023 | GrowSP：无监督3D点云语义分割]

落叶霜霜·2023-12-23 09:05

[CVPR 2023:AeDet实现方位不变的多视图3D目标检测]

整体架构流程论文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Feng_AeDet_Azimuth-Invariant_Multi-View

落叶霜霜·2023-12-22 13:05

Dynamic Coarse-to-Fine Learning for Oriented Tiny Object Detection（CVPR2023待补）

文章目录BeginningAbstract挑战方法成果Introduction引出问题早期的work及存在的问题近期的work及存在的问题ourworkContributionRelatedWork（paperforme）OrientedObjectDetectionPriorforOrientedObjectsLabelAssignmentTinyObjectDetectionMulti-sca

怎么全是重名·2023-12-22 08:15

Tiny Object Detection

文章目录DynamicCoarse-to-FineLearningforOrientedTinyObjectDetection（CVPR2023）DynamicCoarse-to-FineLearningforOrientedTinyObjectDetection

怎么全是重名·2023-12-22 08:45

CVPR 2023 | 最全 AIGC 论文清单汇总版，30个方向130篇！

CVPR2023最全AIGC论文！一口气读完关注公众号【机器学习与AI生成创作】公众号，在后台回复AIGC（长按红字、选中复制）即可获取分类、按文件夹汇总好的论文集，gan起来吧！！！

机器学习与AI生成创作·2023-12-20 05:17

CVPR2023: Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation

文章目录1、Abstract2、整体架构3、PrimitiveCross-ModalGeneration4、Semantic-VisualRelationshipAlignment4.1、Semantic-relatedVisualFeature4.2、RelationshipAlignment5、整体训练流程1、AbstractZero-shot的分割能力依赖于类间关系，将从seen类别中学习到

masterleoo·2023-12-20 01:51

论文阅读——Mask DINO（cvpr2023）

DINO是检测，MaskDINO是检测+分割。几个模型对比：传统的检测+分割中，检测头和分割头是平行的，MaskDINO使用二分图匹配bipartitematching提高匹配结果的准确性。box对大的类别不计算损失，因为太大了，会带坏模型。模型一样预测，但是损失取其他类别的平均数。Backbone：ResNet-50andSwinL，SwinLSOTAWeusethesamemulti-scal

じんじん·2023-12-17 06:23

论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》

论文地址：https://openaccess.thecvf.com/content/CVPR2023/html/Cho_Learning_Adaptive_Dense_Event_Stereo_From_the_Image_Domain_CVPR

CV科研随想录·2023-12-16 02:42

论文阅读《Masked representation learning for domain generalized stereo matching》

论文地址：https://openaccess.thecvf.com/content/CVPR2023/html/Rao_Masked_Representation_Learning_for_Domain_Generalized_Stereo_Matching_CVPR

CV科研随想录·2023-12-15 01:08

论文阅读《High-frequency Stereo Matching Network》

论文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_High-Frequency_Stereo_Matching_Network_CVPR