Arxiv 第12页

【SAM系列】Auto-Prompting SAM for Mobile Friendly 3D Medical Image Segmentation

论文链接：https://arxiv.org/pdf/2308.14936.pdf核心：finetuneSAM,为了不依赖外部prompt，通过将深层的特征经过一个编-解码器来得到promptembedding

Nastu_Ho-小何同学·2023-12-28 12:30

文字生成视频

还没开源主页：https://human3daigc.github.io/MACH/代码：https://github.com/Human3DAIGC/Make-A-Character论文：https://arxiv.org

AI视觉网奇·2023-12-28 10:06

目标检测网络之retinanet解读（一）

[Paper:FocalLossforDenseObjectDetection][https://arxiv.org/abs/1708.02002]关于目标检测主要分为两大类别：onestage，twostageonestage

wenyilab·2023-12-28 06:32

【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

AnimateDiff+ControlNet，效果很丝滑）code：GitHub-guoyww/AnimateDiff:OfficialimplementationofAnimateDiff.paper：https://arxiv.org

李加号pluuuus·2023-12-28 02:18

[论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

一、论文信息1论文标题TRACE:AComprehensiveBenchmarkforContinualLearningInLargeLanguageModels2发表刊物arXiv20233作者团队复旦大学

ZedKingCarry·2023-12-28 00:14

【论文阅读】Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

paper：https://arxiv.org/abs/2311.17117code：还没开源1摘要角色动画，通过驱动信号从静止图像生成角色视频。

李加号pluuuus·2023-12-27 20:53

人工智能每日论文速递[07.05]

同步wx订阅号(arXiv每日论文速递)，支持后台回复'search关键词'查询相关的最新论文。

arXiv每日论文速递·2023-12-27 10:06

【三维目标检测】【自动驾驶】IA-BEV：基于结构先验和自增强学习的实例感知三维目标检测（AAAI 2024）

Instance-awareMulti-Camera3DObjectDetectionwithStructuralPriorsMiningandSelf-BoostingLearning地址：https://arxiv.org

杀生丸学AI·2023-12-27 06:00

Orca 虎鲸1号余波未平，虎鲸2号一波又起

还是讲虎鲸，不过是迭代了123上链接......2311.11045.pdf(arxiv.org)11月18号新出的论文，不同于Orca1，Orca2的论文著作这里有中国兄弟介入了，感觉Orca1好像都是

周博洋K·2023-12-26 22:57

视频物体对象追踪AI技术模型——Tracking Any Object Amodally

项目地址：https://tao-amodal.github.io论文：https://arxiv.org/abs/2312.12433GitHub：GitHub-WesleyHsieh0806/TAO-Amodal

喜好儿aigc·2023-12-26 19:43

机器学习每日论文速递[08.01]

同步wx号(arXiv每日论文速递)，支持后台回复'search关键词'查询相关的最新论文。

arXiv每日论文速递·2023-12-26 16:49

论文阅读＜CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather.....＞

论文链接：https://arxiv.org/pdf/2309.08152.pdfhttps://arxiv.org/pdf/2206.01381.pdfhttps://arxiv.org/pdf/2309.08152

yrhzmu·2023-12-26 11:40

DL-Paper精读：CPVT-可变position encoding

https://arxiv.org/abs/2102.10882Background近两年，Transformer结构进军CV领域，并以席卷之势相继攻克了分类，检测，分割等等任务。

星月野1·2023-12-26 09:19

ICLR 2022 | GNNAsKernel: 能提升任意GNN表达能力的通用框架

MINDLaboratory论文标题：FromStarstoSubgraphs:UpliftingAnyGNNwithLocalStructureAwareness收录会议：ICLR2022论文链接：https://arxiv.org

PaperWeekly·2023-12-26 07:56

【文献分享】DynaSLAM：你见过动态物体修补效果这么好的SLAM吗？

Tracking,Mapping,andInpaintinginDynamicScenes中文题目：DynaSLAM：动态场景中的跟踪、建图和图像修复作者：BertaBescos等论文链接：https://arxiv.org

K.Fire好好睡觉·2023-12-26 04:07

KernelGAN论文详解分享

KernelGAN-BlindSuper-ResolutionKernelEstimationusinganInternal-GAN论文详解论文地址：https://arxiv.org/abs/1909.06581NeurIPS2019

高启强668·2023-12-25 22:11

【2024 行人重识别最新进展】ReID3D：首个关注激光雷达行人 ReID 的工作！

摘要：数据集：方法模型：多任务预训练：ReIDNetwork：实验结果：结论：来源：Arxiv2023机构：清华大学&北京理工大学论文题目：LiDAR-basedPersonRe-identification

BIT可达鸭·2023-12-25 21:25

【论文阅读】MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention

文章目录摘要创新点总结实现效果总结摘要链接：https://arxiv.org/abs/2312.08866医学图像分割是医学图像处理和计算机视觉领域的关键挑战之一。

AI浩·2023-12-25 14:40

【强化学习】PPO：近端策略优化算法

近端策略优化算法《ProximalPolicyOptimizationAlgorithms》论文地址：https://arxiv.org/pdf/1707.06347.pdf一、置信域方法(TrustRegionMethods

BQW_·2023-12-25 11:32

语义分割 LR-ASPP网络学习笔记（附代码）

论文地址：https://arxiv.org/abs/1905.02244代码地址：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing

无妄无望·2023-12-25 08:07

多模态大模型：关于RLHF那些事儿

多模态大模型关于RLHF的代表性文章一、LLaVA-RLHF题目:ALIGNINGLARGEMULTIMODALMODELSWITHFACTUALLYAUGMENTEDRLHF机构：UC伯克利论文:https://arxiv.org

猴猴猪猪·2023-12-25 05:10

Arxiv网络科学论文摘要10篇(2020-12-25)

复杂系统中因果影响的谱排序;盗贼博弈与复杂网络中其他集中度度量之间的相关性;国家赞助的社交媒体宣传的多模式识别;理解日本三大都市圈COVID-19爆发期间的出行方式变化;展现在线照片共享的真实生活效果;欧美COVID-19的第二波死亡率;使用KCDC患者数据表征韩国的COVID-19传播;时态网络流行病学时代的并发措施：综述;通过社交距离和社区意识控制COVID-19传播的简单数学模型;及时跟踪人

ComplexLY·2023-12-25 01:42

Dexterous Grasping: GraspGF

LearningScore-basedGraspingPrimitiveforHuman-assistingDexterousGrasping解析简介1.简介2.Human-assistingDexterousGrasping论文链接：https://arxiv.org

AIRV_Gao·2023-12-25 00:08

3D hand pose：MediaPipe Hands: On-device Real-time Hand Tracking

2.1BlazePalmDetector2.2HandLandmarkModel3.DatasetandAnnotation4.Results5.MediaPipegraphforhandtracking6.手势识别的应用论文链接：https://arxiv

AIRV_Gao·2023-12-25 00:38

2D行人姿态估计和跟踪：*Simple Baselines for Human Pose Estimation and Tracking

2D行人姿态估计和跟踪：SimpleBaselinesforHumanPoseEstimationandTracking论文网址：https://arxiv.org/abs/1804.06208论文代码

AIRV_Gao·2023-12-25 00:07

Backbone：深层聚合网络：Deep Layer Aggregation（DLA）

Backbone：DeepLayerAggregation（深层聚合网络，DLA）论文网址：https://arxiv.org/abs/1707.06484论文代码（pytorch）：https://github.com

AIRV_Gao·2023-12-25 00:07

人体姿态估计：BlazePose

2.1推理流程（Inferencepipeline）2.2Persondetector2.3拓扑结构（Topology）2.4数据集2.5网络结构2.6对齐和遮挡增强3.实验论文连接：https://arxiv.org

AIRV_Gao·2023-12-25 00:07

Arxiv网络科学论文摘要17篇(2020-09-02)

理解在线社会网络衰退动力学的理论模型;强关系对之间的内部迁移和移动通信模式;国际关系中联盟与竞争网络的结构平衡;金融网络中的或然可转换债券;当代价高昂的惩罚逐渐演变为有利时;可见度有限的多数投票模型：对滤泡的调查;基于增强学习的黑盒规避攻击进行动态图中的链路预测;基于概率图模型和递归神经网络的语义情感分析;网络增长模型中节点影响的动态;社交用户的前k位社交-空间协同参与位置选择;利用网络分析探索农

ComplexLY·2023-12-24 19:53

【BBuf的CUDA笔记】十，Linear Attention的cuda kernel实现解析

问题引入LinearAttention的论文如下：TransformersareRNNs:FastAutoregressiveTransformerswithLinearAttention：https://arxiv.org

just_sort·2023-12-24 15:02

神经网络也能像人类利用外围视觉一样观察图像

详细信息如下：论文地址：https://arxiv.org/abs/2206.06801项目地址：http://cvlab.postech.ac.kr/research/PerViT/（尚未开源）01摘要人类视觉拥有一种特殊类型的视觉处理系统

FightingCV·2023-12-24 14:07

【深度学习】DataComp论文，数据集介绍，大数据模型的数据集介绍

参考：https://laion.ai/blog/datacomp/论文：https://arxiv.org/abs/2304.14108文章目录论文报告的一些内容datacomp-1B数据质量比lainon2B

XD742971636·2023-12-24 09:15

论文浅尝 | 逐步蒸馏！使用少量训练数据和较小模型超越大语言模型

笔记整理：康婧淇，东南大学硕士生，研究方向为自然语言处理、信息抽取链接：https://arxiv.org/abs/2305.023011.动机本文的动机是将大型语言模型（LLMs）的任务特定知识提炼到更小的专业模型中

开放知识图谱·2023-12-24 09:24

【AI金融】Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models

回到可预测性与大预言模型出版时间2023年4月6日doiarXiv:2304.07619v3[q-fin.ST]期刊arXiv类别Null关键词StatisticalFinance(q-fin.ST);

蘼子·2023-12-24 07:33

Bag of Tricks for Image Classification with Convolutional Neural Networks

PaperReadingNoteURL:https://arxiv.org/abs/1812.01187TL;DR很多基于CNN的图像分类上的进步实际源于一些训练的“tricks”，本文总结了一些有用的涨点

HAKUNAMATA_cec3·2023-12-24 03:27

详解各种LLM系列｜（1）LLaMA 1 模型架构、预训练、部署优化特点总结

话不多说，我们仔细看看吧二、LLaMA简介论文：https://arxiv.org/abs/2302.13971Github：GitHub

Sunny_AI_addict·2023-12-24 01:31

ModelScope-Agent初体验

PaperModelScope-Agent:BuildingYourCustomizableAgentSystemwithOpen-sourceLargeLanguageModels：https://arxiv.org

__如果·2023-12-24 00:22

Featured Based知识蒸馏(3): Focal and Global Knowledge (FGD)

FocalandGlobal蒸馏的原理2.1常规的featurebased蒸馏算法2.2FocalDistillation2.3GlobalDistillation2.4totalloss3.实验论文：https://arxiv.org

@BangBang·2023-12-23 19:55

Arxiv网络科学论文摘要13篇(2020-09-23)

流网络中弹性和故障扩散的拓扑理论;用于学习图表示的可解释、稳定和可扩展的图卷积网络;适应随着时间变化的用户偏好的上下文bandit;评论“具有Glauber动力学的社会平衡网络模型中的相变”;通过多面Rasch测量和多任务深度学习构造区间变量：仇恨语音应用;维护在线社会网络的完整性;在COVID危机期间，美国各城市的在线地理本地化情感：普遍性、政策应对以及与本地流动性的联系;从蚂蚁到渔船：有限资源

ComplexLY·2023-12-23 18:56

【论文笔记】3D Gaussian Splatting for Real-Time Radiance Field Rendering

原文链接：https://arxiv.org/abs/2308.040791.引言网孔和点是最常见的3D场景表达，因其是显式的且适合基于GPU/CUDA的快速栅格化。

byzy·2023-12-23 15:31

【论文笔记】Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Application

Cam4DOcc:BenchmarkforCamera-Only4DOccupancyForecastinginAutonomousDrivingApplications原文链接：https://arxiv.org

byzy·2023-12-23 15:30

【论文笔记】NeuRAD: Neural Rendering for Autonomous Driving

原文链接：https://arxiv.org/abs/2311.152601.引言神经辐射场（NeRF）应用在自动驾驶中，可以创建可编辑的场景数字克隆（可自由编辑视角和场景物体），以进行仿真。

byzy·2023-12-23 15:28

通过生成表征的自条件图像生成

摘要https://arxiv.org/pdf/2312.03701.pdf本文提出了表示条件图像生成（Representation-ConditionedImageGeneration，简称RCG），

静静AI学堂·2023-12-23 13:31

Co-DETR：基于协作混合分配训练的DETR

摘要https://arxiv.org/pdf/2211.12860v5.pdf本文观察到一个现象，即在DETR中使用一对一的集合匹配时，被分配为正样本的查询太少，导致对编码器输出的监督稀疏，这严重影响了编码器的判别特征学习

静静AI学堂·2023-12-23 13:31

[CVPR2023 | GrowSP：无监督3D点云语义分割]

落叶霜霜·2023-12-23 09:05

用于自动驾驶的光流方法的应用、挑战和改进

OpticalFlowforAutonomousDriving:Applications,ChallengesandImprovements作者：ShihaoShen,LouisKerofskyandSenthilYogamani编辑：点云PCL来源：arXiv2023

点云PCL公众号博客·2023-12-23 09:34

RLAIF方法与传说中的函数‘Q‘，揭露OpenAI那不为人知的Qstar计划

在讲解这个帖子之前，先要普及2个概念：1-RLAIF：不是TGIF，虽然今天确实是周五RLAIF是Google今年9月新出来的论文，论文地址：2309.00267.pdf(arxiv.org)(以后我这号再改名

周博洋K·2023-12-23 09:31

【基于激光雷达的路沿检测用于自动驾驶的真值标注】

文章目录概要主要贡献内容概述实验小结概要论文地址：https://arxiv.org/pdf/2312.00534.pdf路沿检测在自动驾驶中扮演着重要的角色，因为它能够帮助车辆感知道可行驶区域和不可行驶区域

落叶霜霜·2023-12-23 09:28

用BEVformer来卷自动驾驶-1

之所以是-1，是因为大概率1篇文章写不完，但是又不知道应该用几篇来说事，先写着看按照惯例，上论文地址：2203.17270v1.pdf(arxiv.org)什么是BEV，Bird's-Eye-View的意思

周博洋K·2023-12-23 09:28

多相机系统通用视觉 SLAM 框架的设计与评估

DesignandEvaluationofaGenericVisualSLAMFrameworkforMulti-CameraSystemsPDFhttps://arxiv.org/abs/2210.07315Codehttps

lucky li·2023-12-23 07:58

大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder

现代大型语言模型（LLM）的演变进化树，如下图：https://arxiv.org/pdf/2304.13712.pdf基于Transformer模型以非灰色显示：decoder-only模型在蓝色分支

Charles_yy·2023-12-23 06:35

推荐频道

Arxiv

【SAM系列】Auto-Prompting SAM for Mobile Friendly 3D Medical Image Segmentation

文字生成视频

目标检测网络之retinanet解读（一）

【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

[论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models

【论文阅读】Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

人工智能每日论文速递[07.05]

【三维目标检测】【自动驾驶】IA-BEV：基于结构先验和自增强学习的实例感知三维目标检测（AAAI 2024）

Orca 虎鲸1号余波未平 ，虎鲸2号一波又起

视频物体对象追踪AI技术模型——Tracking Any Object Amodally

机器学习每日论文速递[08.01]

论文阅读＜CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather.....＞

DL-Paper精读：CPVT-可变position encoding

ICLR 2022 | GNNAsKernel: 能提升任意GNN表达能力的通用框架

【文献分享】DynaSLAM：你见过动态物体修补效果这么好的SLAM吗？

KernelGAN论文详解分享

【2024 行人重识别最新进展】ReID3D：首个关注激光雷达行人 ReID 的工作！

【论文阅读】MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention

【强化学习】PPO：近端策略优化算法

语义分割 LR-ASPP网络学习笔记 （附代码）

多模态大模型：关于RLHF那些事儿

Arxiv网络科学论文摘要10篇(2020-12-25)

Dexterous Grasping: GraspGF

3D hand pose：MediaPipe Hands: On-device Real-time Hand Tracking

2D行人姿态估计和跟踪：*Simple Baselines for Human Pose Estimation and Tracking

Backbone：深层聚合网络：Deep Layer Aggregation（DLA）

人体姿态估计：BlazePose

Arxiv网络科学论文摘要17篇(2020-09-02)

【BBuf的CUDA笔记】十，Linear Attention的cuda kernel实现解析

神经网络也能像人类利用外围视觉一样观察图像

【深度学习】DataComp论文，数据集介绍，大数据模型的数据集介绍

论文浅尝 | 逐步蒸馏！使用少量训练数据和较小模型超越大语言模型

【AI金融】Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models

Bag of Tricks for Image Classification with Convolutional Neural Networks

详解各种LLM系列｜（1）LLaMA 1 模型架构、预训练、部署优化特点总结

ModelScope-Agent初体验

Featured Based知识蒸馏(3): Focal and Global Knowledge (FGD)

Arxiv网络科学论文摘要13篇(2020-09-23)

【论文笔记】3D Gaussian Splatting for Real-Time Radiance Field Rendering

【论文笔记】Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Application

【论文笔记】NeuRAD: Neural Rendering for Autonomous Driving

通过生成表征的自条件图像生成

Co-DETR：基于协作混合分配训练的DETR

[CVPR2023 | GrowSP：无监督3D点云语义分割]

用于自动驾驶的光流方法的应用、挑战和改进

RLAIF方法与传说中的函数‘Q‘，揭露OpenAI那不为人知的Qstar计划

【基于激光雷达的路沿检测用于自动驾驶的真值标注】

用BEVformer来卷自动驾驶-1

多相机系统通用视觉 SLAM 框架的设计与评估

大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder

Orca 虎鲸1号余波未平，虎鲸2号一波又起

语义分割 LR-ASPP网络学习笔记（附代码）