arxiv

论文阅读：2025 arxiv Qwen3 Technical Report

https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译

·2025-06-29 00:59

FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation

NVidia，CVPR20233DOccupancyPredictionChallengeworkshoppaper：https://arxiv.org/pdf/2307.1492code：https:

justtoomuchforyou·2025-06-28 16:55

[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实

AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda

张较瘦_·2025-06-27 08:25

[arXiv 2024] Medical SAM 2: Segment Medical Images as Video via Segment Anything Model 2

arXiv2024|MedicalSAM2：通用2D/3D医学分割新范式，“把医学图像当视频分割”论文信息标题：MedicalSAM2:SegmentMedicalImagesasVideoviaSegmentAnythingModel2

alfred_torres·2025-06-27 05:07

【ICML2024】TimesFM：无需训练！时间序列预测迎来新纪元！

论文地址：https://arxiv.org/pdf/2310.10688代码地址：https://github.com/google-research/timesfm/为了更好地理解时间序列模型的理论与实现

ThePPP_FTS·2025-06-25 10:06

目标检测——YOLOX算法解读

YOLOX:ExceedingYOLOSeriesin2021(2021.7.18)作者：ZhengGe,SongtaoLiu,FengWang,ZemingLi,JianSun链接：https://arxiv.org

·2025-06-24 23:47

[论文阅读] 人工智能+软件工程 | 用大语言模型架起软件需求形式化的桥梁

用大语言模型架起软件需求形式化的桥梁：一篇ACM调查草案的深度解读论文信息arXiv:2506.14627ACMSurveyDraftonFormalisingSoftwareRequirementswithLargeLanguageModelsArshadBeg

张较瘦_·2025-06-22 12:08

字节Bagel多模态大模型解读

github：https://github.com/bytedance-seed/BAGELpaper：https://arxiv.org/pdf/2505.14683本文是一篇关于多模态预训练模型BAGEL

小李飞刀李寻欢·2025-06-22 01:29

SIMPL论文阅读

论文链接：https://arxiv.org/pdf/2402.02519文章还没细看，但主要贡献点应该是SymmetricFusionTransformer和Bezier-basedMotionDecoder

ZHANG8023ZHEN·2025-06-21 18:43

YOLO的作者们

而在这2个月之后，另一位曾经参与YOLO项目维护的大神AlexeyBochkovskiy，在arXiv上提交了YOLOv

小远披荆斩棘·2025-06-21 06:22

江大白 | 目标检测YOLOv12算法来袭，更高性能、更快速度！（附论文及源码）

论文：https://arxiv.org/abs/2502.

双木的木·2025-06-20 19:11

基于Python的ArXiv学术论文高效爬取：最新技术与实战指南

摘要本文详细介绍了如何使用Python构建一个高效的ArXiv学术论文爬虫系统。我们将从ArXivAPI的基础知识讲起，逐步深入到异步爬取、反反爬策略、数据存储优化等高级主题。

Python爬虫项目·2025-06-19 23:24

多模态大语言模型arxiv论文略读（127）

WhenSAM2MeetsVideoCamouflagedObjectSegmentation:AComprehensiveEvaluationandAdaptation➡️论文标题：WhenSAM2MeetsVideoCamouflagedObjectSegmentation:AComprehensiveEvaluationandAdaptation➡️论文作者：YuliZhou,GuoleiS

胖头鱼爱算法·2025-06-19 17:03

训练成本降低2000倍: 直接将推理能力注入LLM

论文标题Resa:TransparentReasoningModelsviaSAEs论文地址https://arxiv.org/pdf/2506.09967代码地址https://github.com/

大模型最新论文·2025-06-18 13:20

论文阅读：2018 arxiv CrowdHuman: A Benchmark for Detecting Human in a Crowd

https://www.doubao.com/chat/9226473480559618https://arxiv.org/pdf/1805.00123CrowdHuman:ABenchmarkforDetectingHumaninaCrowd

CSPhD-winston-杨帆·2025-06-18 11:08

论文阅读：arxiv 2025 OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

blog.csdn.net/WhiffeYF/article/details/142132328https://www.doubao.com/chat/8815924393371650https://arxiv.org

CSPhD-winston-杨帆·2025-06-18 11:38

论文阅读：arxiv 2025 Not All Tokens Are What You Need In Thinking

·2025-06-18 11:07

图像匹配像素跟踪MINIMA部署笔记

XinZhou,DingkangLiang,XiangBai机构：HuazhongUniversityofScienceandTechnology、WuhanUniversity原文链接：https://arxiv.org

AI算法网奇·2025-06-18 06:03

SayAnything：利用条件视频扩散实现音频驱动的口型同步

论文题目：SayAnything:Audio-DrivenLipSynchronizationwithConditionalVideoDiffusion论文链接：https://arxiv.org/abs

楠哥聊AI·2025-06-16 04:00

医图论文 Arxiv‘24 | SEG-SAM：用于统一医学图像分割的语义引导SAM

论文信息题目：SEG-SAM:Semantic-GuidedSAMforUnifiedMedicalImageSegmentationSEG-SAM：用于统一医学图像分割的语义引导SAM作者：ShuangpingHuang,HaoLiang,QingfengWang,ChulongZhong,ZijianZhou,MiaojingShi论文创新点语义感知解码器：作者提出了一个独立的语义感知解码器（

小白学视觉·2025-06-15 00:56

[论文阅读] 人工智能+软件工程 | 结对编程中的知识转移新图景

AComparativeStudyonKnowledgeTransfer（从开发者结对到AI副驾驶：知识转移的对比研究）作者及机构：AlisaWelter等来自德国萨尔兰大学，ChristofTinnes同时隶属于西门子公司发表平台：arXiv

张较瘦_·2025-06-13 21:54

2024 CVPR Video ReCap Recursive Captioning of Hour-Long Videos Methods Notes

2024CVPRVideoReCapRecursiveCaptioningofHour-LongVideos，需要更详细的论文精读Markdown解析，关注私戳包主领取在这里提供原文链接https://arxiv.org

努力还债的学术吗喽·2025-06-13 20:20

多模态大语言模型arxiv论文略读（117）

Training-freeZero-shotComposedImageRetrievalviaWeightedModalityFusionandSimilarity➡️论文标题：Training-freeZero-shotComposedImageRetrievalviaWeightedModalityFusionandSimilarity➡️论文作者：Ren-DiWu,Yu-YenLin,Hue

胖头鱼爱算法·2025-06-13 15:42

多模态大语言模型arxiv论文略读（118）

VoiceWukong:BenchmarkingDeepfakeVoiceDetection➡️论文标题：VoiceWukong:BenchmarkingDeepfakeVoiceDetection➡️论文作者：ZiweiYan,YanjieZhao,HaoyuWang➡️研究机构:华中科技大学➡️问题背景：随着文本转语音（TTS）和语音转换（VC）技术的快速发展，检测深度伪造语音（Deepfak

胖头鱼爱算法·2025-06-13 15:10

多模态大语言模型arxiv论文略读（119）

ODE:Open-SetEvaluationofHallucinationsinMultimodalLargeLanguageModels➡️论文标题：ODE:Open-SetEvaluationofHallucinationsinMultimodalLargeLanguageModels➡️论文作者：YahanTu,RuiHu,JitaoSang➡️研究机构:北京交通大学(BeijingJiao

胖头鱼爱算法·2025-06-13 15:10

【论文阅读笔记】HaDes幻觉检测benchmark

AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org

zsq·2025-06-13 05:32

RAPTOR：树结构的索引和检索系统的递归抽象处理

论文地址：https://arxiv.org/pdf/2401.18059.pdf摘要增强型检索语言模型能够更好地适应世界状态的变化，并整合长尾知识，然而现有大多数方法仅能从检索语料库中检索到较短的连续文本片段

lichunericli·2025-06-13 05:59

中科院团队让AI读懂分子图像：就像教机器人识别化学“文字“一样简单

至顶科技·2025-06-12 19:45

多模态大语言模型arxiv论文略读（113）

GroundedMulti-HopVideoQAinLong-FormEgocentricVideos➡️论文标题：GroundedMulti-HopVideoQAinLong-FormEgocentricVideos➡️论文作者：QiruiChen,ShangzheDi,WeidiXie➡️研究机构:ShanghaiJiaoTongUniversity➡️问题背景：当前的视频问答（VideoQA

胖头鱼爱算法·2025-06-11 06:29

如何写高效的Prompt？

本文内容自论文中获取：https://arxiv.org/pdf/2312.16171介绍了5类共计26条提示词书写原则。书写原则类别原则备注快速结构和清晰度在提示中融入目标受众。

衣乌安、·2025-06-10 19:37

[论文阅读] 人工智能+软件工程 | 理解GitGoodBench：评估AI代理在Git中表现的新基准

ANovelBenchmarkForEvaluatingAgenticPerformanceOnGitTobiasLindenbauer,EgorBogomolov,YaroslavZharovCiteas:arXiv

张较瘦_·2025-06-10 04:21

【Block总结】掩码窗口自注意力 (M-WSA)

摘要论文链接：https://arxiv.org/pdf/2404.07846论文标题：Transformer-BasedBlind-SpotNetworkforSelf-SupervisedImageDenoisingMaskedWindow-BasedSelf-Attention

AI浩·2025-06-09 14:45

[论文阅读] 人工智能+软件工程 | 用大模型优化软件性能

arXiv:2506.01249SysLLMatic:LargeLanguageModelsareSoftwareSystemOptimizersHuiyunPeng,ArjunGupte,RyanHasler

张较瘦_·2025-06-07 21:58

【复杂指令遵循 Benchmark】论文分享：CodeIF-Bench

EvaluatingInstruction-FollowingCapabilitiesofLargeLanguageModelsinInteractiveCodeGeneration论文链接：https://arxiv.org

·2025-06-07 11:54

[论文阅读] 人工智能+软件工程 | MemFL：给大模型装上“项目记忆”，让软件故障定位又快又准

【论文解读】MemFL：给大模型装上“项目记忆”，让软件故障定位又快又准论文信息arXiv:2506.03585ImprovingLLM-BasedFaultLocalizationwithExternalMemoryandProjectContextInseokYeo

张较瘦_·2025-06-06 21:42

[论文阅读] 人工智能 | 大语言模型代码生成能力的 “照妖镜”：混淆任务下的性能真相

大语言模型代码生成能力的“照妖镜”：混淆任务下的性能真相arXiv:2505.23598LLMPerformanceforCodeGenerationonNoisyTasksRadzimSendyka,

张较瘦_·2025-06-06 21:42

[论文阅读] 人工智能+项目管理 | 当 PMBOK 遇见 AI：传统项目管理框架的破局之路

当PMBOK遇见AI：传统项目管理框架的“AI适配指南”论文信息arXiv:2506.02214IsPMBOKGuidetheRightFitforAI?

张较瘦_·2025-06-06 20:07

【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization

DefendingAgainstPromptInjectionwithPreferenceOptimization-CCS25论文作者：SizheChen-UCBerkeley；Meta,FAIR论文链接：https://arxiv.org

AustinCyy·2025-06-05 15:22

论文笔记：LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt

202402arxiv1intro1.1大模型+时间序列预测一般有两种类型的方法使用海量时间序列数据重新训练一个时间序列领域的大模型论文笔记：TimeGPT-1_timegpt论文-CSDN博客直接利用现有的大模型

UQI-LIUWJ·2025-06-05 07:29

多模态大语言模型arxiv论文略读（105）

UnifiedMLLM:EnablingUnifiedRepresentationforMulti-modalMulti-tasksWithLargeLanguageModel➡️论文标题：UnifiedMLLM:EnablingUnifiedRepresentationforMulti-modalMulti-tasksWithLargeLanguageModel➡️论文作者：ZhaoweiLi,

胖头鱼爱算法·2025-06-04 08:28

多模态大语言模型arxiv论文略读（103）

AreBiggerEncodersAlwaysBetterinVisionLargeModels?➡️论文标题：AreBiggerEncodersAlwaysBetterinVisionLargeModels?➡️论文作者：BozhouLi,HaoLiang,ZimoMeng,WentaoZhang➡️研究机构:北京大学➡️问题背景：近年来，多模态大语言模型（MultimodalLargeLang

胖头鱼爱算法·2025-06-04 08:28

衣服关键点识别

DeepFashion2yolov8系列模型下载：数据集：DeepFashion2GitHub-switchablenorms/DeepFashion2:DeepFashion2Datasethttps://arxiv.org

AI算法网奇·2025-06-02 10:30

【Block总结】TAB，令牌聚合块|融合组内自注意力（IASA）和组间交叉注意力（IRCA）|即插即用

论文连接：https://arxiv.org/pdf/2503.06896Github代码链接：https://github.

AI浩·2025-06-01 18:04

《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》论文阅读

论文原文链接：https://arxiv.org/pdf/2412.10302?

来杯芊芊马卡龙·2025-06-01 08:48

【ASR】基础端到端语音识别工具包：FunASR

论文地址：https://arxiv.org/abs/2305.11013摘要本文介绍FunASR，一个开源语音识别工具包，旨在弥合学术研究和工业应用之间的差距。

木亦汐丫·2025-05-31 15:20

【论文阅读】Federated Large Language Model : A Position Paper

https://arxiv.org/pdf/2307.08925.pdf这篇文章算是一篇positionpaper，阐述了作者对联邦大模型的理解与看大。初学者可以当一篇综述来看。

只说人话绝不装逼·2025-05-31 07:55

多模态大语言模型arxiv论文略读（九十四）

DenseFusion-1M:MergingVisionExpertsforComprehensiveMultimodalPerception➡️论文标题：DenseFusion-1M:MergingVisionExpertsforComprehensiveMultimodalPerception➡️论文作者：XiaotongLi,FanZhang,HaiwenDiao,YuezeWang,Xin

胖头鱼爱算法·2025-05-31 01:40

PEACE 首个评估MLLMs对地质图理解的基准集，专为地质图理解设计的

EmpoweringGeologicMapHolisticUnderstandingwithMLLMsPEACE：EmpoweringGeologicMapHolisticUnderstandingwithMLLMsPEACE论文地址：https://arxiv.org

玩^耍^玩·2025-05-30 18:50

论文阅读：2024 arxiv Prompt Injection attack against LLM-integrated Applications

PromptInjectionattackagainstLLM-integratedApplications总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328https://www.doubao.com/chat/6993930253668098速览这篇论文主要围绕大语言模型（LLM）集成应用的提示注入攻击展开

CSPhD-winston-杨帆·2025-05-30 14:49

复旦：多模态时序理解基准DanmakuTPPBench

标题：DanmakuTPPBench:AMulti-modalBenchmarkforTemporalPointProcessModelingandUnderstanding来源：arXiv,2505.18411

大模型任我行·2025-05-30 12:00

推荐频道