个人随笔（论文解读第3页

生成式预训练语言模型能否视作闭卷问答的知识库？

©原创作者|朱林论文解读：CanGenerativePre-trainedLanguageModelsServeasKnowledgeBasesforClosed-bookQA?

NLP论文解读·2024-01-15 08:45

MS-DETR论文解读

文章目录前言一、摘要二、引言三、贡献四、MS-DETR模型方法1、模型整体结构解读2、模型改善结构解读3、一对多监督原理五、实验结果1、实验比较2、论文链接总结前言今天，偶然看到MS-DETR论文，以为又有什么高逼格论文诞生了。于是，我想查看一番，改论文讨论原始DETR中使用一对一监督的传统训练过程缺乏对对象检测候选者的直接监督。本文旨在通过混合一对一监督和一对多监督来明确监督候选生成过程，从而提

tangjunjun-owen·2024-01-15 06:39

EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读

文章目录前言一、摘要二、引言三、贡献四、模型方法五、论文链接总结前言最近，我一直在搞多模态大模型相关工作，也深知CLIP结构重要性，而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick，实现优越CLIP模型的方法，恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此，我将在本博客对EVA-CLIP论文进行解读。一、摘要对比图形文本预训练模型，简称CLIP，因其在多个场景潜

tangjunjun-owen·2024-01-15 06:39

论文解读：《开发和验证深度学习系统对黄斑裂孔的病因进行分类并预测解剖结果》

论文解读：《Developmentandvalidationofadeeplearningsystemtoclassifyaetiologyandpredictanatomicaloutcomesofmacularhole

风灬陌·2024-01-15 04:16

高光谱分类论文解读分享之基于形态卷积神经网络的高光谱影像分类

IEEETGRS2021：基于形态卷积神经网络的高光谱影像分类题目MorphologicalConvolutionalNeuralNetworksforHyperspectralImageClassification作者SwalpaKumarRoy;RanjanMondal;MercedesE.Paoletti;JuanM.Haut;AntonioPlaza关键词Classification,co

曦曦逆风·2024-01-15 04:16

论文解读--High Fidelity Physics Simulation of 128 Channel MIMO Sensor for 77GHz Automotive Radar

77GHz汽车雷达128通道MIMO传感器的高准确度物理仿真摘要汽车雷达是先进驾驶辅助系统(ADAS)和全自动驾驶汽车的使能技术之一。在复杂的城市环境中导航的自动驾驶汽车，除了需要以相当高的分辨率确定目标的距离和速度外，还需要具有高方位角和高俯仰角分辨率的雷达传感器。尺寸和成本限制限制了可用于实现高分辨率到达方向(DoA)估计的天线的物理数量。多输入/多输出(MIMO)方案使用比单输入/多输出(S

奔袭的算法工程师·2024-01-14 23:29

NLP论文解读：无需模板且高效的语言微调模型（下）

©原创作者|苏菲论文题目：Prompt-freeandEfficientLanguageModelFine-Tuning论文作者：RabeehKarimiMahabadi论文地址：https://openreview.net/pdf?id=6o5ZEtqP2g02PERFECT：无需Patterns和Verbalizer的微调模型这个模型主要包含三个部分：1）无需pattern的任务描述，使用了一

NLP论文解读·2024-01-14 15:40

【论文解读】SiamMAE：用于从视频中学习视觉对应关系的 MAE 简单扩展

来源：投稿作者：橡皮编辑：学姐论文链接：https://siam-mae-video.github.io/resources/paper.pdf项目主页：https://siam-mae-video.github.io/1.背景时间是视觉学习背景下的一个特殊维度，它提供了一种结构，在该结构中，可以感知顺序事件、学习因果关系、跟踪物体在空间中的移动，以及预测未来事件。所有这些功能的核心是随着时间的推

深度之眼·2024-01-14 11:03

FasterNet（CVPR 2023）论文解读

paper：Run,Don'tWalk:ChasingHigherFLOPSforFasterNeuralNetworksofficialimplementation：https://github.com/jierunchen/fasternet存在的问题为了设计轻量、速度快的网络，许多工作都专注于减少floating-pointoperations(FLOPs)。但FLOPs的减少并不一定意味着

00000cj·2024-01-14 05:36

论文解读 | 自动编译框架AMOS

软件到硬件资源的自动映射是编译器的一项重要技术，也是业界研究的一个热门方向。本文主要观点来自发表在计算机体系结构领域顶级会议ISCA2022上的一篇论文——AMOS:EnablingAutomaticMappingforTensorComputationsOnSpatialAcceleratorswithHardwareAbstraction，希望可以给读者一些启发。1.摘要如今计算设备逐渐向专用

Linux基金会AI&Data基金会·2024-01-12 15:59

科研学习|论文解读——信息世界映射方法

题目：信息世界映射的下一步是什么？在情境中理解信息行为/实践的国际化和多学科方法（Whatisnextforinformationworldmapping?Internationalandmultidisciplinaryapproachestounderstandinginformationbehaviors/practicesincontext）1.引言信息世界映射（IWM）是一种以艺术为基础

博士僧小星·2024-01-12 15:27

2024年1月10日最热AI论文Top5：DebugBench、AI智能体对齐、开放域问答系统、谈判游戏、联邦学习

夕小瑶·2024-01-12 05:44

今日最佳NLP大模型论文解读：【Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation ......

本文由赛博马良（http://saibomaliang.com）AI专家——AI论文解读达人推荐选题&撰写生成。

夕小瑶·2024-01-12 05:43

今日最佳计算机视觉论文解读：Dr^2Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning

单图像秒变3D：新型AGG框架打破传统，实现实时3D生成引言：单图像到3D生成的挑战与进展随着虚拟现实和增强现实技术的迅速发展，自动化3D内容创建的需求不断增长。为了从单一图像生成3D对象，研究者们探索了各种3D表示方法。其中，基于3D高斯散射的模型因其卓越的渲染效率而在3D重建和生成方面取得了突出成就。然而，现有的基于图像生成3D的高斯散射方法通常是基于优化的，需要多个计算成本高昂的得分提炼步骤

夕小瑶·2024-01-12 05:13

今日最佳AI论文5篇：高效微调、图生3D、AI Agent、大模型ChatGPT、图学习

夕小瑶·2024-01-12 05:13

2024年1月11日最热AI论文Top5：开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈

以下内容由赛博马良-「AI论文解读达人」智能体生成，人工整理排版。「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。

夕小瑶·2024-01-12 05:40

实时语义分割模型PP-LiteSeg论文解读

paper：PP-LiteSeg:ASuperiorReal-TimeSemanticSegmentationModelofficialimplementation：https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.8/paddleseg/models/pp_liteseg.py本文的创新点提出了一种灵活的轻量级解码器（Flexibl

00000cj·2024-01-11 15:11

《Training language models to follow instructions》论文解读--训练语言模型遵循人类反馈的指令

1摘要使语言模型更大并不能使它们更好地遵循用户的意图。例如，大型语言模型可能生成不真实的、有害的或对用户没有帮助的输出。换句话说，这些模型与它们的用户并不一致。在本文中，我们展示了一种方法，通过对人类反馈进行微调（核心idea），在广泛的任务中使语言模型与用户意图保持一致。从一组标注器编写的提示和通过OpenAIAPI提交的提示开始，我们收集了一个标注器演示所需模型行为的数据集，我们使用它来使用监

andeyeluguo·2024-01-11 06:44

人工智能论文解读精选 | PRGC：一种新的联合关系抽取模型

©NLP论文解读原创•作者|小欣论文标题：PRGC:PotentialRelationandGlobalCorrespondenceBasedJointRelationalTripleExtraction

NLP论文解读·2024-01-10 09:43

高光谱分类论文解读分享之基于多模态融合Transformer的遥感图像分类方法

IEEETGRS2023：基于多模态融合Transformer的遥感图像分类方法题目MultimodalFusionTransformerforRemoteSensingImageClassification作者SwalpaKumarRoy,StudentMember,IEEE,AnkurDeria,DanfengHong,SeniorMember,IEEE,BehnoodRasti,Senior

曦曦逆风·2024-01-10 07:57

高光谱分类论文解读分享之基于生成对抗性少数过采样的高光谱图像分类

IEEETGRS2022：基于生成对抗性少数过采样的高光谱图像分类题目GenerativeAdversarialMinorityOversamplingforSpectral–SpatialHyperspectralImageClassification作者SwalpaKumarRoy,StudentMember,IEEE,JuanM.Haut,SeniorMember,IEEE,Mercedes

曦曦逆风·2024-01-10 07:27

【freespace】TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation

莫克_Cheney·2024-01-10 04:25

Attention Is All You Need----Transformer 论文解读

AttentionIsAllYouNeed1.Introduction2.Background3.ModelArchitecture3.1Encoder-DecoderStacks3.2Attention3.2.1ScaledDot-ProductAttention3.2.2Multi-HeadAttention3.2.3ApplicationsofAttentioninourModel3.3Po

FutureForMe@·2024-01-09 20:35

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

涉及面广：多模态生成模型——MLLM（目前集中在视觉语言模型——VLM）、大语言模型——LLM、生成模型（SD系列）、对比学习的经典模型（CLIP系列）。持续更新：对于已经完成解读的会附上链接（有的会在一些场景做尝试，也会附上链接供大家快速参考结果），准备写的会备注筹备中。适宜人群：节省大把时间，快速定位需要的部分，适合学生、入门AIGC者和从业者作为笔记检索使用。RAM论文题目：Recogniz

TigerZ*·2024-01-09 12:45

raft2020年更新_ECCV2020最佳论文解读之递归全对场变换(RAFT)光流计算模型

计算机视觉三大国际顶级会议之一的ECCV2020已经召开。今年ECCV共收到有效投稿5025篇，是ECCV2018论文投稿数量的二倍还要多，接收论文1361篇，接收率为27%，相比上届会议下降了约5%。在接收论文中，oral论文数为104篇，占有效投稿总数的2%，spotlight论文数目为161篇，占比约3%。其中，最佳论文奖由普林斯顿大学ZacharyTeed和JiaDeng摘得，论文题名为R

weixin_39788131·2024-01-09 10:27

论文解读：CBAM: Convolutional Block Attention Module--ECCV2018

摘要：作者提出一个ConvolutionalBlockAttentionModule(CBAM)。给定一个特征图，作者的模块可从两个维度（通道和空间）按顺序地推出注意力图，然后将注意力图与输入的特征图进行点积，从而可以自适应地提炼特征。因为CBAM是个轻量级的通用模块，所有它可以整合到任何CNN框架中，并且计算成本几乎不变。QQ截图20190610123827.png1.Introduction为

jscdw·2024-01-09 04:08

VQ-VAE(Neural Discrete Representation Learning)论文解读及实现

pytorch实现git地址论文地址：NeuralDiscreteRepresentationLearning1论文核心知识点encoder将图片通过encoder得到图片点表征如输入shape[32,3,32,32]通过encoder后输出[32,64,8,8](其中64位输出维度)量化码本先随机构建一个码本，维度与encoder保持一致这里定义512个离散特征，码本shape为[512,64]

晚点吧·2024-01-08 16:41

GPT(Generative Pre-Training)论文解读及源码实现(二)

本篇为gpt2的pytorch实现，参考nanoGPTnanoGPT如何使用见后面第5节1数据准备及预处理data/shakespeare/prepare.py文件源码分析1.1数据划分下载数据后90%作为训练集，10%作为验证集withopen(input_file_path,'r')asf:data=f.read()n=len(data)train_data=data[:int(n*0.9)]

晚点吧·2024-01-08 16:04

哥又来看论文了《Deepfake Video Detection Using Convolutional Vision Transformer》

适合我这个小白（憨憨）看~论文的整体架构图：论文解读：首先看看人家摘要写的：1.我们在DeepFake检测挑战数据集(DFDC)上训练我们的模型，并实现了91.5%的准确率，AUC值为0.91，损失值为

一只发呆的猪·2024-01-08 11:55

Video-GroundingDino论文解读

文章目录前言一、摘要二、引言三、贡献四、模型结构1、模型定义与问题数据少问题模型解决问题模型模块2、模型结构模型结构图Cross-ModalitySpatio-TemporalEncoderLanguage-GuidedQuerySelectionCross-ModalitySpatio-TemporalDecoderPredictionHeads总结前言之前我在博客介绍了一篇groundingD

tangjunjun-owen·2024-01-07 19:05

GFS论文解读(一)——设计概述

介绍在当今大数据时代，分布式文件系统已经成为处理海量数据的重要工具。而在这个领域中，「GFS（GoogleFileSystem）」论文无疑是一篇具有里程碑意义的文献。GFS由Google公司发表于2003年，它介绍了Google公司内部使用的分布式文件系统，该系统为Google的大规模数据处理提供了坚实的基础。该论文的重要性在于它提出了一种全新的分布式文件系统架构，该架构具有「高可靠性、高扩展性和

健鑫.·2024-01-07 18:53

一种可扩展的多属性可控文本生成即插即用方法

《Anextensibleplug-and-playmethodformulti-aspectcontrollabletextgeneration》论文解读文章的主要工作（1）提出了一种可扩展的即插即用方法

青云遮夜雨·2024-01-07 13:24

《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读

文章的主要工作（1）在文化上，对相声剧本进行了大规模的数字化和清洗，为NLP研究界和中国传统文化界做出了贡献。这将激发更多相声剧本的创作，从而保护这一非物质文化遗产。目前，大多数相声剧本似乎同质化，这是限制其广泛传播的主要瓶颈之一。这项工作将促进其多样性和创造性，这有利于防止其灭绝。（2）在技术上，对各种方法进行了基准测试，包括Seq2seq、从头开始训练GPT、预训练GPT2和GPT-3，以生成

青云遮夜雨·2024-01-07 13:54

BART论文解读：BERT和GPT结合起来会发生什么？

BART:DenoisingSequence-to-SequencePre-trainingforNaturalLanguageGeneration,Translation,andComprehension主要工作提出了BART(BidirectionalandAuto-RegressiveTransformers)，是一种用于自然语言生成、翻译和理解的序列到序列的预训练方法。它通过先用任意噪声函

青云遮夜雨·2024-01-07 13:50

论文解读：P-Tuning v2: Prompt Tuning Can BeComparable to Fine-tuning Universally Across Scales and Tasks

1介绍提示调优只使用冻结的语言模型来调优连续的提示，这大大减少了每次任务的存储和训练时的内存使用。然而，在NLU的背景下，先前的工作表明，对于正常大小的预训练模型，即时调优并不能很好地执行。还发现，现有的提示调优方法无法处理硬序列标记任务，这表明缺乏通用性。论文提出了一个新的经验发现，即适当优化的prompttuning可以在广泛的模型规模和NLU任务中普遍有效。它与微调的性能相匹配，同时只有0.

智慧医疗探索者·2024-01-07 10:35

【论文解读】基于神经辐射场NeRF的像素级交互式编辑（Seal-3D）

来源：投稿作者：橡皮编辑：学姐论文链接：https://arxiv.org/pdf/2307.15131项目主页：https://windingwind.github.io/seal-3d/摘要：随着隐式神经表征或神经辐射场（NeRF）的普及，人们迫切需要与隐式三维模型交互的编辑方法，以完成重建场景的后期处理和三维内容创建等任务。虽然以前的作品从不同角度探索了神经辐射场编辑，但它们在编辑灵活性、质

深度之眼·2024-01-07 10:11

科研学习|论文解读——超准确性反馈：使用眼动追踪来检测阅读过程中的可理解性和兴趣

摘要：了解用户想要什么信息是信息科学和技术面临的最大挑战。隐式反馈是解决这一挑战的关键，因为它允许信息系统了解用户的需求和偏好。然而，可用的反馈往往是有限的，而且其解释也很困难。为了应对这一挑战，我们提出了一项用户研究，探索追踪眼动是否可以解开相关性和相关性决策固有的部分复杂性。将阅读18篇新闻文章的30名参与者的眼睛行为与他们在话语层面上主观评价的理解力和兴趣进行了比较。使用线性回归模型，眼球追

博士僧小星·2024-01-07 03:49

RoBERTa - 论文解读

GitHub地址：BERT论文解读：https://www.jianshu.com/p/18ebd5ab4e450、摘要：语言模式预训练已经带来了显著的性能提

涓涓自然卷·2024-01-07 01:24

Neural Tangent Kernel 理解（一）原论文解读

欢迎关注WX公众号，每周发布论文解析：PaperShare,点我关注NTK的理解系列暂定会从（一）论文解读，（二）kernelmethod基础知识，（三）神经网络表达能力，（四）GNN表达能力等方面去写

Bagba·2024-01-06 21:43

Apollo EM Planner 论文解读

注：本文章主要在于EMPlanner论文解读，想要全部掌握EMPlanner的精髓，需要阅读源代码！！！

Super超星·2024-01-06 20:00

论文解读Language-based Action Concept Spaces Improve Video Self-Supervised Learning

Language-basedActionConceptSpacesImproveVideoSelf-SupervisedLearning基于语言的动作概念空间改善视频自我监督学习备注:最近研究需要，先将翻译概括内容放这里论文地址：论文https://arxiv.org/pdf/2307.10922v3.pdf摘要最近的对比语言图像预训练已经导致学习高度可转移和鲁棒的图像表示。然而，在最少的监督下将

出门吃三碗饭·2024-01-06 05:24

论文解读Deep fake geography？ When geospatial data encounter Artificial Intelligence

论文链接：https://doi.org/10.1080/15230406.2021.1910075数据集链接：FakeSatelliteImagery(figshare.com)人工智能(ai)与地理科学(gisscience)的不断融合，引发了人们对深度假地理的出现及其改变人类对地理世界感知的潜力的担忧。本文立足于现代地图学和地理信息科学背景下的假地理，对不存在景观特征的卫星图像造假算法机制进

平殊·2024-01-05 10:08

论文解读：A New CNN Building Block for Low-ResolutionImages and Small Objects

引言之前通过stride和pooling这些下采样操作，但是这些操作都会或多或少丢失图像的信息，所以这不适用于具有低分辨率图像和小物体的更困难的任务上。像池化选择maxpooling或者是averagepooling、卷积的步长(太大的话会丢失信息)都是很头疼的问题，为此设计SPD模型。摘要卷积神经网络(cnn)在图像分类和目标检测等计算机视觉任务中取得了巨大的成功。然而，在图像分辨率低或物体很小

十有久诚·2024-01-04 02:53

《C/C++ 面试 100 例》（四）vector 扩容策略

文章目录一、引例1、vector扩容概述2、扩容时机3、扩容尝试二、扩容逻辑解析1、扩容逻辑实现2、精简后的扩容逻辑3、验证扩容逻辑4、优化三、论文解读补充1、Size和Capacity2、内存重分配3

英雄哪里出来·2024-01-02 20:36

学习个人随笔

现阶段，作为一名大学生，首先要知道自己学习的目的：比如拿毕业证学位证和学士学位证，学好专业知识，提升能力素养等。首先是毕业证。在本人所在学校用不上每天刻苦学习也能拿到，如果仅仅以毕业证学位证为目的，那学习就只会会学到符合毕业要求为止，不能真正提高不断学习的动力和学习的兴趣。那如何才能更有效的学习？就要从自己的学习目的开始。以提升能力素养为目的：这是一个比较有效的增加自己学习动力的方法，甚至能培养自

思维导图与逻辑·2024-01-02 07:14

识别一切模型RAM（Recognize Anything Model）及其前身 Tag2Text 论文解读

总览大家好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」~担任某大厂的算法工程师，带来最新的前沿AI知识和工具，欢迎大家交流~部分图片不可见，可参考link。继MetaAI的SAM后，OPPO研究院发布识别一切模型（RecognizeAnythingModel，RAM）：项目链接：https://recognize-anything.github.io/Demo链接：https://hug

陈城南·2024-01-01 13:44

ChinaSoft 展商风采 | 蚂蚁CodeFuse：开源介绍与论文解读

2023年CCF中国软件大会（CCFChinaSoft2023）由CCF主办，CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办，于2023年12月1-3日在上海国际会议中心举行。本次大会主题是“智能化软件创新推动数字经济与社会发展”，学术、工业、教育、竞赛等分论坛活动40余场。目前大会已圆满结束！CCFChinaSoft2023官方首页：http://chinasoft.

pengxin_ce·2024-01-01 11:25

XGBoost理论推导+论文解读-下篇

确定树结构通常采用贪心法，每次尝试分裂一个叶节点，计算分裂后的增益，选增益最大的。这个方法在之前的决策树算法中大量被使用。而增益的计算方式比如ID3的信息增益，C4.5的信息增益率，CART的Gini系数等。而在XGBoost中，计算增益的公式：Gain=12[GL2HL+λ⏟左子树分数+GR2HR+λ⏟右子树分数−(GL+GR)2HL+HR+λ⏟分裂前分数]−γ⏟新叶节点复杂度\text{Gai

金鸡湖最后的张万森·2023-12-31 23:24

【论文解读】用于概念标定的逻辑强化大模型LEFT（NeurIPS 2023）

来源：投稿作者：橡皮编辑：学姐论文链接：https://arxiv.org/abs/2310.16035开源代码：https://github.com/joyhsu0504/LEFT摘要：VisProg和ViperGPT等最新研究成果巧妙地组成了视觉推理的基础模型--利用大型语言模型（LLM）生成可由预先训练的视觉语言模型执行的程序。然而，它们只能在有限的领域（如二维图像）中运行，无法充分发挥语言

深度之眼·2023-12-31 02:13

Generalized Focal Loss V1论文解读

摘要单级检测器基本上将物体检测表述为密集分类和定位（即边界框回归）。分类通常通过FocalLoss进行优化，而边界框的定位通常根据Diracdelta分布进行学习。单级检测器的最新趋势是引入一个单独的预测分支来估计定位质量，预测质量有助于分类，从而提高检测性能。本文深入探讨了上述三个基本要素：质量估计、分类和定位的表示方法。在现有实践中发现了两个问题，包括：(1)质量估计和分类在训练和推理中的使用

羽星_s·2023-12-30 21:29

推荐频道

个人随笔（论文解读