语义分割论文笔记

DeepLabv3+改进23:在主干网络中添加DilatedReparamBlock

AICurator·2025-03-26 22:29

MATLAB 2024b深度学习工具箱新特性全面解析与DeepSeek大模型集成开发：卷积神经网络、迁移学习算法、时间卷积网络、生成式对抗网络、自编码器、目标检测YOLO模型、语义分割、注意力机制等

随着人工智能技术的飞速发展，其与多学科的交叉融合以及在工程实践领域的纵深拓展已成为时代潮流。在这一背景下，MATLAB2024b深度学习工具箱应运而生，凭借架构创新与功能强化，为科研工作者提供了一套全栈式的科研创新与行业应用解决方案，具有重要的时代意义。本教程紧密围绕该版本工具链的三大革新方向展开，致力于助力科研工作者在深度学习领域取得突破性进展。首先，构建了覆盖经典模型与前沿架构的体系化教程，从

WangYan2022·2025-03-26 03:06

（附论文笔记+项目源码+训练技巧）

摘要：从被嘲“调参侠”到GitHub万星大佬，我花了487天吃透大模型技术栈。用14张思维导图+32个实战项目，拆解出普通人可复制的进阶路径，文末送《大模型学习大礼包》（含2TB预训练数据+行业白皮书）。一、为什么你的大模型学习总是卡壳？2023行业调查报告显示：92%学习者停滞在微调阶段，核心痛点集中在：论文看不懂：Transformer源码像天书环境配不好：CUDA版本冲突天天报错算力不够用：

大模型入门教程·2025-03-25 01:17

不搞花里胡哨！CMU最新开源：极简风格的LiDAR全景分割+跟踪！

文末附行业细分群1.笔者个人体会激光雷达全景分割（LPS）一般遵循自下而上的以分割为中心的范式，利用聚类获得对象实例来建立语义分割网络。

3Ｄ视觉工坊·2025-03-22 08:41

u-net系列算法

语义分割M整体结构：M概述就是编码解码过程简单但是很实用，应用广起初是做医学方向，现在也是U-net主要网络结构：还引入了特征拼接操作M以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好U-net

㡽闧㔯·2025-03-21 11:06

DeepLabv3+改进18:在主干网络中添加REP_BLOCK

探索语义分割新高度】你是否在为图像分割的精度与效率发愁？

AICurator·2025-03-21 03:01

3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）

通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。

夏末之花·2025-03-20 00:42

论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation

论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra

kingsleyluoxin·2025-03-19 18:55

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer

985小水博一枚呀·2025-03-19 14:58

3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION

现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签，缺乏理解复杂自然语言的能力，导致在开放世界场景中的泛化能力有限。

UnknownBody·2025-03-18 16:00

论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring

这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda

爱学习的小菜鸡·2025-03-18 09:55

A survey on instance segmentation: state of the art——论文笔记

摘要这篇论文综述了实例分割的研究进展，定义其为同时解决对象检测和语义分割的问题。论文讨论了实例分割的背景、面临的挑战、技术演变、常用数据集，并总结了相关领域的最新成果和未来研究方向。

栀子清茶·2025-03-17 06:54

MobileNet家族：从v1到v4的架构演进与发展历程

MobileNet是一个专为移动设备和嵌入式系统设计的轻量化卷积神经网络（CNN）家族，旨在在资源受限的环境中实现高效的图像分类、对象检测和语义分割等任务。

彩旗工作室·2025-03-17 05:44

整理：4篇论文介绍实时语义分割的未来，Transformer架构下的性能与效率平衡

在Transformer架构推动下，计算机视觉领域致力于打造一个极为强大且通用的大规模模型，它能处理物体检测、图像分割等多种任务。不少基于Transformer架构的研究成果显著，其通用模型在特定应用中表现出色，在图像和视频分割方面，通用设计的研究成果也超越了以往定制模型。其中，分割一切模型（SAM）在交互式分割中表现突出，能统一应对点、边界框、掩码和文本输入等交互方式。然而，多数此类研究存在弊端

mslion·2025-03-13 08:25

【Scannet V2 三维数据集下载】

ScannetV2三维数据下载ScannetV2数据介绍：“ScanNet是一个RGB-D视频数据集，包含2多次扫描中的5万次观看，并带有1500D摄像机姿势、表面重建和实例级语义分割进行注释。

萧伯纳.·2025-03-13 03:20

AIGC视频生成模型：ByteDance的PixelDance模型

好评笔记·2025-03-11 21:09

LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning

Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo

Zhouqi_Hua·2025-03-11 03:10

点云语义分割：PointNet++在S3DIS数据集上的训练

点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。

完美代码·2025-03-11 00:25

[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比

https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告：https://ai.meta.com/blog/meta-llama-3-1/

心心喵·2025-03-10 01:02

LLM时代的小模型思考：《What is the Role of Small Models in the LLM Era: A Survey》论文笔记

论文：WhatistheRoleofSmallModelsintheLLMEra:ASurvey作者：LihuChenetal.单位：ImperialCollegeLondonAbstract问题：扩大模型大小会导致计算成本和能耗呈指数级增长，这使得这些模型对于学术研究人员和资源有限的企业来说不切实际小型模型（SMs）经常用于实际环境中，引发了关于小模型在LLM时代的作用的重要问题，且关注有限方法

FrancisQiu·2025-03-09 14:02

深度学习篇---Opencv中的机器学习和深度学习

创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割

Ronin-Lotus·2025-03-08 19:05

【YOLOv12改进trick】StarBlock引入YOLOv12，创新涨点优化，含创新点Python代码，方便发论文

改进优势：简单粗暴的星型乘法涨点却很明显适用场景：目标检测、语义分割、自然语言处理等多种场景高效紧凑的模型，不适用于大模型思路来源：CVPR2024《RewritetheStars》目录1.设计动机2.

zy_destiny·2025-03-08 02:46

深度学习代码分析——自用

tab=readme-ov-file借助了一些人工智能1_train_stage1.py代码功能总览该代码是弱监督语义分割（WSSS）流程的Stage1训练与测试脚本，核心任务是通过多标签分类模型生成图像级标签

肆——·2025-03-05 08:28

【论文笔记】3DGS压缩相关工作2篇

1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期

AndrewHZ·2025-03-05 06:11

DenseUNet 改进：添加ASPP模块

改进3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.ASPP模块ASPP（AtrousSpatialPyramidPooling，空洞空间金字塔池化）是语义分割模型

听风吹等浪起·2025-03-05 03:14

计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手

一、引言在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）长期以来一直是核心技术，自诞生以来，它在图像分类、目标检测、语义分割等诸多任务中都取得了令人瞩目的成果

紫雾凌寒·2025-03-04 16:20

VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》

FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能

OAK中国_官方·2025-03-01 20:56

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案

https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P

心心喵·2025-03-01 04:25

Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记

Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对

Im Bug·2025-02-28 07:24

文章精读篇——用于遥感小样本语义分割的可学习Prompt

CVPR2024Workshop论文：10.48550/arXiv.2404.10307相关竞赛：https://codalab.lisn.upsaclay.fr/competitions/17568年份：2024任务背景小样本语义分割

LiXiang like coding吗·2025-02-28 04:59

论文笔记（七十二）Reward Centering（一）

RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202

墨绿色的摆渡人·2025-02-26 21:20

论文笔记：Enhancing Sentence Embeddings in Generative Language Models

2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模

UQI-LIUWJ·2025-02-26 20:17

计算机视觉实战｜Mask2Former实战：轻松掌握全景分割、实例分割与语义分割

作为一名技术博主，我的目标是让复杂的概念变得简单易懂，即使你是刚入门的小白，也能通过这篇文章学会使用Mask2Former进行全景分割、实例分割和语义分割。我会用通俗的语言一步步讲解，还会

紫雾凌寒·2025-02-26 16:47

动态视觉SLAM的亿点点思考（含20项最新开源代码链接）[上篇]

现有的模板基本就是使用目标检测或者语义分割网络剔除动态特征点，然后用几何一致性做进一步的验证。笔者最近也在思考突破口，

3Ｄ视觉工坊·2025-02-26 05:57

LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加

Zhouqi_Hua·2025-02-23 14:30

人工智能训练师如何做图像数据标注，从情感分析和实体分析两个个场景分析

高质量的图像数据标注对于训练情感识别模型和目标检测/语义分割模型至关重要。

小宝哥Code·2025-02-23 12:47

多模态论文笔记——DiT（Diffusion Transformer）

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat

好评笔记·2025-02-23 04:19

LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers

Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和

Zhouqi_Hua·2025-02-20 07:15

LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy

Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform

Zhouqi_Hua·2025-02-19 02:47

[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化

成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文

心心喵·2025-02-19 02:45

景联文科技数据处理平台：支持高质量图像标注服务

分割标注：包括语义分割（同一类别的所有实例被视为整体）和实例分割（每

景联文科技·2025-02-17 00:35

Python实战：解析labelme标注数据——如何将数据转换为COCO格式

在计算机视觉中，标注数据是非常重要的，而Labelme是一个简单易用的自由标注工具，被广泛应用于图像语义分割、目标检测、实例分割等领域，然而标注数据并不总是以我们需要的格式存在，因此需要进行适当的转换，

程序员杨弋·2025-02-16 11:24

【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：[email protected]）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe

大表哥汽车人·2025-02-15 02:40

计算机视觉四大任务模型汇总

计算机视觉中有四大核心任务：1-分类任务、2-目标检测任务、3-目标分割任务和4-关键点检测任务文章1：一文读懂计算机视觉4大任务文章2：图像的目标分割任务：语义分割和实例分割不同任务之间相关但不完全相同

Zero_one_ws·2025-02-14 05:59

论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》

基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过

I_dyllic·2025-02-14 03:57

【语义分割专题文章】

本栏聚焦在语义分割的相关算法，专栏内文章的代码均已实现。

BoostingIsm·2025-02-13 22:59

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

1.引言语义分割是计算机视觉中的重要任务，其目标是将输入图像中的每个像素分类到特定的类别。

高山仰星·2025-02-12 15:06

python工具方法 19 语义分割结果转labelme标注（可用于大图裁剪）

将语义分割结果进行转换为labelme标注后，可用再次进行调整，然后重新生成标注数据。

万里鹏程转瞬至·2025-02-11 10:15

使用U-Net处理Postdam数据集进行语义分割任务如何从准备数据到训练和评估一个基于U-Net的模型。训练使用遥感影像分析研究语义分割数据集

使用U-Net处理Postdam数据集进行语义分割任务如何从准备数据到训练和评估一个基于U-Net的模型。

计算机C9硕士_算法工程师·2025-02-10 22:07

TC-LLaVA论文笔记

RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q

0yumiwawa0·2025-02-10 03:27

推荐频道