路过的风666

RO-NeRF论文笔记

文章目录

RO-NeRF论文笔记
论文概述
Abstract
1 Introduction
2 Related Work
3 Method
- 3.1 RGB and depth inpainting network
- 3.2 Background on NeRFs
- 3.3 Confidence-based view selection
- 3.4 Implementation details
4 Experiments
- 4.1 Datasets
- - Real Objects
  - Synthetic Objects
- 4.2 Metrics
- 4.3 Ablations and comparison with baselines
- 4.4 Limitations
5 Conclusion

Github：Removing Objects from Neural Radiance Fields

项目地址：https://nianticlabs.github.io/nerf-object-removal/

论文概述

目的：在共享 NeRF 之前，可能需要删除个人信息或难看的物体。

方法：提出了一个框架，用于从 RGBD 序列创建的 NeRF 表示中删除对象。我们的 NeRF 修复方法利用了最近在 2D 图像修复方面的工作(LaMa)，并由 user-provided mask 指导。我们的算法以基于置信度的视图选择程序为基础。它选择在创建 NeRF 时使用那些单独的 2D 修复图像，以便生成的修复 NeRF 是 3D 一致的。

贡献：

提出了第一个聚焦于利用单个图片修复的inpainting-NeRFs的方法。
提出了一个新的view-selection机制，能自动去除不连续的views。
提出了一个新数据集，用于评估室内/室外场景下的object removal和inpainting。

Abstract

神经辐射场 (NeRFs) 正逐步应用到场景表征的各个方向，来实现新颖视图的合成。NeRF 将越来越多内容与其他人共享。不过，在共享 NeRF 之前，可能需要删除个人信息或难看的物体。使用当前的 NeRF 编辑框架不容易实现这种删除。我们提出了一个框架，用于从 RGBD 序列创建的 NeRF 表示中删除对象。我们的 NeRF 修复方法利用了最近在 2D 图像修复方面的工作，并由 user-provided mask 指导。我们的算法以基于置信度的视图选择程序为基础。它选择在创建 NeRF 时使用那些单独的 2D 修复图像，以便生成的修复 NeRF 是 3D 一致的。我们研究表明，我们的NeRF 编辑方法能有效的以多视图连贯的方式合成合理的修复。我们为NeRF Inpainting任务提出了一个新的且仍有挑战性的数据集，从而验证了我们的方法。

1 Introduction

NeRFs应用已经超出了最初的新视角合成任务，让非专业用户也能使用NeRF进行一些新颖的应用：如NeRF编辑或实时捕捉和训练。但是，其中会出现很多问题。

首当其冲的是如何无缝移除渲染场景的部分内容。例如：房产销售网站上共享的房屋扫描图可能需要移动不美观或可识别个人身份的物体。同时，物体也可以被移除，以便AR应用中的替换3D物体操作，例如：移除一张椅子并查看新椅子在相同位置的效果。

事实上，NeRFs编辑应用已有很多探索，例如，以对象为中心的表征将标注对象从背景中分离、语义分解。但他们不能生成任何视角都未观察到的元素。

由上图所示，我们解决了场景中移除障碍物的问题，同时真实的填补了由此产生的漏洞。有两个需要用到的：

多视角信息：当场景的某些部分在某些帧中被观察到，但在另一些帧中被遮挡。
利用生成过程来填补从未被观察到的区域。

为此，我们将NeRFs的多视角一致性和Lama的生成能力相结合。但是，lama这种2D修复在结构上不具有多视角一致性，从而导致最终渲染出来的结果中很可能包含严重的伪影。因此，我们设计了一种新的基于置信度的视图选择方案，通过迭代的方式从优化中删除不一致的修复。

我们在一个新数据集上验证了我们的方法，结果表明，我们的新视图合成方法优于现有的方法，并能产生多视图一致的结果。

总的来说，贡献如下：

提出了第一个聚焦于利用单个图片修复的inpainting-NeRFs的方法。
提出了一个新的view-selection机制，能自动去除不连续的views。
提出了一个新数据集，用于评估室内/室外场景下的object removal和inpainting。

2 Related Work

Image inpainting：对单个图片进行缺失区域填补。但是，这些方法无法实现视频帧之间的时间一致性。
Removing moving objects from videos：这个问题研究的比较透彻，大多数工作都聚焦在移除移动物体上，通常是在附近帧的引导下实现的，移动的物体会使任务变得更加简单。
Removing static objects from videos
- 如果序列中其他帧可以看到被遮挡的像素，则可以利用这些像素来填充区域。
- 但是，通常有一些像素在其他视图中无法看到，则需要对这些像素进行填补。
Novel view synthesis and NeRFs
- NeRF是非常流行的基于图像的渲染方法，用可微分体积渲染公式表示场景。训练多层感知机来回归给定三维坐标和光线观察方向的颜色和不透明度。它结合了隐式三维场景表示法、光场渲染和新型视图合成。扩展工作包括了减少混叠伪影、应对无边界场景、仅从稀疏视图重构场景、利用八叉树或其他稀疏结构等方式提高NeRF的效率。
- 深度感知的NeRF：为了克服NeRF对高密度视图的要求和重建几何图形质量的限制，在训练中使用深度（可以来自于SfM或传感器的深度）。
- 用于编辑的以对象为中心和语义的NeRF
  - 动态场景：基于运动，有更多的背景可见，对背景的建模效果更好。
  - 静态场景：基于实例分割，不考虑删除物体后的场景是完整的，很可能被删除物体后的背景是嘈杂的，或因为缺乏观察而出现空洞。
- 用于新视图合成的****生成模型
  - 三维感知生成模型可用于以三维一致的方式从不同视角合成物体或场景的视图。与 NeRF model仅能通过测试的方式并很可能对某个场景过拟合相比，生成模型可以通过潜在变量空间中采样，幻化出新物体的视图。为了训练一个生成模型，需要大量的RGB+相机姿态的室内场景（甚至需要depth），相比之下，我们使用2D inpainting network(lama更少依赖于训练数据和室内场景。
- 新视图合成中的inpainting
  - Inpainting通常作为新视角合成的一个组成部分，用于估计输入图像中未观察到的区域的纹理，例如全景生成、Philipp等人的针对image-based-rendering的object removal，但他们假设了背景区域是局部平面。与我们方法类似，有两个工作利用了单个图片修复的方法，移除了NeRFs中的物体，他们针对多视角不一致问题，一个是[33]选择了在mask中的NeRF优化下使用单视角、另一个是[43]使用了percetual loss.

3 Method

我们假设给定了包含了相机内外参的RGB-D序列，深度和姿态是可以获取到的，例如使用一个dense的SfM。

我们使用了Apple’s ARKit直接获取RGB-D序列，但我们依旧展示了使用多视图立体方法预测RGB序列的深度。

我们还假定可以访问要删除对象的每帧mask。

目的：由这些input学一个NeRF，它能合成连续的新视图，每帧masked区域会被合理的填补。Overview如下：

3.1 RGB and depth inpainting network

我们的方法依赖于2D single image inpainting（对每个RGB图像进行修复），除此之外，还需要depth inpainting network，我们视这两个网络为黑盒，未来inpainting方法改进后能直接迁移至我们方法进行改进。

给定一张RGB图像 $I_n$ 和对应mask $M_n$ ，per-image inpainting算法会得到修复后的新RGB图像 $\hat{I}_n$ .

类似的，depth inpainting算法会生成对应的深度图 $\hat{D}_n$

inpainting结果如下：

3.2 Background on NeRFs

$\hat{I}_n(r)$ 公式
原本的NeRF loss： $L_{RGB}$ 公式
额外的Depth loss： $L_{depth}$ 公式
Distortion regularizer loss， $l_{dist}(r)$ 公式

3.3 Confidence-based view selection

大多数inpainted RGB images $\hat{I}_n$ 很逼真，但存在一些问题：

一些inpainting是不正确的。
尽管每个inpainting都很逼真，但没有保证多视角一致性。

因此，我们提出一个基于置信度的视角选择方案（选择哪些视角用于NeRF优化）

对于每张RGB图像 $I_n$ ，对应一个非负的uncertainty measure $u_n$ ，一个置信度 $e^{-u_n}$ ，用于re-weight NeRF loss，该置信度可以被视为权重衰减项。RGB loss公式如下：

其中，对于mask内的像素（loss的第二项），由inpainted图像进行监督；对于mask以外的像素（loss的第一项），由输入的RGB图像监督。事实上， $P$ 并不是{1,…,N}的全集，只有一部分inpainted regions会用于NeRF优化。

Depth loss公式如下，也是根据mask内外进行划分的。

最后，引入两个正则化因子:

一个是uncertainty weights $L_{reg}^P=\sum_{n∈P}{u_n}$ ，它能防止 $e_{-u_n}$ 为0.

另一个是distortion regularizer，loss的具体公式如下：

View Direction and multi-view consistency

优化NeRF有三个observations：

inpainting中的多视角不连续能由使用了viewing direction的网络建模。
输入中移除viewing direction能增强多视角一致性。
输入中不使用viewing direction时，不连续会导致云状的伪影。

为了防止1和3，并正确优化uncertainty $u_n$ (用于捕获 $\hat{I}_n$ 中的不确定性)，我们提出

增加额外的network head: $F_{\theta}^{MV}$ ，不以viewing direction作为输入。
停止color inpainting和 $F_{\theta}^{MV}$ 对density的梯度。
Uncertainty $u_n$ 作为唯一一个view-dependent的输入。

这种设计能使模型将inpaintings之间的不连续编码至uncertainty prediction。

$F_{\theta}^{MV}$ 对应的损失项由公式5计算： $L_{RGB}^P{(\hat{I}^{MV})}$

$F_{\theta}^{MV}$ 的输出不用于最终的渲染，该extra head对应的loss将作为正则项。

最终，我们的loss公式如下：

$L^P=\lambda_{RGB}L_{RGB}^P(\hat{I})+\lambda_{RGB}L_{RGB}^P(\hat{I}^{MV})+\lambda_{depth}L_{depth}^P+\lambda_{reg}L_{reg}^P+\lambda_{dist}L_{dist}^P$

1:1:0.005:1

对MLP参数 $\theta=\{\theta^{\sigma},\theta^{c},\theta^{MV}\}$ 和uncertainty权重 $U^P=\{u_n,n∈P\}$ 进行优化。

所有图像的置信度被初始为1，也就是说 $u_n:=0$

loss的部分代码实现：

而3DGS的loss函数如下：

Iterative refinement

我们使用每个图像被预测出的uncertainty: $u_n$ ，逐步将不可信的图像从NeRF优化过程中移除，也就是说，我们不断更新集合 $P$ （会造成mask区域的损失）。在迭代 $K_{grad}$ 次优化 $L^P$ 后，我们取预测出的置信度的中位数 $m$ ，然后将所有置信度低于m的2D inpainted resgions从训练集中移除，接着，利用更新后的训练集重新训练NeRF，该过程重复 $K_{outer}$ 次。伪代码如下：

注意：除了集合 $P$ 以外的图像依旧会参与优化，但只针对非mask区域的射线，因为这些射线包含有关场景的宝贵信息。

3.4 Implementation details

Masking the object to be removed

与其他修复方法类似，我们需要输入每帧的mask。很多现有的修复方法是通过手工标注的方式，得到每帧的mask。而我们手工标注包含物体的3D box，利用MeshLab可视化并标注3D点云，这样每个场景只需要做一次即可。除了手工标注以外，我们还能依靠2D object segmentation(例如SAM)，或者3D object bbox detectors来实现。

Mask refinement

实践过程中，我们发现标注的3D bbox得到的mask是十分粗糙的，包含了很大部分的背景。由于较大的msak会导致修复质量较差，我们由此提出了一个msak refinement方法去获取更加贴合object的mask。该方法对于已经很贴合object的mask是不需要的，直觉上，该方法只需要移除3D bbox中空白(无物体)的空间。

首先，我们获取3D bbox中的3D点云，我们精炼后的mask是将这些点在每个图像上渲染而得到，并与深度图进行简单比较从而检查当前图像中的遮挡。最终的mask由二值化的膨胀和腐蚀算法进行去噪而得到。Mask refinement的前后对比图如下所示：

Inpainting network

我们分别对RGB和Depth图进行了独立的修复，我们的深度图预处理后，深度的区间为[0m,5m]，像素值的区间为[0,255]。

NeRF estimation

我们对loss函数中的不同项进行赋权，分别为 $\lambda_{RGB}=\lambda_{depth}=\lambda_{depth}=1, \lambda_{reg}=0.005$ .

我们设置了过滤步骤（将低置信度的图像从训练集中移除），每隔 $K_{grad}$ 移除一轮，一共移除 $K_{outer}=4$ 次。

4 Experiments

4.1 Datasets

本工作引入了一个真实场景下的RGB-D数据集，用于评估物体移除的质量。

Real Objects

该数据集由 17 个场景组成，这些场景集中在一个有一个感兴趣物体的小区域内。这些场景在背景纹理、物体大小和场景几何复杂度方面的难度各不相同。对于每个场景，我们都收集了两个序列，一个有我们想要移除的物体，另一个没有。这些序列是在配备激光雷达的 hone 12 Pro 上使用 ARKit[2] 收集的，包含 RGB-D 图像和姿势。

如第 3.4 节所示，我们对mask进行了标注和改进。

训练：包含物体和相应mask的序列
测试：不包含物体的序列

使用真实物体可以更容易的评估系统如何处理真实阴影和反射，以及新视图合成。

Synthetic Objects

大多数视频和图像的修复方法，不会进行新视角生成，意味着不能公平的在Real objects上评估。因此，我们对数据集进行了合成增强。该数据集与Real Objects的场景是相同的，但只使用没有物体的序列。然后，我们对每个场景手动定位来自ShapeNet的3D物体。Masks由mesh投影到输入图像上，这是我们对3D object mesh的唯一用途。

训练：除测试外的帧用于训练。
测试：每隔8帧进行测试。

4.2 Metrics

为了评估物体移除和填补的质量，我们对比test集中的rendered image和gt image【只计算图片中的mask区域】

PSNR
SSIM
LPIPS

为了评估几何完成度，我们计算rendered 和gt 的depth maps的L1和L2 error【只计算图片中的mask区域】

4.3 Ablations and comparison with baselines

Image and video inpainting baselines
- Image LaMa
- Video inpainting E2FGVI
3D scene completion baselines
- PixelSynth
- CompNVS
- Object compositional NeRF
Ablations
- Masked NeRF
- Inpainted NeRF
- Inpainted NeRF + inpainted Depth
- Ours – no depth
- Ours – depth predicted using [62]

4.4 Limitations

RO-NeRF会受到2D修复方法的性能限制，当mask较大的时候，很可能2D修复会失败。
渲染的时候会出现模糊现象，这是由于2D修复中的高频纹理闪烁造成的。
物体的投影或反射没有很好的处理。

5 Conclusion

我们提出了一个训练NeRF的框架，在这个框架中，物体从输出的渲染图中合理地移除。我们的方法借鉴了现有的2D修复工作，并引入了基于置信度的自动视图选择方案，以选择具有多视图一致性的单视图inpaintings。

实验证明，与现有的方法对比，我们提出的方法改善了三维内画场景的新视角同步性，尽管依旧存在模糊问题。我们还引入了一个用于评估这项工作的数据集，为该领域的其他研究人员树立了一个基准。

yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion Model 论文阅读钟屿论文阅读人工智能深度学习学习图像处理计算机视觉
Diff-Retinex：用生成式扩散模型重新思考低光照图像增强摘要本文中，我们重新思考了低光照图像增强任务，并提出了一种物理可解释的生成式扩散模型，称为Diff-Retinex。我们的目标是整合物理模型和生成网络的优点。此外，我们希望通过生成网络补充甚至推断低光照图像中缺失的信息。因此，Diff-Retinex将低光照图像增强问题表述为Retinex分解和条件图像生成。在Retinex分解中，我
【论文阅读】人工智能在直升机航空电子系统中的应用肥鼠路易论文阅读人工智能航空电子系统应用
人工智能在直升机航空电子系统中的应用论文摘要文章结构参考文献论文摘要论文摘要:在现代战争形势日趋信息化、智能化的背景下，将人工智能应用于武器装备已经是大势所趋。针对直升机飞行任务的特征，对其发展状况进行了描述，并对其作业能力进行了分析，探索了人工智能技术在直升机航电系统中的应用方向，为推进人工智能在直升机上的转化与应用奠定基础。通过对国外先进直升机智能技术的运用现状及对其作业能力的要求进行分析，探
[论文阅读] 人工智能+软件工程 | 用大语言模型架起软件需求形式化的桥梁张较瘦_ 前沿技术人工智能论文阅读软件工程
用大语言模型架起软件需求形式化的桥梁：一篇ACM调查草案的深度解读论文信息arXiv:2506.14627ACMSurveyDraftonFormalisingSoftwareRequirementswithLargeLanguageModelsArshadBeg,DiarmuidO’Donoghue,RosemaryMonahanComments:22pages.6summarytablesSu
Reti-Diff: Illumination Degradation Image Restoration with Retinex-based Latent Diffusion Model论文阅读青铜锁00 深度学习论文阅读 #退化论文阅读
Reti-Diff:IlluminationDegradationImageRestorationwithRetinex-basedLatentDiffusionModel1.研究目标与实际意义1.1研究目标1.2实际意义2.创新方法与模型设计2.1整体框架2.2RetinexPriorExtraction(RPE)模块2.2.1Retinex分解2.2.2先验压缩2.3Retinex-guide
SIMPL论文阅读 ZHANG8023ZHEN 论文阅读
论文链接：https://arxiv.org/pdf/2402.02519文章还没细看，但主要贡献点应该是SymmetricFusionTransformer和Bezier-basedMotionDecoder.对Bezier-basedMotionDecoder比较感兴趣，之后对这块细看一下
【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
agentformer论文阅读 ZHANG8023ZHEN 论文阅读
参考了这篇博文：https://zhuanlan.zhihu.com/p/512764984主要有这几个部分a.map_encoderi.对地图进行CNNb.ContextEncoderi.timeencoder–将时间信息用transformer和positionemb进行融合，加入到特征中ii.agent-awareattention–self和selfattentionother和other
【论文阅读】DynamicControl ：一种新的controlnet多条件控制方法 prinTao pytorch Diffusion 论文阅读
背景现有方法要么处理条件效率低下，要么使用固定数量的条件，这并不能完全解决多个条件的复杂性及其潜在冲突。这强调了需要创新方法来有效管理多种条件，以实现更可靠和详细的图像合成。为了解决这个问题，我们提出了一个新的框架DynamicControl，它支持不同控制信号的动态组合，允许自适应选择不同数量和类型的条件。本文方法从一个双循环控制器开始，它通过利用预先训练的条件生成模型和判别模型为所有输入条件生
论文阅读：2018 arxiv CrowdHuman: A Benchmark for Detecting Human in a Crowd CSPhD-winston-杨帆论文阅读
https://www.doubao.com/chat/9226473480559618https://arxiv.org/pdf/1805.00123CrowdHuman:ABenchmarkforDetectingHumaninaCrowd文章目录论文翻译CrowdHuman：用于检测人群中人体的基准摘要1.引言2.相关工作2.1.人体检测数据集2.2.人体检测框架。论文翻译CrowdHuma
论文阅读：arxiv 2025 OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation CSPhD-winston-杨帆论文阅读
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328https://www.doubao.com/chat/8815924393371650https://arxiv.org/pdf/2506.02397#page=17.09OThink文章目录速览研究背景与问题核心思路与方法实验结果结论与意义速览这篇论文聚焦于
论文阅读：arxiv 2025 Not All Tokens Are What You Need In Thinking
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2505.17827https://www.doubao.com/chat/8814790364572162文章目录速览研究背景提出的解决方案：条件token选择（CTS）实验结果核心贡献研究局限总结速览这篇论文主要探
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
[论文阅读] 人工智能+软件工程 | 用 LLM + 静态代码分析自动化提升代码质量张较瘦_ 前沿技术论文阅读人工智能软件工程
用LLM+静态代码分析自动化提升代码质量论文信息AugmentingLargeLanguageModelswithStaticCodeAnalysisforAutomatedCodeQualityImprovements@article{abtahi2025augmenting,title={AugmentingLargeLanguageModelswithStaticCodeAnalysisfo
论文笔记--Language Models are Unsupervised Multitask Learners Isawany 论文阅读论文阅读语言模型 transformer chatgpt 自然语言处理
论文笔记GPT-2--LanguageModelsareUnsupervisedMultitaskLearners1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1数据集WebText2.2.2分词方法3.GPT-1&GPT-24.文章亮点5.原文传送门6.References1.文章简介标题：LanguageModelsareUnsupervisedMultitaskLearners
You Only Look Once Unified, Real-Time Object Detection论文笔记 __Lo__ 目标检测论文阅读深度学习
文章结构统一检测框架(UnifiledDetection)核心思想YOLO将目标检测视为一个端到端的回归问题，输入的图像经过SingleForwardPass，直接输出物体的信息（边界框的位置、边界框的置信度、类别概率）；优势在于速度快，全局理解上下文，这里全局理解上下文的意思是识别物体和背景的关系，减少误检。网络设计网格划分（GridDivision）将图像划分为一个S×S的网格，文中S=7；共
经典论文阅读《A Framework for Unifying Reordering Transformations》《统一重排序变换的框架》好好学习啊天天向上自动性能优化
1）摘要我们提出了一个用于统一迭代重排序变换的框架，这些变换包括循环交换、循环分布、倾斜、分块、索引集拆分和语句重排序。该框架基于这样一种思想：变换可以表示为将原始迭代空间映射到新迭代空间的调度。框架旨在为变换提供一种统一的表示和推理方式。作为框架的一部分，我们提供了辅助构建和使用调度的算法，特别是用于检验调度合法性、对齐调度以及为调度生成优化代码的算法。2）优化编译器会对语句的迭代进行重新排序，
[论文阅读] 系统架构 | 零售 IT 中的微服务与实时处理：开源工具链与部署策略综述张较瘦_ 前沿技术论文阅读大数据零售
零售IT中的微服务与实时处理：开源工具链与部署策略综述论文信息MicroservicesandReal-TimeProcessinginRetailIT:AReviewofOpen-SourceToolchainsandDeploymentStrategiesAaditaaVashisht(DepartmentofInformationScienceandEngineering,RVCollege
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

RO-NeRF论文笔记