qq_22239093

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets 翻译

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets

通过堆叠Unet网络对航空影像自动像素标记

原文链接：https://arxiv.org/pdf/1803.04953.pdf

摘要--航拍图像中物体标记的自动化是具有许多实际应用的计算机视觉任务。像能源勘探这样的领域需要一种自动化方法来每天处理连续的图像流。在本文中，我们提出了一个管道来解决这个问题，使用一堆卷积神经网络（U-Net架构）达到端对端。每个网络作为前一个网络的后处理器。我们的模型在两个数据集上优于现有模型：Inria航空影像标签数据集和Massachusetts建筑数据集，他们有不同的特征如空间分辨率，物体形状和尺寸。此外，我们通过对下采样图像和上采样像素标签图像的处理节省计算时间。这种节省造成的分割质量下降可以忽略不计。虽然本文进行的实验只包括航空影像，但是技术是通用的，可以处理其他类型的图像。

关键词：遥感；语义分割；U-Net；物体标签；深度卷积神经网络

引言

自从引入高空间和时间分辨率的遥感影像服务以来，遥感影像成为各行各野的重要组成部分之一。能源，采矿，民用，国防和更多行业都能够使用航拍图像来提高他们的生产力和工作质量。最昂贵也最耗时的需要使用航空影像的任务之一是标签任务。此外，对感兴趣物体进行标记需要领域专业知识才能完美标注。

最近在使用深度学习方法的图像理解技术方面的突破以及硬件技术的飞跃特别是GPU为更多的研究人员打开了大门，以尝试不同的方法和技术。深度学习方法现在可以以可承受的成本部署在工业中。

通常，可以通过两种方式来处理对象标记：localization和分割。定位是围绕检测到的对象绘制边界框的位置。localization的问题是边界框实际上并不代表对象的边界，也无法描述其形状。相反，分割是标记表示对象的像素/超像素。这将导致对对象的形状，大小和轮廓进行非常详细的检测。由于感兴趣的物体通常不具有均匀或固定的形状，我们选择分割方法以获得更准确的结果。

本文有两个主要贡献：首先，我们介绍了一种基于堆叠U-net的新DCNN语义图像分割架构，其中每个网络都增强了前一个网络的结果。在我们的航空影像实验中，两个U-Nets的级联足以胜过两个不同数据集的当前最新技术，每个数据集具有不同的特征。其次，我们试验了图像空间分辨率对我们模型性能的影响。我们发现原始分辨率的缩减可以显着减少计算时间，但代价是分割质量的损失可以忽略不计。

接下来的部分组织如下。第2节说明了语义图像分割文献中的相关工作。第3节详细介绍了我们处理高质量细分的方法。第4节介绍了不同的实验和结果，以证明我们的方法的力量。最后，论文的结论和未来工作的方向见第5节。

2.相关工作

语义图像分割是将图像划分为有意义的部分的过程，每个部分属于预先指定的类之一。用于语义分割的方法可以分为：传统和深度学习方法。传统方法通常依赖于领域知识来提取特征并将这些特征应用于以下技术：Texton 森林[1]，随机森林[2][3]，SVM [4]，[5]和条件随机场（CRF）[6]。

语义分割可以帮助解决的挑战之一是从场景中提取感兴趣的对象。我们在本文中试图解决的问题是从先前使用不同方法尝试的航空图像中提取建筑物。其中许多方法使用手工制作的特征，分类器和增强[7] - [9]或轮廓检测来找到矩形（类似建筑物）的物体[10]。

李[11]等人使用无监督高斯混合模型（GMM）将图像分割成均匀的超像素，然后使用高阶条件随机场（HCRF）进行精确的屋顶提取。 Jin和Davis [12]使用基于边缘的分割方法生成建立假设，并使用差分形态分析（DMP）对其进行验证。使用结构，上下文和光谱信息提取建筑物。

近年来，深度学习方法在包括语义分割在内的许多领域中表现出了卓越的表现。龙[13]等人引入了全连接网络（FCN）作为产生密集输出映射的端到端架构。 Long还介绍了使用反卷积层进行上采样的概念。由于对象位置在语义分割中非常重要 - 与分类不同 - 开发了新的架构来保留这些位置信息。

第一组体系结构受到编码器 - 解码器的思想的启发，其中输入图像使用池化层被编码成较小的中间形式，然后使用解码器中的上采样层通常借助于从编码器到解码器的跳过连接来恢复到原始大小。这套最受欢迎的架构是：（1）Ronneberger等人介绍的U-Net。14]最初用于医学图像分割。U-Net以大幅度赢得了2015年ISBI细胞追踪挑战。（2）SegNet[15]不使用跳过连接并保存要在解码器中用于非线性上采样的池化索引。

一组不同的体系结构取决于空洞（也称为扩张）卷积[16]而不是池化层。在空洞卷积滤波器中，“带孔”使得我们可以在不降低图像空间分辨率的情况下放大滤波器的感受野。

Volodymyr Mnih在他的博士论文[17]中使用卷积神经网络来训练道路和建筑物的航空图像标记系统。他尝试将神经网络和条件随机场作为CNN的后处理。他的模型在马萨诸塞州道路和建筑物数据集上表现良好[17]。

Saito和Aoki[18]使用CNN进行道路和建筑物检测。他们使用CNN的正常下采样架构，最后，添加了一个带Dropout[19]的完全连接层来推断输入图像的预测。他们的模型优于为每个类别道路和建筑物使用单一模型的Mnih模型[17]。

纽厄尔[20]等人提出了一种网络体系结构，该体系结构在人体姿态估计中达到了最先进的结果。由于其收缩和扩展路径的形状，他们将其架构称为沙漏。这种架构是与U-Net非常相似，它只是在连接张量的方式上有所不同。沙漏使用加法运算符将两个张量加在一起形成一个新的和张量。人体姿势估计问题可以被表达为来自输入图像的提取关节的任务。有了这个配方，我们可以针对语义图像分割任务调整相同的网络架构。

3.方法

我们的完整流水线概述如图1所示。我们的流水线首先将输入图像划分为224x224x3像素的像素块。这些像素块是我们模型的输入，输出是裁剪预测掩码。通过连接这些小输出，我们可以获得全尺寸预测掩模。更多级别的U-Nets用于增强结果。

网络结构

如图2所示，我们的大多数层由3x3卷积滤波器组成，因为它们具有计算效率。当我们在收缩路径中更深入时，过滤器的计数加倍，而在通过扩展路径时它们减半。每层还具有批量标准化[21]层，以实现更快的收敛。大小为2x2的最大池化用于下采样，而对于上采样，原始张量中的元素被复制到输出上采样张量中的2x2窗口。通过将两个张量附加到新的激活量来完成连接。最后，He均匀方差缩放初始化器[22]用于所有卷积层。

将整个图像分割成较小的斑块将导致斑块边缘上的建筑物失去其结构的重要部分，这导致边缘处的不良性能。这个问题可以通过两种方式解决：使用重叠的补丁或在我们的网络中使用裁剪层。我们使用裁剪层，因为它证明是更有效的解决方案[23]。

（1）训练：Nadam优化器[24]用于训练模型。对于第一级U-Net，学习速率1e-3用于50个时期，然后1e-4用于另外50个时期。批量大小为128个补丁。第二级U-Net使用1e-4的学习率并且训练50个时期。由于联合交叉（IoU）成为语义图像分割中的标准度量[13]并且它是不可微分的，因此Iglovikov等人提出了联合损失函数L. [23]用于结合可微分形式的IoU和二元交叉熵

其中n是批次中的图像数量，y是地面实况值，y帽是预测值。

此外，通过从一组变换中随机选择，在训练时应用数据增强：水平翻转，垂直翻转和旋转。数据增强有助于构建一个较少依赖于输入图像方向的强大模型。这对我们的模型非常有用，可以推广到训练集中不同区域以外的其他区域。

（2）预测：为了进行更自信的预测，应用测试时间增加，其中在训练时应用的同一组变换在预测之前应用于每个图像块。所有转换版本的预测均为平均值。该平均值是最终预测分数。然后，应用阈值处理将分数转换为掩码的二进制值。阈值是我们使用交叉验证集调整的超参数。

为了减少图像子区域对图块的不连续性影响，我们使用Ronneberger等人提出的图像镜像[14]。这在瓦片边界处产生更好的结果。我们的管道是使用Keras [25]库和Theano [26]作为后端构建的。

4.结果

在本节中，我们将介绍用于实验的数据集，并报告已进行的实验及其实验
结果。

数据集

为了说明所提模型的功效，我们使用两个数据集：Inria航空图像标记数据集[27]和马萨诸塞建筑数据集[17]。我们选择了这两个数据集，因为它们涵盖了不同的图像特征，如空间分辨率，对象类型，形状和大小。

Inria的数据集专门用于解决航空影像的自动像素标注问题。数据集由两个子集组成：训练集和测试集。每个子集覆盖405平方公里的区域，空间分辨率为0.3米。提供的数据是3波段彩色正射校正图像。训练数据标记为两类：建筑物而不是建筑物。训练数据集涵盖奥斯汀，芝加哥，基茨普普县，西蒂罗尔和维也纳，而测试集涵盖了一系列不同的地区：贝灵厄姆，布卢明顿，因斯布鲁克，旧金山，东蒂罗尔。对于两个子集中的每个区域，有36个大小为5000x5000像素的区块，覆盖1500x1500米区域。数据集图像和标签中的样本如图4所示。

选择Inria数据集进行实验有两个重要方面。首先，培训和测试集涵盖不同的区域，因此我们将能够判断我们的模型推广到新区域的能力。其次，覆盖区域的城市密度差异很大。图3显示了不同地区的各种城市密度。芝加哥拥有非常密集的小型建筑。由于其大型绿地，Kitsap县的建筑物分布非常稀少。维也纳有着截然不同的建筑风格：没有完整屋顶的大型建筑。数据集中的这种可变性确保模型将学习标记不同区域并在更一般意义上理解建筑物的结构。

为了与其他研究人员的结果进行比较，我们使用每个数据集的相同性能度量。 Inria的数据集使用了两个主要的性能指标：联盟交叉（IoU）和准确性。联合交叉，也称为Jaccard索引，定义为：

其中GT是地面真实掩模，P是预测掩模。准确度定义为：

我们将实验集中在IoU上，因为它成为语义分割的标准[13]。此外，由于大图像区域专用于背景（非建筑）类，因此精度不具有足够的辨别力。

对于马萨诸塞州建筑物数据集，使用松弛版本的精度和召回来计算精确召回盈亏平衡点[17]。松弛假设是如果正标签落在任何地面实况正像素的7x7区域内，则认为正标签是正确的。由于建筑物的面具通常与图像不完全对齐，因此这种放松将提供真实的性能测量。

最好的模型结果

在完成所有实验并选择第III部分中描述的最佳模型后，我们将结果与表I中所示的其他方法的结果进行比较。图6显示了来自测试集的因斯布鲁克图像的模型结果。该图显示了具有不同形状（矩形和非矩形）和尺寸的建筑物的检测。

在某些情况下，我们的模型计算错误的分割结果。例如，在图7中，我们可以看到模型检测停车场作为建筑物，因为其颜色与该区域中的建筑物颜色非常相似，并且由于其质地看起来像房屋的屋顶。

表II显示了我们在马萨诸塞州建筑数据集上的模型结果。我们明显优于文献中的其他方法。图8显示了我们的模型预测示例。虽然这两个数据集的特征完全不同，但我们的模型在具有相同架构的两个数据集上都具有领先的结果。

Nvidia Tesla K80 GPU上第一架U-Net的培训时间为41小时，而第二架U-Net的培训时间为20.8小时。单个大小（5000x500像素）的预测需要3.48分钟，包括增强，连接小补丁和阈值。

不同的架构和管道

在展示我们的模型最佳结果后，我们在本节中介绍了我们已经尝试过的几种变体。目标是突出导致我们模型卓越性能的关键因素。表III显示了对Inria数据集进行的不同实验的结果。使用单个U-Net架构直接预测图像是一个很好的起点。由于数据增加对于生成对不同旋转和方向不变的鲁棒模型非常重要，我们通过运行具有相同配置的单个U-Net的相同模型以及两种训练的增强来测试其对结果的影响和测试时间。此更改会导致验证集的IoU增强，如结果中所示

将Hourglass[20]架构与数据扩充应用于我们的问题，得到的IoU得分为72.30。尽管Hourglass没有产生更好的结果，但它引导我们了解网络堆叠的概念（我们的最终管道）。堆叠Hourglass架构由多个连续排列的端对端沙漏组成。

d.下采样

如前所述，Inria数据集的空间分辨率为0.3米。我们想研究较低分辨率对结果的影响。为了尝试相同数据的不同分辨率，我们以较低的速率重新采样数据。我们的实验分两个分辨率进行：原始分辨率为1/2和1/4。为了确保不同分辨率之间的公平比较，我们在计算Jaccard索引之前使用简单线性插值将低分辨率掩模上采样到预测后的原始分辨率。较低分辨率的结果非常接近原始分辨率的结果。但是，预测时间大大节省。此外，下采样和上采样的开销可以忽略不计（~0.06秒/图像）。这些研究结果表明，可以用较低的分辨率代替非常高的分辨率，以获得相当大的计算时间增益。

e使用条件随机场（CRF）[31]作为后处理

事实证明，完全连接的CRF对于定位挑战非常有效[16]，[32]。它们能够找到细粒度的边缘和轮廓，从而提高对象分割质量。

使用单个U-Net的CRF在验证集上得分为72.58。图9清楚地显示了CRF如何绘制检测到的建筑物的详细外边缘和内边缘，但这不是我们的数据集所必需的。我们的数据集需要一个覆盖整个建筑物的实心多边形，没有任何屋顶细节和线条。基于这些结果，我们没有将CRF作为后处理器整合到我们的管道中

5结论和未来工作

在本文中，我们提出了一堆基于U-Net [14]架构的深度卷积神经网络，用于对航空图像进行像素标记。我们的方法优于Inria的航空图像标记数据集[27]和马萨诸塞州建筑数据集[17]上的所有其他模型。此外，实验表明，通过处理较低分辨率的图像，我们可以在处理时间上获得相当大的增益。这对于需要快速标记的交互式应用程序非常有用。

对于未来的工作，我们将研究合适的方法，这些方法可以在一个特定的空间分辨率下调整学习模型，以最小的变化处理不同的分辨率，因为这对于从在不同数据集上训练的模型开始学习数据集的模型非常有用。另一个可能的未来方向是利用生成对抗网络（GAN）[33]通过生成器鉴别器网络对来改善模型分割质量。

论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
CSPNet: 一种增强CNN学习能力的新型骨干网络简诚 cnn 学习人工智能
论文翻译与总结标题CSPNet:一种增强CNN学习能力的新型骨干网络摘要翻译神经网络在目标检测等计算机视觉任务中取得了显著成果，但其成功高度依赖昂贵的计算资源，限制了在廉价设备上的应用。本文提出跨阶段部分网络（CSPNet），从网络架构角度解决先前工作推理计算量大的问题。该问题源于网络优化中的梯度信息重复。CSPNet通过整合网络阶段起始和结束的特征图，保留梯度的多样性，在ImageNet数据集上
论文阅读：2018 arxiv CrowdHuman: A Benchmark for Detecting Human in a Crowd CSPhD-winston-杨帆论文阅读
https://www.doubao.com/chat/9226473480559618https://arxiv.org/pdf/1805.00123CrowdHuman:ABenchmarkforDetectingHumaninaCrowd文章目录论文翻译CrowdHuman：用于检测人群中人体的基准摘要1.引言2.相关工作2.1.人体检测数据集2.2.人体检测框架。论文翻译CrowdHuma
论文翻译：NeurIPS-2024.Zhehao Zhang.DARG: Dynamic Evaluation of Large Language Models via Adaptive CSPhD-winston-杨帆 LLMs-动态评估 LLMs-数据污染论文翻译语言模型人工智能自然语言处理
DARG:DynamicEvaluationofLargeLanguageModelsviaAdaptiveReasoningGraphhttps://openreview.net/pdf?id=5IFeCNA7zR文章目录DARG：通过自适应推理图动态评估大型语言模型摘要1引言2方法：DARG2.1推理图2.2推理图构建2.3推理图扰动2.4测试用例生成3实验3.1数学推理：GSM8K3.2社会
DexGarmentLab 论文翻译 AI算法网奇深度学习宝典人工智能
单个专家演示装扮15任务场景2500+服装手套棒球帽裤子围巾碗帽子上衣外套服装-手部交互捕捉摇篮夹紧平滑任务......投掷悬挂折叠...多样化位置...多样化变形...多样化服装形状类别级一般化类别级（有或没有变形）服装具有相同结构变形生成可推广的可用性点演示操作演示点服装可用性模型可用性①②结构感知扩散策略噪声动作跨越一般化......形状......服装环境配置............机器人
RT-2论文翻译: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control YYGe 机器人人工智能深度学习机器人预训练模型
RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControlRT-2:用互联网知识训练的视觉语言模型融入到机器人控制中RT1论文翻译：https://blog.csdn.net/weixin_43334869/article/details/135850410文章目录RT-2:Vision-Language-Action
SpeedFolding 论文翻译 AI算法网奇深度学习宝典人工智能深度学习
Abstract—折叠衣物可靠且高效一直是机器人操作中的一个长期挑战，因为衣物的复杂动态和高维配置空间。一个直观的方法是首先将衣物操作到一个标准的光滑配置，然后再进行折叠。在这项工作中，我们开发了SpeedFolding，一个可靠且高效的双手系统，该系统根据用户定义的折叠线，将最初皱巴巴的衣物操作到（1）一个光滑的和（2）一个折叠的配置。我们的主要贡献是一个新颖的神经网络架构，能够预测一对夹持器姿
【论文翻译】目标检测Fast R-CNN论文翻译 Ziko_AI 目标检测目标检测图像识别 Fast R-CNN 人工智能
FastR-CNN摘要本文提出了一种快速的，基于区域的卷积网络方法（FastR-CNN）用于目标检测.FastR-CNN建立在前人的工作上使用深层卷积网络。来有效分类候选目标。相比于之前的工作，FastR-CNN应用了几个创新点来提高了训练与测试速度，也增加了检测准确度。FastR-CNN在非常深的VGG16网络上比R-CNN快9倍，在测试阶段快213倍，并且在Pascal2012数据集上达到以更
Capturing forceful interaction with deformable objects using a deep learning- powered... 翻译 Doc2X 经典论文翻译深度学习人工智能机器人
该文档由Doc2X翻译提供解析与翻译,想看更多论文翻译欢迎来Doc2XThisdocumentisprovidedwithparsingandtranslationbyDoc2X.Formoretranslatedpapers,feelfreetovisitDoc2X.原文地址https://www.nature.com/articles/s41467-024-53654-y项目地址：https:
论文翻译：Automatic Lesson Plan Generation via Large Language Models with Self-critique Prompting CSPhD-winston-杨帆论文翻译智慧教育语言模型人工智能自然语言处理
AutomaticLessonPlanGenerationviaLargeLanguageModelswithSelf-critiquePromptinghttps://link.springer.com/chapter/10.1007/978-3-031-64315-6_13通过自我批评提示的大型语言模型自动生成课程计划摘要在本文中，我们利用大型语言模型（LLMs）的理解和生成能力来自动生成定制
论文翻译：ACL-2024.Yiming Huang.Competition-Level Problems are Effective LLM Evaluators CSPhD-winston-杨帆论文翻译 LLMs-数据污染人工智能
Competition-LevelProblemsareEffectiveLLMEvaluatorshttps://aclanthology.org/2024.findings-acl.803.pdf《竞赛级问题作为有效的LLM评估者》文章目录《竞赛级问题作为有效的LLM评估者》摘要1引言6结论局限性摘要大型语言模型（LLMs）展示了令人印象深刻的推理能力，然而，关于这些能力以及最近潜在的数据污染
相机标定论文翻译之“A precision analysis of camera distortion models” AndyCheng_hgcc 相机标定
Aprecisionanalysisofcameradistortionmodelshttps://hal-enpc.archives-ouvertes.fr/hal-01556898Submittedon5Jul2017Abstract—Thispaperaddressesthequestionofidentifyingtherightcameradirectorinversedistortio
论文翻译：OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics YYGe 机器人深度学习人工智能机器人预训练模型
OK-Robot:WhatReallyMattersinIntegratingOpen-KnowledgeModelsforRoboticsOK-Robot：整合开放知识模型在机器人学中的真正重要性文章目录OK-Robot:WhatReallyMattersinIntegratingOpen-KnowledgeModelsforRoboticsOK-Robot：整合开放知识模型在机器人学中的真正重
论文翻译：3D Gaussian Splatting for Real-Time Radiance Field Rendering 好脾气先生视觉重建论文翻译 3d
文章目录1介绍2.1传统场景重建与渲染2.2神经渲染与辐射场2.3基于点的渲染和亮度表示3概览4可微高斯抛雪球5带有自适应密度控制的3D高斯优化5.1优化5.2高斯的自适应控制6高斯的快速可微光栅化器7实现，结果和评估7.1实现7.2结果和评估7.3消融研究7.4局限8讨论和结论最近在做三维重建的相关工作，看了原版论文，做了机翻，自己又润色了一下，应该还算通顺，欢迎各位交流批评；（仅仅是重要部分翻
论文翻译：Universal and Transferable Adversarial Attacks on Aligned Language Models CSPhD-winston-杨帆 LLMs-安全论文翻译语言模型人工智能自然语言处理
UniversalandTransferableAdversarialAttacksonAlignedLanguageModelshttps://arxiv.org/pdf/2307.15043v2通用且可转移的对抗性攻击对齐语言模型文章目录通用且可转移的对抗性攻击对齐语言模型摘要1引言2一个针对LLMs的通用攻击2.1产生肯定回应2.2贪婪坐标==梯度==搜索2.3通用多提示和多模型攻击3实验结
论文翻译：Large Language Models for Education: A Survey CSPhD-winston-杨帆论文翻译智慧教育语言模型人工智能自然语言处理
目录大型语言模型在教育领域的应用：一项综述摘要1引言2.教育中的LLM特征2.1.LLMs的特征2.2教育的特征2.2.1教育发展过程低进入门槛。2.2.2.对教师的影响2.2.3教育挑战2.3LLMEdu的特征2.3.1"LLMs+教育"的具体体现2.3.2"LLMs+教育"的影响3如何逐步将LLMs整合到教育中3.1教育领域采用LLMs的原因3.2融合策略4LLMEdu的关键技术5LLMEdu
论文翻译：ICLR-2023.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS CSPhD-winston-杨帆 LLMs-数据污染论文翻译语言模型人工智能自然语言处理
DYVAL:DYNAMICEVALUATIONOFLARGELANGUAGEMODELSFORREASONINGTASKShttps://openreview.net/forum?id=gjfOL9z5XrDynamicevaluationtomitigatepotentialtestdatacontamination:weintegratedthedynamicevaluationframewo
论文翻译：Large Language Models for Education: A Survey and Outlook CSPhD-winston-杨帆论文翻译智慧教育语言模型 outlook 人工智能
https://arxiv.org/abs/2403.18105目录教育领域的大型语言模型：一项调查和展望摘要1.引言2.教育应用中的LLM2.1概述2.2学习辅助2.2.1问题解决（QS）2.2.2错误纠正（EC）2.2.3困惑助手（CH）2.3教学辅助2.3.1问题生成（QG）2.3.2自动评分（AG）2.3.3教学材料创作（MC）2.4适应性学习2.4.1知识追踪（KT）2.4.2内容个性化
『大模型笔记』自用的“科技文章翻译 GPT”和它的 Prompt AI大模型前沿研究大模型笔记 gpt chatgpt GPT4
自用的“科技文章翻译GPT”和它的Prompt你是一位精通简体中文的专业翻译，尤其擅长将专业学术论文翻译成浅显易懂的科普文章。请你帮我将以下英文段落翻译成中文，风格与中文科普读物相似。规则：-翻译时要准确传达原文的事实和背景。-即使上意译也要保留原始段落格式，以及保留术语，例如FLAC，JPEG等。保留公司缩写，例如Microsoft,Amazon,OpenAI等。-人名不翻译-同时要保留引用的论
DeepSeek最新成果-NSA(Native Sparse Attention) X.Cristiano NSA DeepSeek-R1 深度学习
论文地址：NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention论文翻译：原生稀疏注意力机制(NSA)：硬件对齐且可原生训练的稀疏注意力机制-论文阅读论文的背景与动机近年来，我们见证了长文本建模在AI领域的重要性日益凸显。无论是深度推理、代码库生成、还是多轮对话，都离不开模型对长序列信息的有效处理能力。像O
论文翻译：EMNLP-2023 CCF-B Multi-step Jailbreaking Privacy Attacks on ChatGPT CSPhD-winston-杨帆 LLMs-安全论文翻译 chatgpt
Multi-stepJailbreakingPrivacyAttacksonChatGPThttps://arxiv.org/pdf/2304.05197多步骤越狱隐私攻击对ChatGPT的影响https://openreview.net/forum?id=ls4Pfsl2jZ文章目录多步骤越狱隐私攻击对ChatGPT的影响摘要1引言2相关工作3对ChatGPT的数据提取攻击3.1数据收集3.2攻
论文翻译：EMNLP-2023.CCF-A.Alon Jacovi.Stop Uploading Test Data in Plain Text: Practical Strategies for CSPhD-winston-杨帆论文翻译 LLMs-数据污染人工智能
StopUploadingTestDatainPlainText:PracticalStrategiesforMitigatingDataContaminationbyEvaluationBenchmarkshttps://arxiv.org/pdf/2305.10160停止上传明文测试数据：实用的策略以减轻评估基准造成的数据污染文章目录停止上传明文测试数据：实用的策略以减轻评估基准造成的数据污染
论文翻译：ChatGPT: Bullshit spewer or the end of traditional assessments in higher education? CSPhD-winston-杨帆智慧教育论文翻译 chatgpt
ChatGPT:Bullshitspewerortheendoftraditionalassessmentsinhighereducation?https://journals.sfu.ca/jalt/index.php/jalt/article/download/689/539/3059文章目录ChatGPT：废话制造者还是传统高等教育评估的终结者？摘要引言ChatGPT的功能ChatGPT对教
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
DeepSeek R1 AI 论文翻译后端java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
DeepSeek R1 AI 论文翻译老马啸西风 java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
DeepSeek R1 AI 论文翻译后端java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
【论文翻译】DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence 行动π技术博客代码大模型 deepseek
本翻译来自大模型翻译，如有不对的地方，敬请谅解引言开源社区通过开发诸如StarCoder（Li等人，2023b；Lozhkov等人，2024）、CodeLlama（Roziere等人，2023）、DeepSeek-Coder（Guo等人，2024）和Codestral（MistralAI，2024）等开源代码模型，在推进代码智能方面取得了显著进展。这些模型的性能已稳步接近闭源同类产品，为代码智能的
论文翻译：ChatGPT for good? On opportunities and challenges of large language models for education Author CSPhD-winston-杨帆智慧教育论文翻译 chatgpt 语言模型人工智能
高引用论文：ChatGPTforgood?OnopportunitiesandchallengesoflargelanguagemodelsforeducationAuthorlinksopenoverlaypanelhttps://www.sciencedirect.com/science/article/pii/S1041608023000195ChatGPTforgood？大型语言模型在教育
【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 机器白学论文翻译 ocr 论文阅读论文翻译
论文原文链接：https://arxiv.org/abs/2409.01704特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。目录通用OCR理论：通过统一的端到端模型迈向OCR-2.00摘要1引言2相关工作2.1传统OCR2.2基于LVLM的OCR3通用OCR理论3.1框架3.
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets 翻译

你可能感兴趣的:(论文翻译)