小李不会编程啊

【论文精读】DocUNet: Document Image Unwarping via A Stacked U-Net

DocUNet:通过堆叠的U-Net文档图像解扭曲
摘要：由于移动摄像机无处不在，捕获文档图像是数字化和记录物理文档的常见方式。为了使文本识别更容易，当物理文档页被折叠或弯曲时，通常希望以数字方式展平文档图像。在本文中，我们开发了第一种基于学习的方法来实现这一目标。我们提出了一个具有中间监督的堆叠的U-net[25]，以直接预测从失真图像到其校正版本的正向映射。因为难以获得具有地面真实变形的大规模真实世界数据，所以我们通过扭曲未变形的文档图像来创建具有大约10万个图像的合成数据集。该网络在该数据集上用各种数据扩充进行训练，以提高其泛化能力。我们进一步创建了一个涵盖各种现实条件的综合基准。我们在建议的基准上对建议的模型进行定量和定性评估，并将其与以前的非基于学习的方法进行比较。

1引言
文档数字化是保存现有打印文档的重要手段，使它们更容易随时随地访问。传统上，文件是用平板扫描仪数字化的，平板扫描仪是一种便携式、昂贵的设备。最近，随着移动相机的日益普及，对物理文档拍照已经成为扫描物理文档的最简单方式。一旦捕获，图像可以通过文本检测和识别管道进一步处理，用于内容分析和信息提取。
在拍摄文档图像时，一个常见的实际问题是文档页面不适合扫描:它们可能是弯曲的、折叠的或皱巴巴的，或者位于复杂的背景上。想想从口袋里拿出一张皱巴巴的收据。如图1所示，所有这些因素都可能对下游的自动文档图像分析过程造成重大问题。因此，希望对捕获的图像中的这种文档进行数字展平。
之前已经使用各种方法解决了文档图像平面化的问题。一些视觉系统依靠精心设计、校准良好的硬件来测量文档的3D失真，例如立体摄像机[35，29]或结构光投影仪[1，21]。它们产生高质量的结果，但是额外的硬件限制了它们的应用。其他工作[28，36]通过利用多视图图像来重建变形文档页的3D形状，从而消除了对额外硬件的需要。其他人的目标是通过分析单个图像，基于各种手工制作的低级特征，如照明/阴影[32，37]，文本行[27，20]等，来恢复校正后的文档。
提出了一种新的基于学习的方法来恢复野外捕获的任意弯曲和折叠的纸质文档。与以前的技术不同，我们的方法是第一个端到端基于学习的方法来直接预测文档失真。以往的方法只使用学习进行特征提取，而最终的图像恢复仍然是基于传统的优化过程。我们的方法依赖于卷积神经网络(CNNs)来进行端到端图像恢复。与基于优化的方法相比，前馈网络在测试阶段是非常有效的。此外，如果提供适当的训练数据，这种数据驱动的方法可以更好地推广到许多文档类型(文本、图形、笔迹等)。
我们将此任务定义为寻找合适的二维图像扭曲，以纠正扭曲的文档图像。我们的网络预测一个映射域，将失真源图像S(u, v)中的一个像素移动到结果图像D中的(x, y):
以这种方式构造问题，我们发现该任务与语义切分有一些共性。对于后者，网络为每个像素分配一个类标签。类似地，我们的网络为每个像素分配一个二维向量。这启发了我们在我们的网络结构中使用U-Net[25]，它在语义分割方面的成功是众所周知的。为了适应我们的回归问题，我们定义了一个新的损失函数来驱动网络对S中的每个像素回归D中的坐标(x, y)。
获取带有地面真值标签的大规模数据是深度监督学习的第一个挑战。为了训练我们的网络，我们需要获得大量不同程度失真的文档图像作为输入，以及可以导致完美校正的相应变形。目前不存在这样的数据集。在物理世界中获得地面真实变形是非常具有挑战性的。因此，我们采用合成数据进行训练。我们通过随机扭曲完全平坦的文档图像来合成100K图像，因此扰动的图像是输入，而我们用来扭曲图像的网格是我们旨在恢复的逆变形。
没有可公开获得的综合基准来评估文件展开。以前的方法要么对少量图像进行评估，要么数据集只包含一种或两种类型的失真，如平滑弯曲。我们通过创建一个包含130幅图像的基准来填补这一空白，这些图像包含文档类型、失真程度和类型以及捕获条件的巨大差异。
我们的主要贡献包括:
①第一个端到端，基于学习的文档图像复原方法。我们提出了一个具有中间监督的堆叠UNet[25]。它以端到端方式进行训练，预测可以纠正扭曲文档的正向映射。
②一种合成弯曲或折叠纸质文档图像的技术。使用这种方法，我们创建了一个包含大约100K个图像的大规模数据集用于训练。
③一个多样化的评估基准数据集，带有基本事实，我们在此基础上评估我们的方法，并与以前的方法进行比较。

2相关工作
文献中对文档的校正进行了研究。我们大致将之前的方法分为两类:
三维形状重建。为了重建纸质文档的3D形状，Brown和Seales[1]使用了可见光投影摄像系统。Zhang等人的[38]采用了更先进的距离/深度传感器，并考虑了纸张的物理性能来恢复形状。最近，Meng等人建立了一个带有两束结构激光束的平台来获取文档卷曲度。除了额外的硬件，其他工作依赖于多视图图像进行三维形状重建。Ulges等人[29]通过图像patch匹配计算两幅图像之间的视差图。Yamashita等[35]用非均匀有理b样条(NURBS)参数化了三维形状。Tsoi和Brown的[28]并不需要一个精确校准的立体视觉系统。他们利用多视图图像的边界信息，将这些图像组合在一起生成校正后的图像。同样，Koo等[13]利用两幅不同视角的未校准图像通过SIFT匹配来测量三维形状。Östlund等人[24]提出了一种网格参数化方法，该方法可以重建给定参考图像对应的可变形曲面的三维形状。最近You等[36]通过多幅图像对纸张上的折痕进行建模，重建了文档的三维形状。
从低级特征塑造。低级别功能包括照明/阴影，文本线等。Wada等人利用阴影形状(Shape from Shading, SfS)制定了这个问题。扭曲的文件在定向光源下显示出不同的阴影。Courteille等人通过使用相机而不是扫描仪来扩展这项工作，并从阴影中估计透视图形状。Zhang等人提出了一种更加鲁棒的SfS系统，能够处理阴影和背景噪声。其他一些方法依赖于分析文档内容。一个普遍的策略是追踪文本行[8,30,18,21,11,16]，假设修改后的文件的文本行应该是水平和直线的。特别是，Cao等人[2]在圆柱体上建模了弯曲文档，Liang等人[14]使用了可展曲面。Tian和Narasimhan将文本线作为水平线索和字符笔画作为垂直线索进行优化，从而生成3D网格。这些作品可以看作是更广泛的形状从纹理问题(SfT)的特例[34,19,9]。最近Das等[6]利用CNN检测纸张折痕进行校正。然而，CNN只是他们优化过程中的一个步骤，而不是端到端方式。
我们提出的方法可以归为第二类。然而，作为一种纯数据驱动的方法，它不同于所有以前的方法。该网络被端到端地训练以预测扭曲的正向映射，因此不使用手工制作的低级特征。测试阶段没有优化过程。我们的网络有两个好处:I)只要提供大规模的训练数据，就可以处理各种文档类型和条件。ii)它可以作为一种有效的方法部署在现实世界的应用中。

3数据集
该方法基于一个需要用大规模训练数据进行训练的CNN。在此任务中，文档变形可以表示为三维网格、表面法线、2D流等。在现实世界中以任何形式准确捕捉它都很困难。需要额外的硬件，如距离相机或校准的立体视觉系统，而估计变形的准确性通常取决于硬件的成本。此外，几乎不可能手动折叠/扭曲可以覆盖所有现实情况的文档。
我们考虑使用合成数据进行训练，这是最近深度学习系统中的一个常见步骤[31，26]。这允许完全控制数据集中的变化，例如3D网格形状、照明、材料等。
一个简单的想法是在3D渲染引擎中直接渲染扭曲的文档。然而，由于以下原因，这是不切实际的。首先，使用物理模拟生成物理正确的3D纸网格既困难又缓慢[22]。其次，通过路径跟踪进行渲染也很耗时，例如，在[6]中渲染一幅图像大约需要1分钟。渲染100K图像需要两个多月的时间。

3.12D的失真图像合成
我们在2D直接合成训练图像。虽然底层的物理建模被忽略了，但是操纵2D网格要容易得多，生成图像也更快。由于我们的目的是将失真的纸张映射到校正后的纸张，因此数据合成是相反的过程，即我们将校正后的图像扭曲成不同的失真。
创建失真图时，我们遵循以下经验准则:
①一张真正的纸是一种局部刚性的织物。它不会膨胀或压缩。某一点的变形将在空间上传播。
②有两种变形:产生折痕和纸张卷曲的折叠和曲线。在现实世界中，通常会有这两种基本扭曲的混合。
我们首先收集大量的平面数字文档，包括纸张、书籍和杂志页面。然后我们扭曲这些图像，如图2所示。程序详述如下。
扰动网格生成:给定一个图像I，我们在其上施加一个m × n网格M，以提供扭曲的控制点。在M上选择一个随机顶点p作为初始变形点。变形的方向和强度表示为v，也是随机产生的。最后，基于观察i)，v通过权重w传播到其他顶点。扭曲网格上的顶点被计算为pi+ w v,∀i.
定义w是至关重要的。当p和v定义一条直线时，我们首先计算每个顶点和这条线之间的归一化距离d，并将w定义为d的函数。基于观察ii)，我们为每个失真类型定义一个函数。对于折叠:
对于曲线:
其中α控制变形传播的程度。总的来说，较大的α将w引向1，这意味着所有其他顶点都与p共享相同的变形，使得变形更加全局，而较小的α将变形限制在p周围的局部区域。图4展示了这两个函数的效果。
扰动图像生成:扰动的网格提供了稀疏的变形场。我们对其进行线性插值，以构建像素级的密集变形图。然后，可以通过将扭曲图应用于原始图像来生成扰动图像。我们用这种方式在单个CPU上合成了100K个图像。每个图像包含多达19个合成失真(30%是弯曲失真，70%是折叠失真)。弯曲需要保持高斯曲率处处为0，而折叠是任意的。一些样品如图5所示。

3.2数据增加
由于真实数据和合成数据之间的差距，在合成数据上训练的模型可能不能很好地推广到真实数据。这个问题可以通过领域适应来缓解，例如，使用生成对抗网络[26]。然而，大规模的真实世界的数据是不可用的。我们通过用各种变换增强合成图像来缓解这个问题。首先，我们使用来自可描述纹理数据集(DTD) [4]的纹理图像来产生各种背景纹理。然后，我们在HSV颜色空间中添加抖动，以放大照明和纸张颜色变化。进一步应用投影变换来处理视点变化。实验表明，这些数据扩充方法大大提高了网络泛化能力。

4DocUNet
4.1网络体系结构
类似于语义分割，我们设计我们的网络来加强像素级的监督。我们选择U-Net[25]作为我们的基本模型，因为它简单和有效的语义分割任务。基本上U-Net是一个完全卷积网络[17]。它包含一系列下采样层和一系列上采样层。特征图在下采样层和上采样层之间串联。注意，我们在原来的U-Net实现中修改了填充方案，使网络的输入和输出具有相同的空间大小。
然而，一个U-Net的输出可能不令人满意，应该细化。受连续预测和渐进细化工作的启发[23,3]，我们在第一个U-Net的输出处堆叠另一个U-Net作为细化器。
在我们的网络中，如图3所示，我们有一层将反卷积特征转换为最终的输出(x, y)，第一个U-Net在最后一个反卷积层之后分裂。第一个U-Net的反卷积特征和中间预测y1连接在一起作为第二个U-Net的输入。第二个U-Net最后给出了一个精细化的预测y2，我们将其作为我们网络的最终输出。我们在训练中对y1和y2应用相同的损失函数。但是，在测试时，只有y2被用作网络的输出。
网络的输入是S∈ℜMs×Ns×3，输出是F∈ℜMs×Ns×2从扭曲图像到矫正图像的映射。不同于语义分割是一个像素级的分类问题，计算F是一个回归过程。语义分割网络的输出通常有C通道，其中C为语义类的数量。该网络仅输出(x, y)坐标的两个通道。

4.2损失函数
我们将损失函数定义为元素损失和移位不变损失的组合。L2元素的损失是:
其中n是F中的元素个数，y i是索引i处的预测值，y* i是对应的基本真值。
移不变损失Ls不关心F中y i的绝对值。它强制要求y i和y j之间的差应接近y* i和y* j之间的差。所以Ls可以写成:
假设d i = y i - y* i，等式5可以写成:
第一项只是元素上的损失。如果两个元素之间的距离与地面真值中的距离相似，则第二项减小损耗。这种损失也称为比例不变误差[7]。在式5中，两项的权值相同。我们可以在训练中给这两个术语分配不同的权重。我们还观察到L1损耗比L2损耗好。所以我们把损失函数重写为:
其中λ控制第二项的强度。我们所有的实验都用0.1。
F中与S中背景像素对应的元素有一个常负值-1，如第3节所述。所以Eq. 7的部分损失是由于背景造成的。实际上，网络不需要精确地将这些元素回归到-1。任何负值都足够了。因此，我们对背景像素使用铰链损耗:
而使用等式7仅为前景像素。

5实验
我们首先介绍我们的基准，该基准用于评估从单个图像纠正野生环境中的扭曲纸质文档。然后我们评估我们提出的基于学习的方法，并将结果与现有技术的非基于学习的方法进行比较[27]。

5.1基准
图片：该基准中的图像是由移动相机捕获的物理纸质文档的照片。我们收集了65份不同内容/格式的纸质文档，并为每份文档拍摄了两张照片，总共生成了130张图像。基准包含原始照片和裁剪过的照片。我们在实验中使用后一种方法，因为我们专注于纸张去扭曲，而不是在图像中定位文档。创建基准时考虑了以下因素:
①文档类型。我们选择的文件包括各种类型，如收据、信件、传单、杂志、学术论文和书籍。其中大多数包含文本和图形的混合。有些是纯文本，有些只包含图像。有些是彩色的，有些是黑白的。课文大部分是英文的，也有一些是日文和中文的。还包括一些乐谱。大多数文档都有白色背景，但也包括不同背景颜色的文档。
②扭曲。原始的平面纸质文件被不同的人进行了物理扭曲。每个文件都被变形为两种不同的形状。为了确保基准的多样性，我们既包括简单的案例，也包括困难的案例。对于简单的情况，文件可能只有一个折痕或一个卷曲或一个“共同的折叠”[6]。对于困难的情况，文件可能会严重起皱。我们故意让一些文档保持原样，以测试一种方法是否能保存它们。特别是，94.6%的图像包含弯曲；31.7%含6倍以上；8.5% 是纸张起皱，这是具有挑战性的案例。
③环境。这些照片是由两个人用两部不同的手机在不同的室内和室外场景下拍摄的，光照条件不同:阳光、室内灯光或手机内置闪光灯。我们也在一定程度上改变了观点。最终的基准包含非常多样的例子，并且可以合理地近似最常见的用例。
真值:在折叠收集的纸质文件之前，我们使用平板扫描仪对它们进行扫描。我们调整了获得的图像的大小和整体颜色，以尽可能地匹配原始的平面文档。图6显示了我们的基准中的一些例子。
评估方案:之前的工作提出了两种不同的评估方案。一种是基于光学字符识别(OCR)的准确性，另一种是基于图像相似性的测量。我们选择后者，因为光学字符识别的准确性很大程度上取决于使用的光学字符识别模块，并且不能处理大多包含数字的文档。对于图像相似性，我们使用多尺度结构相似性(MS-SSIM) [33]，因为任务主要是关于文档结构，而不是像素级的颜色准确性。我们还采用了一种使用密集SIFT流的方法[15]来评估由You等人[36]提出的局部失真(LD)。
对图像中的所有图像块计算单尺度SSIM。它基于统计度量的相似性，包括每个图像块内的平均值和方差。MS-SSIM的实现建立了输入图像和目标图像的高斯金字塔。MS-SSIM是在每个级别计算的SSIM的加权和。除了加权和，我们还报告了不同级别的单尺度SSIM。

5.2实验设置
我们在数据集中使用90K图像进行训练，其余的用于验证。我们用Adam[12]作为优化器。培训以0.0002的学习率开始，当验证损失达到稳定水平时，学习率会降低到原来的五分之一。为了公平比较，基准测试中使用的任何文档都不会用于创建用于培训的合成数据。事实上，基准包含比训练集更多样的数据，作为测试我们方法泛化能力的一种方式。
我们使用Tian和Narasimhan的公开代码在我们的基准测试上将我们的结果与他们的[27]进行定量比较。我们还将我们的结果与You等人[36]和Das等人[6]最近的两项研究进行了定性比较。考虑到这些方法没有公开可用的代码，我们在他们的论文中展示的示例上测试我们训练过的模型。
我们调整所有输出图像和目标图像的大小，使其具有相同的598，400区域，同时保持它们的纵横比。我们对MS-SSIM使用5级金字塔，每一级的权重是0.0448，0.2856，0.3001，0.2363，0.1333，这是从最初的实现继承而来的。对于SIFT流，我们使用作者提供的带有默认参数的代码。
我们的基准评价表明，该方法优于Tian和Narasimhan[27]提出的方法。具体来说，我们的方法在MS-SSIM方面达到了0.41，平均LD为14.08像素。[27]在MS-SSIM中仅达到0.13，在LD中仅达到33.69，这是因为他们的方法主要是针对带有文本行的文档设计的，它很大程度上依赖于文本行跟踪的质量。因此，它不能处理具有混合文本行和图形的更复杂的文档，或者文本行跟踪失败的区域，如图10所示。
就计算效率而言，[27]用它们的Matlab实现在CPU上处理一个图像需要3到4分钟。虽然这不是一个公平的比较，我们的网络可以在GTX 1080 Ti图形处理器上以28帧/秒的速度运行。瓶颈在于从映射中生成校正图像。我们的未优化的Matlab实现在一个CPU上需要大约3到4秒钟。总的来说，我们的方法比[27]快一个数量级。总的比较如表1所示。单标度SSIM值也显示在图7中。我们的方法在各种规模上都有更好的性能。
我们还在尤等人[36]和达斯等人[6]提供的例子上测试了我们的训练网络。定性结果表明，我们的模型可以成功地推广到许多其他情况。值得注意的是，[36]需要多视角图像作为输入，[6]只处理特定的折叠类型。我们的结果与他们的结果相当，尽管我们的方法只使用一幅图像，并且被设计成处理任意的失真，如图8和图9所示。图11显示了我们基准的更多定性结果。
我们通过一组消融实验证明了我们的网络设计和损耗功能。我们考虑以下三种配置:1)以L f (等式7)和L b (等式 8)为损失函数的堆叠U-Net。这是我们在之前的实验中使用的配置。2)堆叠U-Net，仅损耗常规L1。3)单U-Net，L1损耗。比较结果见表2。
提出的网络架构和损失函数的配置在我们的基准测试中取得了最佳结果。使用L1损失函数导致质谱-SSIM从0.41微降至0.40，而LD从14.08升至14.85。用单个U-Net进一步替换堆叠的U-Net将质谱SSIM降低到0.35，并将LD增加到15.73。

6结论和今后的工作
在这篇文章中，我们提出了第一个端到端的神经网络来平整和纠正扭曲的文件图像。我们提出了一种具有中间监督的堆叠式U-Net，并以端到端的方式对其进行训练，以直接预测可以消除失真的映射。我们提出了一个创建合成训练数据的程序。我们还创建了一个包含在各种条件下拍摄的真实世界图像的基准。实验结果证明了该方法的有效性和高效性。
我们的工作存在某些局限性。例如，如图11 (b)中的第五幅图像所示，我们的网络没有完全恢复透视失真，因此结果中的三列仍然包含透视失真的痕迹。这应该在今后的工作中加以解决。此外，在未来的工作中，我们希望应用GAN使我们的网络更好地推广到现实世界的图像。我们还想加入一个照明模型来消除校正图像上的高光或阴影。另一方面，我们将优化从映射生成校正文档的代码，并使整个管道实时，并将其部署在移动设备上。

POSTMAN从入门到精通系列（十六）：API历史记录 cdn998 初入测试
历史postman将您发送的所有请求存储在左侧边栏的“历史记录”视图中。您还可以选择保存发送请求时获得的响应。您可以使用历史记录快速尝试各种请求，而不必浪费时间从头开始构建请求。您还可以通过单击请求名称来加载先前的请求。如果您创建一个帐户并登录Postman，您的历史记录将与我们的服务器同步，实时备份，并可在您的设备上检索。注意：如果您要在历史记录中保存对请求的回复，则必须打开左侧边栏中“历史记录
STM32F103五分钟入门系列（八）SysTick滴答定时器+SysTick中断实现跑马灯独独白 STM32F107 嵌入式 stm32 单片机 arm
学习板：STM32F103ZET6往期博客：STM32F103五分钟入门系列（一）跑马灯（库函数+寄存器）+加编程模板+GPIO总结STM32F103五分钟入门系列（二）GPIO的七大寄存器+GPIOx_LCKR作用和配置STM32F103五分钟入门系列（三）GPIO的常用库函数使用方法总结+一个网络上的误区STM32F103五分钟入门系列（四）蜂鸣器实验（库函数+寄存器）STM32F103五分钟
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
运维系列&Linux系列【仅供参考】：Ubuntu 16 永久修改ulimit中的max file open限制坦笑&&life 运维运维 linux ubuntu
Ubuntu16永久修改ulimit中的maxfileopen限制Ubuntu16永久修改ulimit中的maxfileopen限制摘要正文Ubuntu16永久修改ulimit中的maxfileopen限制摘要本文介绍如何在Ubuntu16系统中增加最大文件打开数限制，通过修改系统配置文件来实现对nginx等服务中worker_connections参数的有效提升。正文Ubuntu16–howto
9款免费毕业论文工具推荐：AI写作神器助你高效完成论文
在完成毕业论文的过程中，学生群体往往会遭遇时间紧张、内容创作受阻等多重挑战。而随着科技进步，各类AI写作工具陆续涌现，这些工具能够有效提升写作效率、优化论文质量。接下来将为大家详细介绍9款免费的毕业论文辅助工具，借助这些AI写作利器，助力你更高效地完成论文撰写。图灵论文AI写作助手——专注于论文领域的神级工具工具链接:图灵论文AI写作助手快速初稿生成：用户仅需输入论文标题，平台即可在30分钟内生成
Android15音频进阶之高通Adsp触发ramdump(一百二十六) Android系统攻城狮 Android Audio工程师进阶系列 Android15 音频进阶高通平台
简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者博主新书推荐：《Android系统多媒体进阶实战》AndroidAudio工程师专栏：Audio工程师进阶系列【原创干货持续更新中……】Android多媒体专栏：多媒体系统工程师系列【原创干货持续更新中……】推荐1：车载系统实战课：
PyTorch深度学习优化实战：从理论到实践的现代化技能指南智算菩萨深度学习 pytorch 人工智能
引言：现代PyTorch开发的核心思维在深度学习技术日新月异的今天，掌握PyTorch不仅仅意味着能够搭建和训练神经网络，更重要的是理解如何高效地利用现代硬件资源、优化模型性能并构建可扩展的AI系统。随着PyTorch2.x系列的成熟，特别是最新2.7版本的发布，框架为开发者提供了前所未有的优化工具和性能潜力。本文将深入探讨现代PyTorch开发中的核心优化技能，从编译器优化到注意力机制革新，从内
语言大模型综述
Paper:ASurveyofLargelanguageModels目录Paper:ASurveyofLargelanguageModels综述概要LLM关键技术规模定律（ScalingLaws）预训练与微调对齐调优（AlignmentTuning）外部工具集成GPT系列模型的技术演进模型检查点和APIPre-Training数据准备和处理数据准备数据预处理数据调度架构EmergentArchit
铜墙铁壁 - 密钥管理的最佳实践 weixin_42587823 云原生安全密钥安全
铜墙铁壁-密钥管理的最佳实践第一部分：回顾KubernetesSecret的局限性我们在之前的系列中已经接触过K8sSecret对象。它提供了一种将敏感数据与Pod定义分离的基础机制。但对于追求极致安全的生产环境，它存在几个显著的局限性：默认仅编码非加密:etcd中存储的Secret数据默认只经过了Base64编码，这是一种可逆的编码方式，并非加密。任何人只要能访问到etcd的数据，就能轻易解码获
【论文复现】利用生成式AI进行选股和分配权重代码能跑就行管它可读性人工智能 chatgpt
2023年8月，OleksandrRomanko等发表题为《ChatGPT-basedInvestmentPortfolioSelection》（基于ChatGPT进行投资组合选择）的论文。论文探讨了生成式AI模型（如ChatGPT）在投资组合选择中的应用潜力。由于生成式AI模型可能产生幻觉，因此需要谨慎验证和验证其输出。本文采用另一种方法，利用ChatGPT从S&P500市场指数中获取潜在有吸引
【附源码】基于flask框架求职招聘网站 (python+mysql+论文)
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：随着互联网技术的飞速发展，网络求职招聘已经成为了现代人才市场的一大趋势。传统的求职招聘方式逐渐被线上平台所取代，这主要得益于网络平台的便捷性、实时性和广泛性。然而，现有的求职招聘网站虽然数量众多，但质量参差不齐，用户体验也各不相同。一些求职者和招聘者在面对海量信息时，往往会感到无所适从，
汽车多功能播放器出口欧盟需要做EN 18031网络安全哪些标准
汽车多功能播放器出口欧盟需要符合EN18031系列标准中的EN18031-1和EN18031-2标准，具体如下：EN18031-1：防止网络滥用与资源损害，对应RED指令第3.3(d)条。该部分标准针对互联网连接的无线电设备，主要评估网络资产的安全性，包括抵御网络攻击、防止网络资源滥用和服务中断等。汽车多功能播放器通常具有联网功能，如通过蓝牙连接手机实现音乐播放、导航等，或直接连接网络获取在线音乐
2.线性神经网络--Softmax回归温柔济沧海深度学习神经网络回归人工智能
2.1从零实现Softmax回归#数据集导入importtorchimporttorchvisionfromtorchvisionimporttransformsimportmatplotlib.pyplotaspltfromtqdmimporttqdmfromtorch.utils.dataimportDataLoader#####################################
opencv初步学习——图像处理2
这一部分主要讲解如何初步地创建一个图像，以及彩色图像我们的一些基本处理方法一、创建一个灰度图像1-1、zeros()函数[NumPy库]要用到这一个函数，首先我们需要调用我们的NumPy库，这一个函数的作用是可以帮助我们生成一个元素值都是0的二维数组，如果我们把这些数据放到一张图片里面去，那么就对应着我们的一个黑色图像。当然我们也可以通过修改数组中的数字大小来改变图像的颜色（但还是灰度图像）（1）
T型槽铸铁平台类型:按材质与结构分类 A13785751790 材质
T型槽铸铁平台作为工业制造领域的基础装备，其材质与结构特性直接影响着机械加工、检测装配等环节的精度与效率。根据铸造材料、内部构造及功能差异，T型槽铸铁平台可形成系统的分类体系，以下从材质与结构两个维度展开详细解析。一、材质分类：铸铁性能决定平台适用场景1.灰铸铁（HT系列）平台灰铸铁是T型槽平台传统的材质，其石墨呈片状分布，赋予材料良好的减震性和耐磨性。HT200材质平台广泛应用于中小型机械加工车
2025最新盘点：9款高效韦恩图工具推荐 Designseek满血版人工智能图论
在数据分析、逻辑推理以及众多学术研究领域，韦恩图都扮演着极为关键的角色。它以直观的圆形或椭圆形重叠区域，清晰地展现出不同集合之间的关系，无论是集合间的交集、并集还是补集，都能一目了然地呈现出来。无论是学生在学习数学、逻辑学课程时梳理知识点，还是专业人士在进行市场调研、项目规划时分析数据，亦或是科研人员在撰写论文、展示研究成果时阐述理论框架，一款好用的韦恩图绘制工具都显得至关重要。今天，就让我为大家
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【资源分享】外文文献检索网站 Bosenya12 资源文献检索
外文文献检索网站Sci-Hub网址链接：https://www.sci-hub.st/Sci-hub是一个可以无限搜索、查阅和下载大量优质论文的数据库。其优点在于可以免费下载论文文献。ScienceDirect网址链接：http://www.sciencedirect.com/ScienceDirect是一个拥有2500多本期刊以及近20000篇文章的科学数据库，里面的文献可以免费检索阅读。Pro
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
深入解析HarmonyOS5 UIAbility组件：从核心架构到实战应用颜颜yan_ 架构 harmonyos 鸿蒙鸿蒙系统
⭐本期内容：深入解析HarmonyOS5UIAbility组件：从核心架构到实战应用系列专栏：鸿蒙HarmonyOS：探索未来智能生态新纪元文章目录前言核心定位架构特性分析系统调度的基本单元灵活的多实例架构实际应用场景——智能办公应用综合案例详细的架构设计思路解析总结前言在万物互联的智能时代，HarmonyOS作为面向全场景的分布式操作系统，其独特的架构设计为开发者提供了前所未有的开发体验。其中，
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
【AI论文】FineWeb2：一个管道，规模适配所有语言——使预训练数据处理适应每一种语言东临碣石82 人工智能深度学习机器学习
摘要：预训练最先进的大型语言模型（LLMs）需要大量干净且多样的文本数据。尽管近期在开放开发大型高质量英文预训练数据集方面取得了显著进展，但训练性能出色的多语言大型语言模型仍面临挑战，这很大程度上是因为难以针对大量语言定制过滤和去重流程。在本研究中，我们基于FineWeb引入了一种全新的预训练数据集整理流程，该流程可自动适配任意语言。我们通过一组涵盖九种不同语言的实验，对流程设计进行了广泛消融研究
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
Story2：自动化免密登录CSDN和百度+Spring AI文档，并进行页签切换
开发环境搭建以及前期回顾请移步至CSDN自动写博客系列（总）一、整体方案构思，文字描述：1、CSDN免密登录，参考Story1：自动化_CSDN免密登录2、百度免密登录，原理同CSDN免密登录，但是这里注意一下：（1）百度免密登录扫码获取cookie用的是百度APP，请下载好百度APP进行扫描（2）在实现百度免密登录的时候会碰到一个问题，当添加百度cookie的时候，原CSDN的cookie是已经
Spring for kafka系列——1、快速浏览虾条_花吹雪 Spring for Apache Kafka Spring kafka
先决条件：您必须安装并运行ApacheKafka。然后，您必须将SpringforApacheKafka（SpringKafka）JAR及其所有依赖项放在类路径上。最简单的方法是在构建工具中声明依赖关系。如果您没有使用SpringBoot，请在项目中将Springkafka-jar声明为依赖项。org.springframework.kafkaspring-kafka3.3.7使用SpringBo
PostgreSQL系列- 6 - PgBouncer连接池 IfNotExists postgresql 数据库
目录PgBouncer连接池...11、为什么要使用连接池...12、软件安装...13、连接池的配置文件...14、PgBouncer启动和管理...71、为什么要使用连接池1.1能够缓存和PostgreSQL的连接，当有连接请求进来的时候，直接分配空闲进程，而不需要PostgreSQLfork出新进程来建立连接，以节省创建新进程，创建连接的资源消耗。1.2能够有效提高连接的利用率，避免过多的无
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

【论文精读】DocUNet: Document Image Unwarping via A Stacked U-Net

你可能感兴趣的:(图像拼接系列论文,图像处理,计算机视觉,神经网络)