georgeandgeorge

Patch-Based Optimization for Image-Based Texture Mapping（SIGGRAPH 17）翻译

对基于图像的纹理映射进行基于块的优化（Patch-Based Optimization for Image-Based Texture Mapping）

SIGGRAPH 2017

SAIBI，NIMA KHADEMI KALANTARI，RAVI RAMAMOORTHI（加州大学圣地亚哥分校）

----Translated by George Robots of FDU for CG PJ

项目地址：http://cseweb.ucsd.edu/~viscomp/projects/SIG17TextureMapping/

摘要

在为真实世界中物体的几何模型提供纹理映射方面，基于图像的纹理映射是一种常用的手段。尽管利用经过标定的相机及精确的几何结构可以很容易地算出高质量的纹理映射，这种质量会随着不确定性的提高而显著地降低。在本论文中，我们通过提出一种别致的，全局的，基于块的优化系统来合成配准的图像。特别地，我们使用了基于块的合成，通过从原图中抽取信息，来重建一个经配准后光照一致的图像集。该优化系统不仅简便灵活，且相比其他技术（比如局部弯曲）而言，在矫正大范围图像失配上更为合适。该优化问题包括两大步骤，一是搜索块与投票环节，二是重建。实验结果表明：对于经消费级深度相机（如Intel RealSense）扫描的物体来说，我们的方法比之现有方法能够提供更高质量的纹理映射。此外，我们证实了该系统可用于纹理编辑的相关工作，比如补洞、重组、多视角物体隐藏。

（上图表示较为精确的几何结构，下图是不太精确的几何结构）

CCS分类：计算方法论->计算摄影学

附加关键词句：基于图像的纹理映射，基于块的合成

正文

一、引入

对真实世界景物建模是一个重要的视觉任务，在视频游戏、VR、动画设计等方面有着广泛的应用。基于几何结构的重建是大量相关研究的主题，许多相应的算法被研发出来。随着消费级深度相机的普及，普通消费者也能用诸如KinectFusion的技术来生成物体的几何模型。

尽管如此，重现真实世界物体的全貌仍需要重建高质量的纹理映射。基于图像的纹理映射，是在一个采集自不同视角的图像集上，构建与视角无关的纹理映射的常用的方式。随之而来的挑战性问题是，几何结构和相机摆放姿态的计算，由于常常受到噪声的影响而不准确；此外，消费级深度相机提供的RGB图像，常常会有无法被相机成像模型解释的失真。因此，朴素的投影、融合输入图像就会有模糊的、带重影的人工痕迹，如图2所示。

图2

我们发现，通过对输入的每张图像生成一张配准的图像可以克服绝大多数的不精确问题。我们的方法建立在Zhou 和 Koltun的工作之上，他们的工作使用了局部扭曲技术来校正错误配准问题。虽然他们的方法能处理细小的不精确问题，但是对于很不精确的情况很难提供高质量的结果；并且由于局部扭曲技术在校正失配时的局限性能，他们的方法会遗失部分几何特征（见图1，2和4）。

图1

受近来基于块的方法在图像和视频编辑任务领域的成功的影响，我们提出了一种新颖的，全局的，基于块的优化系统来合成配准好的图像。我们的能量函数（这里的能量函数应该属于“基于能量优化的图像匹配”这一方法中的技术，参见参考博客①）结合了我们对配准后图像的两个主要的需求：（1）包含原始输入图像的绝大部分信息；（2）保留投影矩阵的光学一致性。

为进一步优化能量函数，我们同时将输入的原图像和配准后的图像的局部相似性最大化，并保证了所有配准后的图像与纹理映射的一致性。

我们的系统以基于块的方式直接从原图像中抽取信息，从而可以灵活地处理大范围的不精确问题。此外，我们的方法通过合成缺失的内容来处理缺失几何特征的情形（见图4），而现有的基于扭曲图像的或是基于图片分割的技术则不能处理。最后，相比于Zhou和Koltun的方法，我们实现了图像领域的一种优化，使得我们系统性能不受几何复杂性所限。总之，我们做出了以下的贡献：

（1）对于视点无关的、基于图像的纹理映射，引入了首个基于块的优化系统（见模块3.1）。该方法通过合成经过配准的图像来校正图像失配问题，而这些经过校正的图像之后能用于生成一个视点独立的纹理映射。

（2）我们提出了一个简单的两部曲操作来高效地求解我们的能量方程（见模块3.2）。

（3）我们证实了本方法比现有的技术效果更好（见模块5）；此外我们也展现了本方法在其他领域的应用，这些应用也获得了靠当前技术无法实现的效果。

二、相关工作

从真实世界物体的图像集合中重现它的外貌这个主题被广泛地研究。基于图像的着色技术通过产生一个依赖于视角的纹理映射来重现物体的外貌。然而，这种手段只能应对输入图像在相同光照条件下的情况。因此，它们不能被用于某些场景，这些场景使用的是在不同光照环境下被扫描过的物体的图片。此外，由于这些手段并不产生一个全局一致的纹理映射，他们显然无法用于游戏、AR、动画等领域。

视角独立的纹理映射方法，以我们的为例，从不同视角抓取到的图像集中生成一个全局一致的纹理映射，这些图像随后可以被用来在各种光照情况下上色（注意：该情况下最终的纹理仍具有原始的光照条件。然而，该问题可以通过对原图做本征图像分解（Intrinsic Image Decomposition，参见博客②）并使用反照率来生成纹理映射）。这类方法的主要挑战是，在抓取过程中如何解决不精确问题。关于图像的几何配准，有如下几种方法：半自动化的[Franken et al. 2005; Ofek et al. 1997; Pighin et al. 1998]，或者通过优化颜色一致性而自动化的[Bernardini et al. 2001; Pulli and Shapiro 2000]，或者通过配准图像和几何特征来自动化的[Lensch et al. 2001; Stamos and Allen 2002]，或者通过最大化投影图像间的互信息来自动化[Corsini et al. 2013, 2009]。虽然这些方法在解决由相机标定不精确引起的问题时很有效，却不能解决几何结构不精确，或是RGB图像中光学畸变引起的问题，而这些问题在消费级深度相机中是很常见的问题。

2.1 单视角选择

这类方法不去融合投影后的输入图像，由于失配的缘故这种操作可能产生模糊的效果；而是对每个面只选择一个视角。为避免在面与面之间产生可见的缝隙，通常要解决离散标记的问题（[Lempitsky and Ivanov 2007; Sinha et al. 2008; Velho and Sossai Jr. 2007; Waechter et al. 2014]）。

例如，当下效果最好的方法（Waechter et al. [2014]）解决了条件随机场能量方程的问题，该方程包括两项：一个数据项“偏好”与当前的面接近的、不模糊的面，一个平滑项“惩罚”相邻面不连续的情况（是不是把参考博客①中的像素改成了面呢？）。可是正如图2所示，即使是这种方法也无法解决在不精确程度很大时许多挑战性的情况，从而在最终的纹理映射中产生可见的缝隙。

2.2 图像配准

本目录中该方法直接通过配准输入图像来解决不精确问题。Tzur and Tal [2009]提出估计几何结构的每个顶点的局部的相机投影来解决相机标定、几何结构等的不精确问题。然而，该方法需要用户的交互，来产生看上去合理的结果。Aganj et al. [2010]通过寻找不同视角中的SIFT特征、扭曲输入图像来解决失配问题，而[Dellepiane et al. 2012; Eisemann et al. 2008]则用光流处理处理扭曲。这些方法并未要求失真全局最小化，且在一对图片上进行处理，因而是次优解。Gal et al. [2010]给一张输入图像指定一个三角形，找到每个三角形的最优转换（方式/矩阵）来消除缝隙，然而这种优化方式需要大量的运算。

我们的方法是基于Zhou and Koltun [2014]近期的工作的，该工作同时解决了寻找最优的相机姿态和非刚性的对输入图像的矫正。它们使用了局部扭曲来实现非刚性的配准，并提出一个交互的优化来最小化它们的目标函数。然而，局部扭曲并不能矫正大规模的失配，而且会产生重影、模糊的人为现象，如图2所示。为避免该问题，我们提出了一种相比于局部扭曲更为灵活的机制来处理非刚性的配准，将此机制用于我们的优化系统。

2.3基于块的合成

我们的方法受近来基于块的合成方法在大量应用，例如填洞（[Wexler et al. 2007]）、图像重定向（image retargeting,参见博客③）与图像编辑（[Barnes et al. 2009; Simakov et al. 2008]），影像变形（参见资料⑨），HDR重建（[Kalantari et al. 2013; Sen et al. 2012]）和风格迁移（[Bénard et al. 2013; Jamriška et al. 2015]）。基于块的合成，在找出几张图像的一致性（比如影像变形和HDR重建）很困难的应用场景中已经特别成功了。在我们的应用中，合成的配准图像需要在物体的几何结构上具有一致性，因此基于块的合成在我们的问题上无法直接应用。我们通过提出一个新颖的，基于块的能量方程来应对这个挑战，该方程将几何结构融合到公式之中。

三、算法

绝大多数纹理映射的方式是使用一个包含N张源图片(记作S1,…, SN)的集合来生成一个高质量的视角独立的纹理映射，这些源图片从不同的视角中拍摄得到。这些方法常常假设源图片对应的物体的近似的几何结构和粗略的相机姿态（即相机的内参、外参矩阵）用现有的方法可以估计得到（[Newcombe et al. 2011; Seitz et al. 2006]；一个很有意思的论文是只需要给两张相关照片就能进行三维重建：Novel View Synthesis in Tensor Space），一旦纹理映射产生，有着视角独立的纹理的物体就可以在任何新视角中着色了。

一种生成纹理映射的简单方式是将原图像投影到几何结构上，并将所有的投影后的图像结合在一起。理想情况下，这些投影后的图像是光照一致的，因此融合这些照片横沟产生高质量的纹理图片。然而实际上由于不精确的问题，投影图像常常失配。因此这种简单的做法会产生重影的效果。

在图3中的顶行我们演示了该问题：给定源图片S1，S2，展现出合成后的效果。为了观察失配问题，我们将原图像投影到一个新的视角i。注意从原图像Sj投影到新视角i可通过重映射原图像的像素颜色Sj(y)来实现。y是像素从图像i投影到j的位置，记作：y= Pj(Gi(x)). x是图像i上像素的位置，Gi将i图像上的一个像素投影到全局三维空间，Pj将三维空间中的点投影到j图像。在本论文中，为了符号的清晰简洁考虑，我们使用xi表示图像i上的像素，用xi→j表示这个像素投影到图像j后的新像素。在该定义下，y= xi→j，Sj(xi→j)是将图像Sj投影到视角i的结果。查表1可得本论文中用到的完整的符号表。

正如图3（顶行）所示，由于估计的几何结构与相机姿态（即相机内外参）的不精确，投影后的源图片Sj(xi→1)和Sj(xi→2)都失配了。因此，由简单的投影和混合方法产生的纹理映射有着了重影的效果（如最右边那一列所示）。这里（图中）的Mi指的是在i相机视角下，最终的全局一致的纹理映射。注意Mj是从所有的源图像中重建得到的映射，因此与投影后的源图像是不同的。

图3

为了克服这种失配问题，我们为每张源图像Si合成匹配后的（目标）图像Ti。正如图3所示，目标图像是通过移动源图像的内容来矫正失配问题。作为结果，所有的目标图像都是光照一致的，因此将它们投影到几何结构上并结合在一起产生了高质量的结果。下个章节将解释我们的基于块的优化系统如何合成这些目标图像。

3.1基于块的能量函数

我们观察到，为了产生高质量的纹理映射，目标图像应当有两个主要特性：

每张特征图像应该与它的相应的源图像相似；
投影后的目标图像应当光照一致。

我们的目标是提出一个全局能量函数，能兼顾这两个主要特性。为满足第一个特性，我们确保了在视觉一致性的角度上，每张特征图像都包含了相应的源图像的绝大多数的信息。为了实现它，我们使用双向相似性(BDS)(见Simakov et al. [2008])。基于块的能量函数定义为：

α是前后两项的影响因素占比的调整参数，s和t则分别是源图像和目标图像的块，D是在RGB彩色空间上块s和t的所有像素值平方差之和。此外，L是每个块的像素数目，例如对于7X7的块来说L = 49.

公式中第一项（完整性）确保了每个源块在目标图像中都有与之相似的块，第二项（一致性）的功能反过来与之类似。完整性这一项度量了目标图像中保留了多少的源图像信息，而一致性这一项则度量了目标图像中是否存在着一些新的视觉结构（人工痕迹）。最小化能量函数保证了绝大多数的源图像中的信息，能在视觉上一致的情况下被保留在目标图像之中。

注意到上面的第一个等式是为一对源图像和目标图像设计的。为了将这种相似特性应用于所有的图像，我们将其扩展为：

基于块的合成技术，相比局部扭曲技术（[Zhou and Koltun 2014]）更为灵活，因而当几何结构和相机姿态出现大规模不精确的时候更适合于使用该技术。此外，虽然局部扭曲技术内在地保留了视觉一致性，但它同时也在目标图像中保留了我们不需要的、来自源图像的其他信息。如果几何模型不包含特定的特征，源图像中对应这些特征的区域将不应该被包含，从而也不在纹理映射中被包含。因此，该方法在这些区域会产生模糊/重影的人为合成痕迹，如图4所示。Waechter et al.[2014]的方法在每个面中选取一个视角，从而避免了这种情况下的糟糕效果。然而他们的方法不能将缺失特征部分对应的纹理给删去，因为这些特征在所有的源图像中都是存在的。注意到缺失的几何特征在绝大多数情况下都会带来不精确的几何结构（如图9所示），这正是现有的技术很难处理大规模不精确情况的原因。

图4

尽管目标图像与源图像的相似性是生成高质量纹理映射的必要条件，却不是充分条件，如图5所示。

图5

因此，我们需要将通过确保目标图像的一致性来实现第二项的效果。这个约束可以由以下几种方式实现。例如，我们可以通过保证投影后的目标图像与当前的目标图像很接近来实现一致性，例如使得Tjxi→j= Tixi.这一约束可用Tjxi→j与Tixi之间的二范数距离最小化的最小二乘思想来表述。

另一种选择是，该约束可通过保证当前目标与所有投影目标均值的一致性来实现，例如保证1Nj=1NTjxi→j= Tixi成立。类似地，要满足该约束，可以令视角i处的纹理与投影后的目标图像的纹理保持一致，即满足等式Tjxi→j= Mixi。由于所有的目标图像都将保持一致，且与优化后的纹理映射保持一致，应用上述两种不同的方法中任意一种会产生类似的最佳目标图像。然而，为利用交互优化（详见3.2模块），我们使用了后一种策略（Tjxi→j= Mixi），一致性能量等式写作：

第一个求和符是对图像i上所有位于xi处的像素求和。权重wj使得约束条件和第j个投影后的目标图像的贡献成比例。在具体实现时，wj= cos⁡(θ)2/d2，θ时表面法线和图像j的视角的夹角，d表示相机与表面的距离。该权重在相机离物体较远，或者当相机视角与表面擦边时值较小。最小化能量函数确保了所有的目标图像与从i相机视角看到的最终纹理映射保持一致。我们将该等式扩展成如下形式来确保这种对于所有图像的一致性约束：

为满足这两个特性（等式的两项分别体现两个特性），我们将完整的目标函数记做带权的E1与E2之和：

λ 表示一致性那一项的权重，在我们的试验中设定为0.1。优化我们提出的基于块的能量函数将产生包含源图像大多数信息，而且在视觉上具有一致性，而且保留了投影一致性的目标图像。一旦获得了优化的目标图像Ti，就能用不同的方式利用它们产生单一的一致性纹理。例如，通过先把所有的目标图像投影到几何结构上可以实现该目标。在该过程之后，每个顶点从不同的目标图像获取一个颜色样例的集合。每个顶点的最终颜色可通过计算这些样例的加权均值来得到。

图5是我们对优化系统中各项的效果评估。仅仅优化第一项可以产生于源图像有着一致视觉外表的配准后的图像，但是却不具有一致性。仅优化第二项能产生具有一致性的目标图像，可这些图像包含了在源图像中不存在的信息。优化我们提出的完整的能量函数可通过满足上述两个特性来产生高质量的纹理映射。

3.2优化

为了高效地优化等式5中的能量函数，我们提出了替代性的优化方式，它在不同视角M1,…, MN下能同时优化目标图像T1,…, TN，以及纹理。特别地，我们通过轮流使用两个变量集来最小化能量函数。我们将目标图像和纹理分别初始化成他们相应的源图像，例如Ti= Si, Mi= Si.接着我们交替地执行配准和重建两步，直到收敛。我们的算法的架构参见图6。

图6

接下来我们解释以下这两个步骤：

配准。

在这个环节，我们固定M1,…, MN，通过寻找最优的T1,…, TN来最小化等式5.通过迭代的搜索和投票过程（与Simakov et al. [2008]类似）即可实现。在第一步中，我们进行块搜索的步骤，来寻找具有最小的D(s,t)的块（参见等式1），D表示平方差之和。在下一步中，我们实现了投票步骤，在上一步给定的算得的块的基础上，获取最小化等式5的T1,…, TN。注意，正如我们接下来要提到的，我们的投票机制与Simakov et al. [2008]是不同的，这是由于我们添加了额外的一致性约束EC。

方便起见，我们通过先单独讨论等式5中的每个项来解释我们的投票机制。

第一项（相似性）：与Simakov et al. [2008]类似，我们通过使用在搜索过程中获得的块来重新定义BDS能量函数（E1）：

E1(i,xi)是指指定相机i（这个i是）和像素xi对应误差的E1。su和sv分别是重叠部分包含了像素xi的源块，用以确保目标图像的完整性和一致性。此外，yu与yv分别指su和sv中的，对应于目标图像的第xi个像素位置的单个像素。最后，U和V分别指代为保证完整性和一致性所需的块的数目。注意到绝大多数的这些变量是当前像素xi的函数，但是我们为标记符号的简单原则而省略了这部分。等式的推导参见 Simakov et al. [2008]的论文。为获取能最小化上述等式的Ti，我们需要对未知的颜色Ti(xi)求导，令其值为0，从而得到：

目标图像通过计算源块的集合中，包含目标图像的第xi个像素的所有块的像素颜色加权均值。注意到尽管标准化系数1L可被约去，我们将它保留在等式中，以便使其可以在等式9中与等式8很容易结合。

第二项（一致性）：第一项是标准的投票过程，如Simakov等人所述，主要用于从源图像中抽取信息来重建目标。我们的主要区别在于第二项，它通过保证目标图像与纹理一致确保了一致性约束。正如附录中所示，最小化等式5中的第二项的目标值的计算方式为：

这里尽管权重wi(xi)会被约去，我们在等式中仍然将其保留，以便在等式9中融合两项。在此通过计算当前纹理映射在不同视角的均值来计算目标。这是凭直觉得出的等式，因为约束主要是要求配准后的图像与纹理尽可能一致。

结合项：直觉上，求解结合项的目标值，应当通过在保证与纹理的相似性的同时，抽取源图像中信息，然后重建得到。由于这两项通过λ参数结合在一起，结合的结果应当能通过分别在分子、分母上添加等式7、8中的项来得到，记做：

最终版的目标值是加权的，包含常规的投票过程（等式7）和所有当前纹理映射均值（等式8）的结果。这意味着一致性那一项主要保证了我们的目标值与当前的纹理映射具有一致性。该能量函数的最小化步骤就是反复地做搜索、投票过程，直到收敛。该迭代过程通过将投票后的，经过更新的目标值作为新一轮迭代过程的输入。（这篇paper为何有这么多冗余的文字?!）我们实验表明只需要一轮迭代就足以获取高质量的结果，如图7所示。

图7

重建。

在该步骤中，我们固定T1,…, TN，计算出不同视角下最优的纹理M1,…, MN来最小化等式5.由于纹理只在第二项（EC）这个二次式中出现，最优纹理可通过以下的方式求得：

这是我们的纹理生成等式，它主要说明了最优纹理是由所有投影后的目标的加权均值算得的。在目标失配这种优化初期很常见的情况之下，该过程会产生带重影和模糊的纹理。下一个配准过程的迭代就会试着缓和目标间的失配程度，最终使得在重建之后纹理映射中出现的人工痕迹更少。

我们迭代地执行配准和重建两步，直至收敛。与[Barnes et al. 2009; Wexler et al. 2007]基于块的配准方式相同，我们在多尺度上执行这两步来避免局部最小值，同时加速收敛（参见模块4）。注意到这里的迭代是在我们的配准、重建这两大步骤之间进行的。我们还有一个内层迭代，它位于配准步骤中，反复进行的是搜索和投票步骤（不过这个迭代只需进行1次）。

一经收敛，我们的算法就生成配准的图像T1,…, TN以及在不同视角下的最优纹理M1,…, MN，这两者非常相似。由于目标图像具有一致性，通过将所有的目标图像投影到集合结构上，并求出他们的颜色样本均值，以获得每个顶点上的最终颜色，完成这些步骤后最终仅生成一个全局纹理。

四、实现细节

获取输入数据。我们使用Intel RealSense R200相机来抓取我们的RGB-D序列。该相机以628X468，或1920X1080的分辨率记录深度及色彩序列，帧率为30.为了最小化颜色差异，我们固定了曝光及白平衡（参见博客13）。我们使用KinectFusion的算法（[Izadi et al. 2011]）来估计每一帧的集合结构和相机姿态。注意到该方法估计了相机姿态的深度结构，我们也将此估计赋给相应的彩图结构（有种获取彩图的相机结构的方法，需要将严格的转换用到深度相机的姿态之上，但是该策略不能显著地起帮助作用，主要是因为以下两个原因：一是深度相机和彩度相机的快门不是同步的，二是我们的深度和彩度相机非常靠近，所以有相似的姿态）。

关键帧选择。为了减少我们输入的图像的数目，我们用与Koltun’s method [2014]类似的贪心的方式来选取一个图像的子集。特别地，给定一个已经选择好关键帧的集合，我们使用Crete et al. [2007] 的方法来寻找在已选择的最后一个关键帧之后的，有着最低模糊度的，介于区间（t,2t）的一帧。在实现时，t根据场景可在30到60帧之间做选择。

配准。为加速搜索过程，我们使用块匹配的算法（Barnes et al. [2009] ），块尺寸参数设置为默认值7.此外，为了避免目标图像与源图像的偏差过大，我们将搜索框的尺寸限制在0.1w·h，w和h分别表示源图像的宽度与高度。

多尺度优化。我们通过将优化过程在多尺度上应用来求解等式5中的能量函数。特别地，我们首先对所有的源图像下采样至最粗糙的尺度（上下采样的定义参见参考博客④）。我们先用低分辨率的源图像初始化T1,…, TN和纹理M1,…, MN，并且迭代地进行配准和重建步骤直至收敛。我们接着对所有的目标和纹理上采样至下个尺度的清晰度，并且在新的尺度上迭代地做这两个步骤。注意到我们并不是在更粗糙的尺度上对源图像上采样，而是直接对原先的高分辨率源图像做下采样至当前的尺度。这就使得系统可以将高频率出现的细节插入到目标图像和纹理中。我们在所有的更精细的尺度上继续做该步骤，从而在最精细的尺度上获取最终结果。在最粗糙的尺度上，输入的图像在更小的维度上有64个像素我们总共有10个尺度，尺度参数为9x/64，x是原先的源图像中较小的维度。我们在最粗糙的尺度上做50次配准、重建的迭代，在更精细的尺度上则减少至5次。

正如图8所示，这种多尺度的方式对于避免局部极小值来说是很有必要的，因而会生成高质量的结果。直觉上说，我们的优化系统在更粗糙的尺度上配准全局结构，在更精细的尺度上复原细节。我们在附件视频中演示了我们算法在不同尺度上的收敛算法。

图8

五、结果（配图灰色部分就是物体的（较为精确的）三维几何结构）

我们用MATLAB/C++ 实现了框架算法，并与当下最好方法（Eisemann et al. [2008]；Waechter et al. [2014]；Zhou and Koltun [2014]）做对比。我们直接使用了前两者的源码，而第三个方法由于没有开源代码，因此我们自己编程实现了。注意到对于Eisemann 等人的算法，我们使用了静态的场景，并生成了视角独立的纹理，来做公平的比较。我们通过展示每个物体的一至两个视角来演示结果，在附录的视频中可以找到来自不同视角的，体现了纹理映射效果的物体的段落。注意到我们的应用场景通常比Zhou and Koltun的更具挑战性。这（更具挑战性的原因）主要是由于我们随机地在典型的光照条件下选择场景，因此我们的几何结构精确度较低。我们在Zhou and Koltun论文中提到的FOUNTAIN（喷泉）场景中测试了我们的方法，得到了有可比性的效果，参见图14（配准目标）。

图9是我们的方法与其他方法在6个有挑战性物体上应用效果的比较，这些物体的经估计的几何结构参见图10。TRUCK（卡车）是有着复杂几何结构的有挑战性的景物，它无法通过消费级深度相机直接获取几何结构。Eisemann et al. [2008]在一对图像上做处理，使用没有优化全局能量函数的光流来校正失配，这种解法是求次优解的。由于他们的扭曲后的图像包含了局部失配的情况，他们的方法会生成模糊的纹理。Waechter et al. [2014]的方法通过求解优化系统从每个表面选择一个视角，来隐藏相邻面的接缝。然而它们的方法无法在该情形下生成令人满意的结果，这是因为他们在精确度很低的情况下会将不连续的纹理赋给邻接面。参见上一行插图中撕裂的人工痕迹，和下一行插图的失真的熊脸。

此外由于不精确的几何结构（见图10），Zhou and Koltun的方法中的局部扭曲无法对该情况中的显著的失配做校正。因此他们的结果饱受重影和模糊之苦。我们的方法将配准后的目标图像进行合成，从而能够产生人工痕迹很少的纹理映射图像。

没有其他方法能够处理枪的场景。特别注意在下一行插图中只有我们的方法能够重建细的黑的结构。

由于光流估计的不精确性，Eisemann等人的方法产生的结果具有撕裂的人工痕迹。Waechter等人的方法通过校正颜色的做法来解决邻接面之间颜色差异的问题，这种做法价值并不大。由于在这种情况下图像是显著地失配的，邻接面可能有不连续的纹理。因此在两行插图中可以看到，颜色校正会带来肉眼可见的变色情况。另外，我们尝试了具有复杂几何结构的房屋景物。

Waechter等人的方法产生了撕裂的人工痕迹，而Eisemann、Zhou and Koltun的结果则会有重影。这主要是由于景物的复杂性以及集合结构的不精确造成的。不过我们的方法可以在这些挑战性的场景下产生高质量的结果。

书包景物的上一行插图展示了一个几何结构相对平滑的区域。然而Eisemann等人的方法仍然无法正确地配准图像，他们生成的还是模糊的纹理。此外，Waechter等人的方法因为相机姿态数据不正确的缘故，产生了具有撕裂的人工痕迹的结果。

尽管Zhou and Koltun的方法在该样例中矫正了大部分的失配，他们的结果相比我们的还是要模糊一些。下一行插图展示了有着复杂纹理的书包的一个侧面区域。在该区域中，Waechter等人的方法会显示出褪色的人工痕迹，而Zhou and Koltun或是Eisemann的方法则会造成重影的结果。这些方法在处理枕头样例的边沿时，由于区域的几何结构很复杂，也无法提供正确重建的纹理。值得一提的是，Waechter等人的做法在枕头的阴暗面也会产生褪色的人工痕迹（参见附件视频）。最终我们的方法在牛的样例中恰当地重建了眼和爱心图案的部分，以及蓝色和棕色的结构部分。

在人的样例上，将我们的方法与其他方法做比较，如图11所示：由于在抓取环节物体一致在动，所以这个景物对所有方法来说都很有挑战性。虽然其他的所有方法产生的结果都具有重影和模糊的人工痕迹，我们的方法恰当地处理了所有的不精确性，产生了高质量的纹理。

图11

局限性。我们的方法的主要局限在于，基于块的合成通常产生貌似真实的结果，但是在某些场景下却无法保留语义信息，正如图12所示。这里尽管我们的方式矫正了显著的失配，生成了看似合理的结果，却不能保留洞的结构。

图12

六、其他应用

在本章节，我们讨论本系统的几个应用，包括纹理的修补孔洞，图像重组，多视角图像伪装。注意到尽管基于块的合成在之前已经被用于图像补洞和重组（[Barnes et al. 2009; Simakov et al. 2008]），这些方法因为缺少一致性所以在我们的应用中不合适。

6.1纹理补洞

在一些情形下，真实世界中物体的纹理可能包含一些我们区域，需要我们用填洞的方式将它修饰掉。图13就是一个例子：枕头上的标签是我们不想要的，应当在最终的纹理映射中被移除。为了实现该目标，我们首先用我们的系统合成配准后的目标图像。接着在一张配准图像中标记需要填补的区域（用蓝色标记）。该区域可以被简单地投影到其他视角，从而在所有的目标图像中生成这个洞。这些标记过的区域将每张目标图像分为Hi和Ii(洞外区域)。

这里的目标是从每个输入Ii中抽取信息来填补Hi，同时保证被填充区域的光学一致性。这与等式5中能量函数的主要性质很相似，所以我们的系统能用于实现补洞操作。注意到这个问题与多视角补洞这个课题有关，在[Baek et al. 2016; Thonat et al. 2016]中也有不少技术用于解决这些问题，但是我们提出了一种使用纹理映射框架来实现该工作的方法。

我们令等式5中的Si= Ii，Ti= Hi。在此情形下，我们的优化以连续的方式从源中（洞外区域）抽取信息来填补目标（洞）。这是通过对洞内外区域做块搜索，对搜出的区域做投票，然后只对洞的区域进行重建而成的。初始化的时候，我们并没有使用源图像，而是使用MATLAB的roifill函数（参见博客⑧）对洞的边界像素做平滑的填充。我们也省略了BDS能量项中的完整性那一项（见等式1），它用于在目标图像中保留绝大部分源图像中的信息。注意到虽然对于配准是必要的，对于填洞来说不是必须的，因为我们只需要输入的部分，而不是全部信息来填洞。

在图13中包含了我们的方法与[Wexler et al. 2007]基于块的图像补洞技术的比较。虽然独立地补洞在每个视角都能产生看似合理的结果（顶行），将它们结合起来的时候就会产生重影的效果（底部左列），这是因为它们缺乏一致性。Zhou and Koltun [2014]的方法可用于在不同的视角配准填洞后的图像（底部中间）。然而最终的纹理仍然包含了重影的效果，因为通过扭曲无法校正不一致性。我们的方法能够在不同的视角生成一致的填洞后的结果，进而生成高质量填洞后的纹理。

图13

不过该技术不能用于几何结构填洞。因此我们的方法只能填补哪些底层几何结构不复杂的纹理的洞，就像图13中的情形。如何将我们的系统扩展到几何结构的填补是未来有趣的一个研究方向。

6.2纹理重组

如图14所示，我们的方法也能被用来复制部分的纹理（用红色记号标记）并拷贝到其他区域上（用黄色记号标记）。在开始重组之前，我们用系统合成配准后的目标图像。接着我们在一张目标图像上（需要重组的目标图像）标记一些区域，我们的目的是在需要的区域以看似真实的方式合理地替代它们（图14中标记成黄色的部分）。此外，在要重组的目标图像的新位置处，合成的内容需要与其他的目标图像一致。

图14

如何实现呢？我们首先对单张图像做重组（[Simakov et al. 2008]），在新位置合成ROI（region of interest感兴趣区域）区域的复制品。注意到该过程与Simakov et al. [2008]的是类似的，不过只是对于需要重组的目标进行的。此刻其他目标图像与该图像，在执行了重组操作的区域（黄色部分）是不一致的。

如何解决该问题？首先将黄色部分投影到其他目标图像上。接着我们用我们描述的填洞系统，在其他目标图像上填充黄色投影部分。注意到在此我们并未修改需要重组的目标，他只能用于强制其他目标图像，在由黄色投影部分定义的区域产生保持一致性的内容。之前讨论过，这就意味着我们移除了等式5中重组目标对应的EBDS项。

该过程产生的目标图像与需要重建的目标图像具有一致性，正如图14所示。只是，通过使用Wexler方法对每个目标独立地使用填洞得到纹理仍然包含重影的人工痕迹。此外，将黄色部分从重组目标图像投影到其他图像上会产生模糊。我们的方法则能产生高质量的结果。

6.3多视角图像隐藏

我们的方法也能用于在多视角中隐藏一个3D物体。输入一个场景的图像集合，以及一个需要插入到场景中并隐藏起来的，物体的3D几何结构。通过生成几何结构的一致性纹理映射，可以使其在不同的视角变得不可见。该问题可被视作一个高度不精确的几何结构的基于图像的纹理映射，这个场景中的几何结构则通过3D物体建模。我们将自己的技术的结果与Owens等人的方法对隐藏一个盒子这个任务的效果进行比较，参见图15.注意到他们的方法是专门为这个任务设计的，只能用来隐藏盒子。因此他们的方法在这种情况下能生成高质量的图像。经过比较，我们的框架也能处理这个外延任务，产生合理的结果。此外我们的方法可以处理不限于盒子的各类物体（参见附件视频）。

图15

七、结论与展望

在本论文中，我们为基于图像的纹理映射提出了一种新颖的全局的基于块的优化系统。我们通过为每张源图像合成配准后的图像，矫正了由几何结构、相机姿态、输入图像光学扭曲等造成的不精确部分。我们使用了新颖的基于块的能量函数，通过从源图像中重建具有光学一致性的配准后的图像，来实现该过程。为了高效地求解我们的能量函数，我们提出了一个包含两个步骤的策略，一个步骤是修改过的块搜索，之后一个步骤是重建。我们展示了该方法在处理很不精确的情形时的有效性，以及在效果方面超过当前最好方法的结果。此外我们也演示了系统在纹理编辑、多视角隐藏物体等其他方面的应用价值。

未来我们将试着扩展该系统的应用面，直接校正几何结构的相机姿态后生成配准好的图像。此外，我们将研究该系统在宽基线视角（参见参考博客⑤）的插值问题，在这种情况下图像集合中的信息需要结合起来用以生成具有一致性的新视角下的图像。

附录

这里我们讨论一下等式8中的求导，它计算出了使得等式5中第二项的取得最小值的目标变量取值。我们首先将E2重新记做：

为了计算最优的结果，我们首先需要对每个目标值求偏导，即为：

我们用到了一个事实：xi→k→i= xi。通过对上式进行求导计算，令其为0，即可求得等式8.注意到由于导函数与目标图像的单个像素xi有关，我们在求导之前去除了对所有像素求和的符号。

一些参考资料

1.我认为本文的image alignment就是image registration，可解释为图像对齐/图像配准，参见博客⑥

2.本文中的patch是图像的块，比如一个3x3或5x5的正方形像素区域，而不是补丁的意思。在图形学中有patch-match算法，利用图片中的其他区域来恢复边缘区域的做法。参见博客⑦

3.图像重组-reshuffle：将一张图片进行重新组合，比如讲图片右上角的部分贴到左边，并且使得图片看起来很自然。参见博客⑦

4.view-independent:视点无关的，是指从任意角度拍摄的图像都可以

5.novel view synthesis也是一个术语：Given a single image depicting an object, novel-view synthesis is the task of generating new images that render the object from a different viewpoint than the one given.参见资料⑩我翻译为：新视角图像生成

6.multiview camouflage应该是指multiview image camouflage（在图像中隐藏信息的技术），参考论文11，12等文献。下面给出其中一篇文献对该术语的界定：

Camouflage image is also referred as hidden image. It is an instance of recreational art. （图像伪装属于娱乐艺术中的一种。）Such an image contains one or more hidden objects. （一张图像包含了一个或多个的被遮挡的物体。）The color plays an important role in vision. （在视觉上颜色占据了重要的地位。）Camouflaging technique is also called cryptic coloration and it is trick that is used to disguise its appearance, usually to blend with its surroundings. （伪装技术也被称作隐蔽上色，其欺骗性在于它被用于伪装其外表，混合在它的周围环境之中。）This technique is used to mask location, identity and movement while it is the mixture of resources, design or information which is hidden within an image.（这种技术被用来遮蔽位置、标志和移动，它是图像内隐藏的资源、设计或信息的混合。） Our proposed solution is identified to apply these color extraction technique which increases high visual quality of image. （我们提出的解决方式可视作应用了这些增加图像高视觉质量的颜色抽取技术。）Our system can be used in many fields such as military security, gaming, automotive manufactures, animation and graphic designing purposes.

7.附件视频在项目地址中可以找到

8.参考资料：

①【深度相机系列三】深度相机原理揭秘--双目立体视觉：https://blog.csdn.net/electech6/article/details/78526800

②本征图像分解方法与应用研究：

http://www.docin.com/p-1869698117.html?docfrom=rrela

③ image retargeting (图像缩略图、图像重定向)：https://blog.csdn.net/u010922186/article/details/41652703

④图像的上采样（up-sampling）和下采样(down-sampling)： https://blog.csdn.net/ccblogger/article/details/72875497

⑤宽基线(Wide Baseline)和窄基线(Short Baseline)： https://blog.csdn.net/Ysm_Shu/article/details/50530976

⑥ 机器视觉：基于特征的图像对齐（使用opencv和python）：https://blog.csdn.net/yuanlulu/article/details/82222119

⑦ PatchMatch分析：

https://blog.csdn.net/z6491679/article/details/50807689

⑧6. 特定区域处理：

https://blog.csdn.net/matlab_matlab/article/details/54015331

其中提到roifill func的作用为：通过求解边界的拉普拉斯方程，利用多边形边界点的灰度平滑的插值得到多边形内部的点。通常可以利用对指定区域的填充来“擦”掉图像中的小块区域

⑨影像变形的wiki百科：

https://en.wikipedia.org/wiki/Morphing

⑩Novel Views of Objects from a Single Image：

https://arxiv.org/abs/1602.00328

11 论文“Camouflage images”：https://dl.acm.org/citation.cfm?id=1778788

12论文“Camouflage Image Generation System For Security”，https://ieeexplore.ieee.org/document/7824827

13摄像头自动曝光相关基础知识：

https://blog.csdn.net/u011776903/article/details/78783975

你可能感兴趣的:(study,计算机图形学,SIGGRAPH,三维重建纹理映射)

（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
MyBatis Mapper.xml核心属性详解代码的余温 mybatis xml
在MyBatis的Mapper.xml文件中，statement标签（如、等）包含多个关键属性，用于定义SQL语句的行为和映射规则。以下是核心属性及其含义：一、基础属性id作用：当前命名空间下SQL语句的唯一标识，必须与对应Mapper接口的方法名一致。示例：对应接口方法UsergetUserById(intid)。parameterType作用：指定输入参数的类型（如java.lang.Inte
Java解决同构字符串问题宣布无人罪力扣面试题 java 开发语言
Java解决同构字符串问题01题目给定两个字符串s和t，判断它们是否是同构的。如果s中的字符可以按某种映射关系替换得到t，那么这两个字符串是同构的。每个出现的字符都应当映射到另一个字符，同时不改变字符的顺序。不同字符不能映射到同一个字符上，相同字符只能映射到同一个字符上，字符可以映射到自己本身。示例1:输入：s="egg",t="add"输出：true示例2：输入：s="foo",t="bar"输
内核必须懂(七): Linux四级页表(x64) weixin_34310127 操作系统
目录前言Intel四级页表实操寻址获取cr3获取PGD获取PUD获取PMD获取PTE获取内容最后前言Linux四级页表的作用主要就是地址映射,将逻辑地址映射到物理地址.很多时候,有些地方想不明白就可以查看实际物理地址进行分析.Intel四级页表其实很多设计的根源或者说原因都来自于CPU的设计,OS很多时候都是辅助CPU.Linux的四级页表就是依据CPU的四级页表来设计的.这里主要说的就是Inte
ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解小李也疯狂 #Unity ShaderGraph Rectangle
目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板，支持动态调整大小和圆角（配合其他节点）5.2材质纹理（网格/条纹）场景：为材质添加矩形网格或条纹纹理（如布料格子、屏幕像素感）5.3粒子形状（矩形粒子/条纹）场景：控制粒子的形状为矩形
Unity 内置着色器的使用与性能优化【Usage and Performance of Built-in Shaders】小李也疯狂 #Shader：Built-in shaders unity 着色器性能优化 shader
Unity中的着色器通过材质（Material）应用，材质将着色器代码与纹理、颜色等参数结合。理解着色器与材质的关系及性能影响因素，对优化项目渲染效率至关重要。以下是内置着色器的使用指南与性能分析：一、着色器与材质的关系核心概念着色器（Shader）：定义渲染逻辑（如光照计算、纹理混合），决定材质的属性和外观。材质（Material）：着色器的实例，存储具体参数（如纹理、颜色值），同一着色器可创建
Linux内存管理和寻址详解 *烟雨 linux 驱动开发网络
1.概念内存管理模式段式：内存分为了多段，每段都是连续的内存，不同的段对应不用的用途。每个段的大小都不是统一的，会导致内存碎片和内存交换效率低的问题。页式：内存划分为多个内存页进行管理，如在Linux系统中，每一页的大小为4KB。由于分了页后，就不会产生细小的内存碎片。但是仍然也存在内存碎片问题。段页式：段式和页式结合。地址类型划分逻辑地址：程序所使用的地址，通常是没被段式内存管理映射的地址，称为
STM32（X）精简库解读CMSIS
概述CMSIS全称为CommonMicrocontrollerSoftwareInterfaceStandard（通用微控制器软件接口标准），点此参考官方解读精简库CMSIS文件夹结构core：CMSISCortex-M3核心外设访问层源文件startup：启动文件stm32f10x.h：CMSISCortex-M3设备外设访问层头文件。这个文件包含了所有外设寄存器的定义，位定义和内存映射的STM
顶点着色器：3D世界的魔法化妆师你一身傲骨怎能输计算机图形学着色器
摘要顶点着色器是3D图形渲染中的关键组件，负责将3D模型中的顶点数据转换为2D屏幕坐标，并传递颜色、法线、纹理等属性。它通过坐标变换、属性传递和动画变形等功能，使角色和场景动态化，如角色骨骼动画、水面波动和旗帜飘动等。顶点着色器在渲染管线中处于第一站，与其他着色器（如几何着色器和片元着色器）协作，共同完成复杂的图形渲染任务。通过优化计算和合理分配顶点数量，顶点着色器能够高效处理大量数据，广泛应用于
Entity Framework 实体数据模型入门：从创建到实战应用 Leon@Lee 数据库
EntityFramework（简称EF）作为.NET平台下的ORM（对象关系映射）框架，极大地简化了数据库操作。本文将由浅入深，带您一步步了解EF实体数据模型的创建、配置、开发与使用，即使是新手也能快速上手。一、EF与ADO.NET：为何选择EF？在介绍EF之前，我们先看看传统的数据访问方式与EF的区别：ADO.NET的局限：直接编写SQL语句操作数据库，需要手动处理类型转换、SQL拼接等问题，
element目录树组件el-tree使用相关笔记 JoyceLeee 笔记 vue.js javascript elementui
文章目录默认配置懒加载每一级分页懒加载递归处理数据递归遍历树级结构，进行字段映射一维数组处理为树结构默认选中并展开特定节点初始化的需求场景切换tab后的需求场景禁止点击事件搜索本地搜索搜索后滚动定位结果添加图标方法一:通过伪类的background属性方法二:通过img标签引入图片修改选中的高亮(图标和颜色)选中时图标切换文字和背景的高亮可编辑树点击展开后回调点击节点图标切换显示(包含一键切换全部
go Lock Sleep 贵哥的编程之路(热爱分享为后来者) golang
packagemainimport("fmt""sync""time")//Goods结构体，包含一个map[int]int用于存储商品编号和库存数量，以及一个互斥锁typeGoodsstruct{vmap[int]int//商品编号到库存数量的映射msync.Mutex//互斥锁，保证并发安全}//Inc方法，增加指定商品编号的库存数量func(g*Goods)Inc(keyint,numint
OpenGL ES 纹理(7) 起司锅仔 OpenGL OpenGL 安卓 android
OpenGLES纹理(7)简述通过前面几章的学习，我们已经可以绘制渲染我们想要的逻辑图形了，但是如果我们想要渲染一张本地图片，这就需要纹理了。纹理其实是一个可以用于采样的数据集，比较典型的就是图片了，我们知道我们的片段着色器会对每一个像素都执行一次来计算，该像素应该渲染什么颜色，纹理就是一个数据集，比如想要渲染一个图片，我们就是用图片的所有像素信息作为总数据集，然后片段着色器计算的时候就根据像素坐
Mybatis中动态SQL语句执行的各类标签详解匆匆那年967 Mybatis java 数据库开发语言 mybatis maven sql tomcat
Mybatis的其它执行情况可以看我之前的博客，这篇文章主要说Mybatis中动态SQL语句执行的各类标签的详解：MyBatis自定义映射关系resultMap及各种映射关系Mybatis特殊SQL的执行MyBatis的各种查询功能Mybatis获取参数的两种方式及获取参数值的各种情况1.Mybatis中动态SQL的简介简单来说：Mybatis动态SQL本质上映射文件中的一系列标签，功能是方便去拼
主流 3D 感知技术对比-iTOF、dTOF、结构光、激光雷达 moonsims 数码相机
主流3D感知技术对比-iTOF、dTOF、结构光、激光雷达四类主流3D感知技术对比表对比维度iToF相机dToF相机固态LiDAR+可见光融合结构光相机测距原理连续调制光→相位差计算激光脉冲→飞行时间测距激光扫描点云+图像纹理融合投射编码光图案+视差三角测量代表设备IntelD435i,AzureKinectSTVL53L5CX,SonyIMX611L3CAM,RoboSenseM1+RGBRea
对加密字段进行模糊查询：基于分词密文映射表的实现方案大三小小小白数据库
引言在当今数据安全日益重要的背景下，数据库字段加密已成为保护敏感信息的常见做法。然而，加密后的数据给模糊查询带来了巨大挑战。本文将介绍一种基于分词密文映射表的解决方案，实现对加密字段的高效模糊查询。一、问题背景考虑一个用户管理系统，其中包含手机号、身份证号、住址等敏感信息。这些字段需要加密存储以保证安全，但同时业务上又需要支持模糊查询（如根据手机号前几位查询用户）。传统加密方式直接阻碍了模糊查询功
深入 Go 语言垃圾回收：从原理到内建类型 Slice、Map 的陷阱以及为何需要 strings.Builder go垃圾回收
本文是2025-0526-go-gc.md的续篇。在理解了Go垃圾回收（GarbageCollection,GC）的宏观设计，包括并发标记清扫、三色标记法以及混合写屏障等核心机制之后，一个自然而然O问题是：这些通用的GC原理是如何与Go语言内建（built-in）的数据结构（如切片、映射等）协同工作的？这些我们日常使用的工具，其内存的生命周期管理背后又有哪些值得注意的细节？本文将作为续篇，深入探讨
数据结构：多维数组在内存中的映射（Address Mapping of Multi-dimensional Arrays） 95号闪电麦坤数据结构数据结构
目录行主映射（Row-MajorMapping）列主映射（Column-MajorMapping）三维数组的性映射公式行主映射推导列主映射推导在内存中，数据只能线性存储（一维地址线），但二维数组是逻辑上的“表格”结构。所以，编译器必须把二维数组的元素映射到内存中的线性地址。行主映射（Row-MajorMapping）行主映射是指：当我们用一维线性内存来存储二维数组时，优先存储每一整行的所有元素，然
触屏输入归一化：跨设备手感统一方案你一身傲骨怎能输 FPS射击游戏高级技术专栏触屏输入归一化
文章摘要触屏输入归一化是为了解决不同设备屏幕尺寸、分辨率差异导致的操作不一致问题。核心流程包括：获取原始触点坐标和移动距离，结合设备DPI计算物理滑动距离，再通过归一化映射到统一标准（如固定参数或[0,1]区间）。实现时需注意DPI默认值、灵敏度调节和分辨率适配。其本质是将物理滑动距离转换为一致的游戏操作参数，确保跨设备操作公平性和手感统一。一、为什么要归一化？不同设备的屏幕尺寸、分辨率、DPI（
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
【Torch】nn.Embedding算法详解油泼辣子多加深度学习 embedding 算法
1.定义nn.Embedding是PyTorch中的查表式嵌入层（lookup‐table），用于将离散的整数索引（如词ID、实体ID、离散特征类别等）映射到一个连续的、可训练的低维向量空间。它通过维护一个形状为(num_embeddings,embedding_dim)的权重矩阵，实现高效的“索引→向量”转换。2.输入与输出输入类型：整型张量（torch.long或torch.int64），必须
Node.js特训专栏-实战进阶：13. ORM/ODM工具选型与使用爱分享的程序员 Node.js javascript 前端 node.js
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情ORM/ODM工具选型与使用在当今的软件开发领域，数据库交互是众多应用程序的核心环节。无论是Web应用、移动后端，还是数据分析平台，高效、可靠地操作数据库至关重要。对象关系映射（ORM）和对象文档映射（ODM）工具应运而生，它们简化了数据
（慎点/1w字+警告/刚入坑必看请自带水杯）后端入门玩家的第一个项目保姆级笔记包教包会她是我的青春项目学习 java maven intellij-idea
目前学习了项目的后端功能开发，针对前段时间的学习进行系统总结提升，根据项目开发流程总结1.资料中所给的前端界面是存放在/backend和/front之中，而springboot自带的是static，故需要做一层映射才可以访问到publicclasswebMvcConfigextendsWebMvcConfigurationSupport{@OverrideprotectedvoidaddResou
docker映射了端口，宿主机不生效
1、问题产生原因dockerrun-d--namemy-redis-p6379:6379-v/usr/redis.conf:/usr/local/etc/redis/redis.confteam-redis:3.2redis-server/usr/local/etc/redis/redis.conf这容器跑起来了，端口6379没用。搞的我一直怀疑哪里出错了，查看配置文件啊，命令啊。2、发现问题源d
在Unity WebView中运行React应用的解决方案马特说 UNITY REACT unity react.js 游戏引擎
在UnityWebView中运行React应用的解决方案概述本文档详细介绍了如何在Unity应用中通过WebView加载React应用，并解决在Android平台上常见的路径和网络问题。目录项目架构React项目打包Unity本地服务器配置Android平台特殊处理路径映射问题解决网络权限配置完整实现步骤常见问题排查项目架构该项目采用以下架构：Unity应用：主应用程序，包含游戏逻辑和UIWebV
vscode添加源文件_VSCode源码自定义笔记-VSCode启动流程分析 weixin_39559079 vscode添加源文件
从开始到窗口加载与所有的Electron应用一样，入口点在package.json文件中定义。"main":"./out/main",说明了入口文件在out/main.js.这个是编译出来的文件，源文件在src/main.js。注意对于TS文件，由于有sourcemap的映射，我们在ts中打断点就可以跳转过来。这里的js应该是编译时候直接拷贝到out目录下的，我们在src下面的文件打断点无效，应该
纹理贴图算法研究论文综述点云SLAM 算法图形图像处理算法纹理贴图计算机图形学计算机视觉人工智能虚拟现实（VR）纹理贴图算法综述
纹理贴图（TextureMapping）是计算机图形学和计算机视觉中的核心技术，广泛应用于三维重建、游戏渲染、虚拟现实（VR）、增强现实（AR）等领域。对其算法的研究涵盖了纹理生成、映射、缝合、优化等多个方面。1.引言纹理贴图是指将二维图像纹理映射到三维几何表面上，以增强模型的视觉真实感。传统方法主要关注静态几何模型上的纹理生成与映射，而近年来，随着多视角图像重建、RGB-D扫描、神经渲染的发展，
Unity URP法线贴图实现教程 Thomas_YXQ unity 贴图游戏引擎 Unity3D 性能优化开发语言单一职责原则
前言在UnityURP（UniversalRenderPipeline）中实现法线贴图效果，可以通过以下步骤完成。法线贴图通过修改表面法线方向模拟凹凸细节，无需增加几何复杂度。对惹，这里有一个游戏开发交流小组，希望大家可以点击进来一起交流一下开发经验呀！完整实现步骤：1.准备法线贴图使用图像软件（如Photoshop或Substance）创建法线贴图，或从资源商店获取导入设置：纹理类型：Defau
扫描电镜能谱分析入门：扫描电镜不仅能看，还能“查成分” 扫描电镜扫描电镜扫描电子显微镜科研扫描电镜推荐
扫描电镜能谱分析入门：扫描电镜不仅能看，还能“查成分”掌握EDS，从一张黑白图到微观化学地图的跃迁引言：黑白图像之外，还有哪些信息？在扫描电子显微镜（SEM）中，你或许已经熟悉了放大图像的纹理与结构。但仅靠形貌还不够，我们还需要知道：这是什么材料？都有哪些元素？分布在哪里？这就是能谱分析（EDS）登场的时刻。配合SEM，EDS让我们从“看图”进入“读谱”的阶段，打通形貌与成分之间的桥梁，是现代微纳
Python——turtle库宅男很神经开发语言 python
前言：海龟绘图的起源与PythonTurtle库的哲学在计算机图形学的浩瀚世界中，Python的turtle（海龟绘图）库以其独特的魅力，为初学者打开了一扇通往可视化编程的奇妙大门。然而，其深度远不止于简单的入门，它蕴含着事件驱动、状态机、坐标几何以及与底层GUI库（Tkinter）交互的精妙机制。本指南将带您从最底层的逻辑开始，逐步向上，全面、无死角地剖析turtle库的每一个细节，揭示其内部运
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR