墨藍

Implicit 3D Orientation Learning for 6D Object Detection from RGB Images初级翻译

题目——根据 RGB 图像检测 6 维位姿的隐式三维朝向学习

论文地址Implicit 3D Orientation Learning for 6D Object Detection from RGB Images

代码地址https://github.com/DLR-RM/AugmentedAutoencoder

本文获得ECCV 2018 最佳论文奖，个人能力太low，首次翻译只是为了更好地理解论文。

摘要:我们提出一种针对物体检测和6维姿态估计的RGB图像处理系统。我们新的三维朝向估计器是基于降噪自动编码器的变种，借助的是领域随机化（domain randamization)用三维模型的模拟视角来进行训练。这个所谓的增强自编码相较已存在的方法有数个优点：它不需要真实的、姿态标注的训练数据；它可以泛化到各种测试传感器并且能天然地处理物体和视角的对称性。这个模型学到的并不是从输入图像到物体位姿的显式映射，实际上它会根据图像样本在隐含空间内建立一个隐式的物体位姿表征。基于 T-LESS 和 LineMOD 数据集的实验表明所提的方法不仅比类似的基于模型的方法有更好的表现，而且表现也接近目前顶级的、需要真实的位姿标注图像的方法。

1.介绍

现代计算机视觉系统的应用中如移动机器人的控制和增强现实一个非常重要的成分就是可靠和快速的6维目标检测组件。尽管，最近有很多令人激动人心的结果，然而，一个灵活、泛化、鲁棒并快速的方法并没有出现。造成这个结果的原因是多方面的。最重要的是，针对一些典型的挑战如物体阻隔、不同的背景杂斑和环境的动态改变，当前的方案不够鲁棒，其次，现存的方法经常需要特定的物体特性，如足够的纹理表面结构或非对称的形状避免混乱。最后，当前的方法在运行时间不够有效率并且所需标注训练数据数量上不够。
因此，我们提出一种直接处理这些问题的新方法。具体来说，我们的方法是在单张RGB图像上进行操作，由于没有要求深度信息，这极大地增加了可用性。当然，深度地图也可以作为选择地包含进来调整姿态估计。首先，我们采用SSD（Single Shot Multibox Detector）目标bounding boxes和目标标识。在结果处的scence crops，我们采用我们新的三维朝向估计算法，这个算法基于先前训练过的神经网络框架。尽管深度网络也在现在的方法中使用了，我们的方法区别在于我们不是在训练中显示地从三维姿态标注中学习，而是，我们隐式从表达的三维模型视角学习表征。这由训练一个通用版本的去噪自编码器完成，使用了一种新的领域随机化策略，我们称之为增强自编码器。我们的方法有数个优点：首先，由于训练独立于SO(3)（注：三维旋转群如四元素）内物体方位的具体表征，我们能够处理由对称视角带来的模糊姿态，因为我们避免了从图像到方位一对多的建图。其次，我们学习表征在实现针对物体阻隔、不同的背景杂斑、不同环境的泛化和测试传感器的鲁棒性能上具体编码三维方位。最后，AAE（增强自编码器）不需要任何真实姿态标注训练数据。而是，它训练编码三维模型的视角采用的是自我监督的方式，克服了对大量姿态标注数据的需要。此方法的示意图概述如下图1所示：

2.相关工作
基于深度的方法（如使用点对特性（Point Pair Features）已经在各样的数据集上展示了鲁棒性的姿态估计表现，赢得了2017年的SIXD挑战塞。然而，这些方法经常依赖于很多姿态假设昂贵的计算评估，更多的，现存的深度传感器比RGB相机对光照和镜面反射更敏感。
卷积神经网络革新了RGB图像的二维物体检测。但是，相比于二维bounding box的标注，标注真实图像的6维物体姿态的努力大幅增高，这要求一定的专家知识和复杂的安装过程。尽管这样，然而大部分基于学习的姿态估计方法使用真实标注的的图像，但也因此所限于姿态标注的数据集。
因此，一些工作提出从三维模型处理过的合成图上训练，放弃了大量具有姿态标签分文不取的数据资源。然而，在合成数据上的简单训练不能典型地泛化到真实的测试数据。因此，一个主要的挑战就是连通隔开模拟视角和真实相机记录的区域隔离。
2.1模拟到真实的转换
存在三种主要的策略来实现从合成数据到真实数据的转换
图片真实化处理（Photo-Realistic Rendering）物体视角和背景已经展示了混合的泛化表现，针对像物体检测和视角估计的任务。它适用于简单的环境并能表现得很好如果能用一部分相对少量的真实标注图像联合训练。然而，图片真实化建模总是并不完美并且需要大量的努力。
领域自适应（Domain Adaptation (DA)）指的是将训练数据从源领域改变为目标领域，在其中小部分标注数据（监督DA）或未标注数据（非监督DA）可以适用。生成对抗网络（GANs）靠从合成图像到训练分类器、三维姿态估计和抓去点算法真实地生成已经应用于非监督DA。然而，建立一种可靠的方法，GANs经常受限于脆弱的训练结果。监督DA能降低对真实标注数据的需要，但并不能完全脱离真实标注的数据。
领域随机化（Domain Randomization (DR)）建立在一个假设上，假设模型是在各种半真实的设定（用随机光照条件、背景、饱和度等来进行增强）上处理后的视角上训练的，这也会泛化到真实图像。Tobin等证实了DR范例对使用CNNs三维形状检测的可能性。Hinterstoisser等展示了用有组织三维模型的随机合成视角来只训练FasterRCNN的头部网络，这也能很好地推广到真实图像。值得注意的是，他们的处理基本上是图片真实化处理，因为有组织的三维模型具有很高的质量。最近，Kehl等开创了一种端到端的CNN，叫做“SSD6D”，采用适度的DR策略来使用合成的训练数据以进行6维物体检测。作者处理具有组织的三维物体视角，物体是在MS COCO背景图像的上面按照随机的视角当亮度和对比度不同时重构的。这让网络推广到真实图像并能按照10HZ的频率进行6维目标检测。像我们一样，为了非常精确的距离估计他们依靠深度数据迭代最近点（ICP）来进行后处理。与之相较，我们不把三维方向估计作为一个分类问题。

2.2学习三维方位的表征
我们描述训练固定SO(3)参数化的困难将会刺激特定目标表征的学习。
回归由于旋转存活在连续的空间，似乎很自然地直接回归固定的SO(3)参数像四元素。然而，代表性约束和姿态模糊能导致收敛问题。事实上，全三维物体方位估计的直接回归方法并没有太成功。
分类三维目标方位需要离散化SO(3)。即使粗略地以5度为间隔也会有超过50,000可能的类别。由于每种类别在训练数据上很稀疏，这就阻碍了收敛。在SSD6D中，三维方位是被分别地分类离散化的视角和平面内的旋转来学习的。因此把复杂度减到了 $O(n^{2})$ 。然而，对于非标准视角，例如，当一个物体从上面被观察时，视角的转换几乎可以等价于平面内旋转的改变，这就导致模棱两可的分类组合。大体上来说，当采用one-hot（一个长度为n的数组，只有一个元素是1.0，其他元素是0.0）分类时，不同方位之间的联系被忽略了。
对称性 依赖固定的三维方位表征时，由于会导致姿态的模棱两可（图2)，对称性是一个严重的问题。如果不人为处理，同样的训练图像可能会有不同的方位标签，这将会严重地打乱学习过程。为了处理模棱两可的物体，大部分文献中的方法采用手工的方法。这种策略先是根据物体采用离散化后忽略一个轴的转动，再是训练一个额外的CNN来预测对称性。这种描述乏味，手工的方法来过滤物体对称性是很先进的，但在对待由于自遮挡（self-occlusions）和遮挡（occlusions）导致的模棱两可就很难处理了。对称性不仅影响回归和分类的方法，同样也影响任何仅仅靠固定SO(3)表征区分物体视角的基于学习的算法。

描述符学习 它能被应用于学习低维空间与物体视角相关联的表征。Wohlhart等介绍了一种使用三重损失来最小化/最大化相似/不相似物体方位之间欧式距离的基于CNN描述符学习方法。尽管混入了合成数据，训练同样以来于姿态标注的传感器数据。进一步来说，这种方法并不对对称性免疫，因为损失受控于模棱两可的看上去相同但方位相反的视角。Baltnas等靠加强描述符和姿态距离之间的特性扩展了这个工作。他们用物体在考虑姿态的深度差异性来加权姿态距离损失进而来处理物体的对称性问题。这种启发式的方法增强了对称性物体的精度。我们的工作也是基于学习描述符的方法，但是我们训练自监督增强自编码器（AAEs），它的学习过程独立于任何固定的SO(3)表征。这意味着描述符仅仅基于物体视角的外观来学习，因此，对称性的模棱两可天然地被考虑到了。分配描述符三维方位的任务只发生在训练之后。更多的，我们能禁绝使用真实标注的数据来进行训练。
Kehl等在随机RGB—D场景小块从LineMOD数据集训练了子编码器框架。在测试时，场景和目标物体小块的描述符被作为比较来查找6维姿态。由于这种方法要求很多小块的评估，每个预测大概要花670ms。进一步的，使用局部小块意味着忽略物体特征之间的整体联系，如果没有组织性，这就很致命。然而，我们是在整体物体视角上训练并显示地学习区域的不变性。
3.方法
下面，我们主要集中基于AAE的新三维方位估计技术。
3.1自编码器
原始的AE是由Hinton等介绍的，是一种对于高维数据如图像、音频或深度维度减少的技术。它包括编码器和解码器，都是可任意学习的函数逼近器，常用的就是神经网络。训练的目标是在经过低维瓶颈重建输入 $x\in \Re ^{^{D}}$ ，作为一种隐式表示 $z\in \Re ^{n}$ 。这里 $n\ll D$ :

$\hat{x}=(\Psi \circ \Phi )(x)=\Psi(z)$ (1)

每个样本的损失简单的用像素级别的L2距离来求和。

$\iota _{2}=\sum_{i\in D}\parallel x_{(i)}-\hat{x}_{(i)}\parallel _{2}$ (2)
结果的隐式空间能用于非监督聚类。去噪自编码器有一个修饰的训练过程。这里，人工的随机噪声应用于输入图像，但重建目标仍要保持没有噪音，这个训练模型能应用于重建去噪测试图像。但是隐式表示是怎样被影响的呢？
假设1:去噪AE产生的隐式表征不随噪音改变，因为它促进了去噪图像的重建。
我们会证明这种训练策略不仅加强了随噪音的不变性，而且针对很多不同的输入增强也具有不变性。最后，这允许我们连通了模拟和真实数据之间的区域间隔。
3.2增强自编码器
AAE背后的动机是控制隐式表征编码和被哪些属性被忽略。我们对输入图像 $x\in \Re ^{^{D}}$ 应用随机增强 $f_{augm}(.)$ ，这个过程中编码应该具有不变性，重建目标方程(2)不变，（1)改为

$\hat{x}=(\Psi \circ \Phi \circ f_{augm})(x)=\(\Psi \circ \Phi )(x^{'})=\Psi (z^{'})$ (3)
为了证明假设1适用于几何变换，我们学习二值图像的隐式表征来描述二维正方形的不同尺度，平面内的移动和旋转。我们的目标是在二维的隐式空间独立于尺度和移动只编码平面内的旋转。图3描述了在训练与图5类似的基于CNN的AE框架的结果。能观测到在固定尺度和移动上重构正方形的AE训练（1）随机尺度和移动（2）没有清楚地单独编码转动，但也同样对其他隐式因素敏感。（3）然而，AEE的编码对移动和的尺度具有不变性，所有随机方位被编码成相同的码。更多的，隐式表征更平滑，隐式维度分别模仿了一个频率为f = 2π变换的正余弦函数。原因是因为正方形有两个相互垂直的对称轴。转动90度后，正方形和之前是一样的。这种根据物体外表而不是固定参数表征方位的特点很有价值，当学习三维物体方位时避免了由于对称性造成的模棱两可。

3.3从合成物体视角中学习三维方位
我们的玩具问题展示了我们能用几何增强技术显示地学习物体平面内转动的表征。应该同样的几何输入增强手段，我们能三维物体模型（CAD或三维重建）视角的整个SO(3)空间，并能对不精确的物体检测具有鲁棒性。然而，编码器仍旧不能从真实RGB传感器关联图像crops,因为（1）三维模型和真实物体具有差异，（2）模拟和真实光线条件有差异，（3）网络不能从背景聚类和前景阻隔中区分物体。而不是在模拟中试图模仿每个真实传感器记录细节，我们在AAE框架中提出了一种区域随机化（DR）技术来使不重要环境和传感器差异的编码具有编码不变性。目标是训练后的编码器把与真实相机图像的差异当作是另一类无关的差异。因此，当保持重建目标干净，我们随机地对输入训练视角采用额外的增强技术：（1）用随机光线位置、随机散射和镜面反射处理（OpenGL中简单的Phong模型），（2）从Pascal VOC数据集插入随机的背景图像，（3）采用不同的图像对比度、亮度、高斯模糊和颜色扭曲，（4）采用随机的物体面具或黑正方形进行阻隔。图4描述了T-LESS中物体5合成视角的事例性训练过程。

3.4网络框架和训练细节
我们实验中用到的卷集自编码框架描述在图5中，我们使用一个从像素方面引导的L2损失，它用最大误差只在像素方面计算（每张图片的引导因素b=4）。因此，好的细节要重建并且训练并不能收敛到局部最小。使用OpenGL，我们对每个物体沿着相机轴随机的三维方位和恒定距离(700mm）上处理了20,000个视角。最后的图片被平方剪裁调整为128x128x3.所有几何和颜色输入增强，除了用随机光线处理之外，都是在以均匀强度进行随机训练时在线被应用的，这些参数见附录。我们使用学习率为2x10-4的Adam优化器，Xavier初始化，batch size为64,30000次迭代耗费大约4个小时在单个Nvidia Geforce GTX 1080上。

3.5代码本创建和测试程序
在训练之后，AAE能从很多不同相机传感器的真实场景分割中提取三维物体（图8）。解码器重建的清晰度和方向是编码质量的一种指示。为了从测试场景crops中决定三维物体方位，我们创建了一个代码本（codebook）：
（1）距全球体视角同等距离的视点上处理干净、合成的物体视角（基于改良的十二面体）。
（2）在平面内固定的间隔转动每个视角来覆盖整个SO(3)
（3）靠对所有产生图像生成隐码 $z\in R^{128}$ 并分配对应的旋转矩阵 $R_{cam2obj}\in R^{3x3}$ 来创建codebook
在测试时，被考虑的物体首先在RGB场景中被检测。区域被平方剪裁并调整尺寸来匹配编码输入尺寸。在编码之后，我们计算从codebook的测试码 $z_{test}\in R^{128}$ 和所有码 $z_{i}\in R^{128}$ 中计算余弦相似性：

$cos_{i}=\frac{z_{i}z_{test}}{\parallel z_{i}\parallel \parallel z_{test}\parallel }$ (4)
最高的相似性由KNN搜索算法决定，codebook中对应的旋转矩阵返回作为三维物体方位的估计。我们使用余弦相似性是因为：（1）即使对于非常大的codebook，它也能非常有效地在单个GPU上计算。在我们的实验中，我们有2562个等距离的视点x36个平面内的旋转=92232总数个条目。（2）我们观察到，可能由于旋转的循环特性，扩展隐式测试码没有改变解码器重建的物体方位。

3.6扩展到6维物体检测
训练物体检测器。我们调整以VGG16为基础的SSD，使用LineMOD and T-LESS训练数据集提供的不同视点黑色背景的物体记录。我们也训练了用ResNet50为主的RetinaNet,尽管慢一些但精度更高。多个物体在同一场景中按照随机的方位、尺度和移动被复制下来。bounding box的标签相应地做出了调整。至于AAE，黑色背景被Pascal VOC中的图像给替代掉了。在训练的60000场景中，我们使用各种不同的颜色和几何增强手段。
投影距离估计。我们从相机到物体中心估计整个三维移动 $t_{pred}$ 。因此，对于每个codebook中的合成物体视角，我们保留它二维bounding box的对角线长度 $l_{syn,i}$ 。在测试时，我们计算被检测bounding box的长度 $l_{test}$ 和对应在相似方位codebook对角线长度 $l_{syn,max-cos}$ 的比率。针孔相机模型满足距离估计

$t_{pred,z}=t_{syn,z}\times \frac{l_{syn,max-cos}}{l_{test}}\times \frac{f_{test}}{f_{syn}}$ (5)
使用合成处理的距离 $t_{syn,z}$ ，和测试传感器和合成视角的焦点长度 $f_{test}$ , $f_{syn}$ ，我们有

$\left ( \begin{pmatrix} t_{pred,x}\\ t_{pred,y} \end{pmatrix} \right )=\frac{t_{pred,z}}{f_{test}}\begin{pmatrix} (bb_{cent,test,x-p_{test,x}})-(bbcent,syn,x-p_{syn,x})\\ (bb_{cent,test,y-p_{test,y}})-(bbcent,syn,y-p_{syn,y}) \end{pmatrix}$ (6)
主点 $p_{test}$ , $p_{syn}$ 和bounding box的中心 $bb_{cent,test}$ ， $bb_{cent,syn}$ ，对于不同的测试函数，我们能预测三维移动。
ICP 细节化。可选的，采用标准的ICP方法用深度数据调整估计花费大约200ms在cpU上，细节见附录。
推理时间。带有VGG16的SSD和31个类别以及大小为92232x128的codebook的AAE超过了表1描述的平均推理时间。我们推断基于RGB系统在Nvidia GTX 1080大约42Hz是实时能行的。这使增强现实和机器人应用成功并为跟踪算法留下了空间。多目标编码并将对应codebooks插入GPU内存，使得多目标姿态估计成为可行。
4.评估
我们在T-LESS和LineMOD数据集上评估AAE和整个6维检测系统。例子能才附录中找到。
4.1测试条件
很少有基于RGB的姿态估计方法仅仅依赖于三维模型信息。大部分方法采用真实姿态标注信息，并经常训练和测试在相同的场景下（在稍微不同的视点下）忽略平面内的转动或仅仅考虑出现在数据集中的目标姿态是通例，但这限制了它的应用性。对称性物体的视角经常单独对待或者忽略。SIXD挑战试图靠禁止使用测试场景的像素来让6维局部算法之间能公平比较。我们根据这些严格的评估指南，但针对更难的6维检测问题，这个问题中并不知道哪个被考虑的物体出现在场景中。这在T-LESS数据集上，由于物体非常相似，使其研究更加困难。
4.2-4.3略
4.4 6维物体检测
首先，我们给出了仅仅基于RGB的结果，包括2维检测，三维方位估计和投影距离估计。尽管这些结果在外表上看来很吸引人，距离估计采用了一种简单的基于云的ICP结合先进的基于深度的方法来进行调整。表格4展示了T-LESS数据集所有场景的6维检测估计，包含很多姿态不确定性。我们调整的结果比Kehl等最近小部分描述符的方法更为出色。尽管他们只是做了6维局部的部分。Vidal等先进的工作（考虑SIXD挑战的平均精度）表现出一个由于姿态假设消耗时间的搜索算法（平均每个物体4.9s）。我们的方法取得了可比较的精度，并且更具有效率。表格4右边部分展示了ground truth bounding boxes在姿态估计上产生了一个上限的结果。附录展示了一些失败的案例，大部分是由于受到确实检测或强阻隔的影响。在表格5中，我们在LineMOD数据集上比较了我们的方法和最近提出的SSD6D和其他方法。SSD6D也是在三维模型的合成视角上训练的，但是他们的表现非常依赖于精致的occlusion-aware，投影ICP调整步骤。我们基本的ICP有时会在临近区域收敛到具有类似形状的物体。在RGB领域，我们的方法比SSD6D更优异。

5 结论
我们提出了一种新的自监督训练策略，采用的是AE框架，能使在不同RGB传感器的三维物体方位估计具有鲁棒性，在训练的过程中只需要三维模型的合成视角。在AE中采用转换几何和颜色进行输入加强，我们学到表征（1）特别编码三维物体方位（2）对合成和真是RGB图像之间的区域隔离不产生差别（3）天然地处理对称物体视角带来的姿态不确定性。通过这种方法，我们创造了一种实时（42fps），基于RGB的6维物体检测系统，特别适用于姿态标注RGB传感器数据不足的情况。
致谢略

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
实时预览功能问题 GISer_Jinger 项目 javascript 开发语言 ecmascript
你遇到的问题是：“B端修改配置后无法实时出现在previewiframe中，而必须点击刷新才能生效”。主要原因与以下几方面有关：❗为什么需要手动刷新：iFrame与主页面之间缺少实时通信机制：原本仅靠刷新重新加载iframe，而没有通过postMessage等方式同步状态；Valtio的proxy状态不能跨文件热刷新持久保存：当你修改包含proxy定义的文件，热重载会导致object被替换，监听丢
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
h5-video标签全屏显示记录 ZhDan91 前端开发混合app
video{width:100%;height:100%;object-fit:fill;}
QML与C++相互调用函数并获得返回值 cpp_learners QML c++QML qt
这篇博客主要讲解在qml端如何直接调用c++的函数并获得返回值，在c++端如何直接调用qml的函数并获得返回值；主要以map或者jsonobject、list或者jsonarray为主！其他单个类型，常见的类型，例如QString、int等，就不演示了；一通百通。目录1准备工作1.1C++端1.2QML端2qml端直接调用c++端函数3c++端直接调用qml端函数3.1调用qml的qmlFuncO
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
el-timeline时间线（Plus）左边图标改为自定义图片顾尘眠 javascript 前端 vue.js
（目前图片有点小，还需要自己去调整下大概样式，比较懒，就放了个大概样子）时间线左侧正常根据文档内容，是填写的icon，但通过icon属性还有另外一个类型，component，可以搭配h函数写一组img元素，实现将图标改为本地图片{{activity.content}}import{h}from'vue'constactivities=[{content:'Eventstart',timestamp
vue3 + Element Plus 系统主题切换顾尘眠 vue.js 前端 javascript
创建主题管理模块(用于配置颜色变量)新建src/utils/theme.tsimport{ref,watchEffect}from'vue'typeThemeType='light'|'dark'|'system'//主题配置constthemeConfig={light:{'--el-color-primary':'#409eff','--bg-color':'#ffffff','--text-
iOS 多个线程对数组操作（遍历，插入，删除),实现一个线程安全的NSMutabeArray
//联系人:石虎QQ:1224614774昵称:嗡嘛呢叭咪哄一、概念1.含义:@synchronized(self){}//这个其实就是一个加锁。如果self其他线程访问，则会阻塞。这样做一般是用来对单2.重写构造方法@interfaceSHSafetyArray:NSObject{@privateNSMutableArray*_mutableArray;//声明数组}//遍历加锁-(void)m
uwsgi 安装
1.根据机器python环境版本进行安装pip/pip3installuwsgi安装可能报错[gcc-pthread]plugins/python/python_plugin.oInfileincludedfromplugins/python/python_plugin.c:1:plugins/python/uwsgi_python.h:2:10:fatalerror:Python.h:Nosuc
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
django - admin后台管理-2-自定义模型类米兔-miny django -达内 django 分布式 python
注册自定义模型类若要自己定义的模型类也能在/admin后台管理界中显示和管理，需要将自己的类注册到后台管理界面注册步骤：在应用app中的admin.py中导入注册要管理的模型models类，如：from.modelsimportBook调用admin.site.register方法进行注册，如：admin.site.register(自定义模型类)#file:bookstore/admin.pyf
Django - 视图和模板 Missing Sunshine Python-Django django 视图和模板
视图视图-是具体的业务代码在app下的views.py文件中编写代码fromdjango.httpimportHttpResponsedefindex(request):returnHttpResponse("这里是我的站点") 为了调用该视图，我们还需要编写urlconf，也就是路由配置。在polls目录中新建一个文件，名字为urls.py（不要换成别的名字），在其中输入代码如下:fromdj
Android 系统默认代码，如何屏蔽相册分享功能
Android系统默认代码，如何屏蔽相册分享功能开发云-一站式云服务平台diff--gita/packages/apps/Gallery2/src/com/android/gallery3d/app/GalleryActionBar.javab/packages/apps/Gallery2/src/com/android/gallery3d/app/GalleryActionBar.javaind
技术演进中的开发沉思-32 MFC系列：生命周期 chilavert318 熬之滴水穿石 windows c++
今天，我们继续MFC以一种更亲近的方式，梳理这个框架的脉络，看看一个MFC程序从诞生到运行的完整故事。一、MFC类层次结构昨天已经梳理过MFC的类层次了，今天梳理其生命周期，还是要提一下。因为它确实很重要，如果把MFC比作一个庞大的家族，那类层次结构就是它的族谱。最顶层的CObject就像家族的老祖宗，所有成员都流淌着它的血液——封装了最基础的功能，比如对象的创建与销毁、序列化等。往下分，就像家族
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
php中调用对象的方法可以使用array($object, ‘methodName‘)？ IT 老王 php android 开发语言
是的，在PHP中，array($object,'methodName')是一种标准的回调语法，用于表示“调用某个对象的特定方法”。这种语法可以被许多函数（如call_user_func()、call_user_func_array()、usort()等）识别并执行。语法原理在PHP中，可调用对象（callable）有多种形式，其中之一是[对象实例,方法名]数组：第一个元素：对象实例（必须是已实例化
python中plus_Python token.PLUS属性代码示例
#需要导入模块:importtoken[as别名]#或者:fromtokenimportPLUS[as别名]deftest_exact_type(self):self.assertExactTypeEqual('()',token.LPAR,token.RPAR)self.assertExactTypeEqual('[]',token.LSQB,token.RSQB)self.assertExac
C语言手写简易 DNS 客户端（接收部分）（Charon） c语言开发语言
本文通过纯C语言手动构造DNS请求报文，使用UDP协议发送到公共DNS服务器，并接收响应，完整演示DNS请求流程。主流程：dns_client_commit()这是整个流程的核心函数，下面我们按顺序拆解每一步的逻辑，尤其突出发送sendto与接收recvfrom的设计思路和实现。第一步：创建UDP套接字intsockfd=socket(AF_INET,SOCK_DGRAM,0);if(sockfd
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
封装一个有最小化的dialog组件嘉琪001 javascript 前端 css
{{title}}最小化关闭温馨提示：当您开启医学白板并最小化界面时，离会前先关闭白板（观看者无需操作）。{{title}}import{ElMessageBox}from'element-plus'import{defineComponent,ref,watch}from'vue'exportdefaultdefineComponent({name:'CustomDialog',props:{v
什么是ORM？它如何简化后端开发？破碎的天堂鸟学习教程数据库
什么是ORM？ORM（对象关系映射，Object-RelationalMapping）是一种编程技术，用于解决面向对象编程语言与关系型数据库之间的数据转换问题。其核心是将数据库中的表结构映射为程序中的类和对象，使开发者能够以操作对象的方式操作数据库，而非直接编写SQL语句。具体而言：映射机制：数据库表→编程语言中的类（如User类对应users表）表字段→类的属性（如username字段对应Use
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
三、【docker】docker和docker-compose的常用命令
文章目录一、docker常用命令1、镜像管理2、容器管理3、容器监控和调试4、网络管理5、数据卷管理6、系统维护7、实用组合命令8、常用技巧二、docker-compose常用命令1、基本命令2、构建相关3、运行维护4、常用组合命令5、实用参数一、docker常用命令1、镜像管理#查看本地镜像dockerimages#拉取镜像dockerpull:#删除镜像dockerrmi#构建镜像docker
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

Implicit 3D Orientation Learning for 6D Object Detection from RGB Images初级翻译

你可能感兴趣的:(Implicit 3D Orientation Learning for 6D Object Detection from RGB Images初级翻译)