自动驾驶之心

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【姿态估计】技术交流群

后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文！

1摘要

1. 本文解决什么任务：

在RGB图像中，识别新物体并估计它的3D pose，同时能够处理遮挡的情况。

2. 本文采用的方法：

我们的方法只需要新物体的CAD模型，既不需要对这些新对象进行训练，也不需要描述它们的真实图像。

根据一小组训练对象（a small set of training objects）来学习局部对象表征（local object representations），然后我们将输入图像与一组“模板”进行局部匹配，这里的“模板”指的是新对象的CAD模型的渲染图像。

我们的方法的特色：（1）与已有的方法不同，我们的方法处理的新物体允许跟训练物体有很大差别。（2）我们的方法是第一个在没有对LINEMOD和Occlusion-LINEMOD数据集进行再训练的情况下实现泛化的。

对先前的template-based方法失败模式的分析，进一步佐证了局部特征对模板匹配的优势。

3. 本文方法的效果:

在LINEMOD, Occlusion-LINEMOD和T-LESS数据集上，我们的方法优于已有的SOTA模板匹配方法。

2引言

1. 任务+挑战性分析:

针对基于RGB图像的3D 姿态检测任务，对于任意的/以前从未见过的新对象，在只能访问新对象的CAD模型且无需再训练的情况下实现3D 姿态检测，该任务在工业应用中具有重要价值。

2. 现有方法存在的问题:

工作[30, 28, 38, 2]尝试处理这个问题。已有的工作中大部分方法施加了一些额外的约束，如假定新对象属于已知的类别、保持与训练对象相似或者具有突出的角。

[38,2]中采用全局表征（global representations）来比较输入图像和基于CAD渲染的模版，他们的方法具有两个局限性。（1）背景杂乱时，它们对新物体的泛化能力较差；即使在统一背景下，他们的姿态估计也不准；（2）他们不适合处理遮挡情况。

3. 本文方法的概述：

受上述工作不足的启发，我们所提出的模版匹配方法保持图像的2D结构。

针对上述工作中全局表征的第一个局限，我们通过模版掩膜抛除背景，进而依赖局部表征。虽然在运行时没有输入图像中的对象掩膜，但我们可以使用模板掩膜。

使用局部特征会产生更精确的姿态检测。因为我们没有使用池化操作，池化操作会删除关于姿势的关键信息（特别是对于新对象）。

我们的方法对遮挡情况鲁棒性高。我们引入了一种新的评估方法来评估两张图像之间的相似性，该评估方法考虑了模板中对象的掩膜和查询图像中可能的遮挡。

总结一下本文的贡献：

对之前基于模板匹配的方法在测试新对象时的失败案例进行了详细分析；
可以根据CAD模型预测新物体的姿态，不需要对新物体进行训练，也不需要限制新物体与训练对象相似；
即使在对象都是新的且遮挡的情况下，该方法针对遮挡情况鲁棒性高。

3相关工作

Pose estimation for known objects.

许多3D物体姿态估计方法使用在真实图像或这些物体的合成渲染图像上训练的深度模型[17, 29, 19, 33, 20, 43, 25, 15]。有些方法[23, 27, 16]对遮挡表现出较强的鲁棒性。然而，这种方法需要长时间、昂贵的训练和数据获取/生成时间，这是我们希望避免的。虽然一些工作尝试通过学习从真实图像中生成新图像来减轻注册真实图像的负担[26]，但对于许多实际应用来说，其成本仍然过高。

Category-level pose estimation.

避免在新的对象实例上重新训练的一种方法是考虑对象的类别，并在目标类别上训练一个模型，该模型将泛化到这些类别的新实例[44,37]。虽然这种方法在某些应用程序中(如场景理解)是有用的，但在许多其他应用程序中，新对象不属于已知的类别。相比之下，我们的方法可以推广到与用于训练初始模型的已知对象在形状上没有相似性的新对象。

Unseen object pose estimation.

[38]提出学习模板的鉴别表征。然后通过图像检索的方式将输入图像与这些模板进行匹配来实现姿态估计。在这种情况下，[2]提出了如何获得更具鉴别性的表示。虽然通过使用3D模型来处理新物体似乎是这些工作的动机，我们的实验表明，这些方法在新物体上表现很差。

最近，[30]提出了[31]的扩展，以推广到新物体。该方法引入了一种具有多个解码器的新架构，以适应不同的对象类型。虽然他们的结果确实显示了对新对象的泛化，但这些对象必须保持与训练对象相似。因此，该方法只在T-LESS数据集上进行了实验，该数据集描述了具有强烈视觉相似性的不同种类的电器。

这些方法依赖于模板的全局表征，后续部分我们将展示基于局部表征的框架在新对象的通用性和对遮挡的鲁棒性方面具有显著的优势。

[28]也考虑局部表征，但与我们非常不同。[28]学会检测图像中特定的2D对象位置，并为每个这样的位置提供描述符，以便将它们与对象的3D模型上的3D点匹配。然而，这种匹配是独立地对每个位置进行的，这使得它具有高度的模糊性，会导致组合匹配成本和频繁的失败。相比之下，我们在网格结构中提取局部表征，并学习匹配所有的局部输入和模板表示。

在[42]中提出了一种不同而有趣的方法，其中除了输入图像外，还使用对象的3D模型的嵌入作为输入来预测3D姿态。然而，为了使用正确的3D模型，这项工作只考虑姿态回归，并假设对象是已知的。

Contrastive learning.

在给定一组图像的情况下，对比学习的目的是学习使得相似的图像接近而不相似的图像相距很远的嵌入空间。[12, 39, 24, 34, 9, 5]利用无标签图像和强数据增强来学习强大的图像特征。

[41]利用姿态标签来学习一个姿势感知的嵌入空间，用于类无关的3D对象姿势估计。[41]的一个限制是不同的对象可以在嵌入空间中相互混合，因此不可能从输入图像中识别正确的对象实例。此外，像[42]一样，[41]也不识别新对象。

相比之下，[38,2]依靠对比学习来学习随对象姿态和对象实例而变化的嵌入空间。为此，他们依靠triplet损失来学习对象判别特征，同时依靠pairwise损失来学习姿态判别特征。同样，我们使用对比学习来提取判别特征表征，但我们的实验表明，InfoNCE[24]损失是最简单和有效的选择。我们的实验还表明，我们的方法在泛化性和鲁棒性方面的大部分性能来自于我们对局部表示的使用。

4方法总体架构

任务：在RGB图像中识别新物体+检测3D姿态。通过匹配该查询图像与模版，返回与查询图像最相似的模板的身份和姿态信息。

模板是CAD模型在某些三维姿势下的渲染图像。
对于每个新对象，模板集包含许多模板，由围绕其3DCAD模型采样的不同视图渲染得到。
模版中包含了物体的身份（identity）和姿态（pose）信息。

挑战：如何在训练阶段在没有看到新对象的真实图像、新对象可能存在部分遮挡、模板图像和真实图像之间存在照明差异以及对象的背景比较杂乱等情况下，可靠地度量模板和输入图像之间的相似性？

动机：与全局表征（global representation）相比，局部表征（local representation）具有更好的可复现性和对遮挡的鲁棒性，我们的方法基于深度模型提取的局部图像特征来度量输入图像和模板之间的相似性。

方法：我们使用由真实图像和来自一小组训练对象的合成图像/模版图像组成的训练对（training pairs）来训练该模型。（真实图像和合成图像的外观可能差别较大。）

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第1张图片

5方法部分：动机与分析

这部分，我们通过两个实验，指出了使用基于全局表征的模板匹配方法的主要缺点。

Cluttered Background

全局表征的第一个缺点：：它们在杂乱背景下表征不可见对象的能力很差。作者通过T-SNE对不同的图像表征的聚类效果进行了可视化，分析表明：杂乱背景对于不可见对象的全局表征有影响，而本文提出的局部表征对杂乱背景有一定的鲁棒性。

第一列，对于训练对象，两种表征方式都设法将每个训练对象的图像聚在一起，尽管对象的图像背景是杂乱的。
第二列，对于新的查询对象，全局表征方式不能分离新对象的图像，而我们的局部表征方式可以。
第三列，对于新的查询对象+排除杂乱背景因素影响，使用真实对象掩膜（ground-truth object masks）将查询图像中的背景替换为统一的颜色，从而删除了背景。在排除背景影响的情况下，表征可被解耦。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第2张图片

Pose Discrimination

全局表征的第二个缺点：将一个新物体的真实图像与合成模板相匹配时可靠性较差，即使在物体的身份已知且背景一致的情况下也是如此。

对新查询物体的姿态距离和表征距离之间的相关性进行可视化。

第一列：对于训练对象，这两种表征方式都表现出强相关性；
第一列：对于新查询对象，全局表征下的这种相关性消失了，而我们的方法没有受到太大影响；
第三列：对于新查询对象，在排除背景信息干扰的情况下，全局表征的这种相关性依旧很弱。说明并非背景的影响。原因推测：池化层会删除重要的信息。作者推测，对于训练对象，这种信息损失似乎由模型架构的其余部分（特别是FC层）来补偿；但这种补偿难以推广到不可见的新对象。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第3张图片

6方法部分：总体框架

训练时候的正对+负对；

一个正对（positive pairs）的定义：一个真实图像（描述一个训练物体）+ 一个合成模版（与训练物体相同，pose接近）。当角度小于5度的时候，我们认为两个pose接近。

一个负对（negative pairs）的定义：一个真实图像（描述一个训练物体） + 一个合成图像（不同物体或不同姿态(大于5度)对象）组成的对。

关于loss部分的选择，作者先介绍了[38]和[2]中用到的两个损失函数，然后提出了本文设计的新的损失函数（后面的实验部分证明后者更好）

Triplet loss

Triplet loss. [38]提出，在学习的嵌入空间中，正对特征描述符之间的距离应该比负对特征描述符之间的距离更近。为了利用这个属性，设计了如下损失函数
1. ，其中，是正对在学习嵌入空间中的距离；是负对在学习嵌入空间中的距离；
2. 是为了最小化两张姿态相同但观察条件不同的图像之间的距离；
[2]基于[38]提出的loss进行了改进，关注学习对象鉴别特征；学习一个类似于位姿差异的嵌入空间}

InfoNCE loss

对于每个真实图像，我们还通过将其与当前批中其他图像对的合成模板进行结合，生成N−1个负对。即每个batch中有N个正对和(N−1)× N个负对。

我们通过使正对样本表征之间的一致性最大化，同时利用InfoNCE损失函数最小化负对样本表示表征的一致性来训练模型。

其中，度量的局部图像特征和的相似度，。

Local feature similarity

为了有效处理新物体和复杂背景，基于局部图像的相似度度量定义如下：

其中，是局部相似性度量，是模版的二值掩膜，是2D网格的坐标。这里的无法处理真实图像中可能的遮挡，因为它对应于模板中对象的掩膜。

局部相似性度量的定义如下，我们发现用差异的L1和L2范数的反面来度量相似度，其性能与余弦相似度相同。

7方法部分：对遮挡的建模

在运行时，给定一个真实的查询图像，我们检索模板集中最相似的模板。

为了使得模型对查询图像中可能出现的遮挡具有一定的鲁棒性，我们对基于局部图像的相似度度量进行了修改，其中，对于余弦相似度施加阈值，以去除遮挡部分的特征，。

8方法部分：模版的创建

在LINEMOD和Occlusion-LINEMOD数据集上，我们参考[38]中的做法来采样合成的样本。更精确地说，视点是这样定义的：从一个正二十面体开始，递归地将每个三角形细分为4个更小的三角形。在应用这种细分两次并删除下半球之后，我们最终得到每个对象301个模板。

在T-LESS数据集上，我们参考[30]中的做法，使用一个具有2536个视点密集的正二十面体，且每个渲染图像有36个平面内旋转。此外，我们还使用了一个具有602个视点的粗糙正二十面体。

9实验部分

数据集介绍：

选用LINEMOD，Occlusion-LINEMOD和T-LESS。在训练物体/可见物体以及不可见物体上定性定量评估我们的方法和SOTA的方法的效果。

LM 和 O-LM 数据集，由于没有标准分割来评估基于RGB的新对象的方法的鲁棒性，我们根据对象id的顺序提出了三种不同的划分方式。

Split #1: Ape, Benchvise, Camera, Can;
Split #2: Cat, Driller, Duck, Eggbox;
Split #3: Glue, Holepuncher, Iron, Lamp, Phone.

LM 数据集中的其他对象用于训练模型。注意，O-LM只用于测试。此外，为了了解在训练过程中可见和不可见对象之间的性能差异，我们还对针对可见对象的训练方法进行了评估。为此，在不可见的姿势下，我们保留了10%的训练对象的真实图像，供测试使用。

在T-LESS[13]上，我们参考[30]的做法，只在对象1-18上进行训练（背景为SUN397[40]随机背景），并在完整的T-LESS primesense test set上进行测试。

评测标准：

对于LM 和 O-LM 数据集，位姿误差是通过观测半球面上两个位置之间的夹角来测量的。我们也类似[38,2]中的做法，将“鸡蛋盒”和“胶水”作为绕z轴对称的物体。

在已知目标姿态估计的情况下，LM和O-LM的识别得分几乎为100%。[38,2]关注已知对象，因此只评估姿态误差，而不考虑检索到的对象是否实际正确。对于新物体，我们发现正确检索姿势和类都是重要的，因为模型仍然可以从另一个对象获得正确的姿势。因此，我们建议使用Acc15指标，它度量姿态误差小于15度和预测对象类别正确的概率。

实验细节介绍：

为了比较公平，在评价LM和O-LM时，我们考虑了两个不同的backbone：(1)“Base”-[38,2]中使用的简单backbone;（2）ResNet50 -最近比较学习方法[9]中使用的标准backbone。我们重现了[38,2]，以获得可见和不可见物体的定量结果。

在使用“Base” backbone进行测试时，我们也遵循[38,2]，使用相同的大小为64×64的输入图像。在使用ResNet50进行测试时，我们使用了更大的输入，大小为224×224。在这两种设置中，我们略微改变了backbone架构，删除所有池化、FC层，然后用两个1 × 1卷积层替换它们，以输出所需的局部特征，大小为16*16。

类似[38,2]中的做法，我们使用真实位姿在物体中心裁剪输入图像，不考虑平面内旋转。在T-LESS数据集上，我们使用相同的骨干ResNet50，并像[31,30]中所做的那样，用真实边界框裁剪输入图像。

对于这两种评估方式，我们使用Adam训练网络，“Base”网络的初始学习率为1e-2, ResNet50的初始学习率为1e-4。

与SOTA方法的比较

在LINEMOD 和 Occluded-LINEMOD 数据集上的结果

下表显示了我们的方法和[38,2]方法的对比。InfoNCE loss效果好于[38,2]所使用的triplet losses。

对于训练物体，当物体被遮挡的时候，[38,2]效果降到了70%以下，而我们的方法仍然可以保持较高的精度。这表明了局部图像特征对遮挡的鲁棒性。

对于新物体，无论遮挡与否，我们的方法明显效果更好。这表明基于局部表征的匹配不仅对遮挡具有鲁棒性，而且对新物体具有较好的泛化能力。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第4张图片

在T_LESS 数据集上的结果

表明在可见和不可见对象上，我们的方法在T-LESS数据集上比[31,30]都有很大的优势。虽然[30]的单编码器-多解码器网络允许为所有对象共享一个潜在空间，并且每个解码器只重建单个对象的视图，但结果表明我们的方法和InfoNCE损失要简单得多，而且在相同的设置下也能显著提高性能。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第5张图片

消融实验部分

在LINEMOD和 Occlusion-LINEMOD数据集上进行消融实验分析。

Effectiveness of feature masking.

移除模版掩膜时，我们的方法在三个分割方式测试下退化显著。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第6张图片

Influence of the threshold.

显示了阈值对于估计遮挡掩膜的影响。使用遮挡掩膜可以在大的物体(“Can”, “Driller”, and “Eggbox”)上带来提升。可以解释为：O-LM数据集中的遮挡可能非常大，特别是在小物体上。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第7张图片

Influence of the local feature dimensions.

左图Y轴为姿态误差，左图X轴是局部表征的维度；说明局部表征的维度影响不大；

右图Y轴为姿态误差，右图X轴是掩膜的分辨率；掩膜的分辨率影响较大，因为更高的分辨率允许更精确地丢弃背景。此外，分辨率超参数对新对象的性能影响要比对可见对象的性能影响大。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第8张图片

失败案例

在O-LM上评估时，我们的方法和[38,2]在“Cat”对象上都失败了。如图7所示，这个对象很小，在这个数据集中被遮挡严重。

CVPR 2022｜重新审视3D目标姿态估计模板，更鲁棒&泛化性更强！_第9张图片

10结论

我们提出了一种有效的三维物体识别和姿态估计方法，该方法可以在不需要再训练的情况下推广到新的物体，并且对遮挡具有鲁棒性。我们的分析表明，丢弃图像2D网格结构的全局表征对杂乱背景的鲁棒性较差，会导致不准确的姿态预测。而基于局部表征的方法，具有更好的性能，对遮挡具有鲁棒性。

11参考

[1] Templates for 3D Object Pose Estimation Revisited: Generalization to New Objects and Robustness to Occlusions

往期回顾

Radar-LiDAR BEV融合！RaLiBEV：恶劣天气下3D检测的不二之选

【知识星球】日常干货分享

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球（三天内无条件退款），日常分享论文+代码，这里汇聚行业和学术界大佬，前沿技术方向尽在掌握中，期待交流！

element audio 标签不显示_BenQ 明基专业摄影显示器SW270C开箱评测体验 weixin_39685130 element audio 标签不显示
前言继BenQSW271显示器(评测链接)之后，BenQ又推出了专业影像工作者的高效利器—SW270C(官网链接)，搭配27英寸2K分辨率IPS屏，覆盖99%AdobeRGB、100%sRGB\Rec.709及97%P3广色域，并采用全新的色彩引擎实现亮度色温均匀性，使屏幕各个部分呈现均匀一致的色彩。新推出的16-bit3DLUT结合硬件校准让屏幕色彩更加准确，能够还原真实的色彩。另外，BenQS
【prompt实战】知乎问题解答专家姚瑞南 prompt实战应用案例 prompt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）#Role:知乎问题解答分类专家##Profile:你是一个知乎问题解答分类专家，主要帮助用户解答各类领域专业问题，包括但不限于金融领域、职场问题、互联网领域、科技领域、人工智能领域
DeepSeek：全栈开发者视角下的AI革命者大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能
DeepSeek：全栈开发者视角下的AI革命者写在前面随着人工智能（AI）技术的不断进步，AI已经成为各行各业创新的核心动力。从自动驾驶到智能制造，再到自然语言处理和图像识别，AI正在逐渐渗透并改变着我们的生活和工作方式。DeepSeek，作为AI领域的新兴技术，凭借其独特的技术架构和颠覆性的创新理念，成为了全栈开发者关注的焦点。本文将从全栈开发者的角度出发，详细解析DeepSeek的诞生、技术架
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
从图形处理到通用计算的进化之路绿算技术 GPU架构介绍科技 gpu算力
图形处理单元，作为现代计算机中不可或缺的一部分，已经从最初的图形渲染专用处理器，发展成为强大的并行计算引擎，广泛应用于人工智能、科学计算、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。GPU架构的演变：从固定功能到可编程流水线早期的GPU采用固定功能流水线架构，专为图形渲染任务而设计。这种架构将图形渲染流程划分为一系列固定的阶段，例如顶点处理、光栅化、纹
高效快速教你deepseek如何进行本地部署并且可视化对话 chatgpt
随着最近一个新的人工智能deepseek的爆火，很多大佬都开始了在本地进行deepseek的部署操作，并且离线也可以使用，这里的话我就一步一步带你们部署本地的deepseek,说实话这个人工智能的实力不亚于openai的gpt安装ollama我们需要先安装ollama，安装地址ollama,我们直接点击下载，我们在下载的时候尽量使用我们的谷歌浏览器，有魔法的最好带上魔法，不然安装的时候可能会出问题
useblackbox黑箱AI编码助理百态老人 python 开发语言
黑箱AI是一个人工智能的编码助理可以让代码快10倍。它使您能够把任何问题变成代码和功能,如从任何视频提取代码和代码自动完成。它有以下几个特点：可以从视频、图片、PDF等格式中复制代码。可以将任何问题转换成代码。可以快速找到任何代码片段，并开始编码。支持20多种编程语言的代码自动补全。有Chrome扩展和VSCode扩展。这个网站有不同的收费方案，根据你需要的功能和使用量而定。它有以下几种选择：好开
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
【AI热点】MCP协议深度洞察报告碣石潇湘无限路人工智能 php 开发语言
摘要人工智能技术飞速发展，大型语言模型（LLM）如何高效、安全地利用外部数据和工具成为关键问题。模型上下文协议（ModelContextProtocol，简称MCP）是一种由Anthropic于2024年底提出的开放标准协议。它通过统一的客户端-服务器架构，为AI应用与文件系统、数据库、第三方API等外部资源之间提供标准化、安全的双向通信接口。本文将深入解析MCP协议的基本概念和背景、架构设计（通
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
3D FFT在波束形成中的详细解释 DuHz 算法信息与通信信号处理
3DFFT在波束形成中的详细解释1.引言在雷达、声呐和无线通信等领域，为了从空间中获取目标或信号的方向信息，通常需要用到波束形成(Beamforming)技术。波束形成可以理解为一种通过数字信号处理手段，将天线阵列（或传感器阵列）接收的多路信号进行加权和，形成对特定方向（或多个方向）的增强或抑制，从而实现对目标/信号的方位估计与检测的技术。1.11D,2D,和3D波束形成1D波束形成通常针对线阵(
深入理解 GPU 渲染加速与合成层（Composite Layers）
一、前端视角下的GPU加速1.CPU与GPU的协作模式在前端渲染流程中，GPU加速通过硬件并行计算能力显著提升图形处理效率。传统浏览器渲染依赖CPU处理DOM解析、样式计算和布局，但CPU的串行处理模式在处理大规模图形数据（如复杂动画、3D变换、高清图像）时易成为性能瓶颈。GPU的介入解决了这一核心矛盾：流处理器核心并行计算：GPU拥有数千个小型核心，可同时处理大量像素数据，例如同时对元素的所有像
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
AI人工智能对前端的冲击？理想不理想v 人工智能前端
‌AI人工智能对前端开发的冲击主要体现在以下几个方面‌：‌代码生成与自动化‌：AI工具如GPT-4和GitHubCopilot能够自动生成高质量的前端代码，从简单的组件到复杂的应用程序，这不仅提高了开发效率，还降低了人为错误的可能性。自动化代码生成工具可以显著减少开发者编写重复性代码的时间，使他们能够专注于创新和解决复杂问题‌。‌跨平台开发支持‌：AI可以帮助生成适用于不同平台的代码，简化跨平台开
从人工智能窥见网络安全的重要性 He_Donglin 人工智能 web安全网络
“人工智能”一词在上世纪五十年代被提出，在当时，计算机正处于萌芽阶段，同时期的人类第一台电子计算机“ENIAC”诞生了，但是埃尼亚克有很多缺点：庞大的占地面积、庞大的质量、单一的功能、较小的内存等，这主要受制于其他领域的发展，但当时的人们对计算机寄予厚望，希望在未来某一天它能够拥有足够强大的“power”，帮助人们解决诸多问题。于是乎，经过无数科学家数十年来的努力，计算机“长大了”，它的功能不再单
《今日AI-人工智能-编程日报》-源自2025年2月28日小亦编辑部每日AI-人工智能-编程日报人工智能
技术突破OpenAI发布GPT-4.5：OpenAI正式推出新一代大模型GPT-4.5，语言理解、情商及逻辑推理能力显著增强，幻觉问题大幅减少，计算效率较GPT-4提升超10倍，已逐步向用户开放试用。国产模型Kimi发布k1.6版本：国产模型Kimi发布的k1.6版本，在编程任务评测中超越GPTo3-mini，首次登顶榜首。其“快思考”架构使响应速度提升至秒级，部署成本下降40%。企业动态贵州广电
《今日AI-人工智能-编程日报》-源于2025年3月11日小亦编辑部每日AI-人工智能-编程日报人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
Burp Suite 的安装、证书安装导入及配置代理 He_Donglin 学习小结 web安全
一、BP安装1、在bp官方网站下载bp专业版链接：https://pan.baidu.com/s/1QQPT7yT3D88FEBt7XmtcOA提取码：w7hq2、安装java环境进入“20230304_BurpSuite_pro_v2023.2.2\20230304_BurpSuite_pro_v2023.2.2\javajdk17“文件下，双击运行”jdk-17.0.4_windows-x64
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
DeepSeek多语言智能创作引擎解析智能计算研究中心其他
内容概要在人工智能技术加速演进的背景下，DeepSeek系列产品通过混合专家架构（MoE）与670亿参数的协同设计，构建了多模态智能创作引擎的核心竞争力。该系统依托动态路由机制，将视觉语言理解模块与多语言处理单元进行深度耦合，使模型在解析图文混合信息时展现出超越单一模态的认知能力。尤为突出的是，其分层参数激活策略将推理成本降低至传统密集模型的38%，同时维持了95%以上的任务完成精度。行业分析机构
通义千问：阿里巴巴的AI大模型深度解析俊星学长人工智能
通义千问：阿里巴巴的AI大模型深度解析在人工智能（AI）技术日新月异的今天，大型语言模型作为其中的佼佼者，正逐步改变着我们的生活与工作方式。阿里巴巴推出的通义千问，作为这一领域的佼佼者，以其卓越的性能和广泛的应用场景，引起了业界的广泛关注。本文将从通义千问的简介、模型架构、技术特点与优势、应用场景以及未来发展等多个方面，对其进行全面解析。一、通义千问简介通义千问是由阿里云开发的一款大型语言模型，旨
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
谷歌Gemini 3大模型发布，AI领域再掀波澜！广拓科技人工智能
在人工智能的浩瀚宇宙中，每一次重大突破都如同一颗璀璨的新星，照亮我们对未来的想象。而近期，谷歌发布的Gemini3大模型，无疑是其中最为耀眼的存在，它在AI领域激起的波澜，迅速蔓延至全球科技圈，引发了广泛关注与热烈讨论。随着AI技术的迅猛发展，我们已经见证了众多令人惊叹的创新成果。从智能语音助手到图像识别技术，从自动驾驶汽车到医疗诊断辅助系统，AI正以前所未有的速度改变着我们的生活和工作方式。在这
DeepSeek 使用教程及部署指南：从入门到实践点我头像干啥 Ai 信息可视化 python 人工智能分类数据挖掘深度学习
目录引言第一部分：DeepSeek简介1.1什么是DeepSeek？1.2DeepSeek的核心功能1.3DeepSeek的应用场景第二部分：DeepSeek使用教程2.1注册与登录2.2创建项目2.3数据导入2.4数据分析2.5文本挖掘2.6信息检索2.7保存与分享第三部分：DeepSeek部署指南3.1本地部署3.1.1环境准备3.1.2安装DeepSeek3.1.3启动DeepSeek3.2
使用DeepSeek自动生成PPT：高效办公的终极指南点我头像干啥 Ai 人工智能信息可视化深度学习
引言在现代职场中，PPT（PowerPoint演示文稿）已经成为沟通、展示和分享想法的重要工具。然而，制作一份高质量的PPT往往需要耗费大量时间和精力，尤其是在内容整理、排版设计和样式调整方面。幸运的是，随着人工智能技术的发展，像DeepSeek这样的工具可以帮助我们自动化生成PPT，极大地提升工作效率。本文将详细介绍如何使用DeepSeek自动生成PPT，并分享一些实用技巧，帮助你快速上手。一、
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
（大模型微调大模型学习路线大模型入门）_大模型学习，吹爆！2025最详细的大模型学习路线已整理！手把手带你高效入门，大模型论文全打通！大模型老炮学习人工智能大模型学习 AI 大模型大模型微调大模型教程
一、初聊大模型1、什么是大模型？大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi