你不困我困

【论文精读1】MVSNet架构各组织详解

一、训练流程

1. 特征提取

提取N个输入图像的深层特征用作深度匹配

与传统三维重建方法类似，第一步是提取图像特征（SIFT等特征子），不同点在于本文使用8层的卷积网络从图像当中提取更深层的图像特征表示，网络结构如下图所示：

输入：N张3通道的图像，宽高为W,H
输出：N组32通道图，每通道尺度为H/4,W/4

虽然特征提取后图像帧缩小，但每个剩余像素的原始相邻信息已经被编码到32通道像素描述符中，防止了密集匹配丢失有用的上下文信息。

【就是尺寸变小但是通道数增加，不同的通道可以保存更多有用的信息】

在计算机视觉中，图片的比例取W/4和H/4是因为在一些特定的任务和网络架构中，使用降低的尺寸可以提高计算效率，并且有助于提取更高级的特征。

通常，处理全尺寸图像可能会导致计算负荷过大和内存占用过高的问题。通过将图像尺寸缩小为原尺寸的1/4，可以显著减少计算和内存需求，加速模型的训练和推理过程。

此外，采用缩小尺寸的图片还有助于网络模型更好地感知和捕捉图像中的重要细节和特征。尺寸缩小会导致图像信息丢失，但同时也可以通过允许更大的**感受野（ receptive field）**来提取更宽广的上下文信息，从而帮助网络学习到更具有区分性的特征。

2. 构建特征体（Feature Volume）

将提取的特征图和输入图建立一个3D成本体积（之前方法使用的体积或者点云重建，本文使用深度图重建）

2.1 单应性变换

实现端到端训练

单应性变换（Homography Transform）是指在平面几何中，将一个平面上的点集映射到另一个平面上的点集的线性变换。它是一种二维投影变换。

单应性变换简单来说，对于3D空间的点X，我们通过相机1拍照，得到照片1上的对应二维像素点P（x,y）；在另一个位置用相机2拍照，得到照片2上的对应二维像素点P’（x’,y’）——通过一个正确的单应矩阵H（包含相机1,2的位置转换参数R,T、相机1到点X的距离d），可以实现P’ = HP（点到点的映射）。即在已经提前获取相机的内外参数前提下，因此只需要一个深度值变量，就可以找到参考图像上点P对应在源图像上点P’的位置。

若我们已知两个位姿的相机参数（相机1,2的位置转换参数），现在设置一个深度区间[d1,d2]，并设置分辨率为Δd，由此得到D=（d2-d1）/Δd个平面，那么每个d都对应了一个单应变换矩阵h。
如果对一张图片上每个像素点，使用di对应的矩阵hi进行变换可以得到一张变换后的图片，意义为假设各个像素点真实深度都为d时，在另一位姿下各像素点的应有的对应特征值。
而我们假设了D个深度，也即将得到D幅变换后的图像，各图代表了其像素点真实深度为当前深度时变换对应的特征值，即可理解为上图中各层蓝色由深变浅的图层。

为什么是“锥形视锥”，因为当单应矩阵对应的真实深度不同时，由近大远小原理可知能被当前位置的相机看到的特征点数量随着深度减小而减小，因而出现锥形。（在下一步构建特征体时使用了双线性插值来保证所有深度的特征图尺寸一致）

2.2 特征体构建

在本文当中，我们通过特征提取得到的是N个特征图（1个参考图（估计图）、N-1个原图（辅助图）），每个特征图有32通道。
每个特征图可以理解为一本书，有32页，每页尺寸是HxW
那么，一本书（一个特征体）通过2.1中的单应变换就变成了一摞书，等于将原来第一页通过深度为[d1,d2]的矩阵[h1,h2]变换成n个深度下的第一页，将原来第二页变成n个深度下的第二页……
此时，一本书 = 某深度d
书的某页 = 某深度下某特征通道
书的某页上某字 = 某深度下某特征通道某点的特征

将src（参考图）坐标系下的特征图投影到ref（估计图）坐标系，分别构建cost volume

需要注意的是，对于Ref的特征图则是直接在每个深度下复制，因为多个Src都是要变换到这个参考图下的

待估计的图像称为reference_image(ref)，其余视角下的辅助图像称为source_image(src)

**Ref特征图（Ref Feature Map）**是一种用于图像超分辨率重建的中间表示。在图像超分辨率重建任务中，Ref特征图是通过神经网络从低分辨率输入图像中提取的一组特征图。

Ref特征图通常由多个通道组成，每个通道包含不同的特征信息。这些特征信息可以包括低级的边缘、纹理信息，以及更高级的语义信息。通过对这些特征进行处理和合成，可以提取出有关图像结构和内容的高级表示。

在图像超分辨率重建中，Ref特征图扮演着关键的角色。它被用来模拟低分辨率输入图像的高分辨率版本，并指导神经网络生成相应的重建图像。Ref特征图能够捕捉低分辨率图像中的细节、边缘和纹理信息，以及其与高分辨率图像之间的对应关系，从而帮助提升重建图像的质量和细节保持程度。

通过结合Ref特征图和其他网络模块，如超分辨率网络或生成对抗网络，可以实现图像超分辨率重建任务。Ref特征图的准确性和有效性对于最终的重建结果具有重要影响。因此，设计和提取有意义的Ref特征图是图像超分辨率重建算法中的关键挑战之一。

3. 生成代价体（Cost Volume）

经过上一步后我们得到了不同视角下的cost volume。由于我们不想固定src图像的数量（能够接受任意N个输入的原因），为了提高模型的泛化性，作者采用了基于方差的特征融合方法。

适应任意数量的输入视图（选择了“方差”运算，因为“均值”运算本身没有提供关于特征差异的信息）

通过第2步我们得到了N摞书，现在竖着看每摞书的第一本，代表了假设深度为d1时，各特征图上各像素经过变换后的特征值——若某个像素真实深度接近d1的话，那变换后该列该处的特征值应该是近似的。
基于这样的想法，对每一列书的每一页上的每个像素计算方差，代表了假设深度为di时，各图像特征图的各通道各特征点的差异情况，方差越小，越相似，该特征点真实深度就越可能是di。

该步得到了一摞书，每本书 = 一个深度
每页 = 某深度下特征图一个通道
页上的点 = 该深度下特征图某通道上点的相似程度，方差越小越相似

这里就是论文所说能够接受任意N个输入的原因，因为是取方差所以输入几个都一样。

代价体（Cost Function）也被称为损失函数（Loss Function）或目标函数（Objective Function）。它是用于衡量模型预测结果与真实值之间差异的一种函数。在本节中指的就是对特征图的同一通道上的个点求的方差

4.代价体正则化（Cost Volume Regularization）

正则化步骤旨在细化上述成本体积C，以生成用于深度推断的概率体积P

受物体表面材质、物体遮挡等影响，上述融合后的cost volume可能包含噪声或在部分遮挡地区存在匹配错误的情况。作者利用了一个类似于3D-Unet的网络对cost volume在channel上进行归一化操作。这样，原先像素上每个depth上对应一个向量，经过归一化后对应了一个数。这个数的含义可以理解为：像素对应的深度为depth的概率。

在第3步中得到了代价体，但论文说 “The raw cost volume computed from image features could be noise-contaminated” ，即这个代价体由于非朗伯面、遮挡等原因是包含噪声的，要通过正则化来得到一个概率体P（probability volume），具体采用了一个类似UNet的网络结构，对原代价体进行编码和解码，并最终将各通道数压缩为1，即将一摞书变成了一本书

此时书 = 概率体
每页 = 某深度
页上的点 = 该点在该深度的概率

如对(H,W)平面上的一点(x,y)，若在深度d处值最大，该点深度为d

Softmax函数是一种常用的激活函数，常用于多类别分类任务中。它的基本原理是将输入的实数向量转换为一个概率分布向量，使得每个元素都表示对应类别的概率。

Softmax函数的计算公式如下：
softmax(x_i) = exp(x_i) / sum(exp(x_j))

其中，x_i是输入向量的第i个元素，exp表示自然指数函数，sum(exp(x_j))是计算所有输入元素的指数的和。

Softmax函数的基本思想是通过对每个元素进行指数转换，使得每个元素的值变得非负。然后，将这些转换后的值除以所有元素的和，以确保概率分布的归一化。

Softmax函数的作用是使得输入向量的每个元素的取值范围在0到1之间，并且所有元素的和等于1。这样可以表示每个元素对应类别的概率，用于多类别分类问题中的决策和预测。

把多个通道特征压缩成一个通道，直观想法是保留其中方差最小（最可能属于当前深度）的那个通道的特征，然后方差越小说明这个像素点的深度越可能是当前层深度；但文章说是出于噪声目的试用网络来正则化获得最终的概率体，不太理解为什么要用这个UNet网络。

我感觉实际上就是通过softmax回归来保留概率最大的那个通道的特征

CostRegNet网络：

class CostRegNet(nn.Module):
    def __init__(self):
        super(CostRegNet, self).__init__()
        self.conv0 = ConvBnReLU3D(32, 8)
		# 为了进一步减少计算量，在第一个3D卷积层之后，我们将32通道的开销体积减少到8通道，并将每个尺度内的卷积从3层改为2层
        self.conv1 = ConvBnReLU3D(8, 16, stride=2)
        self.conv2 = ConvBnReLU3D(16, 16)

        self.conv3 = ConvBnReLU3D(16, 32, stride=2)
        self.conv4 = ConvBnReLU3D(32, 32)

        self.conv5 = ConvBnReLU3D(32, 64, stride=2)
        self.conv6 = ConvBnReLU3D(64, 64)

        self.conv7 = nn.Sequential(
            nn.ConvTranspose3d(64, 32, kernel_size=3, padding=1, output_padding=1, stride=2, bias=False),
            nn.BatchNorm3d(32),
            nn.ReLU(inplace=True))

        self.conv9 = nn.Sequential(
            nn.ConvTranspose3d(32, 16, kernel_size=3, padding=1, output_padding=1, stride=2, bias=False),
            nn.BatchNorm3d(16),
            nn.ReLU(inplace=True))

        self.conv11 = nn.Sequential(
            nn.ConvTranspose3d(16, 8, kernel_size=3, padding=1, output_padding=1, stride=2, bias=False),
            nn.BatchNorm3d(8),
            nn.ReLU(inplace=True))
# 最后一个卷积层输出1通道体积
# in_channels=8，out_channels，kernel_size=3，stride=1，padding=1
        self.prob = nn.Conv3d(8, 1, 3, stride=1, padding=1)

    def forward(self, x):
        conv0 = self.conv0(x)
        conv2 = self.conv2(self.conv1(conv0))
        conv4 = self.conv4(self.conv3(conv2))
        x = self.conv6(self.conv5(conv4))
        x = conv4 + self.conv7(x)
        x = conv2 + self.conv9(x)
        x = conv0 + self.conv11(x)
        x = self.prob(x)
        return x

5. 深度图初始估计（Depth Map Initial Estimation）

利用第4步的概率体，将深度估计的质量定义为地面实况深度在估计附近的小范围内的概率。沿深度d方向（就是上一步中softmax概率最大的深度）求期望，就得到对应像素点的初始深度值；

对每个像素点求期望，即将概率体变成了一张概率图。

6. 深度图优化（Depth Map Refinement）

应用了深度残差学习网络（ResNet）就是将输入直接连到后面的层，使得后面的层可以直接学习残差。

初始深度图和调整大小的参考图像（将其缩小1/4）被连接为4通道输入，然后通过三个32通道2D卷积层，然后通过一个1通道卷积层来学习深度残差。然后将初始深度图添加回以生成细化的深度图。最后一层不包含BN层和ReLU单元，以便学习负残差。此外，为了防止在某个深度尺度上产生偏差，我们将初始深度幅度预先缩放到[0,1]范围，并在细化后将其转换回。

？为什么融合以后就成4通道了

参考图-》src

感受野（Receptive Field）是指在神经网络模型中，一个特定层的输出值受输入图像区域的影响范围。它代表了一个特定位置的输出值对输入图像上不同位置的感受程度。

在卷积神经网络（Convolutional Neural Network, CNN）中，每一层都由多个卷积核或滤波器组成，这些滤波器对输入数据进行卷积操作，以提取特征。每个滤波器对应一个感受野。

感受野的大小取决于网络的结构和每一层的设计。通常，感受野的大小由卷积核的大小和网络层数决定。在较低层，感受野相对较小，只能捕捉到少量的局部特征。随着网络的深层化，感受野逐渐增大，可以捕捉到更大范围的特征和上下文信息。

感受野的概念有助于理解和解释神经网络的输出是如何受到输入图像的局部和全局信息影响的。通过增加网络的深度和扩大感受野的范围，网络可以更好地理解和解析输入图像中的语义信息，提取更高级的特征。

在一些任务中，特别是目标检测和图像分割等任务中，感受野大小的合理选择对于捕捉目标的上下文信息和边界特征至关重要。较小的感受野可能导致模型在处理大物体或全局上下文时失去一些细节和全局信息，而较大的感受野可能对于捕捉局部细节和小目标不够敏感。因此，在网络设计中需要根据任务和数据的特点合理选择感受野的大小。

7. 损失计算

使用地面实况深度图和估计深度图之间的平均绝对差作为我们的训练损失

只考虑那些具有有效地面实况标签的像素

loss1:

二、后处理

论文在摘要中提到*“With simple post-processing”*之后模型效果很好，这个post-processing主要包括深度图滤波和深度图融合两部分-》即在将结果转换为密集点云之前，有必要过滤掉这些背景和遮挡区域的异常值

1. 深度图滤波（Depth Map Filter）

1.1 光度约束

光度一致性衡量匹配质量

光度约束，其实是在通过概率体得到初始深度图的同时计算了一个概率图

各像素点的深度越集中在某个深度附近，则该点深度判断的准确概率越高，最后过滤掉概率小于0.8的点。

1.2 几何约束

几何约束度量多个视图之间的深度一致性

首先几何约束比较简单，就是说将参考点p1通过其估计深度d1投影至源视角pi点，再将pi点通过其深度估计di重投影至参考视角preproj点，这个重投影后的preproj点深度估计为dreproj，若满足

$\quad\frac { | d _ { r e p r o j } - d _ { 1 } | } { d _ { 1 } } < 0 . 0 1$

则说是满足几何约束的（我们说p1的深度估计d1是两视图一致的），论文里保证三视图满足该几何约束一致性。

2. 深度图融合（Depth Map Fusion）

即在多个视角下推测深度图，并采取特定融合算法融合；其中每个深度图的像素深度选择是使用了几何约束时计算的重投影的均值作为最终深度估计。

三、总结

YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
使用 TensorFlow 进行图像处理：深度解析卷积神经网络（CNN）一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 图像处理 cnn 人工智能机器学习 python ai
目录使用TensorFlow进行图像处理：深度解析卷积神经网络（CNN）1.什么是卷积神经网络（CNN）？CNN的基本结构为什么CNN适合图像处理？2.使用TensorFlow构建CNN2.1环境准备2.2加载并预处理MNIST数据集2.3构建CNN模型2.4编译和训练模型2.5评估模型3.CNN的优化与改进3.1使用数据增强3.2调整网络结构4.CNN在其他图像处理任务中的应用5.总结参考文献在
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul