泠山

3DGS 其一：3D Gaussian Splatting for Real-Time Radiance Field Rendering

1. 预备知识
- 1.1 球谐函数
- 1.2 Splatting
- 1.3 $\alpha$ blending
- 1.4 多维高斯的协方差矩阵
- - 1.4.1 高斯与椭球体的关系
  - 1.4.2 世界坐标系下的三维高斯到二维像素平面投影过程
2. 3D Gaussian Splatting
- 2.1 特点
- 2.2 流程与关键步骤
- - 2.2.1 场景表达
  - 2.2.2 整体流程
- 2.3 算法伪代码
- - 2.3.1 整体流程伪代码
  - 2.3.2 光栅化伪代码

Reference：

深蓝学院：NeRF基础与常见算法解析
GitHub: gaussian-splatting
原文官网
A Survey on 3D Gaussian Splatting

相关文章：

NeRF 其一：NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
NeRF 其二：Mip-NeRF
NeRF 其三：Instant-NGP

系列文章：

3DGS 其一：3D Gaussian Splatting for Real-Time Radiance Field Rendering

3D Gaussian Splatting 是表达三维场景的一种方式，不同于 NeRF 用一个点来表达，它是用一堆的 3D 高斯来表达。

1. 预备知识

1.1 球谐函数

球谐函数这一块请阅读 Instant-NGP 一文内的相关片段：NeRF 其三：Instant-NGP，此处不再做赘述。

1.2 Splatting

Splatting(抛雪球) 是一种用于光栅化(rasterizer) 3D 对象(如椭球)的技术。这些 3D 对象被映射到投影平面后得到的 2D 图形称为 splat，类似于一个点、圆、矩形或其他形状，就像雪球打在墙上留下的印记，能量从中心向外扩散并减弱(就像抛出一个雪球砸在墙上一样)。

换句话说，三维场景不用三维点表达，而用一个个高斯球来表达。将一个个高斯球投影到二维图像上的过程就称为 Splatting 算法。
该光栅化过程可以在 GPU 上并行处理，因为每个 Splat 之间是独立的。

1.3 $\alpha$ blending

$\alpha$ blending 算法主要解决“图层”叠加问题。

两幅图融合，其中图像 $I_1$ 的透明度为 $\alpha_1$ (前景图像)，图像 $I_{BK}$ 为背景图像，融合公式计算如下：
$\tag{1} I_{\mathrm{res}ult}=I_1\times\alpha_1+I_{BK}\times(1-\alpha_1)$ 那么按照深度由近到远的排序四张图像，其中，图像 $I_1$ 的透明度为 $\alpha_1$ ，图像 $I_2$ 的透明度为 $\alpha_2$ ，图像 $I_3$ 的透明度为 $\alpha_3$ ，图像 $I_{BK}$ 为背景图像，融合公式计算如下：
$\tag{2} \begin{aligned} I_\text{result} &= I_ 1 \times \alpha _ 1 + ( 1 - \alpha _ 1 ) (I_2\times\alpha_2+(1-\alpha_2)(I_3\times\alpha_3+I_{BK}\times(1-\alpha_3))) \\ &=\alpha_1I_1+(1-\alpha_1)\alpha_2I_2+(1-\alpha_1)(1-\alpha_2)\alpha_3I_3+(1-\alpha_1)(1-\alpha_2)\left(1-\alpha_3\right)I_{BK} \end{aligned}$ 可以从底往上看，

$I_{BK}$ 看成 $I$ ；
$I_3\times\alpha_3+I_{BK}\times(1-\alpha_3)$ 合并成 $I^{'}$ ，将透明度 $\alpha_3$ 套入公式可得；
$I_2\times\alpha_2+(1-\alpha_2)(I_3\times\alpha_3+I_{BK}\times(1-\alpha_3))$ 合并成 $I^{''}$ ，将透明度 $\alpha_2$ 套入公式可得。

也可以从上往下看，直接得到 Eq.2 底部公式。

综上， $\alpha$ blending 公式可以写成：
$C=\sum_{i\in\mathcal{N}}c_i\alpha_i\prod_{j=1}^{i-1}(1-\alpha_j)$ 回顾体渲染公式：
$C=\sum_{i=1}^NT_i(1-\exp(-\sigma_i\delta_i))\mathbf{c}_i\quad\mathrm{with}\quad T_i=\exp\left(-\sum_{j=1}^{i-1}\sigma_j\delta_j\right)$ 使用 $\alpha_i$ 来替代 $1-\exp(-\sigma_i\delta_i)$ ，可得：
$C=\sum_{i=1}^NT_i\alpha_i\mathbf{c}_i\quad\alpha_i=(1-\exp(-\sigma_i\delta_i))\text{and}T_i=\prod_{j=1}^{i-1}(1-\alpha_i)$ 可以发现，该公式和 $\alpha$ blending 公式一模一样。

这里可以得到一个很有意思的结论： $\alpha$ blending 和体渲染都是相同的公式，但是具体做法是完全不一样的：体渲染是 NeRF 的一套做法， $\alpha$ blending 是 3D Gaussian Splatting 的一套做法。很多游戏都是使用 $\alpha$ blending 方法进行光栅化的。体渲染速度很慢，而光栅化很快，而且它是图形学内很成熟得东西，有很多软件可以辅助加速，比如 OpenGL，这样就可以充分利用硬件和软件的性能。

1.4 多维高斯的协方差矩阵

如果一个随机变量 $\boldsymbol{x}$ 服从高斯分布高斯分布 $N(\mu, \sigma)$ ，那么它的概率密度函数为：
$p\left(x\right)=\frac1{\sqrt{2\pi}\sigma}\exp\left(-\frac12\frac{\left(x-\mu\right)^2}{\sigma^2}\right).$ 它的高维形式为：
$p\left(x\right)=\frac1{\sqrt{\left(2\pi\right)^{N}\det\left(\boldsymbol{\Sigma}\right)}}\exp\left(-\frac12{\left(\boldsymbol{x}-\boldsymbol{\mu}\right)}^{T}\boldsymbol{\Sigma}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right)$ 这里前面系数不太重要，公式可简写成： $G(\boldsymbol{x})=e^{-\frac{1}{2}}(\boldsymbol{x})^{T}\Sigma^{-1}(\boldsymbol{x})$ 。

现在来看看协方差矩阵的性质：
二维的协方差矩阵可写成 $\left [ \begin{matrix}a & c \\ c & b\end{matrix} \right ]$ 的形式、三维的 协方差矩阵可写成 $\left [ \begin{matrix}a & d & e \\ d & b & f \\ e & f & c\end{matrix} \right ]$ 的形式，这个矩阵一定是对称的。在斜对角不为零的情况下，它一定是正定的。对于这种对称矩阵，它一定能有一个正交的矩阵将它三角化，即：
$\Sigma = P \Lambda P^T = P \Lambda^{\frac{1}{2}} (\Lambda^{\frac{1}{2}})^TP^T$ 即 $\Sigma=RSS^TR^T$ ，也就是说，只要我们要去表达一个协方差矩阵，只要知道了 $R$ 和 $S$ 即可。而且 $R$ 和 $S$ 构建出的矩阵，一定是单位阵。因为 $R$ 是一个正交阵，只要 $S$ 不全为 $0$ ，构建出的就是一个正定矩阵。

那么这里的协方差矩阵有什么具体的含义呢？
假设有一二维矩阵 $\left [ \begin{matrix}\sigma_1^2 & 0 \\ 0 & \sigma_2^2\end{matrix} \right ]$ ，该矩阵表示分布的两个维度 $x_1, x_2)^T$ 间是没有相关性的，所以右上和左下矩阵的系数为 $0$ 。如果有相关性，这个地方就应该有系数：如果是正数， $x_1$ 增大 $x_2$ 就会增大；如果是负数， $x_1$ 增大 $x_2$ 就会减小。

在没有相关性时，将所有点投影到 $x_1$ 方向上，它符合 $\sigma_1$ 的分布，其分布如下图在 $x_1$ 轴上方黑线所示。

1.4.1 高斯与椭球体的关系

由于三维高斯不好表现，先来从二维高斯看三维高斯与椭球体的关系：
函数 $G(\boldsymbol{x})=e^{-\frac{1}{2}}(\boldsymbol{x})^{T}\Sigma^{-1}(\boldsymbol{x})$ ，因为现在是二维， $\boldsymbol{x}=(x_1, x_2)^T$ 。当 $G(\boldsymbol{x})$ 为常数时，组成了这个常数的 $\boldsymbol{x}$ ，将是一个什么样的分布形状？
如果令 $G(\boldsymbol{x})$ 为常数，那么就是说 $(\boldsymbol{x})^{T}\Sigma^{-1}(\boldsymbol{x})$ 应该是一个常数，因为 $e^{-\frac{1}{2}}$ 这一部分是固定计算的。还是以协方差矩阵 $\left [ \begin{matrix}\sigma_1^2 & 0 \\ 0 & \sigma_2^2\end{matrix} \right ]$ 为例，则公式变成了：
$\left [ \begin{matrix}x_1 \\ x_2 \end{matrix} \right ]^T \left [ \begin{matrix}\frac{1}{\sigma_1} & 0 \\ 0 & \frac{1}{\sigma_2}\end{matrix} \right ] \left [ \begin{matrix}x_1 \\ x_2 \end{matrix} \right ] = const, \quad \text{即 } \frac{x_1^2}{\sigma_1^2} + \frac{x_2^2}{\sigma_2^2} = const$ 这就是一个椭球，其长短轴与 $\sigma$ 以及 $co n s t$ 有关。所以所有的等势面都会构成一个个的椭球，呈现上图中一圈一圈的样子。越内圈出现的等势面的概率越高，越往外等势面出现的概率越低。

那么该怎样找一个将大多概率包络的高斯呢？
那么就将高斯往外面找，比如高斯 $99$ 能量的时候，就把这个值找到，就会形成一个包络面，包络面外面点的概率是很低的，里面的总概率是 $99$ ，使用这个高斯球来代表高斯分布的边界。

1.4.2 世界坐标系下的三维高斯到二维像素平面投影过程

假设世界坐标系三维空间中的一个点符合以下高斯分布 $\boldsymbol{x_w}\sim N(\boldsymbol{\mu_w}, \Sigma_w)$ ，现在想知道它对应的像素坐标系对应的向量 $\boldsymbol{z}$ 所对应的均值 $\boldsymbol{\mu_z}$ 和协方差 $\Sigma_z$ 。

我们知道世界坐标系要先转换到相机坐标系：已知 $\boldsymbol{x_c}=W_{cw}\boldsymbol{x_w}+T$ ，这里用 $W$ 和 $T$ 指代旋转和平移因为原文是这样写的。通过这个变换就能将世界坐标系下的点转换到相机坐标系，这时的 $\boldsymbol{x_c}$ 符合分布 $\boldsymbol{x_c}\sim N(W_{cw}\boldsymbol{\mu_w}+T, W\Sigma_wW^T)$ 。

像素坐标 $\boldsymbol{z}$ 与 $\boldsymbol{x_c}$ 间又是什么样的关系呢？
$\left [ \begin{matrix}\vec{z}_{2\times1} \\ 1 \end{matrix} \right ]= \frac{1}{x_{3c}} \left [ \begin{matrix}\alpha & 0 & c_x & 0 \\ 0 & \beta & c_y & 0 \\ 0 & 0 & 1 & 0\end{matrix} \right ] \left [ \begin{matrix}\vec{x_c}_{3\times1} \\ 1 \end{matrix} \right ]$ 从公式内可以看到， $\boldsymbol{z}$ 与 $\boldsymbol{x_c}$ 间并不是线性关系。

这里整理整理可以得到， $\boldsymbol{z}$ 与 $\boldsymbol{x_c}$ 间的关系： $\boldsymbol{z} = F(\boldsymbol{x_c})$ ，这里的 $F$ 不再是线性函数，既然不是线性函数，那么从 $\boldsymbol{x_c}$ 转到 $\boldsymbol{z}$ ，就不再是高斯分布了。为了解决这个问题，干脆对公式在 $\boldsymbol{x_c}$ 点处进行一阶泰勒展开，即：
$\boldsymbol{z} \approx F(\boldsymbol{\mu_c})_{2\times1} + J_{2\times3}(\boldsymbol{x_c}-\boldsymbol{\mu_c})$ 泰勒展开以后， $F(\boldsymbol{\mu_c})$ 是一个 $2\times1$ 向量， $J$ 是一个确定值，因为在 $\boldsymbol{\mu_c}$ 位置进行泰勒展开以后，它的雅可比是一个确定值， $\boldsymbol{\mu_c}$ 也是一个确定值。所以 $\boldsymbol{z}$ 与 $\boldsymbol{x_c}$ 在这里就是线性变化关系，其协方差矩阵为 $\Sigma_z=J\Sigma_cJ^T=JW\Sigma_wW^TJ^T)$ ；均值为 $\boldsymbol{\mu_z} = F(\boldsymbol{\mu_c})=F(W\boldsymbol{\mu_x}+T)$ 。

有了上述这些知识，就可以学习 3D Gaussian Splatting 技术了。

2. 3D Gaussian Splatting

2.1 特点

3D Gaussian Splatting 和 NeRF 一样，所做的任务也是新视图合成。它有以下特点：

使用光栅化渲染方式，而非基于射线的体渲染方式
与 NeRF 的区别在于，光栅化的渲染方式是将三维空间的一个物体投到二维图像上形成对应的颜色；而体渲染方式是从图像上的点(视线)触发，将光线上的点进行汇聚形成一个点的颜色 $C$ 。所以一个是正向而另一个是逆向的过程，两个的渲染方式是完全不一样的。
使用多个 $3 D$ 高斯椭球显式的表达场景
在 NeRF 里去表达一个三维场景的信息时，使用的是三维场景的点和它的体密度值σ、颜色C。3DGS内不再用点表达，而是使用 3D 高斯组件替代了点，所以在空间中的表达是一堆堆的3D高斯。这些3D高斯的信息没有保存在神经网络里，而是存在了硬盘上，所以它是一个显式的表达场景。
推理速度快、质量高
未使用神经网络

需要注意的是，3D Gaussian Splatting 与 NeRF 是完全不同的思想。不要认为 3D Gaussian Splatting 是在改进 NeRF 的某个环节，它俩的思维方式完全不一样。

2.2 流程与关键步骤

论文大体流程如下：

2.2.1 场景表达

文中是以 3D Gaussian 的方式存储信息，每一个基本单元就是一个高斯球，用一堆高斯球来表达一个场景。
每个高斯球都有以下变量：

中心位置 $\boldsymbol{p}$ ；
因为是三维高斯球，所以中心位置 $\boldsymbol{p}$ 也是三维的。
以 $R$ 和 $S$ 形式表达的协方差矩阵；
$R$ 可以用四元数， $S$ 用三个实数表达，加起来就是一个七维变量，对应这里的协方差矩阵。
体密度 $\alpha$ ；
一维变量。
球谐波系数；
这里使用的 $J = 3$ ，即有 $16$ 个基(系数)，那么 RGB 一共有 $48$ 个系数。当然使用的阶数越高，模型就越精确，但是要求的系数也越多。

综上，一个高斯球总共有 $59$ 个系数，只要给到这 $59$ 个系数，那么这个高斯球的性质就完全确定了。

2.2.2 整体流程

基于SFM得到点云初始化 3D 高斯，每个三维点初始化为一个高斯椭球
初始化时的输入量使用的是 COLMAP 等 SFM 方式输出的点云，这里与 NeRF 就完全不同了，NeRF 使用的仅是 COLMAP 等输出的相机位姿，而 3DGS 中，这些点云是有用的。3DGS 将根据这些点云进行初始化：基于这些点云的位置，会在每一个位置上放置一个高斯球，系数随机。
给定摄像机内、外参数及标答图像，将椭球 splatting 到图像上
给定相机位姿，就可以将这一个个 3D 高斯球投影到图像上了，投影方式依照先前所描述的分布公式：
$\begin{aligned} &G(x)=e^{-\frac12(x)^T\Sigma^{-1}(x)} \\ &\Sigma=RSS^TR^T \\ &\Sigma'=JW\Sigma W^TJ^T \end{aligned}$
通过 $\alpha$ blending 进行光栅化渲染
3DGS 从近到远每个球投下来以后都形成了一个图像区，那么在重叠区域就可以进行光栅化的融合了。每个点都进行融合以后就可以得到图像。
与标答图像计算损失
使用的损失函数为： $\mathcal{L}=(1-\lambda)\mathcal{L}_1+\lambda\mathcal{L}_{\text{D-SSIM}}$ ，其中
- $\mathcal{L}_1$ 度量两像素间差异；
- $\mathcal{L}_{\text{D-SSIM}}$ 度量两图像间结果差异。
NeRF 内逐像素进行计算，即采集一个 batch 的像素，送进去训练，然后输出损失；而在 3DGS 内，每次采集一小批图，以图像为单位进行损失计算。
梯度回传
有了损失，就可以以梯度回传的方式更新 3DGS 球的属性，并能控制高斯球的克隆与分裂。
- 上支更新 3D 高斯椭球体的属性；
  ① 可微分光栅化渲染器里面都是一些加法和乘法，肯定是可以回传的；
  ② 函数 $F$ 没有学习的必要，也没有系数需要去学习。所以需要更新的只有 $3 D$ 高斯球的那 $59$ 个属性。
- 下支实现 3D 高斯椭球体的克隆和分裂等。
  - 学习过程中，较大梯度的高斯椭球存在 欠重构(under-reconstruction) 和 过重构(over-reconstruction) 问题。
    梯度在传过来时没有更新任何参数，只是通过对这 $59$ 维导数的模值来确定当前高斯球，是否存在欠重构或过重构的问题，如果是就进行复制或分裂。这个步骤是不可导的。
    
    ① 欠重构区域的高斯椭球方差小，进行复制操作；
    可以看到上图中的几何体，又是很难用一个高斯球去描述这个几何体的形状，所以就对高斯球进行克隆，克隆的操作是不可导的。克隆完再优化就成了右边的样子。
    ② 过重构区域的高斯椭球方差大，进行分裂操作；
    图中可以看到方差大的高斯球太大了，拟合覆盖了全部形状，但有太多不属于这个几何形体的形状，这样描述是不准确的。
    ③ 每经过固定次数的迭代进行一次剔除操作，剔除几乎透明的高斯椭球以及方差过大的高斯椭球。

2.3 算法伪代码

2.3.1 整体流程伪代码

2.3.2 光栅化伪代码

整体流程为：

将图像分为 $16\times16$ 个块，为每个块筛选 视锥体(view frustum) 内的 3D高斯椭球；
实例化高斯椭球，即为其分配索引值与键值；
根据 键值(key) 中的深度信息对高斯椭球进行排序；
将排好序的高斯椭球从近到远向对应块上做 Splatting；
在每个块上做 α-blending。

One more thing，注意一个高斯球往下投影时，这一个高斯球投影到图像中每个点的 $\alpha$ 值是不一样的，每个点的透明度还考虑了点距离中心的距离，即前面所讲的 $G (z)$ 。所以，这个点的透明度由 $P'\alpha$ 决定，也就是说在投影过程中，透明度是从中间向外衰减的，这也就是 Splatting 的过程。

babylon-vrm-loader：让3D模型动起来的强大工具纪栋岑Philomena
babylon-vrm-loader：让3D模型动起来的强大工具babylon-vrm-loaderglTFVRMextensionLoaderforbabylon.js项目地址:https://gitcode.com/gh_mirrors/ba/babylon-vrm-loader在现代网页开发中，3D渲染和交互已成为吸引用户注意力的重要手段。babylon-vrm-loader是一个开源项目，
CppCon 2018 学习:RAPID PROTOTYPING OF GRAPHICS SHADERS IN 虾球xz CppCon 学习 c++开发语言
这段内容在讲**着色器（Shader）**的基础概念，尤其是它在现代GPU（图形处理单元）中的作用。以下是逐条解释与理解：“Depictingdepthperceptionin3Dmodelsorillustrationsbyvaryinglevelsofdarkness”—Wikipedia这是**光照/阴影（shading）**的定义，来自维基百科。意思是：为了在二维图像中表现三维感，我们通过
Day36 复习日 cylat python打卡深度学习机器学习人工智能 python 神经网络
目录一、对之前的信贷项目，利用神经网络训练下二、尝试进入nn.Module中，查看他的方法模型训练与评估相关参数管理相关模块管理相关设备相关钩子函数相关一、对之前的信贷项目，利用神经网络训练下importtorchimporttorch.nnasnnimporttorch.optimasoptimfromsklearn.model_selectionimporttrain_test_splitfr
用WebGPU实现现代Web3D渲染——突破传统性能瓶颈的解决方案桂月二二 wasm fastapi 开发语言 rust
引言随着Web技术的不断发展，Web3D应用的需求不断增加。从游戏引擎到可视化工具，3D渲染技术正在被广泛地应用。然而，传统WebGL技术在性能、效率和灵活性上仍存在局限性。而WebGPU作为一种新兴的Web标准，为现代3D渲染提供了强大而高效的解决方案。本文将探讨如何使用WebGPU实现高效的Web3D渲染，逐步构建一个简单的渲染引擎，并介绍其在性能和功能上的优势。背景WebGPU是一种跨平台的
嵌入式学习之Linux入门篇笔记——8，Linux帮助手册讲解玄奕子嵌入式学习之Linux入门篇 linux 学习笔记 ubuntu
配套视频学习链接：http://【【北京迅为】嵌入式学习之Linux入门篇】https://www.bilibili.com/video/BV1M7411m7wT/?p=4&share_source=copy_web&vd_source=a0ef2c4953d33a9260910aaea45eaec81.Linux帮助手册使用man命令打开，使用手册一共有九页。（按Q退出帮助手册）1.可执行的程序
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
Pytorch 之torch.nn初探 torch.nn.Module与线性--Linear layers 十有久诚人工智能机器学习 pytorch
初探torch.nn.Module神经网络可以使用torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层nn.Linear，nn.Bilinear卷积层nn.Conv1d，nn.Conv2d，nn.Conv3d，nn.ConvTranspose2d非线性nn.Sigmoid，nn.Tanh，nn.ReLU，nn.LeakyReLU池化层nn.MaxPool1d，nn.Aver
重生学AI第十五集：学习非线性激活函数
背景知识激活是什么意思？“激活”一词来源于生物学神经系统，在人的大脑中，存在着大量的神经元。每个神经元在接收到足够强的刺激时，会被激活，产生电信号并传递给其他神经元。这些电信号在神经网络中层层流动，最终形成了大脑对外界信息的反应。神经元就等同于人工神经网络中的基本计算单元，每一个网络层都包含着许多这样的神经元，激活函数就是为了能够判断输入是否达到“激活”标准，达到激活标准，则会影响后续计算，反之，
Pytorch：nn.Linear中是否自动应用softmax函数浩瀚之水_csdn 深度学习目标检测 #Pytorch框架 pytorch 人工智能 python
在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。一、什么是nn.Linearnn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。我们来看一个简单的示例，展示如何使用
【字节跳动】数据挖掘面试题0006：SVM（支持向量机）详细原理言析数智数据挖掘常见面试题支持向量机数据挖掘算法 SVM
文章大纲SVM（支持向量机）原理：用最通俗的话讲清楚1.核心思想：找一条“最安全”的分界线2.数学背后的“人话”逻辑3.处理“分不开”的情况：核函数的魔法4.为什么SVM有时比神经网络“聪明”？`5.SVM的优缺点：适合什么场景？`6.一句话总结SVM7.SVM常见的面试知识点除了原理相关内容外**1.硬间隔SVM的数学表达****2.软间隔SVM的数学表达****3.拉格朗日对偶问题推导****
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
《ONNX推理部署全解析：从基础到进阶的实用指南》空云风语人工智能深度学习神经网络人工智能深度学习神经网络 YOLO ONNX
ONNX基础入门ONNX是什么ONNX，即OpenNeuralNetworkExchange（开放神经网络交换），是一种用于表示深度学习模型的开放标准文件格式。它由Facebook和Microsoft在2017年联合开发，后来得到了NVIDIA、Intel、AWS、Google、OpenAI等众多公司的支持，旨在解决不同深度学习框架之间模型格式不兼容的问题，为模型的存储、交换和部署提供统一标准，使
pythonocc-core 的项目扩展与二次开发白娥林
pythonocc-core的项目扩展与二次开发pythonocc-coretpaviot/pythonocc-core:是一个基于Python的OpenCASCADE(OCCT)几何内核库，提供了三维几何形状的创建、分析和渲染等功能。适合对3D建模、CAD、CAE以及Python有兴趣的开发者。项目地址:https://gitcode.com/gh_mirrors/py/pythonocc-co
PythonOCC【快速入门】
目录简单介绍环境小例子简单介绍pythonOCC也就是opencascade的python封装版本，是由tpaviot制作并发行的。pythonOCC是python语言构架的3DCAD/CAE/PLM开发框架，它提供了如下功能：复杂曲面的操作，信息转换（STEP,IGES,STL格式），用户界面可视化（基于wxpython库或者qt库），jupyternootbook生成等。环境https://a
探索Python OCC核心：高效3D建模与CAD编程的利器邢郁勇Alda
探索PythonOCC核心：高效3D建模与CAD编程的利器项目地址:https://gitcode.com/gh_mirrors/py/pythonocc-core项目简介pythonocc-core是一个开源项目，它是OpenCASCADETechnology（OCC）的Python绑定，提供了一套强大的3D建模和计算机辅助设计（CAD）工具。利用Python的易用性和OCC的强大功能，此项目旨
视觉系统驱动工业变革：迁移科技赋能智能制造新时代 lingling009 数码相机
在工业自动化浪潮中，视觉系统正成为智能制造的“眼睛”，它精准捕捉细节、引导机械动作，彻底改变传统生产模式。然而，许多企业仍面临视觉方案部署复杂、回报周期长等痛点。作为行业领先的3D工业相机和3D视觉系统供应商，迁移科技（成立于2017年）通过15年技术沉淀，打造了稳定、易用、高回报的AI+3D视觉系统。我们已服务新能源、汽车、化工等众多行业，累计融资数亿元，致力于将复杂技术转化为可感知价值。本文将
基于图神经网络的ALS候选药物预测模型设计与实现神经网络15044 MATLAB专栏神经网络深度学习神经网络人工智能深度学习机器学习
基于图神经网络的ALS候选药物预测模型设计与实现一、任务背景与意义肌萎缩侧索硬化症（ALS）是一种致命的神经退行性疾病，目前尚无有效治愈方法。传统药物发现流程耗时长、成本高，而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络（GNN）的ALS候选药物预测模型，通过整合分子图结构信息和生物活性数据，实现对潜在治疗ALS化合物的高效筛选。二、系统架构设计
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法神经网络15044 仿真模型神经网络深度学习深度学习分类 cnn 算法网络集成学习数据挖掘
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
【深度学习】一文彻底搞懂前向传播（Forward Pass）与反向传播（Backward Pass）烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
【深度学习】一文彻底搞懂前向传播（ForwardPass）与反向传播（BackwardPass）摘要：在深度学习的星辰大海中，无论模型多么复杂，其训练过程都离不开两大核心支柱：前向传播(ForwardPass)和反向传播(BackwardPass)。理解这两个概念，就等于拿到了解开神经网络训练奥秘的钥匙。本文将用最直白易懂的方式，并结合规范的数学表达，为你彻底讲透这两个基本而又重要的过程。文章目录
【零基础学AI】第22讲：PyTorch入门 - 动态图计算与图像分类器实战 1989 0基础学AI 人工智能 pytorch python 机器学习 sklearn 深度学习
本节课你将学到理解PyTorch的核心概念和优势掌握张量(Tensor)的基本操作学会使用动态计算图构建神经网络实现一个完整的图像分类器项目训练模型并进行预测开始之前环境要求Python3.8+建议使用GPU（可选，CPU也能运行）内存：至少4GB需要安装的包#CPU版本（推荐新手）pipinstalltorchtorchvisionmatplotlibpillow#GPU版本（如果有NVIDIA
LLM面试题14 三月七꧁ ꧂ 破题·大模型面试语言模型人工智能数据库自然语言处理 prompt
算法岗面试题介绍下Transformer模型。 Transformer本身是一个典型的encoder-decoder模型，Encoder端和Decoder端均有6个Block,Encoder端的Block包括两个模块，多头self-attention模块以及一个前馈神经网络模块；Decoder端的Block包括三个模块，Masked多头self-attention模块，多头Encoder-D
疏锦行Python打卡 DAY 33 MLP神经网络的训练
importtorchtorch.cudaimporttorch#检查CUDA是否可用iftorch.cuda.is_available():print("CUDA可用！")#获取可用的CUDA设备数量device_count=torch.cuda.device_count()print(f"可用的CUDA设备数量:{device_count}")#获取当前使用的CUDA设备索引current_d
STM32控制四自由度机械臂（SG90舵机）（硬件篇）（简单易复刻）
1.前期硬件准备2s锂电池一个（用于供电），stm32f103c8t6最小系统板一个（主控板），两个摇杆（用于摇杆模式），四个电位器（用于示教器模式），一个蓝牙hc-05（用于蓝牙模式已经串口打印信息方便调试），一个oled显示屏（用于显示信息，也是方便调试），以及最主要的由四个sg90舵机组成的四自由度机械臂（因为我没有3d打印机，故直接在淘宝买了一个现成的，只需要买机械臂，不用带控制板，几十块
python打卡day41@浙大疏锦行风逸hhh python打卡60天行动 python 深度学习计算机视觉
知识回顾1.数据增强2.卷积神经网络定义的写法3.batch归一化：调整一个批次的分布，常用与图像数据4.特征图：只有卷积操作输出的才叫特征图5.调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层2.Flatten->Dense(withDropout，可选)->Dense(Output)作业：尝试手动修改下不同的调度器和CNN的
python打卡day52@浙大疏锦行风逸hhh python打卡60天行动 python 深度学习机器学习
知识点回顾：随机种子内参的初始化神经网络调参指南参数的分类调参的顺序各部分参数的调整心得神经网络调参核心实践一、全局随机种子设置（修改src/models/train.py）defset_seed(seed=42):torch.manual_seed(seed)torch.cuda.manual_seed_all(seed)np.random.seed(seed)random.seed(seed)
【Python训练营打卡】day33 @浙大疏锦行 2301_77865880 MyPython训练营打卡 python
DAY33简单的神经网络知识点回顾：1.PyTorch和cuda的安装2.查看显卡信息的命令行命令（cmd中使用）3.cuda的检查4.简单神经网络的流程a.数据预处理（归一化、转换成张量）b.模型的定义i.继承nn.Module类ii.定义每一个层iii.定义前向传播流程c.定义损失函数和优化器d.定义训练流程e.可视化loss过程预处理补充：注意事项：1.分类任务中，若标签是整数（如0/1/2
OpenGL: OpenGL+Qt实现介绍 (一) 程序员小马兰 OpenGL+Qt 计算机视觉图形渲染前端
一、通过这个教程我们能学到什么？1、计算机图形学的基础知识。2、使用OpenGL在QT中进行编程。3、使用OpenGL做出一些很酷的效果。二、需要哪些预备知识？1、熟悉C++编程语言、Qt基本操作。2、数学基础知识(线性代数、几何、三角学)。三、为什么要学习OpenGL？各种三维图形引擎，原理都类似，几乎没什么差别，学好了OpenGL对Unity3D、虚幻引擎、OSG、webGL等的使用都会有巨大
OpenCVforUnity人脸识别插件：Unity3D中的实时人脸检测解决方案
OpenCVforUnity人脸识别插件：Unity3D中的实时人脸检测解决方案【下载地址】OpenCVforUnity人脸识别插件OpenCVforUnity人脸识别插件专为Unity3D开发者设计，帮助轻松实现高效的人脸识别功能。该插件支持摄像头画面的实时检测，精准比对面部特征，适用于刷脸验证等交互场景。集成简单快捷，符合Unity开发习惯，同时具备良好的可扩展性，方便二次开发与功能定制。无论
MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer AI专题精讲 Paper阅读 transformer 深度学习人工智能计算机视觉
摘要轻量级卷积神经网络（CNN）是移动视觉任务的事实标准。它们的空间归纳偏置使得它们能够在不同的视觉任务中以较少的参数学习表示。然而，这些网络在空间上是局部的。为了学习全局表示，基于自注意力的视觉Transformer（ViT）被采用。与CNN不同，ViT是重量级的。本文提出了以下问题：是否有可能将CNN和ViT的优势结合起来，构建一个适用于移动视觉任务的轻量级低延迟网络？为此，我们介绍了Mobi
视觉表征和多模态融合一只齐刘海的猫语言模型
视觉表征和多模态融合是当前人工智能领域的研究热点，特别是在计算机视觉和自然语言处理的交叉领域。视觉表征是指将图像或视频信息转化为模型可以处理的向量形式，而多模态融合则是将不同类型的数据（如视觉、文本、音频等）进行整合，以实现更全面、准确的信息理解和处理。视觉表征(VisualRepresentation)目的：将图像或视频数据转化为深度学习模型可以理解的特征向量。方法：卷积神经网络(CNN)：传
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

3DGS 其一：3D Gaussian Splatting for Real-Time Radiance Field Rendering

3DGS 其一：3D Gaussian Splatting for Real-Time Radiance Field Rendering

1. 预备知识

1.1 球谐函数

1.2 Splatting

1.3 α \alpha α blending

1.4 多维高斯的协方差矩阵

1.4.1 高斯与椭球体的关系

1.4.2 世界坐标系下的三维高斯到二维像素平面投影过程

2. 3D Gaussian Splatting

2.1 特点

2.2 流程与关键步骤

2.2.1 场景表达

2.2.2 整体流程

2.3 算法伪代码

2.3.1 整体流程伪代码

2.3.2 光栅化伪代码

你可能感兴趣的:(#,NeRF,3d,nerf,神经网络,3DGS)

1.3 $\alpha$ blending