【NeRF】了解学习Neural Radiance Fields(神经辐射场)

文章目录

  • Definition of field(场的定义)
    • shape representations(各种形状表征方式)
    • Explicit surfaces and implicit surfaces
    • Radiance Field(Implicit Surfaces)
      • 体素密度
  • Definition of Rendering(渲染的定义)
    • Sphere Tracing(球追踪技术)
    • Volumn render(体渲染)
      • 1. 基本要素:
      • 2. 光线的传播和积分:
      • 3. 透明度传输函数:
      • 4. 色彩传输函数:
  • 3D contents(什么是三维内容)
    • appearance representation(外表表征方式)
  • NeRF的具体细节
    • Neural Field General Framework
    • 2D到3D的三维重建过程
      • 像素坐标如何转为空间坐标并获得姿态
      • NeRF函数的构造(神经网络架构)
        • Fourier features
    • NeRF的渲染过程:Hierarchical volume sampling(分层体素渲染)


Definition of field(场的定义)

  • A field is a quantity defined for all spatial and/or temporal coordinates.(场是由空间或者时间定义的量)
  • A neural field is a field that is paramaterized fully or in part of by a neural network.(神经场是神经网络构成部分或者全部参数的场)
    【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第1张图片

向量场、图片、曲面、有符号距离场都是Fields。

shape representations(各种形状表征方式)

【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第2张图片

  • Mesh:表面是由一个个三角形组成
  • Point cloud:点云
  • Occupancy field:对三维空间中的每一个点,如果这个点被物体占有,则把这个点的value设置为1
  • Signed distance field:对三维空间中的每一个点,把这个点的value设置为到物体最近表面的距离,区分正负,图中蓝色为负

Explicit surfaces and implicit surfaces

Explicit surfaces和implicit surfaces是在计算机图形学和计算机视觉领域中用于表示三维对象的两种不同方法。

  1. Explicit Surfaces(显式表面):

    • 在显式表面中,对象的几何形状是通过显式定义的表面方程或参数化表示的。这意味着,对于给定的参数值,你可以直接计算出表面上的点的坐标。
    • 显式表面通常通过数学公式或参数方程表示,例如球体的方程是 x 2 + y 2 + z 2 = r 2 x^2 + y^2 + z^2 = r^2 x2+y2+z2=r2,或者一个平面的方程是 a x + b y + c z + d = 0 ax + by + cz + d = 0 ax+by+cz+d=0
    • 优点是可以直接得到表面上的点的位置,容易进行几何计算。但对于复杂形状,表达式可能变得复杂。
  2. Implicit Surfaces(隐式表面):

    • 在隐式表面中,对象的表面并不直接表示为显式的方程或参数形式。相反,对象的表面由一个隐含的函数 F ( x , y , z ) F(x, y, z) F(x,y,z)决定,函数值为零的点在表面上。
    • 表面的形状由零集 F ( x , y , z ) = 0 F(x, y, z) = 0 F(x,y,z)=0决定,例如 x 2 + y 2 + z 2 − r 2 = 0 x^2 + y^2 + z^2 - r^2 = 0 x2+y2+z2r2=0表示一个球体的隐式表面。
    • 隐式表面通常用于描述不规则或复杂的几何形状,因为它们不需要直接解出表面方程。但要计算表面上的点,通常需要使用数值方法,例如Marching Cubes算法。

总的来说,显式表面和隐式表面是两种不同的表示方法,各有优缺点。选择使用哪种方法通常取决于具体的应用和场景,以及对于计算效率和表达能力的需求。

Mesh和Point cloud都是显示表面。

Radiance Field(Implicit Surfaces)

Radiance Fields(辐射场)是一种用于描述三维场景中光照和颜色的方法。Radiance Fields通常被用于图形学和计算机视觉领域,以捕捉场景中的光照效果、颜色和阴影等细节。

【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第3张图片

我们可以把辐射场看成一个函数。它接受一个向量 ( x , y , z , θ , ϕ ) (x,y,z,\theta,\phi ) (x,y,z,θ,ϕ)作为输入,其中,
x , y , z ) x,y,z ) x,y,z)表示这个点在空间中的坐标, ( θ , ϕ ) (\theta,\phi ) (θ,ϕ)表示观察角度(俯仰角pitch和偏航角yaw)。

这个函数被称为NeRF函数,它的输出是 ( R G B , σ ) (RGB,\sigma ) (RGB,σ)。RGB很好理解,就是这个点的颜色。而 σ \sigma σ,是一个被称为体素密度的计算量,下一节会具体讲解。

总而言之,Radiance Field描述了在三维空间中每个点的辐射度(radiance),这代表了在该点上的光照强度和颜色。通过学习辐射场,可以生成逼真的图像,包括场景中的各种光照和反射效果。

体素密度

在三维图形学和计算机视觉中,体素密度 σ ( x ) \sigma(x) σ(x)通常用来表示体积数据中每个体素(三维像素)的密度或吸收率。这个密度函数 σ ( x ) \sigma(x) σ(x) 提供了对场景中不同区域的物质分布或浓度的描述。

具体而言, σ ( x ) \sigma(x) σ(x)表示在空间位置 x x x 处的体素密度。该函数的取值通常与场景中的物体或介质的性质有关,比如在医学图像学中, σ ( x ) \sigma(x) σ(x) 可能表示某个组织的密度,而在计算机图形学中,它可以表示某个材质或介质的密度。

一些常见的应用场景包括:

  1. 医学成像: 在医学图像学中, σ ( x ) \sigma(x) σ(x)可以表示组织的密度,例如在CT扫描中,不同的组织或器官会有不同的密度值。

  2. 体积渲染: 在体积渲染中, σ ( x ) \sigma(x) σ(x)可以用于模拟光线在体积中的吸收效应。不同密度的区域对光线的吸收程度不同,从而影响渲染结果。

  3. 计算机图形学: 在一些图形学的应用中, σ ( x ) \sigma(x) σ(x)可以表示材质的密度,影响光线通过材质时的表现。

通常,密度函数 σ ( x ) \sigma(x) σ(x)的值越大,表示该位置的体素越密集或吸收率越高。这种密度信息对于模拟光照、渲染和可视化等任务都是非常重要的。

Definition of Rendering(渲染的定义)

渲染(Rendering)是指将三维模型或场景转换成二维图像的过程。在计算机图形学中,渲染是一个重要的概念,它是计算机图形学中最重要的技术之一。

在渲染过程中,计算机需要对三维模型或场景进行处理,包括建模、纹理、映射、光照计算、投影变换、视点变换等,最终生成一张二维图像。这个过程涉及到大量的计算和图形处理技术,如光线追踪、阴影计算、反射和折射等。

在NeRF中,用到了一种名为体渲染(Volumn render)的技术。

Sphere Tracing(球追踪技术)

【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第4张图片

使用球追踪(Sphere Tracing)技术来渲染一个带有符号距离场(Signed Distance Field)的场景,并从中获取屏幕空间法线图(Screen Space Normal Map)和深度图(Depth Map)。其中关键要素如下:

  1. Signed Distance Field(符号距离场): 符号距离场是一种表示空间中对象表面的方式。对于每个点,它的值表示该点到最近表面的有向距离,有向意味着正值表示在物体外,负值表示在物体内。符号距离场通常用于描述几何体,而无需显式表示几何体的网格。

  2. Sphere Tracing(球追踪): 球追踪是一种光线追踪技术,通常用于符号距离场的渲染。它通过沿视线(ray)追踪场景中的物体表面,不断沿着视线前进,直到达到符号距离场的边界。这种技术可以有效地渲染符号距离场中的复杂几何形状,包括曲面和体积。

  3. Screen Space Normal Map(屏幕空间法线图): 法线图是一种图像,其中每个像素的颜色表示与表面垂直的法线方向。屏幕空间法线图是将法线映射到屏幕空间的图像,通常在屏幕空间的 XY 平面上,用 RGB 值来表示法线的方向。

  4. Depth Map(深度图): 深度图是一种图像,其中每个像素的值表示与相机的距离,通常以线性或非线性的方式编码。深度图在渲染中常用于实现景深效果和其他与深度相关的图形效果。

Volumn render(体渲染)

【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第5张图片

体渲染(Volume Rendering)是一种用于可视化三维体积数据的技术,通常应用于医学成像、科学可视化和计算机图形学等领域。体渲染的目标是生成逼真的图像,呈现出体积内部的结构和特征。

NeRF使用渲染方式的正是基于体渲染技术。由于体渲染全程都是可微分的,就可以用神经网络去训练。以下是体渲染的基本原理和一些关键公式:

1. 基本要素:

  • 体素(Voxel): 三维体积数据通常由体素组成,每个体素是体积中的一个像素,包含各种信息如密度、颜色等。这正是NeRF函数的输出

  • 体积光线积分: 体渲染的基本思想是对每条光线在体积中进行积分,计算该光线通过体素时的光照和颜色。这涉及到计算光线与体积中不同位置的相互作用。

2. 光线的传播和积分:

光线在体积中的传播通常由类似以下的积分公式表示:

C = ∫ 0 t m a x T ( x ) ⋅ C ( x )   d x C = \int_{0}^{t_{max}} T(x) \cdot C(x) \,dx C=0tmaxT(x)C(x)dx

其中:

  • C ( c o l o r ) C(color) C(color)是最终生成图像的对应光线的像素点颜色;
  • t m a x t_{max} tmax 是光线在体积中传播的最大距离;
  • T ( x ) , t r a n s p a r e n t , T(x),transparent, T(x),transparent是光线在位置 x x x处的透明度(也称为传输函数);
  • C ( x ) C(x) C(x) 是在位置 x x x 处的颜色。

3. 透明度传输函数:

透明度传输函数 T ( x ) T(x) T(x) 定义了在光线穿过体积中的不同位置时,光线的透明度变化。这通常是一个关于密度或强度的函数。常见的形式之一是:

T ( x ) = e − ∫ 0 x ρ ( t )   d t T(x) = e^{-\int_{0}^{x} \rho(t) \,dt} T(x)=e0xρ(t)dt

其中 ρ ( t ) \rho(t) ρ(t) 是在位置 t t t 处的密度。这由NeRF函数计算得出。

4. 色彩传输函数:

颜色传输函数 C ( x ) C(x) C(x)定义了在体积中不同位置的颜色。这由NeRF函数计算得出。

3D contents(什么是三维内容)

【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第6张图片

三维内容是形状和外观的组合。如果拥有一个三维内容,再搭配一个渲染器,就可以得到在想要的视角下观察这个物体的RGB图像。

appearance representation(外表表征方式)

【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第7张图片

  • Material texture map & environment lighting:分为两步

      1. Material texture map:把一个appearance转化为一张图片,图片的每个像素存储appearance对应位置的材质信息。类似于把地球画成世界地图的过程。
      1. environment lighting:光照分布
  • Radiance field:已经介绍过。

两种表征方式的特点:

  • Material texture map & environment lighting:
    • 优点:材质和光照分离,这意味着可以很方便单独修改物体的表面材质和外部光照条件。比如,可以给兔子皮毛上贴一个五角星,然后可以容易地重新获得对应的appearance。也可以打光更亮一点,让兔子变得很明亮。
    • 缺点:反渲染比较复杂
  • Radiance field:
    • 优点:形式简单
    • 缺点:材料和光照混合,在新环境中原来的appearance就失效了。

NeRF的具体细节

Neural Field General Framework

【NeRF】了解学习Neural Radiance Fields(神经辐射场)_第8张图片
输入空间坐标和位姿,经过神经网络的推理之后,我们可以获得重建的辐射场(Radiance Field)。然后,将这些Radiance Field经过体渲染(Volumn render),就可以得到我们可以观测的RGB图像。

2D到3D的三维重建过程

像素坐标如何转为空间坐标并获得姿态

To do.

NeRF函数的构造(神经网络架构)

To do.

Fourier features

神经网络的偏移(bias)的本意是为了拟合地更加平滑,但在NeRF的任务中,太过平滑(smooth)的图像往往意味着模糊,因此,我们更加尖锐(sharp)、梯度更大的图像。

NeRF的作者插入了一层Fourier features,很好地解决了这个问题。

To do.//在哪里插入的这一层?

NeRF的渲染过程:Hierarchical volume sampling(分层体素渲染)

To do.

你可能感兴趣的:(计算机视觉,深度学习,python,图形渲染)