胖墩会武术

【项目实战】三维重建：基于RGB-D数据集的TSDF算法

文章目录

一、项目简介
二、算法原理
- 2.1、每个体素都有两个值：TSDF值（用于生成重建表面）、RGB灰度值（给重建表面贴上彩色纹理）
- 2.2、TSDF算法
- - 步骤一：体素体建立
  - 步骤二：划分网格（体素化）
  - 步骤三：迭代更新：TSDF值 + 权重值
  - 步骤四：找等值面
三、项目说明
- 3.1、源码下载（Github）
- 3.2、数据集说明
- 3.3、文件说明
四、环境配置 + 工具安装
- 4.0、ImportError: DLL load failed while importing _arpack: 找不到指定的程序。
- 4.1、环境配置
- - 4.1.1、Anaconda + Pycharm + OpenCV
  - 4.1.2、安装pycuda
  - 4.1.3、安装numba
  - 4.1.4、安装scikit-image（运行成功）
- 4.2、MeshLab安装（查看三维模型mesh.ply）
五、代码详解
- 5.1、demo.py：主函数文件
- 5.2、fusion.py：预定义文件

一、项目简介

主要流程：计算每个体素在深度图像中的TSDF值，然后基于前一个体素的TSDF值更新后一个（加权平均），最后得到所有体素的结果，拼接为3D模型。

TSDF需要非常大的显存空间，GPU需要大概2KB存储单个体素的所有信息。因此，只适用于小场景下的三维重建（如室内环境）。

（1）项目中指定x与y大小为：[3, 2]，单位米(m)
（2）项目中指定体素大小为：0.02，单位为米(m)
（3）总内存：（3 x 2 x 1） / （0.02 x 0.02 x0.02） * 2KB = （750000）*2KB = 1464.844MB = 1.43GB
备注：1 KB = 1024 B(字节)、1 MB = 1024 KB 、1 GB = 1024 MB、1 TB = 1024 GB

支持GPU和CPU

在Fusion.py文件的TSDFVolume类中，通过参数use_gpu=False选择是否使用GPU，两者速度相差极大。如果为False，既选择CPU；若为True，则需要安装CUDA和PyCUDA。

把TSDF地图从CPU存储中移动到GPU中需要两步：（1）调用cuda.mem_alloc在GPU中提前开辟一块内存空间；（2）调用cuda.memcpy_htod用开辟的内存空间存储TSDF地图数据。
备注：htod表示host to device，即从CPU存数据到GPU。如果是反过来的话，就使用cuda.memcpy_dtoh。

最终输出结果为mesh.ply文件，想要打开该文件的工具有很多。此处会介绍其中的MeshLab软件。

TSDF 算法特性：
（1）对以下3个原因非常敏感：噪声（采集图像的随机噪声）、不确定性（传感器的分辨率）、不精确性（遮挡物体）
（2）最终将导致重建结果出现：伪影（虚假结构）、伪装（缺失区域）、形状偏差（建模的物体形状与实际的物体形状不匹配）

二、算法原理

2.1、每个体素都有两个值：TSDF值（用于生成重建表面）、RGB灰度值（给重建表面贴上彩色纹理）

像素(pixel)是2D图像的最小单位，而体素(voxel)是3D立方体的最小单位，体素体由一个个小立方体组成的3D模型。

每个体素都有两个值：TSDF值（用于生成重建表面）、RGB灰度值（给重建表面贴上彩色纹理）
备注：在三维重建的初始化阶段，长方体内所有体素的TSDF值被填充为1，而RGB值被填充为0。

其中：TSDF的取值范围为[-1, 1]，其表示体素与最近的物体表面的距离。

1：表示体素x 位于相机与物体表面之间。

-1：表示体素位于物体表面之后。

趋近于0：即认为体素在物体表面。

2.2、TSDF算法

基于截断(T)的带符号距离函数（Truncated Signed Distance Function，TSDF）

是一种常见的计算等势面（物体表面）的3D重建方法。

SDF于2003年由Sosher提出，而TSDF在SDF的基础上提出截断距离(T)。
举例：若体素的SDF值大于30，赋值30；若小于15的部分，赋值15。最终，所有体素得到的SDF值都在[15, 30]范围内，即截断。

一个体素的SDF值，表示它到最近的物体表面的距离。T表示截断，将太近或太远的SDF值设定为恒定值。

白色的小方格：表示TSDF地图中的体素。

蓝色的三角形：表示相机的视场范围。

绿色截线：表示物体的横截面。

绿色虚线：物体截面的深度信息。

深蓝色直线：沿着相机的光心与体素X做一条直线，该直线与物体的截面有一个交点P。该交点是平面上离体素X最近的点。小白科研笔记：从零学习基于TSDF的三维重建

步骤一：体素体建立

根据实拍环境以及待重建点云分布情况，构建一个足够大的长方体，使得所有3D图像的三维点都在X Y Z = [L x W x H]长方体中（能够完全包围要重建的物体）。项目中指定x与y大小为：[3, 2]，单位米(m)

假设 z 方向为相机的拍摄位置，则 x 与 y 方向上的极值就是图像的边界。

（1）四条边界得到四个交汇点（边界点）：(0, 0), (W, 0), (0, H), (W, H)

（2）z 方向上深度范围：0 ~ L

最终得到长方体的八个顶点（边界点）：(0, 0, 0)、(W, 0, 0)、(W, H, 0)、(0, H, 0)、(0, 0, L)、(W, 0, L)、(W, H, L)、(0, H, L) 。

步骤二：划分网格（体素化）

将长方体的内部空间划分成一个个小立方体（体素），用户可自定义体素大小。其中：体素越小，最终搭建模型的体素个数越多，建模精度越高，但运行速度越慢。项目中指定体素大小为：0.02，单位为米(m)

举例理解：在[-1, 1]范围内，指定体素大小为0.02m，则可以划分出50个体素。最终，每个体素的8个顶点坐标可以通过世界坐标(-1+0.02x, -1+0.02y, -1+0.02*z)计算得到。

步骤三：迭代更新：TSDF值 + 权重值

投影世界坐标系下的体素体，通过逆变换到相机坐标系，再投影到图像坐标系。

（1）计算当前帧图像的TSDF值及权重。此时需要遍历所有的体素：计算每个体素TSDF值 + 截断每个体素的TSDF值 + 更新每个体素的TSDF值 + 计算每个体素的权值。

（2）当前帧图像与全局融合结果进行融合。
备注：若当前帧为第一帧，则第一帧就是融合结果，否则需要当前帧与之前的融合结果进行融合。

（1）举例推导：以任意一个体素在世界坐标系的三维坐标点p为例。世界坐标即最终生成的3D模型（体素体），由世界坐标 -> 相机坐标 -> 像素坐标

坐标变换。由深度图像的相机位姿矩阵，求世界坐标系下点P在相机坐标系下的映射点v；并由相机内参矩阵及反映射V点求深度图像中的对应像素点x。

计算坐标点p的tsdf值。

此时坐标点p的sdf值：sdf( p ) = value( x ) - distance( v )。其中：像素点x的深度值为value( x )、点v到相机坐标原点距离为distance( v )。

然后引入截断距离计算tsdf( p )。
判断1：在截断距离 U = [-1, 1] 以内：tsdf( p ) = sdf( p ) / | U |；
判断2：如果sdf( p ) > 0，tsdf( p ) = 1；
判断3：若果sdf( p ) < 0，tsdf( p ) = -1；

计算坐标点p的权重：w( p ) = cos(θ) / distance( v )。其中，θ为投影光线与表面法向量的夹角。

然后就是每添加一帧深度图像，执行以上步骤。最终将输出结果给Marching Cube计算物体表面。TSDF算法学习

（2）通过当前帧tsdf( p ) 更新融合后的TSDF值。
备注1：即多帧图像有很多重叠部分，需要对多个重叠部分进行融合。即分别计算多帧图像上对应该体素的TSDF值以及权重，最终取加权平均值。
备注2：该更新模式采用的是增量式更新。即第二帧结果与第一帧进行加权平均，第三帧与第二帧进行加权平均，以此类推。
备注3：实时更新3D模型，即每计算一帧更新一次结果，而不是等所有深度图都计算完一起出结果。

公式如下：TSDF算法原理及源码解析

其中：
TSDF( p )表示体素 p 融合后的TSDF值；
W( p )表示体素 p 融合后的权重值；
tsdf( p )表示体素 p 当前帧的TSDF值；
w( p )表示体素 p 当前帧的权重值；

步骤四：找等值面

用marching cubes算法在TSDF网格中寻找dist加权和为0的等值面，即物体表面。

加粗红色曲线：物体表面（人脸）

物体内部

橙色数字：负值。且离物体表面越远，数值越大。

红色数字：负值。截断。

物体外部

紫色数字：正值。且离物体表面越远，数值越大。

暗蓝数字：正值。截断。

三、项目说明

3.1、源码下载（Github）

Github官网下载：https://github.com/andyzeng/tsdf-fusion-python

3.2、数据集说明

数据集来源于RGB-D Dataset 7-Scenes，即将7个场景数据集中的1000张RGB深度图像，融合为2cm分辨率的TSDF体素体（3D表面网格和点云）。

数据集(data)参数	说明	数据格式	举例
相机内参	相机的内部参数（硬件）	txt矩阵格式	`camera-intrinsics.txt`
RGB图像	一个场景多个视角拍摄的图像		`frame-000000.color.jpg`
深度图	表示物体远近程度的图像		`frame-000000.depth.png`
相机位姿	由于图像是多视角的，故每个视角的相机位姿也不同	txt矩阵格式	`frame-000000.pose.txt`

备注1：只有一个相机内参文件，而1000张图像的每个数据都对应有一个RGB图像、深度图、相机位姿。
备注2：相机内参和相机位姿主要用于坐标系转换。
备注3：深度图可通过高级相机获取、或通过RGB图像进行深度估计获取。

3.3、文件说明

整个项目分三个部分：两个文件夹、两个(.py)文件、两个(.ply)文件。

文件夹
data：存放数据集
images：存放一张3D重建过程图（fusion-movie.gif）

文件
demo.py：主函数文件
fusion.py：预定义文件
README.md：官网的项目简介

生成的结果文件

mesh.ply：是一种多边形网格文件格式。

包含了多个三角形或四边形面片，每个面片由若干个顶点组成。还可能包含每个顶点的颜色、法线、纹理坐标等信息。

常用于计算机图形学、三维建模和可视化等领域。

pc.ply：是一种点云文件格式。

只包含了若干个点的坐标信息，每个点可能还有其他的属性（如：颜色、法线、强度等）。

常用于三维扫描、激光雷达、遥感、医学图像等领域。点云数据可以用于建立三维模型、分析形状和结构、检测缺陷和异常等。

相同点：都是描述三维场景或物体的点云文件格式。
区别点：mesh.ply 更注重表面的细节和形状，而 pc.ply 更注重点的位置和属性。

四、环境配置 + 工具安装

4.0、ImportError: DLL load failed while importing _arpack: 找不到指定的程序。

原因分析：缺少依赖项、scipy包存在缺失、没有正确配置环境变量、python版本不兼容。
（1）安装依赖项（NumPy和SciPy）。
（2）scipy包存在缺失。卸载pip uninstall scipy、安装最新版本pip install scipy。备注：尝试安装了低版本scipy，仍有问题。
（2）检查环境变量。特别是，确保PATH环境变量包含了Python和相关依赖项的安装路径。
（3）升级Python版本。有时候在较旧的版本中可能会出现一些兼容性问题。
以上四个原因是在查阅资料时总结得到，博主的问题最后定位到是由于 " scipy包存在缺失 " 的原因，通过上述方法可解决，

4.1、环境配置

该项目基于Numpy + opencv + pycuda + numba + skimage即可完成。

4.1.1、Anaconda + Pycharm + OpenCV

【深度学习环境配置】Anaconda + Pycharm + CUDA +cuDNN + Pytorch + Opencv（资源已上传）

4.1.2、安装pycuda

安装pycuda：pip install pycuda 。通常会安装失败，可以使用pycuda.whl下载地址轮子安装。详细教程如下：【GPU加速】安装pycuda异常：Failed to build pycuda ERROR: Could not build wheels for pycuda

4.1.3、安装numba

BUG提示：ImportError：Numba needs NumPy 1.22 or less
安装numba：pip install numba。该方法会自动检测numba版本，若numpy版本与之不对应，将自动卸载当前numpy然后重新安装对应版本。切记：不可删除llvmlite文件夹，否则项目运行时会提示没有该模块。ERROR: Cannot uninstall ‘llvmlite’. It is a distutils installed project.

4.1.4、安装scikit-image（运行成功）

步骤一：上述几个环境都配置好之后，可以正常运行，如下图：

（1）在Fusion.py文件的TSDFVolume类中，通过参数use_gpu=False选择是否使用GPU

（2）在Demo.py文件中，点击Run运行。

步骤二：在生成结果文件时，出现以下异常：

BUG提示：AttributeError: module ‘skimage.measure’ has no attribute ‘marching_cubes_lewiner’
报错原因：是由于scikit-image(skimage)简介版本的问题导致的。在旧版本的scikit-image中，marching_cubes_lewiner函数是在skimage.measure模块中定义的，但在新版本中，它已经被移动到了一个单独的模块中。
解决方法：

若是旧版本的scikit-image，可以尝试升级版本来解决这个问题。

11、pip list查看已安装的scikit-image版本号为0.19.2。

22、pip uninstall scikit-image卸载。

33、安装scikit-image：pip install scikit-image。默认安装最新版本。上述BUG提示的链接中提到的方法是将0.19.2版本（python3.9）换成0.16.2版本（python3.8）就能解决问题，故需要通过scikit-image.whl下载地址安装。但是该方法需要同时切换python版本，由于本人使用的是python3.9，但是在官网中没有找到对应的scikit-image版本，尝试了一些版本但未成功。

若是新版本的scikit-image，则可能是导入时使用了错误的名称。可通过以下代码使用：marching_cubes_lewiner：
from skimage import measure
verts, faces, _, _ = measure.marching_cubes_lewiner(volume, level)

最终基于新版本的scikit-image，项目运行成功，并生成mesh.ply + pc.ply文件。

步骤三：前两个步骤已经可以正常生成结果文件，但是系统有两个警告，虽然不影响使用，但只需要将measure.marching_cubes_lewiner 更换为 measure.marching_cubes即可消除该问题。项目运行成功，并生成mesh.ply + pc.ply文件。

4.2、MeshLab安装（查看三维模型mesh.ply）

三维几何处理系统（MeshLab）：简介 + 安装 + 使用教程

MeshLab是开源的3D三角网格编辑与处理系统，可以对3D网格进行全面的编辑与处理，包括编辑，清理，修复，检查，渲染，纹理和转换网格等。

另外，它还具备了处理由3D数字化工具 / 设备生成的原始数据，并提供3D模型打印功能，从而能够为用户实现工业化的模型创建。

MeshLab官网下载地址：默认最新版本（支持多种平台）

Github官网下载地址：累计发布版本（支持多种平台）

五、代码详解

TSDF算法原理、推导过程、源码解析： def __ init __()、def integrate()、def get_mesh(self)

注：只分析CPU版本源码，可以深入理解TSDF原理。而GPU版本主要内容：体素是如何通过多线程去索引并提取。

5.1、demo.py：主函数文件

"""
Fuse 1000 RGB-D images from the 7-scenes dataset into a TSDF voxel volume with 2cm resolution.
"""
import time
import cv2
import numpy as np
import fusion


if __name__ == "__main__":
    # ======================================================================================================== #
    # （1）估计体素体边界
    # ======================================================================================================== #
    print("Estimating voxel volume bounds...")
    n_imgs = 1000                                                                       # 1.1、指定数据集中的RGB图像总个数
    cam_intr = np.loadtxt("data/camera-intrinsics.txt", delimiter=' ')                  # 1.2、读取相机内参
    vol_bnds = np.zeros((3, 2))                                                         # 1.3、以米为单位指定xyz边界(min/max)。
    for i in range(n_imgs):
        depth_im = cv2.imread("data/frame-%06d.depth.png" % i, -1).astype(float)        # 1.4、读取深度图像
        depth_im /= 1000.                           # 单位为毫米。图像深度（depth）保存为16位PNG格式。
        depth_im[depth_im == 65.535] = 0            # 将无效的图像深度设置为0(特定于7场景数据集)
        cam_pose = np.loadtxt("data/frame-%06d.pose.txt" % i)                           # 1.5、读取相机位姿: 4x4刚性变换矩阵
        view_frust_pts = fusion.get_view_frustum(depth_im, cam_intr, cam_pose)          # 1.6、计算相机的视锥体和扩展凸包

        vol_bnds[:, 0] = np.minimum(vol_bnds[:, 0], np.amin(view_frust_pts, axis=1))
        vol_bnds[:, 1] = np.maximum(vol_bnds[:, 1], np.amax(view_frust_pts, axis=1))
        # 视锥体是摄像机可见的空间，看上去像截掉顶部的金字塔。

    # ======================================================================================================== #
    # （2）RGB-D图像的TSDF体积融合
    # ======================================================================================================== #
    print("Initializing voxel volume...")
    ########## 函数: fusion.TSDFVolume ##########
    tsdf_vol = fusion.TSDFVolume(vol_bnds, voxel_size=0.02)     # 初始化体素大小=0.02m（即2cm）

    # ======================================================================================================== #
    # （3）循环RGB-D图像更新每个体素的TSDF值，并将它们融合在一起。
    # ======================================================================================================== #
    t0_elapse = time.time()
    for i in range(n_imgs):
        print("Fusing frame %d/%d" % (i+1, n_imgs))
        color_image = cv2.cvtColor(cv2.imread("data/frame-%06d.color.jpg" % i), cv2.COLOR_BGR2RGB)      # 读取彩色图像
        depth_im = cv2.imread("data/frame-%06d.depth.png" % i, -1).astype(float)                        # 读取深度图像
        depth_im /= 1000.
        depth_im[depth_im == 65.535] = 0
        cam_pose = np.loadtxt("data/frame-%06d.pose.txt" % i)                               # 读取相机位姿
        ########## 函数: fusion.integrate ##########
        tsdf_vol.integrate(color_image, depth_im, cam_intr, cam_pose, obs_weight=1.)        # 将观测结果整合到体素体中(假设颜色与深度对齐)

    # ======================================================================================================== #
    # （4）打印FPS，并输出.ply文件
    # ======================================================================================================== #
    # 4.1、打印平均FPS:（表示画面每秒传输帧数）
    fps = n_imgs / (time.time() - t0_elapse)
    print("Average FPS: {:.2f}".format(fps))

    # 4.2、从体素体中获取3D网格，并保存为多边形.ply文件到磁盘（可以使用Meshlab查看）
    print("Saving mesh to mesh.ply...")
    verts, faces, norms, colors = tsdf_vol.get_mesh()           # 使用marching cubes体素级重建方法计算网格
    ########## 函数: fusion.meshwrite ##########
    fusion.meshwrite("mesh.ply", verts, faces, norms, colors)

    # 4.3、从体素体积中获取点云，并保存为多边形.ply文件到磁盘（可以使用Meshlab查看）
    print("Saving point cloud to pc.ply...")
    point_cloud = tsdf_vol.get_point_cloud()                    # 从体素体中提取点云
    ########## 函数: fusion.pcwrite ##########
    fusion.pcwrite("pc.ply", point_cloud)

5.2、fusion.py：预定义文件

# Copyright (c) 2018 Andy Zeng
import numpy as np
from numba import njit, prange
from skimage import measure

# 默认使用GPU，若不使用需更改为: try 0;  否则需要安装pycuda.
try:
    import pycuda.driver as cuda
    import pycuda.autoinit
    from pycuda.compiler import SourceModule
    FUSION_GPU_MODE = 1
except Exception as err:
    print('Warning: {}'.format(err))
    print('Failed to import PyCUDA. Running fusion in CPU mode.')
    FUSION_GPU_MODE = 0


class TSDFVolume:
    """
    Volumetric TSDF Fusion of RGB-D Images.（RGB-D图像的TSDF体积融合）
    """
    def __init__(self, vol_bnds, voxel_size, use_gpu=False):
        """构造函数
        Args:
            vol_bnds (ndarray):     以米为单位指定XYZ边界(min/max)。形状为(3,2)的数组（固定值）。
            voxel_size (float):     以米为单位的体素大小（可自定义）。备注：体素越小，最终构成模型的体素个数越多，但运行速度越慢。
            use_gpu=False:          是否使用GPU。若使用，需安装pycuda.
        """
        # （1）将点云分布边界转换成numpy数组
        vol_bnds = np.asarray(vol_bnds)     # 数据类型转换: array转asarray.    区别在于是否共享内存
        assert vol_bnds.shape == (3, 2), "[!] `vol_bnds` should be of shape (3, 2)."
        # （2）定义体素体参数
        self._vol_bnds = vol_bnds                       # 体素体xyz边界
        self._voxel_size = float(voxel_size)            # 体素体每个立方体边长
        self._trunc_margin = 5 * self._voxel_size       # 截断距离，设置为体素边长的5倍
        self._color_const = 256 * 256                   # 辅助参数，用于提取rgb值
        # （3）调整体积边界以及索引顺序（order='C': 表示最后一个索引变化最快）
        self._vol_dim = np.ceil((self._vol_bnds[:, 1]-self._vol_bnds[:, 0])/self._voxel_size).copy(order='C').astype(int)
        self._vol_bnds[:, 1] = self._vol_bnds[:, 0]+self._vol_dim*self._voxel_size
        self._vol_origin = self._vol_bnds[:, 0].copy(order='C').astype(np.float32)
        # （4）打印TSDF地图的尺寸: [L, W, H]
        print("Voxel volume size: {} x {} x {} - # points: {:,}" .format(self._vol_dim[0], self._vol_dim[1], self._vol_dim[2],
                                                                         self._vol_dim[0]*self._vol_dim[1]*self._vol_dim[2]))

        # 初始化保存体素体信息的容器
        self._tsdf_vol_cpu = np.ones(self._vol_dim).astype(np.float32)          # 用于保存每个体素栅格的tsdf值
        self._weight_vol_cpu = np.zeros(self._vol_dim).astype(np.float32)       # 用于保存每个体素栅格的权重值
        self._color_vol_cpu = np.zeros(self._vol_dim).astype(np.float32)        # 用于保存每个体素栅格的颜色值(将rgb三个值压缩成一个float32值表示)
        self.gpu_mode = use_gpu and FUSION_GPU_MODE

        # 将体素体积复制到GPU
        if self.gpu_mode:
            self._tsdf_vol_gpu = cuda.mem_alloc(self._tsdf_vol_cpu.nbytes)
            cuda.memcpy_htod(self._tsdf_vol_gpu, self._tsdf_vol_cpu)
            self._weight_vol_gpu = cuda.mem_alloc(self._weight_vol_cpu.nbytes)
            cuda.memcpy_htod(self._weight_vol_gpu, self._weight_vol_cpu)
            self._color_vol_gpu = cuda.mem_alloc(self._color_vol_cpu.nbytes)
            cuda.memcpy_htod(self._color_vol_gpu, self._color_vol_cpu)

            # Cuda内核函数(c++)     功能: 在GPU下的体素是如何通过多线程去索引并提取
            self._cuda_src_mod = SourceModule("""
            __global__ void integrate(float * tsdf_vol,
                                      float * weight_vol,
                                      float * color_vol,
                                      float * vol_dim,
                                      float * vol_origin,
                                      float * cam_intr,
                                      float * cam_pose,
                                      float * other_params,
                                      float * color_im,
                                      float * depth_im) {
              // Get voxel index
              int gpu_loop_idx = (int) other_params[0];
              int max_threads_per_block = blockDim.x;
              int block_idx = blockIdx.z*gridDim.y*gridDim.x+blockIdx.y*gridDim.x+blockIdx.x;
              int voxel_idx = gpu_loop_idx*gridDim.x*gridDim.y*gridDim.z*max_threads_per_block
                                                +block_idx*max_threads_per_block+threadIdx.x;
              int vol_dim_x = (int) vol_dim[0];
              int vol_dim_y = (int) vol_dim[1];
              int vol_dim_z = (int) vol_dim[2];
              if (voxel_idx > vol_dim_x*vol_dim_y*vol_dim_z)
                  return;
              // Get voxel grid coordinates (note: be careful when casting)
              float voxel_x = floorf(((float)voxel_idx)/((float)(vol_dim_y*vol_dim_z)));
              float voxel_y = floorf(((float)(voxel_idx-((int)voxel_x)*vol_dim_y*vol_dim_z))/((float)vol_dim_z));
              float voxel_z = (float)(voxel_idx-((int)voxel_x)*vol_dim_y*vol_dim_z-((int)voxel_y)*vol_dim_z);
              // Voxel grid coordinates to world coordinates
              float voxel_size = other_params[1];
              float pt_x = vol_origin[0]+voxel_x*voxel_size;
              float pt_y = vol_origin[1]+voxel_y*voxel_size;
              float pt_z = vol_origin[2]+voxel_z*voxel_size;
              // World coordinates to camera coordinates
              float tmp_pt_x = pt_x-cam_pose[0*4+3];
              float tmp_pt_y = pt_y-cam_pose[1*4+3];
              float tmp_pt_z = pt_z-cam_pose[2*4+3];
              float cam_pt_x = cam_pose[0*4+0]*tmp_pt_x+cam_pose[1*4+0]*tmp_pt_y+cam_pose[2*4+0]*tmp_pt_z;
              float cam_pt_y = cam_pose[0*4+1]*tmp_pt_x+cam_pose[1*4+1]*tmp_pt_y+cam_pose[2*4+1]*tmp_pt_z;
              float cam_pt_z = cam_pose[0*4+2]*tmp_pt_x+cam_pose[1*4+2]*tmp_pt_y+cam_pose[2*4+2]*tmp_pt_z;
              // Camera coordinates to image pixels
              int pixel_x = (int) roundf(cam_intr[0*3+0]*(cam_pt_x/cam_pt_z)+cam_intr[0*3+2]);
              int pixel_y = (int) roundf(cam_intr[1*3+1]*(cam_pt_y/cam_pt_z)+cam_intr[1*3+2]);
              // Skip if outside view frustum
              int im_h = (int) other_params[2];
              int im_w = (int) other_params[3];
              if (pixel_x < 0 || pixel_x >= im_w || pixel_y < 0 || pixel_y >= im_h || cam_pt_z<0)
                  return;
              // Skip invalid depth
              float depth_value = depth_im[pixel_y*im_w+pixel_x];
              if (depth_value == 0)
                  return;
              // Integrate TSDF
              float trunc_margin = other_params[4];
              float depth_diff = depth_value-cam_pt_z;
              if (depth_diff < -trunc_margin)
                  return;
              float dist = fmin(1.0f,depth_diff/trunc_margin);
              float w_old = weight_vol[voxel_idx];
              float obs_weight = other_params[5];
              float w_new = w_old + obs_weight;
              weight_vol[voxel_idx] = w_new;
              tsdf_vol[voxel_idx] = (tsdf_vol[voxel_idx]*w_old+obs_weight*dist)/w_new;
              // Integrate color
              float old_color = color_vol[voxel_idx];
              float old_b = floorf(old_color/(256*256));
              float old_g = floorf((old_color-old_b*256*256)/256);
              float old_r = old_color-old_b*256*256-old_g*256;
              float new_color = color_im[pixel_y*im_w+pixel_x];
              float new_b = floorf(new_color/(256*256));
              float new_g = floorf((new_color-new_b*256*256)/256);
              float new_r = new_color-new_b*256*256-new_g*256;
              new_b = fmin(roundf((old_b*w_old+obs_weight*new_b)/w_new),255.0f);
              new_g = fmin(roundf((old_g*w_old+obs_weight*new_g)/w_new),255.0f);
              new_r = fmin(roundf((old_r*w_old+obs_weight*new_r)/w_new),255.0f);
              color_vol[voxel_idx] = new_b*256*256+new_g*256+new_r;
            }""")

            self._cuda_integrate = self._cuda_src_mod.get_function("integrate")

            # 确定GPU上的块/网格大小
            gpu_dev = cuda.Device(0)
            self._max_gpu_threads_per_block = gpu_dev.MAX_THREADS_PER_BLOCK
            n_blocks = int(np.ceil(float(np.prod(self._vol_dim))/float(self._max_gpu_threads_per_block)))
            grid_dim_x = min(gpu_dev.MAX_GRID_DIM_X, int(np.floor(np.cbrt(n_blocks))))
            grid_dim_y = min(gpu_dev.MAX_GRID_DIM_Y, int(np.floor(np.sqrt(n_blocks/grid_dim_x))))
            grid_dim_z = min(gpu_dev.MAX_GRID_DIM_Z, int(np.ceil(float(n_blocks)/float(grid_dim_x*grid_dim_y))))
            self._max_gpu_grid_dim = np.array([grid_dim_x, grid_dim_y, grid_dim_z]).astype(int)
            self._n_gpu_loops = int(np.ceil(float(np.prod(self._vol_dim))/float(np.prod(self._max_gpu_grid_dim)*self._max_gpu_threads_per_block)))

        else:
            # 获取每个体素网格的坐标
            xv, yv, zv = np.meshgrid(range(self._vol_dim[0]), range(self._vol_dim[1]), range(self._vol_dim[2]), indexing='ij')
            self.vox_coords = np.concatenate([xv.reshape(1, -1), yv.reshape(1, -1), zv.reshape(1, -1)], axis=0).astype(int).T

    @staticmethod
    @njit(parallel=True)
    def vox2world(vol_origin, vox_coords, vox_size):
        """
        Convert voxel grid coordinates to world coordinates.（将体素网格坐标转换为世界坐标。）
        """
        vol_origin = vol_origin.astype(np.float32)
        vox_coords = vox_coords.astype(np.float32)
        cam_pts = np.empty_like(vox_coords, dtype=np.float32)
        for i in prange(vox_coords.shape[0]):
            for j in range(3):
                cam_pts[i, j] = vol_origin[j] + (vox_size * vox_coords[i, j])
        return cam_pts

    @staticmethod
    @njit(parallel=True)
    def cam2pix(cam_pts, intr):
        """
        Convert camera coordinates to pixel coordinates.（将相机坐标转换为像素坐标。）
        """
        intr = intr.astype(np.float32)
        fx, fy = intr[0, 0], intr[1, 1]
        cx, cy = intr[0, 2], intr[1, 2]
        pix = np.empty((cam_pts.shape[0], 2), dtype=np.int64)
        for i in prange(cam_pts.shape[0]):
            pix[i, 0] = int(np.round((cam_pts[i, 0] * fx / cam_pts[i, 2]) + cx))
            pix[i, 1] = int(np.round((cam_pts[i, 1] * fy / cam_pts[i, 2]) + cy))
        return pix

    @staticmethod
    @njit(parallel=True)
    def integrate_tsdf(tsdf_vol, dist, w_old, obs_weight):
        """
        Integrate the TSDF volume.
        """
        tsdf_vol_int = np.empty_like(tsdf_vol, dtype=np.float32)
        w_new = np.empty_like(w_old, dtype=np.float32)
        for i in prange(len(tsdf_vol)):
            w_new[i] = w_old[i] + obs_weight
            tsdf_vol_int[i] = (w_old[i] * tsdf_vol[i] + obs_weight * dist[i]) / w_new[i]
        return tsdf_vol_int, w_new

    def integrate(self, color_im, depth_im, cam_intr, cam_pose, obs_weight=1.):
        """Integrate an RGB-D frame into the TSDF volume.

        Args:
            color_im (ndarray):     An RGB image of shape (H, W, 3).
            depth_im (ndarray):     A depth image of shape (H, W).
            cam_intr (ndarray):     The camera intrinsics matrix of shape (3, 3).
            cam_pose (ndarray):     The camera pose (i.e. extrinsics) of shape (4, 4).
            obs_weight (float):     The weight to assign for the current observation. A higher value
        """
        im_h, im_w = depth_im.shape         # 获取图像尺寸

        # 将RGB彩色图像折叠成单通道图像（将rgb三个值表示的颜色通道信息转换成一个用float32表示的单通道信息）
        color_im = color_im.astype(np.float32)
        color_im = np.floor(color_im[..., 2]*self._color_const + color_im[..., 1]*256 + color_im[..., 0])

        # 【GPU mode】: 集成体素体积(调用CUDA内核)
        if self.gpu_mode:
            for gpu_loop_idx in range(self._n_gpu_loops):
                self._cuda_integrate(self._tsdf_vol_gpu,
                                     self._weight_vol_gpu,
                                     self._color_vol_gpu,
                                     cuda.InOut(self._vol_dim.astype(np.float32)),
                                     cuda.InOut(self._vol_origin.astype(np.float32)),
                                     cuda.InOut(cam_intr.reshape(-1).astype(np.float32)),
                                     cuda.InOut(cam_pose.reshape(-1).astype(np.float32)),
                                     cuda.InOut(np.asarray([gpu_loop_idx, self._voxel_size, im_h, im_w, self._trunc_margin, obs_weight], np.float32)),
                                     cuda.InOut(color_im.reshape(-1).astype(np.float32)),
                                     cuda.InOut(depth_im.reshape(-1).astype(np.float32)),
                                     block=(self._max_gpu_threads_per_block, 1, 1),
                                     grid=(int(self._max_gpu_grid_dim[0]), int(self._max_gpu_grid_dim[1]), int(self._max_gpu_grid_dim[2]), )
                                     )
        # 【CPU mode】: 整合体素体积(矢量化实现)
        else:
            # 将体素网格坐标转换为像素坐标
            cam_pts = self.vox2world(self._vol_origin, self.vox_coords, self._voxel_size)       # 体素坐标系转换到世界坐标系
            cam_pts = rigid_transform(cam_pts, np.linalg.inv(cam_pose))                         # 世界坐标系转换到相机坐标系
            pix_z = cam_pts[:, 2]
            pix = self.cam2pix(cam_pts, cam_intr)                                               # 相机坐标系转换到像素坐标系
            pix_x, pix_y = pix[:, 0], pix[:, 1]

            # 消除视界外的像素（移除像素边界之外的投影点）
            valid_pix = np.logical_and(pix_x >= 0, np.logical_and(pix_x < im_w, np.logical_and(pix_y >= 0, np.logical_and(pix_y < im_h, pix_z > 0))))
            depth_val = np.zeros(pix_x.shape)
            depth_val[valid_pix] = depth_im[pix_y[valid_pix], pix_x[valid_pix]]             # 获取体素(x,y)在深度图像中的值

            # 更新每个体素网格的tsdf值及对应的权重
            depth_diff = depth_val - pix_z                                                  # 计算SDF值
            valid_pts = np.logical_and(depth_val > 0, depth_diff >= -self._trunc_margin)    # 确定出有效深度值(即sdf值的值要大于负的截断值)
            dist = np.minimum(1, depth_diff / self._trunc_margin)                           # 计算截断值
            valid_vox_x = self.vox_coords[valid_pts, 0]
            valid_vox_y = self.vox_coords[valid_pts, 1]
            valid_vox_z = self.vox_coords[valid_pts, 2]
            w_old = self._weight_vol_cpu[valid_vox_x, valid_vox_y, valid_vox_z]             # 提取上个循环对应体素的权重
            tsdf_vals = self._tsdf_vol_cpu[valid_vox_x, valid_vox_y, valid_vox_z]           # 提取上个循环对应体素的tsdf值
            valid_dist = dist[valid_pts]
            tsdf_vol_new, w_new = self.integrate_tsdf(tsdf_vals, valid_dist, w_old, obs_weight)     # 计算体素新的权重和tsdf值
            self._weight_vol_cpu[valid_vox_x, valid_vox_y, valid_vox_z] = w_new         # 将新的权值和tsdf值更新到体素信息容器中
            self._tsdf_vol_cpu[valid_vox_x, valid_vox_y, valid_vox_z] = tsdf_vol_new

            # 更新每个体素网格的颜色值（按照旧权重与新权重的加权，更新每个体素栅格的rgb值）
            old_color = self._color_vol_cpu[valid_vox_x, valid_vox_y, valid_vox_z]
            old_b = np.floor(old_color / self._color_const)
            old_g = np.floor((old_color-old_b*self._color_const)/256)
            old_r = old_color - old_b*self._color_const - old_g*256
            new_color = color_im[pix_y[valid_pts], pix_x[valid_pts]]
            new_b = np.floor(new_color / self._color_const)
            new_g = np.floor((new_color - new_b*self._color_const) / 256)
            new_r = new_color - new_b*self._color_const - new_g*256
            new_b = np.minimum(255., np.round((w_old*old_b + obs_weight*new_b) / w_new))
            new_g = np.minimum(255., np.round((w_old*old_g + obs_weight*new_g) / w_new))
            new_r = np.minimum(255., np.round((w_old*old_r + obs_weight*new_r) / w_new))
            self._color_vol_cpu[valid_vox_x, valid_vox_y, valid_vox_z] = new_b*self._color_const + new_g*256 + new_r

    def get_volume(self):
        if self.gpu_mode:
            cuda.memcpy_dtoh(self._tsdf_vol_cpu, self._tsdf_vol_gpu)
            cuda.memcpy_dtoh(self._color_vol_cpu, self._color_vol_gpu)
        return self._tsdf_vol_cpu, self._color_vol_cpu

    def get_point_cloud(self):
        """
        Extract a point cloud from the voxel volume.（从体素体中提取点云。）
        """
        tsdf_vol, color_vol = self.get_volume()

        # Marching cubes
        verts = measure.marching_cubes(tsdf_vol, level=0)[0]
        verts_ind = np.round(verts).astype(int)
        verts = verts*self._voxel_size + self._vol_origin

        # Get vertex colors
        rgb_vals = color_vol[verts_ind[:, 0], verts_ind[:, 1], verts_ind[:, 2]]
        colors_b = np.floor(rgb_vals / self._color_const)
        colors_g = np.floor((rgb_vals - colors_b*self._color_const) / 256)
        colors_r = rgb_vals - colors_b*self._color_const - colors_g*256
        colors = np.floor(np.asarray([colors_r, colors_g, colors_b])).T
        colors = colors.astype(np.uint8)

        pc = np.hstack([verts, colors])
        return pc

    def get_mesh(self):
        """
        Compute a mesh from the voxel volume using marching cubes.（使用marching cubes体素级重建方法计算网格）
        """
        tsdf_vol, color_vol = self.get_volume()     # 获取体素栅格的tsdf值及对应的颜色值

        # 直接使用scikit-image工具包中封装的Marching cubes算法接口提取等值面
        verts, faces, norms, vals = measure.marching_cubes(tsdf_vol, level=0)
        verts_ind = np.round(verts).astype(int)
        verts = verts*self._voxel_size+self._vol_origin  # voxel grid coordinates to world coordinates

        # 为每个体素赋值颜色
        rgb_vals = color_vol[verts_ind[:, 0], verts_ind[:, 1], verts_ind[:, 2]]
        colors_b = np.floor(rgb_vals/self._color_const)
        colors_g = np.floor((rgb_vals-colors_b*self._color_const)/256)
        colors_r = rgb_vals-colors_b*self._color_const-colors_g*256
        colors = np.floor(np.asarray([colors_r, colors_g, colors_b])).T
        colors = colors.astype(np.uint8)
        return verts, faces, norms, colors


def rigid_transform(xyz, transform):
    """
    世界坐标系转换到相机坐标系: Applies a rigid transform to an (N, 3) pointcloud.（对(N, 3)点云应用刚性变换。）
    """
    xyz_h = np.hstack([xyz, np.ones((len(xyz), 1), dtype=np.float32)])
    xyz_t_h = np.dot(transform, xyz_h.T).T
    return xyz_t_h[:, :3]


def get_view_frustum(depth_im, cam_intr, cam_pose):
    """
    Get corners of 3D camera view frustum of depth image.（获取三维相机视角的深度图像）
    """
    im_h = depth_im.shape[0]
    im_w = depth_im.shape[1]
    max_depth = np.max(depth_im)
    view_frust_pts = np.array([(np.array([0, 0, 0, im_w, im_w])-cam_intr[0, 2]) * np.array([0, max_depth, max_depth, max_depth, max_depth])/cam_intr[0, 0],
                               (np.array([0, 0, im_h, 0, im_h])-cam_intr[1, 2]) * np.array([0, max_depth, max_depth, max_depth, max_depth])/cam_intr[1, 1],
                               np.array([0, max_depth, max_depth, max_depth, max_depth])
                               ])
    view_frust_pts = rigid_transform(view_frust_pts.T, cam_pose).T
    return view_frust_pts


def meshwrite(filename, verts, faces, norms, colors):
    """
    Save a 3D mesh to a polygon .ply file.（将3D网格保存为多边形.ply文件。）
    """
    # Write header
    ply_file = open(filename, 'w')
    ply_file.write("ply\n")
    ply_file.write("format ascii 1.0\n")
    ply_file.write("element vertex %d\n" % (verts.shape[0]))
    ply_file.write("property float x\n")
    ply_file.write("property float y\n")
    ply_file.write("property float z\n")
    ply_file.write("property float nx\n")
    ply_file.write("property float ny\n")
    ply_file.write("property float nz\n")
    ply_file.write("property uchar red\n")
    ply_file.write("property uchar green\n")
    ply_file.write("property uchar blue\n")
    ply_file.write("element face %d\n" % (faces.shape[0]))
    ply_file.write("property list uchar int vertex_index\n")
    ply_file.write("end_header\n")

    # Write vertex list
    for i in range(verts.shape[0]):
        ply_file.write("%f %f %f %f %f %f %d %d %d\n" % (verts[i, 0], verts[i, 1], verts[i, 2],
                                                         norms[i, 0], norms[i, 1], norms[i, 2],
                                                         colors[i, 0], colors[i, 1], colors[i, 2],))
    # Write face list
    for i in range(faces.shape[0]):
        ply_file.write("3 %d %d %d\n" % (faces[i, 0], faces[i, 1], faces[i, 2]))
    ply_file.close()


def pcwrite(filename, xyzrgb):
    """
    Save a point cloud to a polygon .ply file.（保存点云到多边形.ply文件。）
    """
    xyz = xyzrgb[:, :3]
    rgb = xyzrgb[:, 3:].astype(np.uint8)

    # Write header
    ply_file = open(filename, 'w')
    ply_file.write("ply\n")
    ply_file.write("format ascii 1.0\n")
    ply_file.write("element vertex %d\n" % (xyz.shape[0]))
    ply_file.write("property float x\n")
    ply_file.write("property float y\n")
    ply_file.write("property float z\n")
    ply_file.write("property uchar red\n")
    ply_file.write("property uchar green\n")
    ply_file.write("property uchar blue\n")
    ply_file.write("end_header\n")

    # Write vertex list
    for i in range(xyz.shape[0]):
        ply_file.write("%f %f %f %d %d %d\n" % (xyz[i, 0], xyz[i, 1], xyz[i, 2], rgb[i, 0], rgb[i, 1], rgb[i, 2],))

你可能感兴趣的:(深度学习,Python项目实战,三维重建,人工智能,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts