_Summer tree

【NeRF】深度解读yenchenlin/nerf-pytorch项目

前面我们已经成功地在yen项目上运行的我们自己的数据集。
但是效果比较差，分析原因可能有以下两点。
1、用于训练的数据集分辨率过低
2、超参数使用不巧当

Learning Object-Compositional Neural Radiance Field for Editable Scene Rendering论文中记录的效果

我们自己运行出来的效果。

文章目录

目标
args.config
- 基本参数
- training options
- rendering options
- training options
- dataset options
- 加载llff类型数据集的参数
- logging/saving options
Debug 调试获取数据情况
- load_llff.py `_load_data()`
- load_llff.py `_minify()`
- load_llff.py `load_llff_datad()`
- load_llff.py `render_path_spiral（）`
- run_nerf.py `train()`
- - - Create log dir and copy the config file
    - Create nerf model
    - Move testing data to GPU
    - Prepare raybatch tensor if batching random rays
    - Move training data to GPU
    - 开始进入训练的迭代
    - - Sample random ray batch
    - render
    - 保存checkpoint
    - 输出mp4 视频
    - 保存测试数据集
    - render _only
- run_nerf.py `create_nerf()`
- - - Create optimizer
    - Load checkpoints
- run_nerf_helpers.py `class NeRF（）`
- - - \__init__()
    - forward（）
- run_nerf_helpers.py `get_rays_np()`
- run_nerf.py ` render()`
- run_nerf.py `batchify_rays()`
- run_nerf.py `render_rays()`
- run_nerf.py `raw2outputs（）`
- run_nerf.py `render_path()`
- 总结

目标

通过阅读yen源码，尝试回答以下问题或达成的目的。

config.txt 文件中，各个参数的含义。
了解代码中重要变量的含义极其计算方式
调整分辨率前后通过COLMAP计算出来的poses和bds是一样的吗？
论文中那些定量的指标是哪里计算的，并且输出在哪里
render_pose 和pose有什么关系。
load_llff_data（）的参数recenter？

方法：所以准备在pycharm中配置解释器，通过设置断点来查看数据详情。

args.config

直到我把train（）的全流程都走完了之后，才意识到一个重要的东西：我应该先看args！！！

基本参数

 	parser.add_argument('--config', is_config_file=True, 
                        help='config file path') # 生成config.txt 文件
    parser.add_argument("--expname", type=str, 
                        help='experiment name') # 指定实验名称
    parser.add_argument("--basedir", type=str, default='./logs/', 
                        help='where to store ckpts and logs') #指定输出目录
    parser.add_argument("--datadir", type=str, default='./data/llff/fern', 
                        help='input data directory') # 指定数据目录

training options

	parser.add_argument("--netdepth", type=int, default=8, 
                        help='layers in network')   # 网络的深度（层数）
    parser.add_argument("--netwidth", type=int, default=256, 
                        help='channels per layer')  # 网络的宽度，也就是每一层的神经元个数
    parser.add_argument("--netdepth_fine", type=int, default=8, 
                        help='layers in fine network')
    parser.add_argument("--netwidth_fine", type=int, default=256, 
                        help='channels per layer in fine network')
    parser.add_argument("--N_rand", type=int, default=32*32*4,  # batch_size，光束的数量。
                        help='batch size (number of random rays per gradient step)')
    parser.add_argument("--lrate", type=float, default=5e-4,  # 学习率
                        help='learning rate')
    parser.add_argument("--lrate_decay", type=int, default=250,  # 指数学习率衰减（1000 步）
                        help='exponential learning rate decay (in 1000 steps)')
    parser.add_argument("--chunk", type=int, default=1024*32,  # 并行处理的光线数量，如果内存不足则减少
                        help='number of rays processed in parallel, decrease if running out of memory')
    parser.add_argument("--netchunk", type=int, default=1024*64,  # 通过网络并行发送的点数，如果内存不足则减少
                        help='number of pts sent through network in parallel, decrease if running out of memory')
    parser.add_argument("--no_batching", action='store_true',  # 一次只能从 1 张图像中获取随机光线
                        help='only take random rays from 1 image at a time')
    parser.add_argument("--no_reload", action='store_true',  # 不要从保存的 ckpt 重新加载权重
                        help='do not reload weights from saved ckpt')
    parser.add_argument("--ft_path", type=str, default=None,  # 为粗略网络重新加载特定权重 npy 文件
                        help='specific weights npy file to reload for coarse network')

rendering options

	parser.add_argument("--N_samples", type=int, default=64,  # 每条射线的粗样本数
                        help='number of coarse samples per ray')
    parser.add_argument("--N_importance", type=int, default=0, # 每条射线的附加精细样本数
                        help='number of additional fine samples per ray')
    parser.add_argument("--perturb", type=float, default=1., # 设置为 0. 无抖动，1. 抖动
                        help='set to 0. for no jitter, 1. for jitter')
    parser.add_argument("--use_viewdirs", action='store_true', 
                        help='use full 5D input instead of 3D')
    parser.add_argument("--i_embed", type=int, default=0,  #为默认位置编码设置 0，为无设置 -1
                        help='set 0 for default positional encoding, -1 for none')
    parser.add_argument("--multires", type=int, default=10,  # 多分辨率。 位置编码的最大频率的 log2（3D 位置）
                        help='log2 of max freq for positional encoding (3D location)')
    parser.add_argument("--multires_views", type=int, default=4,  # 位置编码的最大频率的 log2（2D 方向）
                        help='log2 of max freq for positional encoding (2D direction)')
    parser.add_argument("--raw_noise_std", type=float, default=0.,  #  噪音方差
                        help='std dev of noise added to regularize sigma_a output, 1e0 recommended')

    parser.add_argument("--render_only", action='store_true',  # 不要优化，重新加载权重和渲染 render_poses 路径
                        help='do not optimize, reload weights and render out render_poses path')
    parser.add_argument("--render_test", action='store_true',  # 渲染测试集而不是 render_poses 路径
                        help='render the test set instead of render_poses path')
    parser.add_argument("--render_factor", type=int, default=0,  # 下采样因子以加快渲染速度，设置为 4 或 8 用于快速预览
                        help='downsampling factor to speed up rendering, set 4 or 8 for fast preview')

training options

	parser.add_argument("--precrop_iters", type=int, default=0, # 对主要作物进行培训的步骤数
                        help='number of steps to train on central crops')
    parser.add_argument("--precrop_frac", type=float, # ？
                        default=.5, help='fraction of img taken for central crops')

dataset options

 	parser.add_argument("--dataset_type", type=str, default='llff', 
                        help='options: llff / blender / deepvoxels')
    parser.add_argument("--testskip", type=int, default=8,  # 将从测试/验证集中加载 1/N 图像，这对于像 deepvoxels 这样的大型数据集很有用
                        help='will load 1/N images from test/val sets, useful for large datasets like deepvoxels')

加载llff类型数据集的参数

	parser.add_argument("--factor", type=int, default=8,  # LLFF 图像的下采样因子
                        help='downsample factor for LLFF images')
    parser.add_argument("--no_ndc", action='store_true',   #如果是store_false,则默认值是True，如果是store_true,则默认值是False
                        help='do not use normalized device coordinates (set for non-forward facing scenes)')  #不要使用标准化的设备坐标（为非前向场景设置
    parser.add_argument("--lindisp", action='store_true',# 在视差而不是深度中线性采样 ？
                        help='sampling linearly in disparity rather than depth')
    parser.add_argument("--spherify", action='store_true',   # 球体的
                        help='set for spherical 360 scenes') # 设置为球形 360 场景
    parser.add_argument("--llffhold", type=int, default=8,  # 将每 1/N 个图像作为 LLFF 测试集，论文使用 8
                        help='will take every 1/N images as LLFF test set, paper uses 8')

logging/saving options

	parser.add_argument("--i_print",   type=int, default=100, 
                        help='frequency of console printout and metric loggin')
    parser.add_argument("--i_img",     type=int, default=500, 
                        help='frequency of tensorboard image logging')
    parser.add_argument("--i_weights", type=int, default=10000, 
                        help='frequency of weight ckpt saving')
    parser.add_argument("--i_testset", type=int, default=50000, 
                        help='frequency of testset saving')
    parser.add_argument("--i_video",   type=int, default=50000, 
                        help='frequency of render_poses video saving')

Debug 调试获取数据情况

我们测试的是desk2这个数据集。
其中包含了151张图像。

load_llff.py `_load_data()`

从 poses_bounds.npy 提取的原始数据 poses_arr , size = 151 x 17 .
poses = poses_arr[:, :-2].reshape([-1, 3, 5]).transpose([1,2,0]) (3, 5, 151), poses[0] ↓
bds = poses_arr[:, -2:].transpose([1,0]) （2，151）
img0 = [os.path.join(basedir, 'images', f) for f in sorted(os.listdir(os.path.join(basedir, 'images'))) \ if f.endswith('JPG') or f.endswith('jpg') or f.endswith('png')][0] 查看单张图片的情况。'.img0 = /data/img_desk2/images/0000.jpg'
sh = imageio.imread(img0).shape 单张图片的shape， (4344, 5792, 3) .
函数创建目标分辨率的数据集，无返回。
imgfiles list类型，包含了目标数据的路径。
再次获取图片的shape ( sh = (543,724,3))
poses[:2, 4, :] = np.array(sh[:2]).reshape([2, 1]) shape(3,5,151) poses[0] ↓
poses[2, 4, :] = poses[2, 4, :] * 1./factor shape(3,5,151) poses[0] ↓
imgs = imgs = [imread(f)[...,:3]/255. for f in imgfiles] 读取所有的图像数据，并把值控制在0-1之间。
imgs = np.stack(imgs, -1) 转为了array类型，shape (543, 727,3,1,151)
return poses, bds, imgs

load_llff.py `_minify()`

这个函数主要负责创建目标分别率的数据集。

检查目标路径是否存在，若存在直接return。

args = ' '.join(['mogrify', '-resize', resizearg, '-format', 'png', '*.{}'.format(ext)])
        print(args)
        os.chdir(imgdir) # 修改当前工作目录
        check_output(args, shell=True)
        os.chdir(wd)

通过以上操作，创建了目标数据集。

load_llff.py `load_llff_datad()`

poses, bds, imgs = _load_data(basedir, factor=factor)

	poses = np.concatenate([poses[:, 1:2, :], -poses[:, 0:1, :], poses[:, 2:, :]], 1)
    poses = np.moveaxis(poses, -1, 0).astype(np.float32)
    imgs = np.moveaxis(imgs, -1, 0).astype(np.float32)
    images = imgs
    bds = np.moveaxis(bds, -1, 0).astype(np.float32)

接下来对数据进行如上的处理，得到的结果如下：
- bds 是 151 *2 规模的。
- images 是（151，543，727，3）分别对应（图片张数、高、宽、通道）
- poses 是（151，3，5），也就是说，对于每张图片，它的opose是个 3*5的数据。
sc = 1. if bd_factor is None else 1./(bds.min() * bd_factor) sc ：进行边界放缩的比例， = 0.859302
poses 进行边界放缩之后即poses[:,:3,3] *= sc，如下
bds *=sc 之后，所有的值都缩小了。即边界缩小了。

    if recenter:
        poses = recenter_poses(poses)

执行poses = recenter_poses(poses) 之后，poses (shape 151,3,5)的值如下：这个操作修改了前四列的值，保持最后一列值不变。（要弄清楚每列的含义）。最后一列是图像的（高，宽，焦距）

		c2w = poses_avg(poses)  # 3x5
        print('recentered', c2w.shape)
        print(c2w[:3,:4])

        ## Get spiral
        # Get average pose
        up = normalize(poses[:, :3, 1].sum(0))   # 3x1

        # Find a reasonable "focus depth" for this dataset
        close_depth, inf_depth = bds.min()*.9, bds.max()*5. # 1.19999, 1116.4336
        dt = .75
        mean_dz = 1./(((1.-dt)/close_depth + dt/inf_depth))  # 4.656
        focal = mean_dz  #焦距

        # Get radii for spiral path  半径
        shrink_factor = .8
        zdelta = close_depth * .2
        tt = poses[:,:3,3] # ptstocam(poses[:3,3,:].T, c2w).T
        rads = np.percentile(np.abs(tt), 90, 0)  # 求90百分位的数值
        c2w_path = c2w
        N_views = 120
        N_rots = 2
        if path_zflat:  # false
#             zloc = np.percentile(tt, 10, 0)[2]
            zloc = -close_depth * .1
            c2w_path[:3,3] = c2w_path[:3,3] + zloc * c2w_path[:3,2]
            rads[2] = 0.
            N_rots = 1
            N_views/=2

        # Generate poses for spiral path
        render_poses = render_path_spiral(c2w_path, up, rads, focal, zdelta, zrate=.5, rots=N_rots, N=N_views)

通过以上代码获取 render_poses,其中
- c2w = poses_avg(poses) shapa( 3,5 ) , 相当于汇合了所有的图像，值如下：
- 中间数值如下：
- tt = poses[:,:3,3]，取所有poses的三列，shape （151，3）
- rads = np.percentile(np.abs(tt), 90, 0) # 求90百分位的数值
- render_poses = render_path_spiral(c2w_path, up, rads, focal, zdelta, zrate=.5, rots=N_rots, N=N_views) 是个list，长度为120 （由N_view确定），每个元素为（3，5），这一点和poses是一样的。
render_poses = np.array(render_poses).astype(np.float32) 转为array，shape (120，3，5）， render_poses[0]
再次计算c2w c2w = poses_avg(poses). 和之前的对比了一下，数值上是一模一样的。
dists = np.sum(np.square(c2w[:3,3] - poses[:,:3,3]), -1) shape 151
i_test = np.argmin(dists) # 取值最小的索引 值为83，HOLDOUT view is 83。
return images, poses, bds, render_poses, i_test。此时 images (151, 543,724,3), poses (151,3,5) ,bds (151,2) render_poses( 120,3,5) , i_test = 83

load_llff.py `render_path_spiral（）`

render_path_spiral（） 中的hwf = c2w[:,4:5]
获得的第一个render_poses 。 render_poses.append(np.concatenate([viewmatrix(z, up, c), hwf], 1))
return render_poses # 类型是list。

run_nerf.py `train()`

images, poses, bds, render_poses, i_test = load_llff_data(args.datadir, args.factor, recenter=True, bd_factor=.75, spherify=args.spherify) 此时 images (151, 543,724,3), poses (151,3,5) ,bds (151,2) render_poses( 120,3,5) , i_test = 83.
hwf = poses[0,:3,-1]
poses = poses[:,:3,:4] ，下面是poses[0]
Loaded llff (151, 543, 724, 3) (120, 3, 5) [543. 724. 537.2688] ./data/img_desk2
Auto LLFF holdout i_test = np.arange(images.shape[0])[::args.llffhold]之后，i_test 变成了下面这个样子。也就是说，获取了多个测试样本。，声明里面也没有默认值，

		i_val = i_test  # 验证集和测试集相同
        i_train = np.array([i for i in np.arange(int(images.shape[0])) if
                        (i not in i_test and i not in i_val)])  # 把剩下的部分当做训练集

通过上述代码获取验证集和训练集。
定义边界 near = 0. far = 1.

    H, W, focal = hwf
    H, W = int(H), int(W)
    hwf = [H, W, focal]

重新获取hwf的值， list 类型， [543, 724, 537.2688]

    if K is None: #　前文自己定义为空的。　
        K = np.array([
            [focal, 0, 0.5*W],
            [0, focal, 0.5*H],
            [0, 0, 1]
        ])

定义ｋ，　shape (3,3), 值如下：

Create log dir and copy the config file

os.makedirs(os.path.join(basedir, expname), exist_ok=True) 创建log目录
f = os.path.join(basedir, expname, 'args.txt') 参数文件 args.txt

    with open(f, 'w') as file:
        for arg in sorted(vars(args)):
            attr = getattr(args, arg)
            file.write('{} = {}\n'.format(arg, attr))

把所有的参数都写到文件里面。

Create nerf model

render_kwargs_train, render_kwargs_test, start, grad_vars, optimizer = create_nerf(args) 创建模型。
- start= 0
- optimizer
- render_kwargs_test 是个dist 类型，9个元素
- render_kwargs_train 也是个dist类型， 9个元素。
- grad_vars 是个list，长度为48
global_step = start
bds_dict = { 'near' : near, 'far' : far, } 表示为字典。
render_kwargs_train.update(bds_dict) 更新render_kwargs_train，字典的update操作，更新之后，render_kwargs_train 变为11个元素的字典。即在末尾添加了 'near' = near， 'far' = far,
render_kwargs_test.update(bds_dict)

Move testing data to GPU

render_poses = torch.Tensor(render_poses).to(device)

Prepare raybatch tensor if batching random rays

use_batching = true 的情况下

rays = np.stack([get_rays_np(H, W, K, p) for p in poses[:,:3,:4]], 0) 获取光束。从函数来看，和poses有关。 shape（151,2,543,724,3），也就是[N, ro+rd, H, W, 3]
rays_rgb = np.concatenate([rays, images[:,None]], 1) ， shape (151, 3, 543, 724, 3), 也就是[N, H, W, ro+rd+rgb, 3]。
rays_rgb = np.transpose(rays_rgb, [0,2,3,1,4]) 调换了位置，[N, H, W, ro+rd+rgb, 3]，shape(151, 543, 724, 3, 3)
rays_rgb = np.stack([rays_rgb[i] for i in i_train], 0) 只获取train images的部分。 shape(132, 543, 724, 3, 3) ，总的数量由151 变为了 132。
rays_rgb = np.reshape(rays_rgb, [-1,3,3]) [(N-1)HW, ro+rd+rgb, 3]，shape (51893424, 3, 3) 。这就相当于获得了51893424个光束。 （这里其实不是N-1，因为测试样本并不只有一个）
np.random.shuffle(rays_rgb) 打乱这个光束的顺序。 shape不变。

Move training data to GPU

    if use_batching:
        images = torch.Tensor(images).to(device)
    poses = torch.Tensor(poses).to(device)
    if use_batching:
        rays_rgb = torch.Tensor(rays_rgb).to(device)

开始进入训练的迭代

start = start + 1
    for i in trange(start, N_iters):

Sample random ray batch

if use_batching

batch = rays_rgb[i_batch:i_batch+N_rand] # [B, 2+1, 3*?] N_rand = 1024, batch 的shape torch.Size([1024, 3, 3])
batch = torch.transpose(batch, 0, 1) 转换0和1维，shape torch.Size([3, 1024, 3]) 也就是说，[od+rd+rgb, 1024, 3], 最后一个3还是表示的通道。
batch_rays, target_s = batch[:2], batch[2] ， batch_rays shape torch.Size([2, 1024, 3])，也就是[od+rd, 1024, 3]。 target_s shape torch.Size([1024, 3]) 对应的是rgb。

render

rgb, disp, acc, extras = render(H, W, K, chunk=args.chunk, rays=batch_rays, verbose=i < 10, retraw=True, **render_kwargs_train) 返回渲染出的一个 batch的 rgb ，disp（视差图），acc （不透明度）, extras （其他信息）。
- rgb shape torch.Size([1024, 3]) 刚好可以好target_s 对应上。
- disp shape 1024，和1024个光束对应。
- acc shape 1024，对应1024个光束
- extras 是一个dict，含有5个元素，具体如下：
img_loss = img2mse(rgb, target_s) 求rgb损失，值为0.0663。其中img2mse = lambda x, y : torch.mean((x - y) ** 2) 也就是均方误差MSE
trans = extras['raw'][...,-1] shape torch.Size([1024, 128]) 这个值，后面好像并没有用到。
psnr = mse2psnr(img_loss) ，值为11.7821 。其中mse2psnr = lambda x : -10. * torch.log(x) / torch.log(torch.Tensor([10.]))

        if 'rgb0' in extras:
            img_loss0 = img2mse(extras['rgb0'], target_s)
            loss = loss + img_loss0
            psnr0 = mse2psnr(img_loss0)

rgb0 是extras的一个元素，这里用extras[‘rgb0’]和target_s 求了损失，并把这个损失加在了整体的损失上，也就是说，loss = img_loss+img_loss0.

		loss.backward()
        optimizer.step()

        # NOTE: IMPORTANT!
        ###   update learning rate   ###
        decay_rate = 0.1
        decay_steps = args.lrate_decay * 1000
        new_lrate = args.lrate * (decay_rate ** (global_step / decay_steps))
        for param_group in optimizer.param_groups:
            param_group['lr'] = new_lrate

以上是模型training的常规操作。

保存checkpoint

        if i%args.i_weights==0:
            path = os.path.join(basedir, expname, '{:06d}.tar'.format(i))
            torch.save({
                'global_step': global_step,
                'network_fn_state_dict': render_kwargs_train['network_fn'].state_dict(),
                'network_fine_state_dict': render_kwargs_train['network_fine'].state_dict(),
                'optimizer_state_dict': optimizer.state_dict(),
            }, path)
            print('Saved checkpoints at', path)  # 保存checkpoint。

保存形式为tar 压缩包，内容是一个字典，包含以上字段。

输出mp4 视频

 if i%args.i_video==0 and i > 0:
            # Turn on testing mode
            with torch.no_grad():
                rgbs, disps = render_path(render_poses, hwf, K, args.chunk, render_kwargs_test)
            print('Done, saving', rgbs.shape, disps.shape)
            moviebase = os.path.join(basedir, expname, '{}_spiral_{:06d}_'.format(expname, i))
            imageio.mimwrite(moviebase + 'rgb.mp4', to8b(rgbs), fps=30, quality=8)
            imageio.mimwrite(moviebase + 'disp.mp4', to8b(disps / np.max(disps)), fps=30, quality=8)

这里可以看出来，render_pose 是可以用来合成360旋转的视频的。
函数render_path（）返回的是rgb，和对应的密度disps。
看到这里明白spiral的含义了。指的是视频中的螺旋旋转。
to8b 具体实现为to8b = lambda x : (255*np.clip(x,0,1)).astype(np.uint8)

保存测试数据集

       if i%args.i_testset==0 and i > 0:
            testsavedir = os.path.join(basedir, expname, 'testset_{:06d}'.format(i))
            os.makedirs(testsavedir, exist_ok=True)
            print('test poses shape', poses[i_test].shape)
            with torch.no_grad():
                render_path(torch.Tensor(poses[i_test]).to(device), hwf, K, args.chunk, render_kwargs_test, gt_imgs=images[i_test], savedir=testsavedir)
            print('Saved test set')

可以看出，主要还是用的render_path() 函数，但给的参数和上面不同，后面我们再具体了解这个函数。

render _only

首先，这个参数，要在运行命令中加， --render_only

    if args.render_only:
        print('RENDER ONLY')
        with torch.no_grad():
            if args.render_test:
                # render_test switches to test poses
                images = images[i_test]
            else:
                # Default is smoother render_poses path
                images = None

            testsavedir = os.path.join(basedir, expname, 'renderonly_{}_{:06d}'.format('test' if args.render_test else 'path', start))
            os.makedirs(testsavedir, exist_ok=True)
            print('test poses shape', render_poses.shape)

            rgbs, _ = render_path(render_poses, hwf, K, args.chunk, render_kwargs_test, gt_imgs=images, savedir=testsavedir, render_factor=args.render_factor)
            print('Done rendering', testsavedir)
            imageio.mimwrite(os.path.join(testsavedir, 'video.mp4'), to8b(rgbs), fps=30, quality=8)

            return

这种情况下，还需要判断是否render_test, 也就是是否指定render的对象。如果是，images 就是所有的测试样本，否则渲染的是一个路径。
通过rgbs, _ = render_path(render_poses, hwf, K, args.chunk, render_kwargs_test, gt_imgs=images, savedir=testsavedir, render_factor=args.render_factor) 返回的rgb
然后通过imageio.mimwrite(os.path.join(testsavedir, 'video.mp4'), to8b(rgbs), fps=30, quality=8)转为视频。

至此，这个train（） 函数就完结了。

下面我们需要以此了解train() 中调用的几个重要函数。

run_nerf.py `create_nerf()`

函数调用方法render_kwargs_train, render_kwargs_test, start, grad_vars, optimizer = create_nerf(args) 。
Instantiate NeRF’s MLP model.

embed_fn, input_ch = get_embedder(args.multires, args.i_embed) 现在对于一头雾水，先做记录。 input_ch = 63 ， embed_fn 是一个函数，声明为embed = lambda x, eo=embedder_obj : eo.embed(x)
model = NeRF(D=args.netdepth, W=args.netwidth, input_ch=input_ch, output_ch=output_ch, skips=skips, input_ch_views=input_ch_views, use_viewdirs=args.use_viewdirs).to(device) 构建模型。解读模型的内部结构可以更清楚的知道参数的含义。
grad_vars = list(model.parameters()) 可以理解为模型的梯度变量。类型为list

if args.N_importance > 0:                                                                      
    model_fine = NeRF(D=args.netdepth_fine, W=args.netwidth_fine,                              
                      input_ch=input_ch, output_ch=output_ch, skips=skips,                     
                      input_ch_views=input_ch_views, use_viewdirs=args.use_viewdirs).to(device)
   grad_vars += list(model_fine.parameters())

N_importence>0 的时候，表示需要fine network ，所以这里就创建了一个model_fine. 与前面创建的model不同的是，给出D 和W 不同。在config给的默认值里面，二者都是 8x256.
network_query_fn = lambda inputs, viewdirs, network_fn : run_network(inputs, viewdirs, network_fn, embed_fn=embed_fn, embeddirs_fn=embeddirs_fn, netchunk=args.netchunk) 声明了一个方法，暂时不明白什么含义。

Create optimizer

optimizer = torch.optim.Adam(params=grad_vars, lr=args.lrate, betas=(0.9, 0.999))

Load checkpoints

if args.ft_path is not None and args.ft_path!='None':                                                                     
    ckpts = [args.ft_path]                                                                                                
else:                                                                                                                     
    ckpts = [os.path.join(basedir, expname, f) for f in sorted(os.listdir(os.path.join(basedir, expname))) if 'tar' in f]

默认从checkpoint中恢复训练。

model.load_state_dict(ckpt['network_fn_state_dict'])            
if model_fine is not None:                                      
    model_fine.load_state_dict(ckpt['network_fine_state_dict'])

加载模型。

render_kwargs_train = {                                                                                                         
    'network_query_fn' : network_query_fn,      #函数                                                                             
    'perturb' : args.perturb,     # 默认为1 抖动。                                                                                    
    'N_importance' : args.N_importance,      # fine-network，在光束上的采样数量。                                                          
    'network_fine' : model_fine,                                                                                                
    'N_samples' : args.N_samples,        # 每条射线的粗样本数                                                                            
    'network_fn' : model,                                                                                                       
    'use_viewdirs' : args.use_viewdirs,       # use full 5D input instead of 3D      （原来是3d坐标，现在加上视角方向就是5D了）                    
    'white_bkgd' : args.white_bkgd,      # 用于bender类型的数据， 设置为在白色 bkgd 上呈现合成数据（始终用于 dvoxels）                                     
    'raw_noise_std' : args.raw_noise_std,        #噪音方差                                                                          
}

声明render_kwargs_train 字典。

render_kwargs_test = {k : render_kwargs_train[k] for k in render_kwargs_train}    
render_kwargs_test['perturb'] = False                                             
render_kwargs_test['raw_noise_std'] = 0.

render_kwargs_test 先从render_kwargs_train 那进行拷贝，然后修改了两个值。
return render_kwargs_train, render_kwargs_test, start, grad_vars, optimizer 。

run_nerf_helpers.py `class NeRF（）`

这个类型用于创建modle。

_init_()

self.D = D
        self.W = W
        self.input_ch = input_ch  # 输入的通道
        self.input_ch_views = input_ch_views # 输入通道的视角， 值为 0 
        self.skips = skips  # [4]
        self.use_viewdirs = use_viewdirs
        
        self.pts_linears = nn.ModuleList(
            [nn.Linear(input_ch, W)] + [nn.Linear(W, W) if i not in self.skips else nn.Linear(W + input_ch, W) for i in range(D-1)])
        
        ### Implementation according to the official code release (https://github.com/bmild/nerf/blob/master/run_nerf_helpers.py#L104-L105)
        self.views_linears = nn.ModuleList([nn.Linear(input_ch_views + W, W//2)])

        ### Implementation according to the paper
        # self.views_linears = nn.ModuleList(
        #     [nn.Linear(input_ch_views + W, W//2)] + [nn.Linear(W//2, W//2) for i in range(D//2)])
        
        if use_viewdirs:
            self.feature_linear = nn.Linear(W, W)
            self.alpha_linear = nn.Linear(W, 1)
            self.rgb_linear = nn.Linear(W//2, 3)
        else:
            self.output_linear = nn.Linear(W, output_ch)

self.pts_linears = nn.ModuleList( [nn.Linear(input_ch, W)] + [nn.Linear(W, W) if i not in self.skips else nn.Linear(W + input_ch, W) for i in range(D-1)])， 319 = 256+ 63 （input_ch）
self.views_linears = nn.ModuleList([nn.Linear(input_ch_views + W, W//2)]) 结构为： ModuleList( (0): Linear(in_features=283, out_features=128, bias=True) ) 283 = 256 + 27 （input_ch_views）.
self.feature_linear = nn.Linear(W, W) 为：Linear(in_features=256, out_features=256, bias=True)
self.alpha_linear = nn.Linear(W, 1) 为： Linear(in_features=256, out_features=1, bias=True)
self.rgb_linear = nn.Linear(W//2, 3)为： Linear(in_features=128, out_features=3, bias=True)

forward（）

alpha 层输出的是密度
rgb 层对应的是颜色。
实验中n = 65536, 一个batch 是1024个光束，也就是说一个光束采样64个点。
暂时没有看出来 feature 层输出了干了什么。

run_nerf_helpers.py `get_rays_np()`

获得光束的方法。
调用rays = np.stack([get_rays_np(H, W, K, p) for p in poses[:,:3,:4]], 0) 返回得到的光束是 [N, ro+rd, H, W, 3]

def get_rays_np(H, W, K, c2w):
    i, j = np.meshgrid(np.arange(W, dtype=np.float32), np.arange(H, dtype=np.float32), indexing='xy')
    dirs = np.stack([(i-K[0][2])/K[0][0], -(j-K[1][2])/K[1][1], -np.ones_like(i)], -1)
    # Rotate ray directions from camera frame to the world frame
    rays_d = np.sum(dirs[..., np.newaxis, :] * c2w[:3,:3], -1)  # dot product, equals to: [c2w.dot(dir) for dir in dirs]
    # Translate camera frame's origin to the world frame. It is the origin of all rays.
    rays_o = np.broadcast_to(c2w[:3,-1], np.shape(rays_d))
    return rays_o, rays_d

i, j = np.meshgrid(np.arange(W, dtype=np.float32), np.arange(H, dtype=np.float32), indexing='xy') meshgrid 生成网格点坐标矩阵.
- i 和 j doushi 543 x 724 的array。
- 猜测 i ,j 应该分辨表示图片每个像素的 xy坐标
dirs = np.stack([(i-K[0][2])/K[0][0], -(j-K[1][2])/K[1][1], -np.ones_like(i)], -1) shape （543，724，3）, 其中k 值如下:

将光线方向从相机框架旋转到世界框架

rays_d = np.sum(dirs[..., np.newaxis, :] * c2w[:3,:3], -1) shape (543,724,3)

将相机框架的原点转换为世界框架。它是所有光线的起源。

rays_o = np.broadcast_to(c2w[:3,-1], np.shape(rays_d)) shape (543,724,3)
return rays_o, rays_d

run_nerf.py `render()`

调用方式 rgb, disp, acc, extras = render(H, W, K, chunk=args.chunk, rays=batch_rays, verbose=i < 10, retraw=True, **render_kwargs_train) 返回的是光束对应的rgb，视差图，不透明度。输入 batch_rays 是（2，1024，3）
参数说明

Args:
H: int. Height of image in pixels.
W: int. Width of image in pixels.
focal: float. Focal length of pinhole camera.
chunk: int. Maximum number of rays to process simultaneously. Used to
control maximum memory usage. Does not affect final results.
rays: array of shape [2, batch_size, 3]. Ray origin and direction for
each example in batch.
c2w: array of shape [3, 4]. Camera-to-world transformation matrix. （坐标转化矩阵）
ndc: bool. If True, represent ray origin, direction in NDC coordinates.
near: float or array of shape [batch_size]. Nearest distance for a ray.
far: float or array of shape [batch_size]. Farthest distance for a ray.
use_viewdirs: bool. If True, use viewing direction of a point in space in model.
c2w_staticcam: array of shape [3, 4]. If not None, use this transformation matrix for
camera while using other c2w argument for viewing directions.
Returns:
rgb_map: [batch_size, 3]. Predicted RGB values for rays.
disp_map: [batch_size]. Disparity map. Inverse of depth. （视差图，深度的倒数）
acc_map: [batch_size]. Accumulated opacity (alpha) along a ray. （光线累计的不透明度）
extras: dict with everything returned by render_rays().

provide ray directions as input

viewdirs = rays_d shape （1024 ，3）
viewdirs = viewdirs / torch.norm(viewdirs, dim=-1, keepdim=True) shape （1024 ，3）
viewdirs = torch.reshape(viewdirs, [-1,3]).float() shape （1024 ，3）

Create ray batch

rays_o = torch.reshape(rays_o, [-1,3]).float()                                              
rays_d = torch.reshape(rays_d, [-1,3]).float()                                              
                                                                                            
near, far = near * torch.ones_like(rays_d[...,:1]), far * torch.ones_like(rays_d[...,:1])   
rays = torch.cat([rays_o, rays_d, near, far], -1)

rays_o，rays_d 都是1024 x 3
near,for都是 1024 x 1
rays 是 1024 x 8 . （3+3+1+1）
if use_viewdirs: rays = torch.cat([rays, viewdirs], -1) 此时rays 是 1024 x 11 . （8+3）

Render and reshape

all_ret = batchify_rays(rays, chunk, **kwargs) dict 类型，8个元素
k_extract = ['rgb_map', 'disp_map', 'acc_map']
ret_list = [all_ret[k] for k in k_extract] ret_dict = {k : all_ret[k] for k in all_ret if k not in k_extract} 是出去除去k_extract之外的其他元素。
return ret_list + [ret_dict]

run_nerf.py `batchify_rays()`

调用 all_ret = batchify_rays(rays, chunk, **kwargs) 。 chunk是并行处理的光束数量。 rays 是 1024x11.

all_ret = {}                                               
for i in range(0, rays_flat.shape[0], chunk):              
    ret = render_rays(rays_flat[i:i+chunk], **kwargs)      
    for k in ret:                                          
        if k not in all_ret:                               
            all_ret[k] = []                                
        all_ret[k].append(ret[k])                          
                                                           
all_ret = {k : torch.cat(all_ret[k], 0) for k in all_ret}  
return all_ret

ret = render_rays(rays_flat[i:i+chunk], **kwargs) dict类型，数量8
all_ret = {k : torch.cat(all_ret[k], 0) for k in all_ret} 1024 x 8。 ret 是一个chunk的结果，all_ret 是一个batch的结果。

run_nerf.py `render_rays()`

调用 ret = render_rays(rays_flat[i:i+chunk], **kwargs)

“”"Volumetric rendering.
Args:
ray_batch: array of shape [batch_size, …]. All information necessary
for sampling along a ray, including: ray origin, ray direction, min
dist, max dist, and unit-magnitude viewing direction.
network_fn: function. Model for predicting RGB and density at each point
in space. 用于预测每个点的 RGB 和密度的模型
network_query_fn : function used for passing queries to network_fn.
N_samples: int. Number of different times to sample along each ray. 每条射线上的采样次数
retraw: bool. If True, include model’s raw, unprocessed predictions.
lindisp: bool. If True, sample linearly in inverse depth rather than in depth.
perturb: float, 0 or 1. If non-zero, each ray is sampled at stratified
random points in time. 1 则每条射线都以分层采样随机时间点
N_importance: int. Number of additional times to sample along each ray. 每条射线上的额外采样数
These samples are only passed to network_fine.
network_fine: “fine” network with same spec as network_fn.
white_bkgd: bool. If True, assume a white background.
raw_noise_std: …
verbose: bool. If True, print more debugging info.
Returns:
rgb_map: [num_rays, 3]. Estimated RGB color of a ray. Comes from fine model.
disp_map: [num_rays]. Disparity map. 1 / depth.
acc_map: [num_rays]. Accumulated opacity along each ray. Comes from fine model.
raw: [num_rays, num_samples, 4]. Raw predictions from model.
rgb0: See rgb_map. Output for coarse model.
disp0: See disp_map. Output for coarse model.
acc0: See acc_map. Output for coarse model.
z_std: [num_rays]. Standard deviation of distances along ray for each
sample.

函数初始值

从ray_batch 中提取需要用的数据

N_rays = ray_batch.shape[0]     # 光束数量                                                     
rays_o, rays_d = ray_batch[:,0:3], ray_batch[:,3:6] # [N_rays, 3] each                 
viewdirs = ray_batch[:,-3:] if ray_batch.shape[-1] > 8 else None       # N_rays，3             
bounds = torch.reshape(ray_batch[...,6:8], [-1,1,2])                                
near, far = bounds[...,0], bounds[...,1] # [-1,1]

t_vals = torch.linspace(0., 1., steps=N_samples) 64，取N_sample个点，在每个光束上。

if not lindisp:      # 确定采样方式                                            
    z_vals = near * (1.-t_vals) + far * (t_vals)                         
else:                                                                    
    z_vals = 1./(1./near * (1.-t_vals) + 1./far * (t_vals))              
                                                                         
z_vals = z_vals.expand([N_rays, N_samples])               # 1024 x 64

这一个batch的所有光束的采样点，1024 x 64.

获取样本之间的间隔

mids = .5 * (z_vals[...,1:] + z_vals[...,:-1])   # 1024，63  （64个点，63个线段）
upper = torch.cat([mids, z_vals[...,-1:]], -1)   #  1024 x 64  具体用来做什么还不是很明白。 
lower = torch.cat([z_vals[...,:1], mids], -1)   # 1024 x 64

t_rand = torch.rand(z_vals.shape) 1024 x64
z_vals = lower + (upper - lower) * t_rand 对z_vals 进行调整。 1024 x 64
pts = rays_o[...,None,:] + rays_d[...,None,:] * z_vals[...,:,None] # [N_rays, N_samples, 3] 则是最终要给网络的参数，shape是 1024，63，3

raw = run_network(pts)

raw = network_query_fn(pts, viewdirs, network_fn) 根据输入 pts, viewdirs, 进行前向计算。 raw应该是（1024，64，4），最后一个维是 RGB+ 密度。
rgb_map, disp_map, acc_map, weights, depth_map = raw2outputs(raw, z_vals, rays_d, raw_noise_std, white_bkgd, pytest=pytest) 这一步相当于是在做volum render，将光束颜色合成点。

下面是考虑fine network的部分。判断条件是， N_importance > 0

 if N_importance > 0:                                                                                                                
                                                                                                                                     
     rgb_map_0, disp_map_0, acc_map_0 = rgb_map, disp_map, acc_map     # 保存前面的计算值                                                    
                                                                                                                                     
     # 重新采样光束上的点。                                                                                                                    
     z_vals_mid = .5 * (z_vals[...,1:] + z_vals[...,:-1])                                                                            
     z_samples = sample_pdf(z_vals_mid, weights[...,1:-1], N_importance, det=(perturb==0.), pytest=pytest)                           
     z_samples = z_samples.detach()                                                                                                  
                                                                                                                                     
     z_vals, _ = torch.sort(torch.cat([z_vals, z_samples], -1), -1)                                                                  
     pts = rays_o[...,None,:] + rays_d[...,None,:] * z_vals[...,:,None] # [N_rays, N_samples + N_importance, 3]  （新的取样点）             
                                                                                                                                     
     run_fn = network_fn if network_fine is None else network_fine                                                                   
       raw = run_network(pts, fn=run_fn)                                                                                             
     raw = network_query_fn(pts, viewdirs, run_fn)      # raw应该是  （1024，64，4），最后一个维是 RGB+ 密度。                                        
     # 计算最终的     rgb_map, disp_map, acc_map, weights, depth_map  信息                                                                  
     rgb_map, disp_map, acc_map, weights, depth_map = raw2outputs(raw, z_vals, rays_d, raw_noise_std, white_bkgd, pytest=pytest)     
                                                                                                                                     
 ret = {'rgb_map' : rgb_map, 'disp_map' : disp_map, 'acc_map' : acc_map}

最后把信息都保存在ret 里面做返回。ret 信息如下：

run_nerf.py `raw2outputs（）`

调用 rgb_map, disp_map, acc_map, weights, depth_map = raw2outputs(raw, z_vals, rays_d, raw_noise_std, white_bkgd, pytest=pytest) 。

“”“Transforms model’s predictions to semantically meaningful values. 模型的预测转换为语义上有意义的值
Args:
raw: [num_rays, num_samples along ray, 4]. Prediction from model. 模型的预测
z_vals: [num_rays, num_samples along ray]. Integration time. 整合时间
rays_d: [num_rays, 3]. Direction of each ray. 光束的方向。
Returns:
rgb_map: [num_rays, 3]. Estimated RGB color of a ray. 光束颜色
disp_map: [num_rays]. Disparity map. Inverse of depth map. 视差图
acc_map: [num_rays]. Sum of weights along each ray. 密度
weights: [num_rays, num_samples]. Weights assigned to each sampled color. 每个采样点的颜色权重
depth_map: [num_rays]. Estimated distance to object. 到物体的估计距离（深度）
“””

函数初始值

dists = z_vals[...,1:] - z_vals[...,:-1] （2014，63）两个采样点之间的距离？
dists = torch.cat([dists, torch.Tensor([1e10]).expand(dists[...,:1].shape)], -1) （1024，64）
dists = dists * torch.norm(rays_d[...,None,:], dim=-1) （1024，64）
rgb = torch.sigmoid(raw[...,:3]) （1024，64，3）获取模型预测的每个点的颜色。
noise = torch.randn(raw[...,3].shape) * raw_noise_std 噪音处理。（1024，64）随机噪音给每个采样点。
alpha = raw2alpha(raw[...,3] + noise, dists) 给密度加噪音，在进行raw2alpha = lambda raw, dists, act_fn=F.relu: 1.-torch.exp(-act_fn(raw)*dists) 处理。 shape为（1024，64）
weights = alpha * torch.cumprod(torch.cat([torch.ones((alpha.shape[0], 1)), 1.-alpha + 1e-10], -1), -1)[:, :-1] 颜色权重的计算。 shape应该为（1024，64）
rgb_map = torch.sum(weights[...,None] * rgb, -2) # [N_rays, 3] 光束的颜色（1024，3）
depth_map = torch.sum(weights * z_vals, -1) 深度图 1024
disp_map = 1./torch.max(1e-10 * torch.ones_like(depth_map), depth_map / torch.sum(weights, -1)) 视差图 1024
acc_map = torch.sum(weights, -1) 密度 1024
return rgb_map, disp_map, acc_map, weights, depth_map

run_nerf.py `render_path()`

调用 rgbs, disps = render_path(render_poses, hwf, K, args.chunk, render_kwargs_test) 根据render_pose进行渲染，得到120个视角的图像，然后再合成 mp4。
调用 render_path(torch.Tensor(poses[i_test]).to(device), hwf, K, args.chunk, render_kwargs_test, gt_imgs=images[i_test], savedir=testsavedir) 根据事先划分出来的测试集，进行渲染，并将结果报错在指定目录下。
调用 if args.render_only ：

args.render_test : render_poses = np.array(poses[i_test]) pose取测试样本的 else 取生成的render_pose.
根据指定目录保存渲染的图像
保存 mp4。

函数初始值

def render_path(render_poses, hwf, K, chunk, render_kwargs, gt_imgs=None, savedir=None, render_factor=0):                               
                                                                                                                                        
    H, W, focal = hwf                                                                                                                   
                                                                                                                                        
    if render_factor!=0:                                                                                                                
        # Render downsampled for speed                                                                                                  
        H = H//render_factor                                                                                                            
        W = W//render_factor                                                                                                            
        focal = focal/render_factor                                                                                                     
                                                                                                                                        
    rgbs = []                                                                                                                           
    disps = []                                                                                                                          
                                                                                                                                        
    t = time.time()                                                                                                                     
    for i, c2w in enumerate(tqdm(render_poses)):  # 这个pose 计算RGB等信息。                                                                    
        print(i, time.time() - t)                                                                                                       
        t = time.time()                                                                                                                 
        rgb, disp, acc, _ = render(H, W, K, chunk=chunk, c2w=c2w[:3,:4], **render_kwargs)  # 543， 724，3                                 
        rgbs.append(rgb.cpu().numpy())      # 汇总                                                                                        
        disps.append(disp.cpu().numpy())          # 汇总                                                                                  
        if i==0:                                                                                                                        
            print(rgb.shape, disp.shape)                                                                                                
                                                                                                                                        
        """                                                                                                                             
        if gt_imgs is not None and render_factor==0:                                                                                    
            p = -10. * np.log10(np.mean(np.square(rgb.cpu().numpy() - gt_imgs[i])))                                                     
            print(p)                                                                                                                    
        """                                                                                                                             
                                                                                                                                        
        if savedir is not None:                                                                                                         
            rgb8 = to8b(rgbs[-1])                                                                                                       
            filename = os.path.join(savedir, '{:03d}.png'.format(i))                                                                    
            imageio.imwrite(filename, rgb8)                                                                                             
                                                                                                                                        
                                                                                                                                        
    rgbs = np.stack(rgbs, 0)                                                                                                            
    disps = np.stack(disps, 0)                                                                                                          
                                                                                                                                        
    return rgbs, disps

总结

基本上到这里为止，整个项目的重要代码都以及分析完了。
脑子里还是有点胡，还有些问题没有想明白，下面还需要梳理一下。
训练过程全梳理如下：

具体的问题解答，放到下次分析里面啦。
【完结】

你可能感兴趣的:(NeRF,pytorch,深度学习,计算机视觉,NeRF,源码)

PCL 点云高程渲染：实现点云高程信息的颜色渲染技术征服冒险 PCL
PCL点云高程渲染：实现点云高程信息的颜色渲染点云渲染在计算机视觉和图形学中具有重要的应用价值。在处理点云数据时，一种常见的需求是通过将高程信息映射到颜色空间，以实现对点云的可视化。本文将介绍如何使用PCL（PointCloudLibrary）库实现点云的高程渲染，并提供相应的源代码。引言在开始之前，我们首先需要了解点云的基本概念。点云是由大量的三维点组成的数据集合，每个点都具有X、Y和Z坐标。点
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
【YOLOv8杂草作物目标检测】 stsdddd YOLO目标检测目标检测 YOLO 目标检测人工智能
YOLOv8杂草目标检测算法介绍模型和数据集下载算法介绍YOLOv8在禾本科杂草目标检测方面有显著的应用和效果。以下是一些关键信息的总结：农作物幼苗与杂草检测系统：基于YOLOv8深度学习框架，通过2822张图片训练了一个目标检测模型，用于检测田间的农作物幼苗与杂草对象。该系统支持图片、视频以及摄像头进行目标检测，并能保存检测结果。系统界面可实时显示目标位置、目标总数、置信度、用时等信息。YOLO
pyinstaller 打包生成.exe 可执行文件报错 “IndexError: tuple index out of range” 静妍 Python Python pyqt gui Pyinstaller .exe
想把pyqt写的GUI程序打包成.exe文件，以便在Windows下运行，不想因为使用Python3.6，出现兼容问题：IndexError:tupleindexoutofrangePyinstaller官网目前的版本是3.2.1只支持到Python2.7，Python3.3~Python3.5需自己在官网源码里
1.Spring AI 从入门到实践 laopeng301 Spring AI spring 人工智能 java
SpringAI从入门到实践1.什么是SpringAI2.使用SpringBoot&SpringAI快速构建AI应用程序3.ChatClient&ChatModel简化与AI模型的交互4.SpringAIPrompt:与大模型进行有效沟通5.结构化输出大模型响应6.实战:AI聊天机器人Ben技术站关注Java技术，LLM，计算机科学等内容。关注会持续更新推送详细教程内容和源码。
深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
深度学习常用格式转化脚本xml2yolo/coco2yolo/bdd2yolo/frame2video等 qq1309399183 计算机视觉实战项目集合深度学习人工智能格式转化脚本 voc2yolo格式转化数据集格式转换 xml2yolo coco2yolo
文章目录1.**数据集格式转换脚本**`coco2yolo.py`示例注释：注释说明：`xml2yolo.py`示例注释：注释说明：2.**数据集可视化与统计**`vis_yolo_files.py`示例注释：注释说明：3.**其他工具脚本**`frames2video.py`示例注释：注释说明：该项目提供了一系列用于深度学习的数据处理工具，主要功能包括：数据集格式转换：提供多种脚本，将不同格式的
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
【第十章——数据可视化之地图构建】【最新！黑马程序员Python自学课程笔记】课上笔记+案例源码+作业源码嗯哈！信息可视化 python 笔记 pycharm
第十章-数据可视化之地图构建10.1数据可视化-地图-基础地图使用注意！！！现在的版本，需要加：省，市"""演示地图可视化的基本使用"""frompyecharts.chartsimportMapfrompyecharts.optionsimportVisualMapOpts#准备地图对象map=Map()#准备数据data=[("北京市",9),("上海市",8),("湖南省",5),("台湾省
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
华为OD机试E卷 --跳格子3 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c++算法源码题目描述小明和朋友们一起玩跳格子游戏，每个格子上有特定的分数score=[1,-1,-6,7,-17,7]，从起点score[0]开始，每次最大的步长为k，请你返回小明跳到终点score[n-1]时，能得到的最大得分。输入描述第一行输入总的格子数量n第二行输入每个格子的分数score[i]第三
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
[python]通过whl文件安装torchvision和torchaudio及国内whl文件下载地址汇总萌萌哒240 环境配置 python 开发语言
要通过.whl文件安装torchvision和torchaudio，你需要先确保你已经安装了与这些库兼容的PyTorch版本。以下是一个详细的步骤指南，帮助你通过.whl文件安装这些库。1.安装PyTorch首先，确保你已经安装了PyTorch。你可以从PyTorch的官方网站获取适合你系统的安装命令例如，如果你使用的是CUDA11.3和Python3.8，你可以使用以下命令安装PyTorch：p
【Bluedroid】HFP连接流程源码分析（一） byte轻骑兵解读 Android java C++Android
Bluedroid蓝牙HFP（HFP,Hands-FreeProfile）连接流程涵盖多个环节，从前期准备到连接建立、状态管理以及维护与断开，各环节紧密相扣，确保蓝牙免提连接稳定可靠。一、概述1.1.连接前准备用户操作：用户需在Android设备上开启蓝牙功能。同时，目标蓝牙设备（如车载蓝牙）要进入配对模式，Android设备通过搜索发现目标设备并完成配对，此过程可能需用户输入PIN码或确认配对请
python如何安装torch_Python安装torch模块报错处理红烧橘子皮 python如何安装torch
Python安装torch模块报错处理前言安装报错解决查找文档解决方案安装torch等待安装完成安装torchvision提示安装完成总结前言因python项目上线，需要在海外服务器上安装指定torch模块安装根据官网https://pytorch.org/安装提示，执行pip3install即可。pip3installtorchtorchvision但安装过程中发生报错，尝试多次执行pip3in
如何快速在Windows 10 + Anaconda 3 中使用Mxnet及gluon qianchess mxnet使用 mxnet win10 anaconda gluon 人工智能
如何快速在Windows10+Anaconda3中使用Mxnet及gluon网络上Mxnet的安装以及使用方法很多，自从其作者之一李沐推出了基于Mxnet的深度学习课程之后，我也尝试着去使用了一下Mxnet。首先第一步就是在自己的系统中安装Mxnet及其相关组建。现在的Mxnet常常会跟其虚拟环境Gluon结合在一起，所以下文就一起阐述一下，顺便记录一下自己踩的坑。注意本文的大部分内容都可以在官网
3D UNet和Swin-UNETR 学無芷境计算机视觉
3DUNet和Swin-UNETR都是用于医学图像分析的深度学习网络，它们对三维（3D）数据进行特征提取和分割。3DUNet3DUNet是UNet架构的一个变体，专门设计用于处理三维医学图像数据。UNet最初是为二维（2D）图像分割任务设计的，具有典型的编码器-解码器结构。3DUNet扩展了这种架构，以便更好地处理具有深度信息的体积数据，如CT或MRI扫描。主要特点：编码器：逐渐下采样图像，提取并
ubuntu18.04安装grpc及使用grpc时遇到的问题总结烟酒僧_
#安装pkg-configsudoapt-getinstallpkg-config#安装依赖文件sudoapt-getinstallautoconfautomakelibtoolmakeg++unzipsudoapt-getinstalllibgflags-devlibgtest-devsudoapt-getinstallclanglibc++-dev克隆grpc源码gitclonehttps:/
3DUnetCNN 项目常见问题解决方案魏纯漫
3DUnetCNN项目常见问题解决方案3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN项目基础介绍3DUnetCNN是一个基于PyTorch的3DU-Net卷积神经网络（CNN）
推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
3D U-Net CNN医学图像分割项目教程尤辰城Agatha
3DU-NetCNN医学图像分割项目教程3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN1.项目介绍3DU-NetCNN是由Ellisdg开发的Python实现，专门用于医学图像
Spring-@Configuration注解简析
大家好，我是半夏之沫一名金融科技领域的JAVA系统研发我希望将自己工作和学习中的经验以最朴实，最严谨的方式分享给大家，共同进步写作不易，期待大家的关注和点赞关注微信公众号【技术探界】前言Spring中的@Configuration注解修饰的类被称为配置类，通过配置类可以向容器注册bean以及导入其它配置类，本篇文章将结合例子和源码对@Configuration注解原理进行学习，并引出对Spring
百万架构师第二十二课：源码分析：Spring 源码分析：Spring经典面试答疑｜JavaGuide 后端
Spring面试解答上半节：面试中需要注意的细节动脑子，面试是一种交流面试的时候，要用心去感受当时面试场景了解自己，自己的长处、自己的短处（巧妙地扬长避短）了解1.公司的业务场景2.你是去面试什么岗位的？Java高级工程师实际工作经验是1年（如实填写）1、请描述SpringIOC的工作原理答：定位加载注册BeanFactoryBeanDefintion...1-3年1+ApplicationCon
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
锐捷路由器网关RG-NBR6135-E和锐捷交换机 Ruijie Reyee RG-ES224GC 电脑登录web方法 zh7314 硬件工程
2025年1月17日22:29:35最近淘了点东西，准备在家里搞一套深度学习的服务器，先把网关和交换机搞到了锐捷路由器网关RG-NBR6135-E电脑登录web方法在拿到机器的时候，如果不是全新建议拿根牙签，差入reset5-10秒,灯光会全部闪几下，重置机器，因为有些机器会配置的ip和网段无法访问默认的web服务ip，在机器上面的默认配置单配置参考：https://baijiahao.baidu
华为OD机试E卷 --堆栈中的剩余数字--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java 华为od javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述向一个空栈中依次存入正整数，假设入栈元素n(1<=n<=2^31-1)按顺序依次为nx…n4、n3、n2、n1,每当元素入栈时，如果n1=n2+…+ny(y的范围[2,x]，1<=x<=1000)，则n1~ny全部元素出栈，重新入栈新元素m(m=2n1)。如：依次向栈存入6、1、2、3,当
华为OD机试E卷 --机器人活动区域--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 机器人 java javascript python js
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述现有一个机器人，可放置于M×N的网格Q中任意位置，每个网格包含一个非负整数编号。当相邻网格的数字编号差值的绝对值小于等于1时，机器人可在网格间移动问题:求机器人可活动的最大范围对应的网格点数目。说明:1)网格左上角坐标为(0,0)，右下角坐标为(m-1,n-1)2）机器人只能
opencv图像基础学习 yzx991013 OpenCV基础全集 opencv 人工智能计算机视觉
2.3图像的加密解密源码如下：importcv2importnumpyasnpimportmatplotlib.pyplotaspltdefpassImg():img=cv2.imread('./image/cat.jpg',0)h,w=img.shape#生成一个密码，加密key_img=np.random.randint(0,256,size=(h,w),dtype=np.uint8)img_
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

【NeRF】深度解读yenchenlin/nerf-pytorch项目

文章目录

目标

args.config

基本参数

training options

rendering options

training options

dataset options

加载llff类型数据集的参数

logging/saving options

Debug 调试获取数据情况

load_llff.py _load_data()

load_llff.py _minify()

load_llff.py load_llff_datad()

load_llff.py render_path_spiral（）

run_nerf.py train()

Create log dir and copy the config file

Create nerf model

Move testing data to GPU

Prepare raybatch tensor if batching random rays

Move training data to GPU

开始进入训练的迭代

Sample random ray batch

render

保存checkpoint

输出mp4 视频

保存测试数据集

render _only

run_nerf.py create_nerf()

Create optimizer

Load checkpoints

run_nerf_helpers.py class NeRF（）

_init_()

forward（）

run_nerf_helpers.py get_rays_np()

run_nerf.py render()

run_nerf.py batchify_rays()

run_nerf.py render_rays()

run_nerf.py raw2outputs（）

run_nerf.py render_path()

总结

你可能感兴趣的:(NeRF,pytorch,深度学习,计算机视觉,NeRF,源码)

load_llff.py `_load_data()`

load_llff.py `_minify()`

load_llff.py `load_llff_datad()`

load_llff.py `render_path_spiral（）`

run_nerf.py `train()`

run_nerf.py `create_nerf()`

run_nerf_helpers.py `class NeRF（）`

run_nerf_helpers.py `get_rays_np()`

run_nerf.py `render()`

run_nerf.py `batchify_rays()`

run_nerf.py `render_rays()`

run_nerf.py `raw2outputs（）`

run_nerf.py `render_path()`