南徐炼丹大师

代码阅读记录(4)—pointpillars

train.py

# eval example [0: 'voxels', 1: 'num_points', 2: 'coordinates', 3: 'rect'
#               4: 'Trv2c', 5: 'P2', 6: 'anchors', 7: 'anchors_mask'
#               8: 'image_idx', 9: 'image_shape']

0: 'voxels'：体素信息，包括体素坐标、体素特征等。

1: 'num_points'：每个体素中包含的点云数量。

2: 'coordinates'：点云坐标信息，包括每个点的三维坐标值。

3: 'rect'：标注框的位置和大小信息，包括左上角和右下角的坐标值。

4: 'Trv2c'：相机和车辆坐标系之间的变换矩阵。

5: 'P2'：相机投影矩阵。

6: 'anchors'：锚框信息，包括锚框的位置、大小等。

7: 'anchors_mask'：锚框掩码，用于指示哪些锚框需要进行目标检测。

8: 'image_idx'：图像索引，用于指示当前数据属于哪张图像。

9: 'image_shape'：图像尺寸，包括图像的宽度和高度。

def train(...):

首先看的是训练函数，下面是训练函数传入了一些基本参数：

config_path：模型配置文件的路径；

model_dir：模型存储的目录，训练过程中的模型检查点和最终的模型将存储在此目录下；

result_path：训练结果的存储路径，默认为None，表示不存储训练结果；

create_folder：是否创建model_dir和result_path指定的目录，默认为False；

display_step：每训练多少步打印一次训练信息，默认为50；

summary_step：每训练多少步记录一次训练摘要信息，默认为5；

pickle_result：训练结果是否序列化存储，默认为True。函数并没有返回值，而是将训练过程中的模型检查点和最终的模型保存在model_dir目录下，如果指定了result_path，还会将训练结果存储到该路径

def train(config_path,
          model_dir,
          result_path=None,
          create_folder=False,
          display_step=50,
          summary_step=5,
          pickle_result=True):

模型保存路径及配置读取

    if create_folder:
        if pathlib.Path(model_dir).exists():
            model_dir = torchplus.train.create_folder(model_dir)
    # parents = True表示如果目录的上级目录不存在，则将同时创建上级目录；exist_ok = True表示如果目录已经存在，则不会抛出异常。
    model_dir = pathlib.Path(model_dir)
    model_dir.mkdir(parents=True, exist_ok=True)
    eval_checkpoint_dir = model_dir / 'eval_checkpoints'
    eval_checkpoint_dir.mkdir(parents=True, exist_ok=True)
    if result_path is None:
        result_path = model_dir / 'results'
    config_file_bkp = "pipeline.config"  # 备份原始的配置文件
    config = pipeline_pb2.TrainEvalPipelineConfig()  # 存储模型的训练和评估配置
    with open(config_path, "r") as f:
        proto_str = f.read()
        text_format.Merge(proto_str, config)  # 将proto_str中的文本格式的内容解析为config实例对应的protobuf消息类型
    shutil.copyfile(config_path, str(model_dir / config_file_bkp))  # 原始配置文件复制到指定的备份路径下
    input_cfg = config.train_input_reader  # 训练数据输入配置
    eval_input_cfg = config.eval_input_reader  # 评估数据输入配置
    model_cfg = config.model.second  # 模型配置
    train_cfg = config.train_config  # 训练配置

注解：

1.pipeline_pb2是protobuf生成的Python模块，其中定义了一系列protobuf消息类型，包括用于存储模型训练和评估配置的TrainEvalPipelineConfig消息类型。

2.text_format模块，它提供了将protobuf消息类型与文本格式之间进行相互转换的函数。通过将配置文件解析为config实例，可以方便地对其进行修改和保存。

voxel生成器建立

    class_names = list(input_cfg.class_names)
    #########################
    # Build Voxel Generator
    #########################
    voxel_generator = voxel_builder.build(model_cfg.voxel_generator)
    #########################
    # Build Target Assigner
    #########################
    bv_range = voxel_generator.point_cloud_range[[0, 1, 3, 4]]
    box_coder = box_coder_builder.build(model_cfg.box_coder)
    target_assigner_cfg = model_cfg.target_assigner
    target_assigner = target_assigner_builder.build(target_assigner_cfg, bv_range, box_coder)

首先，从训练数据输入配置中获取类别名称，转换为列表类型的class_names变量。

然后，使用voxel_builder模块中的build函数根据模型配置中的体素生成器配置，构建相应的体素生成器voxel_generator。

接着，从模型配置中获取点云范围并计算出对应的BEV范围bv_range，并使用box_coder_builder模块中的build函数构建相应的box_coder。

最后，从模型配置中获取目标分配器配置，并使用target_assigner_builder模块中的build函数构建相应的target_assigner，以便后续在训练和评估中使用。

网络建立及一些预备工作

下面代码实现了模型构建的一些准备工作，包括根据输入配置中的类别名称获取类别列表，构建体素生成器和目标分配器以及设置优化器和损失函数。

    ######################
    # Build NetWork
    ######################
    center_limit_range = model_cfg.post_center_limit_range
    # net = second_builder.build(model_cfg, voxel_generator, target_assigner)
    net = second_builder.build(model_cfg, voxel_generator, target_assigner, input_cfg.batch_size)
    net.cuda()
    # net_train = torch.nn.DataParallel(net).cuda()
    print("num_trainable parameters:", len(list(net.parameters())))
    # for n, p in net.named_parameters():
    #     print(n, p.shape)
    ######################
    # Build Optimizer
    ######################
    # we need global_step to create lr_scheduler, so restore net first.
    #   我们需要globalstep来创建lrscheduler，所以先恢复net。
    torchplus.train.try_restore_latest_checkpoints(model_dir, [net])  # 模型恢复
    gstep = net.get_global_step() - 1
    optimizer_cfg = train_cfg.optimizer
    if train_cfg.enable_mixed_precision:
        net.half()
        net.metrics_to_float()
        net.convert_norm_to_float(net)
    optimizer = optimizer_builder.build(optimizer_cfg, net.parameters())
    if train_cfg.enable_mixed_precision:
        loss_scale = train_cfg.loss_scale_factor
        mixed_optimizer = torchplus.train.MixedPrecisionWrapper(optimizer, loss_scale)
    else:
        mixed_optimizer = optimizer
    # must restore optimizer AFTER using MixedPrecisionWrapper
    # 必须在使用MixedPrecisionWrapper之后恢复优化器
    torchplus.train.try_restore_latest_checkpoints(model_dir, [mixed_optimizer])
    lr_scheduler = lr_scheduler_builder.build(optimizer_cfg, optimizer, gstep)  # 优化器
    # 根据训练配置中的enable_mixed_precision参数来设置浮点数类型。
    if train_cfg.enable_mixed_precision:
        float_dtype = torch.float16
    else:
        float_dtype = torch.float32

#损失函数是multi-loss的形式，包含了回归损失和分类损失，分类损失采用的是focal-loss

模型的保存与恢复（try_restore_latest_checkpoints）：【深度学习笔记（十六）】之tensorflow2中模型的保存与恢复_tensorflow2保存模型_开发小鸽的博客-CSDN博客

这段代码根据训练配置中的enable_mixed_precision参数来构建优化器，并在需要时将模型转换为混合精度模式。

如果enable_mixed_precision为True，则将模型转换为半精度模式（net.half()），并将模型中的度量指标（metrics）转换为浮点数（net.metrics_to_float()）。如果模型中存在归一化层，则还需要将其转换为浮点数（net.convert_norm_to_float(net)）。然后，使用优化器配置和网络参数构建优化器（optimizer_builder.build(optimizer_cfg, net.parameters())）。

如果enable_mixed_precision为True，则使用MixedPrecisionWrapper将优化器转换为混合精度优化器，并指定损失缩放因子（train_cfg.loss_scale_factor）。如果enable_mixed_precision为False，则直接使用构建好的优化器。最终返回构建好的混合精度优化器或普通优化器。该代码段将用于在训练模型时构建优化器

数据预处理

    ######################
    # Prepare Input  预处理
    ######################

    dataset = input_reader_builder.build(
        input_cfg,
        model_cfg,
        training=True,
        voxel_generator=voxel_generator,
        target_assigner=target_assigner)
    eval_dataset = input_reader_builder.build(
        eval_input_cfg,
        model_cfg,
        training=False,
        voxel_generator=voxel_generator,
        target_assigner=target_assigner)

    # 设置PyTorch多进程数据加载器的初始化函数，用于设置每个工作进程的随机数种子。
    def _worker_init_fn(worker_id):
        time_seed = np.array(time.time(), dtype=np.int32)
        np.random.seed(time_seed + worker_id)
        print(f"WORKER {worker_id} seed:", np.random.get_state()[1][0])

    dataloader = torch.utils.data.DataLoader(
        dataset,
        batch_size=input_cfg.batch_size,
        shuffle=True,
        num_workers=input_cfg.num_workers,
        pin_memory=False,
        collate_fn=merge_second_batch,
        worker_init_fn=_worker_init_fn)
    eval_dataloader = torch.utils.data.DataLoader(
        eval_dataset,
        batch_size=eval_input_cfg.batch_size,
        shuffle=False,
        num_workers=eval_input_cfg.num_workers,
        pin_memory=False,
        collate_fn=merge_second_batch)
    data_iter = iter(dataloader)

使用input_reader_builder对象的build函数构建了训练数据集dataset和测试数据集eval_dataset，具体参数如下：

input_cfg和eval_input_cfg：数据读取相关的配置信息，包括数据集路径、文件格式、采样器等参数。

model_cfg：模型配置信息，包括模型架构、输入输出通道数、损失函数等参数。

training：表示当前是训练阶段还是测试阶段。如果为True，则表示训练阶段，数据集将包含标注信息，用于计算损失函数；否则表示测试阶段，数据集将不包含标注信息，用于模型的预测和评估。

voxel_generator：体素化器对象，用于将点云数据转换为体素化表示。

target_assigner：目标分配器对象，用于将标注信息与体素化后的数据进行匹配，生成用于计算损失函数的训练目标。数据集的构建过程通常包括以下步骤：

使用输入读取器(input_reader)从硬盘或其他存储介质中读取数据。

使用体素化器(voxel_generator)将点云数据转换为体素化表示。

使用目标分配器(target_assigner)将标注信息与体素化后的数据进行匹配，生成用于计算损失函数的训练目标。

将训练数据集(dataset)和测试数据集(eval_dataset)返回给调用者。

定义了两个PyTorch数据加载器，即dataloader和eval_dataloader，并使用iter函数将dataloader转换为数据迭代器data_iter。具体参数如下：

dataset和eval_dataset：表示训练数据集和测试数据集。这两个参数通常是继承自torch.utils.data.Dataset类的自定义数据集，用于读取和预处理输入数据。

batch_size：表示批次大小。

shuffle：表示是否打乱数据集。

num_workers：表示使用的工作进程数。通过使用多进程加载数据可以加速数据加载和预处理过程，提高模型训练速度。但是，使用过多的进程可能会导致系统资源的瓶颈，从而影响训练效率。

pin_memory：表示是否将数据加载到GPU内存中。如果设置为True，则可以加速数据传输，提高训练效率。但是，如果GPU内存不足，可能会导致训练失败。

collate_fn：表示如何合并不同的样本数据。在处理不同大小的样本时，需要将它们合并为一个批次，并进行填充等操作。collate_fn函数通常是一个自定义函数，用于实现不同样本的合并方法。

worker_init_fn：表示在每个工作进程启动时调用的函数。该函数通常用于设置每个工作进程的随机数种子，以保证训练过程的随机性和可复现性。

训练

    ######################
    # Training
    ######################
    log_path = model_dir / 'log.txt'
    logf = open(log_path, 'a')
    logf.write(proto_str)
    logf.write("\n")
    summary_dir = model_dir / 'summary'
    summary_dir.mkdir(parents=True, exist_ok=True)
    writer = SummaryWriter(str(summary_dir))  # 记录模型训练过程中的损失函数、精度、梯度等信息

    total_step_elapsed = 0
    remain_steps = train_cfg.steps - net.get_global_step()
    t = time.time()
    ckpt_start_time = t  # 表示每个检查点开始的时间

    total_loop = train_cfg.steps // train_cfg.steps_per_eval + 1
    # total_loop = remain_steps // train_cfg.steps_per_eval + 1
    clear_metrics_every_epoch = train_cfg.clear_metrics_every_epoch

    if train_cfg.steps % train_cfg.steps_per_eval == 0:
        total_loop -= 1
    mixed_optimizer.zero_grad()  #清空评估指标。

        for _ in range(total_loop):
            # 判断当前循环是否为最后一个循环
            if total_step_elapsed + train_cfg.steps_per_eval > train_cfg.steps:
                steps = train_cfg.steps % train_cfg.steps_per_eval
            else:
                steps = train_cfg.steps_per_eval
            for step in range(steps):
                lr_scheduler.step()  # 更新学习率
                try:
                    example = next(data_iter)  # 获取下一个样本数据
                except StopIteration:  # 代表迭代完成，抛出异常StopIteration
                    print("end epoch")
                    if clear_metrics_every_epoch:  # 清空评估指标
                        net.clear_metrics()
                    data_iter = iter(dataloader)  # 重置数据迭代器
                    example = next(data_iter)
                example_torch = example_convert_to_torch(example, float_dtype)
                
                batch_size = example["anchors"].shape[0]

                example_tuple = list(example_torch.values())
                example_tuple[11] = torch.from_numpy(example_tuple[11])
                example_tuple[12] = torch.from_numpy(example_tuple[12])

                assert 13 == len(example_tuple), "something write with training input size!"

从获取到的数据样本example中获取锚框的数量，并将其赋值给batch_size变量。

将获取到的数据样本example_torch中的numpy数组转换为PyTorch的张量格式。其中，example_tuple[11]和example_tuple[12]分别对应于masks和classes，需要使用torch.from_numpy方法转换为PyTorch的张量。

检查转换后的数据样本example_tuple的长度是否为13，如果不是则说明输入大小有误，抛出异常提示信息。

pillar_x = example_tuple[0][:, :, 0].unsqueeze(0).unsqueeze(0)
pillar_y = example_tuple[0][:, :, 1].unsqueeze(0).unsqueeze(0)
pillar_z = example_tuple[0][:, :, 2].unsqueeze(0).unsqueeze(0)
pillar_i = example_tuple[0][:, :, 3].unsqueeze(0).unsqueeze(0)
num_points_per_pillar = example_tuple[1].float().unsqueeze(0)

上面代码用于从数据样本中获取点云数据，将其转换为柱状体（pillar）表示法，并将其转换为PyTorch的张量格式，具体实现了以下功能：

从数据样本中获取点云数据，具体包括柱状体的坐标和强度信息。其中，example_tuple[0]对应于坐标和强度信息，example_tuple[1]对应于每个柱状体中点的数量。

提取柱状体中的x、y、z坐标和强度信息，并通过unsqueeze方法扩展维度，使得它们的shape为[1, 1, N, V]，其中N为柱状体数量，V为每个柱状体中点的数量。

将每个柱状体中点的数量转换为float类型，并通过unsqueeze方法扩展维度，使得其shape为[1, 1, N]。

# 提取x、y坐标信息
coors_x = example_tuple[2][:, 3].float()
coors_y = example_tuple[2][:, 2].float()

x_sub = coors_x.unsqueeze(1) * 0.16 + 0.08
y_sub = coors_y.unsqueeze(1) * 0.16 - 39.6
ones = torch.ones([1, 100], dtype=torch.float32, device=pillar_x.device)
x_sub_shaped = torch.mm(x_sub, ones).unsqueeze(0).unsqueeze(0)
y_sub_shaped = torch.mm(y_sub, ones).unsqueeze(0).unsqueeze(0)

将x、y坐标信息转换为车体坐标系下的坐标。具体地，通过x_sub和y_sub分别乘以0.16和-0.16得到车体坐标系下的坐标，并加上一个偏移量0.08和-39.6。这里假设点云数据是在长20m、宽40m的平面内采集的，因此将x和y坐标分别缩放为0.16倍，然后加上一个偏移量，使得点云数据的坐标系与车体坐标系重合。
构造一个全1的矩阵ones，shape为[1, 100]，其中100是柱状体中点的最大数量，dtype和device分别与pillar_x相同。
将车体坐标系下的x、y坐标信息分别与ones进行矩阵乘法，得到shape为[1, 1, N, 100]的x_sub_shaped和y_sub_shaped张量，其中N为柱状体数量。

num_points_for_a_pillar = pillar_x.size()[3]
mask = get_paddings_indicator(num_points_per_pillar, num_points_for_a_pillar, axis=0)
mask = mask.permute(0, 2, 1)
mask = mask.unsqueeze(1)
mask = mask.type_as(pillar_x)

这段代码用于构造一个掩码张量，用于标记每个柱状体中哪些点是有效的，具体实现了以下功能：

获取每个柱状体中点的数量，以及每个柱状体中最大点的数量，分别赋值给num_points_per_pillar和num_points_for_a_pillar变量。

调用get_paddings_indicator函数生成掩码张量，其中axis=0表示在第0个维度上进行padding，掩码张量的shape为[num_points_per_pillar, num_points_for_a_pillar]。

将掩码张量沿着第0个维度进行转置，使得它的shape变为[N, num_points_for_a_pillar, num_points_per_pillar]，其中N为柱状体的数量。

在掩码张量的第1个维度上添加一个维度，使得它的shape变为[N, 1, num_points_for_a_pillar, num_points_per_pillar]。

将掩码张量的数据类型转换为与pillar_x相同的数据类型。

coors = example_tuple[2]
anchors = example_tuple[6]
labels = example_tuple[8]
reg_targets = example_tuple[9]

input = [pillar_x, pillar_y, pillar_z, pillar_i, num_points_per_pillar,
                         x_sub_shaped, y_sub_shaped, mask, coors, anchors, labels, reg_targets]

ret_dict = net(input)

assert 10 == len(ret_dict), "something write with training output size!"

coors	表示每个anchor在原始图片上的坐标，一般用于计算anchor与ground truth box之间的IoU（交并比）。
anchors	表示生成的anchor的坐标，是目标检测中用于表示可能存在物体的矩形框。
labels	表示每个anchor所对应的物体类别，是目标检测中的分类标签。
reg_targets	表示每个anchor与其对应的ground truth box之间的偏移量，是目标检测中的回归目标

ret_dict是一个字典类型，包含了目标检测模型的输出信息，其中有10个键值对表示10个不同的输出，包括：

cls_preds	预测的物体类别概率矩阵；
box_preds	预测的物体框坐标矩阵；
dir_cls_preds	预测的物体方向角度概率矩阵；
pillar_features	:pillar特征矩阵
seg_preds	预测的点云分割结果矩阵；
points	网络输入的点云数据；
coors	anchor坐标矩阵；
anchors	anchor框坐标矩阵；
labels	anchor框对应的物体类别标签矩阵；
reg_targets	anchor框与ground truth box之间的回归目标矩阵。

# 从模型输出的结果ret_dict中获取分类损失、定位损失、正样本分类损失、负样本分类损失、正样本数、负样本数、分类预测结果等信息。
cls_preds = ret_dict[5]
loss = ret_dict[0].mean()
cls_loss_reduced = ret_dict[7].mean()
loc_loss_reduced = ret_dict[8].mean()
cls_pos_loss = ret_dict[3]
cls_neg_loss = ret_dict[4]
loc_loss = ret_dict[2]
cls_loss = ret_dict[1]
dir_loss_reduced = ret_dict[6]
cared = ret_dict[9]
labels = example_tuple[8]
# 如果开启了混合精度训练，则对损失进行缩放。
if train_cfg.enable_mixed_precision:
    loss *= loss_scale
loss.backward()  # 反向传播
torch.nn.utils.clip_grad_norm_(net.parameters(), 10.0)  # 对梯度进行裁剪 第一个参数是模型的参数，第二个参数是裁剪的范数，即梯度值的最大范数，
mixed_optimizer.step()  # 更新模型参数
mixed_optimizer.zero_grad()  # 清空模型梯度的函数
net.update_global_step()  # 更新全局步骤计数器
net_metrics = net.update_metrics(cls_loss_reduced,loc_loss_reduced, 
                                cls_preds,labels,cared)
# 在更新训练指标时，会调用目标检测模型的update_metrics()方法，该方法会计算网络的预测结果与真实标签之间的精度、召回率、F1值等指标

`cls_preds`	表示预测的物体类别概率矩阵
`loss`	表示目标检测模型的总损失
`cls_loss_reduced`	表示分类损失的均值
`loc_loss_reduced`	表示定位损失的均值
`cls_pos_loss`	表示正样本分类损失
`cls_neg_loss`	表示负样本分类损失
`loc_loss`	表示定位损失
`cls_loss`	表示分类损失
`dir_loss_reduced`	表示方向角度损失的均值
`cared`	表示可用于计算损失的anchor的掩码矩阵
`labels`	表示anchor对应的物体类别标签矩阵
`net_parameters`	`()`表示网络参数

mixed_optimizer是一个混合精度优化器，通常是torch.cuda.amp.GradScaler()类的实例。混合精度优化器的原理是将模型的参数和梯度分别转换为低精度半精度（FP16）和高精度（FP32）的数据类型进行计算，可以加速模型的训练，同时减少GPU显存的使用量。在更新模型参数之前，需要调用zero_grad()函数清空之前的梯度信息。在使用混合精度训练时，需要对损失值进行缩放，即将损失值乘以一个缩放因子，通常是loss_scale = mixed_optimizer.get_scale()，然后再进行反向传播计算梯度。更新模型参数时，需要调用mixed_optimizer.step()函数，该函数会根据梯度计算出参数的更新量，并更新模型参数。

step_time = (time.time() - t)
t = time.time()
metrics = {}
num_pos = int((labels > 0)[0].float().sum().cpu().numpy())  # 正样本
num_neg = int((labels == 0)[0].float().sum().cpu().numpy())  # 负样本

num_anchors = int(example_tuple[7][0].sum())
global_step = net.get_global_step()

# 训练指标显示
if global_step % display_step == 0:
    loc_loss_elem = [
       float(loc_loss[:, :, i].sum().detach().cpu().numpy() /
                batch_size) for i in range(loc_loss.shape[-1])  # 每个定位损失元素的平均值
    ]
    metrics["step"] = global_step
    metrics["steptime"] = step_time
    metrics.update(net_metrics)
    metrics["loss"] = {}
    metrics["loss"]["loc_elem"] = loc_loss_elem
    metrics["loss"]["cls_pos_rt"] = float(cls_pos_loss.detach().cpu().numpy())
    metrics["loss"]["cls_neg_rt"] = float(cls_neg_loss.detach().cpu().numpy())

第一段记录训练时间。

第二段计算当前batch中anchor数量的变量

第三段训练指标显示和更新在训练指标的更新过程中，

        首先计算了每个定位损失元素的平均值，这里使用了列表推导式和detach()函数将定位损失矩阵中的元素值提取出来并转换为numpy数组，然后除以batch_size得到平均值。

        接着，将训练步骤数、训练时间、网络指标、损失等信息保存在metrics字典中，以便后续对模型的训练效果进行监控和分析。其中，update()函数用于将net_metrics中的指标更新到metrics字典中。

        最后，将定位损失、正样本分类损失和负样本分类损失的平均值保存在metric

s["loss"]字典中，用于后续的可视化和分析。

#  如果目标检测模型中包含方向分类器，则将方向损失的值也加入到metrics["loss"]字典中。
if model_cfg.use_direction_classifier:
    metrics["loss"]["dir_rt"] = float(dir_loss_reduced.detach().cpu().numpy())

metrics["num_vox"] = int(example_tuple[0].shape[0])
metrics["num_pos"] = int(num_pos)
metrics["num_neg"] = int(num_neg)
metrics["num_anchors"] = int(num_anchors)
metrics["lr"] = float(mixed_optimizer.param_groups[0]['lr'])
metrics["image_idx"] = example_tuple[11][0]
flatted_metrics = flat_nested_json_dict(metrics)
flatted_summarys = flat_nested_json_dict(metrics, "/")
# flat_nested_json_dict()函数可以将嵌套的字典结构进行扁平化处理，将所有键值对都保存在一个字典中，方便后续对指标进行可视化和分析。

                    for k, v in flatted_summarys.items():
                        if isinstance(v, (list, tuple)):
                            v = {str(i): e for i, e in enumerate(v)}
                            writer.add_scalars(k, v, global_step)
                        else:
                            writer.add_scalar(k, v, global_step)
                    metrics_str_list = []
                    for k, v in flatted_metrics.items():
                        if isinstance(v, float):
                            metrics_str_list.append(f"{k}={v:.3}")
                        elif isinstance(v, (list, tuple)):
                            if v and isinstance(v[0], float):
                                v_str = ', '.join([f"{e:.3}" for e in v])
                                metrics_str_list.append(f"{k}=[{v_str}]")
                            else:
                                metrics_str_list.append(f"{k}={v}")
                        else:
                            metrics_str_list.append(f"{k}={v}")

这段代码中，首先遍历flatted_summarys中的键值对，将结果保存在k和v中。

如果v是列表或元组类型，则将其转换为字典，键为字符串类型的索引，值为列表中的元素值。然后，将k和v以及当前的训练步骤数作为参数，调用add_scalars()函数将指标写入TensorBoard中。

如果v是其他类型，则直接调用add_scalar()函数将指标写入TensorBoard中。

接着，遍历flatted_metrics中的键值对，将结果保存在k和v中。

如果v是浮点型，则将其保留3位小数，并将k和v拼接成字符串，保存在metrics_str_list中。

如果v是列表或元组类型，则判断列表中的元素是否为浮点型，

如果是，则将每个元素保留3位小数并拼接成字符串，保存在metrics_str_list中。

如果列表中的元素不是浮点型，则直接将k和v拼接成字符串，并保存在metrics_str_list中。

最后，将metrics_str_list中的所有字符串元素使用逗号拼接成一个字符串，作为当前batch的指标信息，并打印输出。

ckpt_elasped_time = time.time() - ckpt_start_time  # 计算当前检查点（checkpoint）的训练时间
if ckpt_elasped_time > train_cfg.save_checkpoints_secs:  # 为真则将当前模型的状态保存到磁盘上
    torchplus.train.save_models(model_dir, [net, optimizer], net.get_global_step())
    ckpt_start_time = time.time()

如果超时了，则将当前模型的状态保存到磁盘上。具体地，调用torchplus.train.save_models()函数，将当前模型的网络结构、优化器状态和全局步数等信息保存到指定的模型目录model_dir下。

最后

，将当前时间保存在ckpt_start_time中，作为下一个检查点的开始时间。

    except Exception as e:
        torchplus.train.save_models(model_dir, [net, optimizer], net.get_global_step())
        logf.close()
        raise e

与上面的try对应，如果程序出现异常，则调用torchplus.train.save_models()函数将当前模型的状态保存到指定的模型目录model_dir下，以便后续恢复模型状态，避免训练过程中的损失。然后关闭日志，抛出异常。

def get_paddings_indicator(...):

def get_paddings_indicator(actual_num, max_num, axis=0):

这个函数的作用是生成一个指示张量，用于指示每个样本在填充后的长度。具体来说，它接受3个参数：

actual_num: 一个长度为batch_size的一维张量，表示每个样本在填充前的实际长度。

max_num: 所有样本中最大的长度。

axis: 指示应该在哪个维度上添加填充指示符。默认值为0，表示在最外层添加。

actual_num = torch.unsqueeze(actual_num, axis + 1)  # 增加一个维度，从一维变成二维
max_num_shape = [1] * len(actual_num.shape)  # 创建一个形状为[1,1,...,1]的张量
max_num_shape[axis + 1] = -1  # 在axis+1维度上为 -1
max_num = torch.arange(max_num, dtype=torch.int, device=actual_num.device).view(max_num_shape)
# tiled_actual_num : [N, M, 1]
# tiled_actual_num : [[3,3,3,3,3], [4,4,4,4,4], [2,2,2,2,2]]
# title_max_num : [[0,1,2,3,4], [0,1,2,3,4], [0,1,2,3,4]]
paddings_indicator = actual_num.int() > max_num  # 其中每个元素的值为0或1，表示对应位置是否为填充位置。
# paddings_indicator shape : [batch_size, max_num]
return paddings_indicator

示例：假设有一个形状为(3,)的张量actual_num，其中包含了三个样本的实际序列长度，分别为3、4、2。假设axis=0，max_num=5，则根据上述代码，可以得到以下结果：
actual_num = torch.tensor([3, 4, 2])
actual_num = torch.unsqueeze(actual_num, axis+1)
# actual_num.shape: (3, 1)
max_num_shape = [1] * len(actual_num.shape)
max_num_shape[axis+1] = -1
# max_num_shape: [1, -1]
max_num = torch.arange(max_num, dtype=torch.int, device=actual_num.device).view(max_num_shape)
# max_num: tensor([[0, 1, 2, 3, 4],
#                  [0, 1, 2, 3, 4],
#                  [0, 1, 2, 3, 4]])
paddings_indicator = actual_num.int() > max_num
# paddings_indicator: tensor([[False, False, False,  True,  True],
#                             [False, False, False, False,  True],
#                             [False, False,  True,  True,  True]])
其中，actual_num张量的形状从(3,)变为(3,1)，max_num张量的形状为(3,5)，paddings_indicator张量的形状为(3,5)。可以看到，对于每个样本，填充位置的值为True，有效位置的值为False。这样，可以方便地将不同长度的序列按照最大序列长度进行批量化处理。

def _get_pos_neg_loss(...):

def _get_pos_neg_loss(cls_loss, labels):

该函数用于计算二分类问题中的正负样本损失。输入参数为cls_loss（二分类损失函数的输出）和labels（真实标签），输出为正样本和负样本的损失。

def _get_pos_neg_loss(cls_loss, labels):
    # cls_loss: [N, num_anchors, num_class]
    # labels: [N, num_anchors]
    batch_size = cls_loss.shape[0]
    #  判断是否是一维或者二维张量
    if cls_loss.shape[-1] == 1 or len(cls_loss.shape) == 2:
        cls_pos_loss = (labels > 0).type_as(cls_loss) * cls_loss.view(
            batch_size, -1)
        cls_neg_loss = (labels == 0).type_as(cls_loss) * cls_loss.view(
            batch_size, -1)
        cls_pos_loss = cls_pos_loss.sum() / batch_size  # 平均损失
        cls_neg_loss = cls_neg_loss.sum() / batch_size
    else:
        cls_pos_loss = cls_loss[..., 1:].sum() / batch_size
        cls_neg_loss = cls_loss[..., 0].sum() / batch_size
    return cls_pos_loss, cls_neg_loss

输入参数为cls_loss（二分类损失函数的输出）和labels（真实标签），输出为正样本和负样本的损失。具体实现如下：

首先，获取cls_loss张量的形状中的批量大小，并判断cls_loss张量是否为一维或二维张量。如果是一维或二维张量，则说明每个样本只有一个类别预测值，此时需要将cls_loss张量变成二维张量。然后，根据labels张量中元素的值是否为1或0，将cls_loss张量中对应位置上的元素分为正样本和负样本。使用type_as()函数将labels张量的类型转换成cls_loss张量的类型，并将正样本和负样本的损失分别除以批量大小后返回，即得到正样本和负样本的平均损失。

如果cls_loss张量不是一维或二维张量，则说明每个样本有多个类别预测值。此时，第0列代表负样本，其他列代表正样本。因此，可以通过[..., 1:]获取正样本的损失，通过[..., 0]获取负样本的损失。然后，将正样本和负样本的损失分别除以批量大小后返回，即得到正样本和负样本的平均损失。

其中，type_as()函数用于将一个张量的类型转换为另一个张量的类型。view()函数用于改变张量的形状，其中参数-1表示根据张量的总大小和其他维度的大小自动推算该维度的大小。

def _flat_nested_json_dict(...):

def _flat_nested_json_dict(json_dict, flatted, sep=".", start=""):
    for k, v in json_dict.items():
        if isinstance(v, dict):
            _flat_nested_json_dict(v, flatted, sep, start + sep + k)
        else:
            flatted[start + sep + k] = v

该函数用于将嵌套的JSON字典展平成一维字典。

输入参数为json_dict（嵌套的JSON字典）、flatted（展平后的一维字典）和sep（键名分隔符，默认为"."）、start（键名前缀，默认为空字符串）。输出为展平后的一维字典。

具体实现如下：首先，遍历json_dict字典的所有键值对

如果当前值是字典，则递归调用_flat_nested_json_dict()函数将该子字典展平。

否则，将当前键名和键值拼接成键值对，并以键名前缀为前缀加入到flatted字典中
# 嵌套字典
nested_dict = {
    "a": {"b": 1, "c": 2},
    "d": 3
}
# 将嵌套字典展平为一维字典
flattened_dict = _flat_nested_json_dict(nested_dict, {})
print(flattened_dict)

###{'a.b': 1, 'a.c': 2, 'd': 3}

def flat_nested_json_dict（...) -> dict:

def flat_nested_json_dict(json_dict, sep=".") -> dict:
    """flat a nested json-like dict. this function make shadow copy.
    """
    flatted = {}
    for k, v in json_dict.items():
        if isinstance(v, dict):
            _flat_nested_json_dict(v, flatted, sep, k)
        else:
            flatted[k] = v
    return flatted

def example_convert_to_torch(...) -> dict:

def example_convert_to_torch(example, dtype=torch.float32, device=None) -> dict:
    device = device or torch.device("cuda:0")
    example_torch = {}
    float_names = ["voxels", "anchors", "reg_targets", "reg_weights", "bev_map", "rect", "Trv2c", "P2"]

    for k, v in example.items():
        if k in float_names:
            example_torch[k] = torch.as_tensor(v, dtype=dtype, device=device)
        elif k in ["coordinates", "labels", "num_points"]:
            example_torch[k] = torch.as_tensor(v, dtype=torch.int32, device=device)
        elif k in ["anchors_mask"]:
            example_torch[k] = torch.as_tensor(v, dtype=torch.uint8, device=device)
            # torch.uint8 is now deprecated, please use a dtype torch.bool instead
        else:
            example_torch[k] = v
    return example_torch

将输入数据转换为PyTorch张量的函数。输入是一个数据字典，其中每个键值对表示一个特征和对应的数值，输出是一个PyTorch张量字典，其中每个键值对表示一个特征和对应的张量。具体来说，该函数首先创建一个空的PyTorch张量字典。然后遍历输入的数据字典，对于每个键值对，将其值转换为对应的PyTorch张量，并将该张量加入到输出的张量字典中。该函数的参数说明如下：

example：一个数据字典，其中每个键值对表示一个特征和对应的数值。

dtype：要转换成的PyTorch张量的数据类型，默认为torch.float32。

device：要将PyTorch张量放置在哪个设备上，默认为None，表示使用当前默认设备。

对于不同的键名会转换成不同类型的张量

def _predict_kitti_to_file(...):

def _predict_kitti_to_file(net,
                           example,
                           result_save_path,
                           class_names,
                           center_limit_range=None,
                           lidar_input=False):

用于预测KITTI数据集上物体检测结果并将结果保存到文件的函数。该函数的输入包括：

net：一个PyTorch模型，用于进行物体检测。

example：一个数据字典，包含了待检测的点云、标签等信息。

result_save_path：保存检测结果的文件路径。

class_names：一个列表，表示待检测的物体类别名称。

center_limit_range：一个长度为3的列表或元组，表示点云数据的范围限制。

lidar_input：一个布尔值，表示是否使用激光雷达数据作为模型的输入。

对检测结果进行处理

    batch_image_shape = example['image_shape']
    batch_imgidx = example['image_idx']
    predictions_dicts = net(example)  # 预测    
    for i, preds_dict in enumerate(predictions_dicts):
        image_shape = batch_image_shape[i]  # 图像尺寸
        img_idx = preds_dict["image_idx"]  # 图像索引
        # 判断当前检测结果对应的2D边界框是否为None
        if preds_dict["bbox"] is not None:
            # 2D边界框、3D边界框、置信度和类别等信息
            box_2d_preds = preds_dict["bbox"].data.cpu().numpy()
            box_preds = preds_dict["box3d_camera"].data.cpu().numpy()
            scores = preds_dict["scores"].data.cpu().numpy()
            box_preds_lidar = preds_dict["box3d_lidar"].data.cpu().numpy()
            # write pred to file  3D边界框的坐标顺序调整为hwl格式（即高度、宽度、长度），并将其赋值给box_preds变量。
            box_preds = box_preds[:, [0, 1, 2, 4, 5, 3, 6]]  # lhw->hwl(label file format)
            label_preds = preds_dict["label_preds"].data.cpu().numpy()  # 预测结果
            # label_preds = np.zeros([box_2d_preds.shape[0]], dtype=np.int32)
            result_lines = []  # 结果

            for box, box_lidar, bbox, score, label in zip(
                    box_preds, box_preds_lidar, box_2d_preds, scores,
                    label_preds):
                if not lidar_input:
                    if bbox[0] > image_shape[1] or bbox[1] > image_shape[0]:
                        continue
                    if bbox[2] < 0 or bbox[3] < 0:
                        continue
                # print(img_shape)
                if center_limit_range is not None:
                    limit_range = np.array(center_limit_range)
                    if (np.any(box_lidar[:3] < limit_range[:3])
                            or np.any(box_lidar[:3] > limit_range[3:])):
                        continue
                bbox[2:] = np.minimum(bbox[2:], image_shape[::-1])
                bbox[:2] = np.maximum(bbox[:2], [0, 0])
                result_dict = {
                    'name': class_names[int(label)],
                    'alpha': -np.arctan2(-box_lidar[1], box_lidar[0]) + box[6],
                    'bbox': bbox,
                    'location': box[:3],
                    'dimensions': box[3:6],
                    'rotation_y': box[6],
                    'score': score,
                }
                result_line = kitti.kitti_result_line(result_dict)
                result_lines.append(result_line)

使用zip()函数同时遍历box_preds、box_preds_lidar、box_2d_preds、scores和label_preds数组，依次获取每个检测结果对应的3D边界框、激光雷达坐标系下的3D边界框、2D边界框、置信度和类别信息。

如果当前输入数据是图像，获取当前检测结果的2D边界框在图像坐标系下的左上角和右下角坐标，并判断其是否超出图像范围，如果超出则跳过该检测结果或者2D边界框的右下角坐标的横坐标小于0或纵坐标小于0，则跳过该检测结果；如果当前输入数据是激光雷达，则判断当前3D边界框的中心点是否在规定范围内，如果不在则跳过该检测结果。

将2D边界框的坐标调整为左上角和右下角的形式，并将其调整为图像范围内的坐标。

创建一个字典result_dict，将当前检测结果的类别、旋转角度、2D边界框、3D边界框中心点、3D边界框尺寸和旋转角度、置信度等信息保存到该字典中。

使用kitti_result_line()函数将当前检测结果的信息转换为Kitti数据集格式的一行，将其保存到result_lines列表中。值得注意的是，该函数中的kitti_result_line()函数可以将检测结果转换为Kitti数据集格式中的一行，从而方便后续的结果输出。

def predict_kitti_to_anno(...):

def predict_kitti_to_anno(net,
                          example,
                          class_names,
                          center_limit_range=None,
                          lidar_input=False,
                          global_set=None):

net：目标检测模型。

example：Kitti数据集格式的样本，包含了点云、图像、标定矩阵、3D边界框等信息。

class_names：目标检测模型所能识别的物体类别列表。

center_limit_range：可选的中心点限制范围，用于剔除超出范围的检测结果。

lidar_input：可选的布尔值，表示是否使用激光雷达点云作为输入。

global_set：可选的全局变量，用于存储一些全局配置参数。

batch_image_shape = example[9]

    batch_imgidx = example[8]
    # 每个点的x、y、z坐标和反射强度
    # 都是形状为(1, 1, H, W)的四维张量，其中H和W分别为点云分割后的网格高度和宽度
    pillar_x = example[0][:, :, 0].unsqueeze(0).unsqueeze(0)
    pillar_y = example[0][:, :, 1].unsqueeze(0).unsqueeze(0)
    pillar_z = example[0][:, :, 2].unsqueeze(0).unsqueeze(0)
    pillar_i = example[0][:, :, 3].unsqueeze(0).unsqueeze(0)
    num_points_per_pillar = example[1].float().unsqueeze(0)

    # Find distance of x, y, and z from pillar center  查找x、y和z与支柱中心的距离
    # assuming xyres_16.proto
    # 点云坐标信息处理
    coors_x = example[2][:, 3].float()
    coors_y = example[2][:, 2].float()
    x_sub = coors_x.unsqueeze(1) * 0.16 + 0.1
    y_sub = coors_y.unsqueeze(1) * 0.16 + -39.9
    ones = torch.ones([1, 100], dtype=torch.float32, device=pillar_x.device)
    x_sub_shaped = torch.mm(x_sub, ones).unsqueeze(0).unsqueeze(0)
    y_sub_shaped = torch.mm(y_sub, ones).unsqueeze(0).unsqueeze(0)

    # 获取其它与目标检测相关的信息
    num_points_for_a_pillar = pillar_x.size()[3]  # 每个点云分割后的小块中实际存在的点数量
    # 将神经网络输入中没有对应的点云小块的部分标记为无效数据
    mask = get_paddings_indicator(num_points_per_pillar, num_points_for_a_pillar, axis=0)
    mask = mask.permute(0, 2, 1)
    mask = mask.unsqueeze(1)
    mask = mask.type_as(pillar_x)

    coors = example[2]
    anchors = example[6]
    anchors_mask = example[7]
    anchors_mask = torch.as_tensor(anchors_mask, dtype=torch.uint8, device=pillar_x.device)
    anchors_mask = anchors_mask.byte()
    rect = example[3]
    Trv2c = example[4]
    P2 = example[5]
    image_idx = example[8]

coors：点云坐标信息，形状为(N, 4)，其中N为点的数量，每个点包括x、y、z坐标和所在的点云分割后的小块编号。

anchors：3D边界框的锚点信息，形状为(A, 7)，其中A为锚点的数量，每个锚点包括x、y、z坐标、边界框的宽度、高度、深度和旋转角度信息。

anchors_mask：锚点掩码信息，形状为(A,)，其中每个元素为0或1，用于标记哪些锚点是有效的。

rect：点云坐标系对应的3D边界框的长宽高信息，形状为(N, 3)，其中每个元素表示一个3D边界框的长宽高。

Trv2c：点云坐标系到相机坐标系的转换矩阵，形状为(4, 4)。

P2：相机的投影矩阵，形状为(3, 4)。

image_idx：输入的图像在数据集中的索引，一个标量。

    for i, preds_dict in enumerate(predictions_dicts):
        image_shape = batch_image_shape[i]
        img_idx = preds_dict[5]

        if preds_dict[0] is not None:  # bbox list
            box_2d_preds = preds_dict[0].detach().cpu().numpy()  # bbox
            box_preds = preds_dict[1].detach().cpu().numpy()  # bbox3d_camera
            scores = preds_dict[3].detach().cpu().numpy()  # scores
            box_preds_lidar = preds_dict[2].detach().cpu().numpy()  # box3d_lidar
            # write pred to file
            label_preds = preds_dict[4].detach().cpu().numpy()  # label_preds

            anno = kitti.get_start_result_anno()  # 获取KITTI数据集中目标检测任务的初始标注信息
            num_example = 0
            for box, box_lidar, bbox, score, label in zip(
                    box_preds, box_preds_lidar, box_2d_preds, scores,
                    label_preds):
                if not lidar_input:
                    if bbox[0] > image_shape[1] or bbox[1] > image_shape[0]:
                        continue
                    if bbox[2] < 0 or bbox[3] < 0:
                        continue
                # print(img_shape)
                if center_limit_range is not None:
                    limit_range = np.array(center_limit_range)
                    if (np.any(box_lidar[:3] < limit_range[:3])
                            or np.any(box_lidar[:3] > limit_range[3:])):
                        continue
                image_shape = [image_shape[0], image_shape[1]]
                # 对预测结果中的2D边界框坐标信息进行了裁剪
                bbox[2:] = np.minimum(bbox[2:], image_shape[::-1])
                bbox[:2] = np.maximum(bbox[:2], [0, 0])
                anno["name"].append(class_names[int(label)])
                anno["truncated"].append(0.0)
                anno["occluded"].append(0)
                anno["alpha"].append(-np.arctan2(-box_lidar[1], box_lidar[0]) +
                                     box[6])
                anno["bbox"].append(bbox)
                anno["dimensions"].append(box[3:6])
                anno["location"].append(box[:3])
                anno["rotation_y"].append(box[6])
                # 确保目标的置信度得分不会重复
                if global_set is not None:
                    for i in range(100000):
                        if score in global_set:
                            score -= 1 / 100000
                        else:
                            global_set.add(score)
                            break
                anno["score"].append(score)

                num_example += 1
            # 将每个数据集中的标注信息（anno）存储到一个列表中（annos）
            if num_example != 0:
                anno = {n: np.stack(v) for n, v in anno.items()}
                annos.append(anno)
            else:
                annos.append(kitti.empty_result_anno())
        else:
            annos.append(kitti.empty_result_anno())
        # 为每个数据集的标注信息添加一个image_idx键值对，表示该标注信息对应的图像在数据集中的索引。
        num_example = annos[-1]["name"].shape[0]
        annos[-1]["image_idx"] = np.array(
            [img_idx] * num_example, dtype=np.int64)

anno["name"]表示预测目标的类别信息，

anno["truncated"]、anno["occluded"]表示目标的遮挡和截断情况，

anno["alpha"]表示目标的方向角度，

anno["bbox"]表示目标的2D边界框坐标信息，

anno["dimensions"]表示目标的3D边界框的宽、高、深度信息，

anno["location"]表示目标的3D边界框的位置信息，

anno["rotation_y"]表示目标的3D边界框的旋转角度信息，

anno["score"]表示目标的置信度得分。

最后，该代码对全局的置信度得分集合global_set进行了更新，确保不会出现重复的得分值。

首先，会判断当前数据集中是否存在标注信息。

如果存在，则将每个键值对中的值以NumPy数组的形式进行堆叠，存储到一个字典（anno）中。具体来说，np.stack()函数可以将相同形状的数组按照指定的轴进行堆叠，形成一个新的数组。在这里，该函数的作用是将标注信息字典中的所有值（例如，目标的类别、位置、大小、旋转角度、置信度得分等）沿着第0个轴进行堆叠，形成一个新的数组。这样处理之后，标注信息字典中的每个值都变成了一个形状为(num_example, *)的数组，其中num_example是数据集中的样本数。接着，将整个标注信息字典（anno）存储到一个列表（annos）中。这个列表中的每个元素都代表一个数据集中的标注信息，对应着数据集中的一个样本。

最后，如果当前数据集中不存在标注信息，则将一个空的标注信息字典（kitti.empty_result_anno()）存储到annos列表中，以占位的形式表示该数据集中没有样本。

kitti.empty_result_anno()是一个用于创建空标注信息字典的函数，它的返回值是一个包含指定键值对的字典，其中每个值都是一个空的NumPy数组。

def evaluate(...):

def evaluate(config_path,
             model_dir,
             result_path=None,
             predict_test=False,
             ckpt_path=None,
             ref_detfile=None,
             pickle_result=True):

配置文件路径（config_path）

模型目录路径（model_dir）

结果文件路径（result_path）

是否对测试集进行预测（predict_test）

检查点文件路径（ckpt_path）

参考检测文件路径（ref_detfile）

是否将评估结果保存为Pickle文件（pickle_result）

# 将model_dir转换为绝对路径
    model_dir = str(Path(model_dir).resolve())
    # 结果文件命名
    if predict_test:
        result_name = 'predict_test'
    else:
        result_name = 'eval_results'
        # 保存路径
    if result_path is None:
        model_dir = Path(model_dir)
        result_path = model_dir / result_name
    else:
        result_path = pathlib.Path(result_path)

    # 加载配置文件并创建配置对象
    if isinstance(config_path, str):
        config = pipeline_pb2.TrainEvalPipelineConfig()
        with open(config_path, "r") as f:
            proto_str = f.read()
            text_format.Merge(proto_str, config)
    else:
        config = config_path

    input_cfg = config.eval_input_reader
    model_cfg = config.model.second
    train_cfg = config.train_config
    class_names = list(input_cfg.class_names)
    center_limit_range = model_cfg.post_center_limit_range

输入读取器配置（input_cfg）

模型配置（model_cfg）

训练配置（train_cfg）

从输入读取器配置中获取类别名称列表（class_names）

从模型配置中获取后处理中心点限制范围参数（center_limit_range）

生成体素生成器

voxel_generator = voxel_builder.build(model_cfg.voxel_generator)  # 体素生成器
bv_range = voxel_generator.point_cloud_range[[0, 1, 3, 4]]  # 获取点云范围
box_coder = box_coder_builder.build(model_cfg.box_coder)  # 框编码器
target_assigner_cfg = model_cfg.target_assigner  # 获取目标分配器的配置信息
target_assigner = target_assigner_builder.build(target_assigner_cfg,
                                                    bv_range, box_coder)  # 目标分配器

net = second_builder.build(model_cfg, voxel_generator, target_assigner,                 
                           input_cfg.batch_size)
net.cuda()
# 将网络转换为混合精度（mixed precision）模式
if train_cfg.enable_mixed_precision:
    net.half()
    net.metrics_to_float()
    net.convert_norm_to_float(net)

生成器是构成3D目标检测模型的必要组成部分，主要用于将点云数据转换为适合输入到深度学习网络中的数据。具体来说，这些生成器的作用如下：

体素生成器（voxel generator）：将点云数据转换为三维体素表示，即将点云数据按照一定的规则（如3D网格）划分为小的体素（即三维像素），并将每个体素中的点云信息进行聚合，生成一个体素特征表示。这样做的目的是将点云数据从不规则的形式转换为规则的三维网格形式，方便深度学习网络处理。

框编码器（box coder）：将3D目标的位置、大小等信息编码成网络预测的回归目标。具体来说，框编码器将3D目标的位置、大小等信息转换为一组数值，这些数值作为网络的回归目标，用于指导网络学习如何预测3D目标的位置、大小等信息。

目标分配器（target assigner）：将3D目标与体素中的特征向量进行匹配，生成网络训练所需的标注数据。具体来说，目标分配器将3D目标的位置与体素的位置进行匹配，将匹配成功的体素的特征向量作为该3D目标的特征表示，并生成网络训练所需的标注数据（如分类标签、回归目标等）。这些生成器的作用是将点云数据转换为深度学习网络能够处理的格式，并生成网络训练所需的标注数据，从而实现对3D目标的检测和定位。

首先使用second_builder.build()函数根据模型配置、体素生成器、目标分配器和输入配置构建3D目标检测网络（net），并指定网络的批量大小（input_cfg.batch_size）。然后，使用net.cuda()函数将网络移动到GPU上运行，以加速网络的训练和推断。

混合精度模式（mixed precision）是一种优化深度神经网络训练的技术，将网络中的部分操作使用低精度浮点数（如16位浮点数）来计算，以减少内存占用和计算时间，提高训练速度和效率。同时，混合精度模式还可以通过使用特殊的数值格式（如半精度浮点数）来提高存储效率，从而实现更大规模的网络训练和推断。

 # 恢复已保存的模型参数
    if ckpt_path is None:
        # 尝试从已保存的最新检查点文件中恢复模型参数
        torchplus.train.try_restore_latest_checkpoints(model_dir, [net])
    else:
        torchplus.train.restore(ckpt_path, net)

    # 数据集以及数据加载器
    eval_dataset = input_reader_builder.build(
        input_cfg,
        model_cfg,
        training=False,
        voxel_generator=voxel_generator,
        target_assigner=target_assigner)
    eval_dataloader = torch.utils.data.DataLoader(
        eval_dataset,
        batch_size=input_cfg.batch_size,
        shuffle=False,
        num_workers=input_cfg.num_workers,
        pin_memory=False,
        collate_fn=merge_second_batch)

    # 根据训练配置选择浮点数精度类型
    if train_cfg.enable_mixed_precision:
        float_dtype = torch.float16
    else:
        float_dtype = torch.float32

    net.eval()  # 评估模式
    result_path_step = result_path / f"step_{net.get_global_step()}"
    result_path_step.mkdir(parents=True, exist_ok=True)  # 保存每个全局步骤（net.get_global_step()）的输出标签结果
    t = time.time()
    dt_annos = []  # 保存输出标签结果
    global_set = None  # 保存全局点云集合
    print("Generate output labels...")
    bar = ProgressBar()  # 进度条
    bar.start(len(eval_dataset) // input_cfg.batch_size + 1)  # 进度条总长度

    for example in iter(eval_dataloader):
        # eval example [0: 'voxels', 1: 'num_points', 2: 'coordinates', 3: 'rect'
        #               4: 'Trv2c', 5: 'P2', 6: 'anchors', 7: 'anchors_mask'
        #               8: 'image_idx', 9: 'image_shape']
        example = example_convert_to_torch(example, float_dtype)

        example_tuple = list(example.values())
        example_tuple[8] = torch.from_numpy(example_tuple[8])
        example_tuple[9] = torch.from_numpy(example_tuple[9])

        # 当前批次的样本数量是否为指定的批次大小
        if (example_tuple[6].size()[0] != input_cfg.batch_size):
            continue

        if pickle_result:
            # 对当前批次的样本进行目标检测，生成输出标签
            dt_annos += predict_kitti_to_anno(
                net, example_tuple, class_names, center_limit_range,
                model_cfg.lidar_input, global_set)
        else:
            # 将输出标签保存到指定路径中
            _predict_kitti_to_file(net, example, result_path_step, class_names,
                                   center_limit_range, model_cfg.lidar_input)
        bar.print_bar()  # 打印进度条

    # 每秒钟可以处理的样本数
    sec_per_example = len(eval_dataset) / (time.time() - t)
    print(f'generate label finished({sec_per_example:.2f}/s). start eval:')

    print(f"avg forward time per example: {net.avg_forward_time:.3f}")
    print(f"avg postprocess time per example: {net.avg_postprocess_time:.3f}")

如果该代码不是用于预测测试集，则首先从评估数据集中获取所有样本的真实标注信息gt_annos，并使用get_label_annos()函数从模型输出的标签文件中获取所有样本的预测标注信息dt_annos。接着，该代码调用get_official_eval_result()函数和get_coco_eval_result()函数分别计算目标检测模型在KITTI评估指标和COCO评估指标下的性能表现，并输出评估结果。KITTI评估指标是用于评估自动驾驶环境下目标检测算法的性能的指标，包括平均精度（AP）、平均重召回率（AR）等；而COCO评估指标是用于评估通用物体检测算法的性能的指标，包括平均精度（AP）、平均重召回率（AR）等。最后，如果指定了pickle_result为True，则将评估结果保存到指定路径下的result.pkl文件中。

def export_onnx(...):

def export_onnx(net, example, class_names, batch_image_shape,
                center_limit_range=None, lidar_input=False, global_set=None):

将PyTorch模型转换为ONNX格式，并保存为文件。

net：PyTorch模型实例；

example：示例数据，用于执行计算图并生成ONNX模型；

class_names：目标检测任务中的类别名称列表；

batch_image_shape：输入数据的形状，格式为(batch_size, channels, height, width)；

center_limit_range：目标检测任务中物体中心点在Lidar坐标系下的取值范围；

lidar_input：是否使用Lidar点云数据作为输入；

global_set：其他设置参数。

def export_onnx(net, example, class_names, batch_image_shape,
                center_limit_range=None, lidar_input=False, global_set=None):
    pillar_x = example[0][:, :, 0].unsqueeze(0).unsqueeze(0)
    pillar_y = example[0][:, :, 1].unsqueeze(0).unsqueeze(0)
    pillar_z = example[0][:, :, 2].unsqueeze(0).unsqueeze(0)
    pillar_i = example[0][:, :, 3].unsqueeze(0).unsqueeze(0)
    num_points_per_pillar = example[1].float().unsqueeze(0)

    # Find distance of x, y, and z from pillar center
    # assuming xyres_16.proto
    coors_x = example[2][:, 3].float()
    coors_y = example[2][:, 2].float()
    x_sub = coors_x.unsqueeze(1) * 0.16 + 0.1
    y_sub = coors_y.unsqueeze(1) * 0.16 + -39.9
    ones = torch.ones([1, 100], dtype=torch.float32, device=pillar_x.device)
    x_sub_shaped = torch.mm(x_sub, ones).unsqueeze(0).unsqueeze(0)
    y_sub_shaped = torch.mm(y_sub, ones).unsqueeze(0).unsqueeze(0)

    num_points_for_a_pillar = pillar_x.size()[3]
    mask = get_paddings_indicator(num_points_per_pillar, num_points_for_a_pillar, axis=0)
    mask = mask.permute(0, 2, 1)
    mask = mask.unsqueeze(1)
    mask = mask.type_as(pillar_x)

    coors = example[2]

    print(pillar_x.size())
    print(pillar_y.size())
    print(pillar_z.size())
    print(pillar_i.size())
    print(num_points_per_pillar.size())
    print(x_sub_shaped.size())
    print(y_sub_shaped.size())
    print(mask.size())

    input_names = ["pillar_x", "pillar_y", "pillar_z", "pillar_i",
                   "num_points_per_pillar", "x_sub_shaped", "y_sub_shaped", "mask"]

    # Wierd Convloution
    # 每个Tensor对象的形状为(1, 1, 12000, 100)，其中1表示batch_size，12000表示pillar的数量，100表示每个pillar中点的数量；
    pillar_x = torch.ones([1, 1, 12000, 100], dtype=torch.float32, device=pillar_x.device)
    pillar_y = torch.ones([1, 1, 12000, 100], dtype=torch.float32, device=pillar_x.device)
    pillar_z = torch.ones([1, 1, 12000, 100], dtype=torch.float32, device=pillar_x.device)
    pillar_i = torch.ones([1, 1, 12000, 100], dtype=torch.float32, device=pillar_x.device)
    # 示每个pillar中的点数
    num_points_per_pillar = torch.ones([1, 12000], dtype=torch.float32, device=pillar_x.device)
    # 表示pillar中每个点的x、y坐标与pillar中心点x、y坐标的差值
    x_sub_shaped = torch.ones([1, 1, 12000, 100], dtype=torch.float32, device=pillar_x.device)
    y_sub_shaped = torch.ones([1, 1, 12000, 100], dtype=torch.float32, device=pillar_x.device)
    # 表示每个pillar中点的掩码值
    mask = torch.ones([1, 1, 12000, 100], dtype=torch.float32, device=pillar_x.device)


    example1 = [pillar_x, pillar_y, pillar_z, pillar_i,
                num_points_per_pillar, x_sub_shaped, y_sub_shaped, mask]

    print('-------------- network readable visiual --------------')
    torch.onnx.export(net, example1, "pfe.onnx", verbose=False, input_names=input_names)
    print('pfe.onnx transfer success ...')

    rpn_input = torch.ones([1, 64, 496, 432], dtype=torch.float32, device=pillar_x.device)
    torch.onnx.export(net.rpn, rpn_input, "rpn.onnx", verbose=False)
    print('rpn.onnx transfer success ...')

    return 0

def onnx_model_generate(...):

def onnx_model_generate(config_path,
                        model_dir,
                        result_path=None,
                        predict_test=False,
                        ckpt_path=None
                        ):

生成ONNX格式的模型。具体来说，该函数接收五个参数：

config_path：配置文件路径，指定了模型的参数配置；

model_dir：模型保存目录，指定了模型的保存路径；

result_path：结果保存路径，指定了模型在测试集上的预测结果保存路径；

predict_test：是否在测试集上进行预测；

ckpt_path：模型权重文件路径，指定了模型权重的保存路径。

def onnx_model_generate(config_path,
                        model_dir,
                        result_path=None,
                        predict_test=False,
                        ckpt_path=None
                        ):
    model_dir = pathlib.Path(model_dir)
    if predict_test:
        result_name = 'predict_test'
    else:
        result_name = 'eval_results'
    if result_path is None:
        result_path = model_dir / result_name
    else:
        result_path = pathlib.Path(result_path)
    config = pipeline_pb2.TrainEvalPipelineConfig()
    with open(config_path, "r") as f:
        proto_str = f.read()
        text_format.Merge(proto_str, config)

    input_cfg = config.eval_input_reader
    model_cfg = config.model.second
    train_cfg = config.train_config
    class_names = list(input_cfg.class_names)
    center_limit_range = model_cfg.post_center_limit_range

    ##########################
    ## Build Voxel Generator
    ##########################
    voxel_generator = voxel_builder.build(model_cfg.voxel_generator)
    bv_range = voxel_generator.point_cloud_range[[0, 1, 3, 4]]
    box_coder = box_coder_builder.build(model_cfg.box_coder)
    target_assigner_cfg = model_cfg.target_assigner
    target_assigner = target_assigner_builder.build(target_assigner_cfg,
                                                    bv_range, box_coder)

    net = second_builder.build(model_cfg, voxel_generator, target_assigner, 1)
    net.cuda()
    if train_cfg.enable_mixed_precision:
        net.half()
        net.metrics_to_float()
        net.convert_norm_to_float(net)

    if ckpt_path is None:
        torchplus.train.try_restore_latest_checkpoints(model_dir, [net])
    else:
        torchplus.train.restore(ckpt_path, net)

    eval_dataset = input_reader_builder.build(
        input_cfg,
        model_cfg,
        training=False,
        voxel_generator=voxel_generator,
        target_assigner=target_assigner)
    eval_dataloader = torch.utils.data.DataLoader(
        eval_dataset,
        batch_size=1,
        shuffle=False,
        num_workers=1,
        pin_memory=False,
        collate_fn=merge_second_batch)

    if train_cfg.enable_mixed_precision:
        float_dtype = torch.float16
    else:
        float_dtype = torch.float32

    net.eval()
    result_path_step = result_path / f"step_{net.get_global_step()}"
    result_path_step.mkdir(parents=True, exist_ok=True)

    dt_annos = []
    global_set = None
    print("Generate output labels...")
    bar = ProgressBar()
    bar.start(len(eval_dataset) // input_cfg.batch_size + 1)

    for example in iter(eval_dataloader):
        example = example_convert_to_torch(example, float_dtype)
        example_tuple = list(example.values())
        batch_image_shape = example_tuple[8]
        example_tuple[8] = torch.from_numpy(example_tuple[8])
        example_tuple[9] = torch.from_numpy(example_tuple[9])

        dt_annos = export_onnx(
            net, example_tuple, class_names, batch_image_shape, center_limit_range,
            model_cfg.lidar_input, global_set)
        return 0
        bar.print_bar()

训练文件就暂时看到这，太多了，网络结构重开一篇吧。

你可能感兴趣的:(深度学习,机器学习,人工智能,python,神经网络)

[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python中字符串的操作方法幻鸩605 python java 开发语言
字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
【图像处理基石】如何检测到画面中的ppt并对其进行增强？
1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始
Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
企业内网系统：从传统开发到智能赋能的进化之路飞算JavaAI开发助手科技人工智能大数据 java
在当今数字化浪潮中，企业内网系统作为支撑日常运营的核心基础设施，其开发效率与质量直接关系到企业的竞争力。传统开发模式下，程序员需要手动完成需求分析、架构设计、代码编写、测试调试等全流程工作，不仅耗时费力，还容易因人为疏忽导致质量隐患。而随着人工智能技术的突破性进展，以飞算JavaAI为代表的智能开发工具正在重塑企业内网系统的开发范式，为程序员提供从设计到落地的全链路智能支持。一、传统企业内网系统开
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found