themasterbi

3D点云学习：SA-SSD④源码注释

1 SASSD算法神经网络结构

SASSD在神经网络结构上的创新点主要在两点：auxiliary network 以及 PS Warp损失计算方法。这两点在代码实现上也有一定的特点，同时代码结构和论文中的网络结构也存在一定的差异。
如上图所示，论文中网络主要包括三部分，Backbone network，Auxiliary network和Detection network，但在源码中，Backbone network和Auxiliary network由于其交互性较强，每一步都要互相影响，因此放到了一个部分，Detection network是另一个部分，同时损失计算也都是单独的部分。
以下前向训练图来自于这篇博客.

2 源码注释

① mmdetection训练网络构建方法

框架作者再知乎的回答.
真个SASSD模型是基于mmdetection框架的，mmdetection框架的特点是在pytorch的基础上进行了模块化封装，从批数据处理，模型搭建，损失计算到参数最优化，都可以很方便的进行开发，用户需要做的就是写好自己的config文件和核心特征提取算法部分。SASSD的构建方法可以学习到一些mmdetection框架的使用方法。
在train.py中的训练网络构建如下：

model = build_detector(
    cfg.model, train_cfg=cfg.train_cfg, test_cfg=cfg.test_cfg)
# 分布式并行计算和单机并行计算
if distributed:
    model = MMDistributedDataParallel(model).cuda()
else:
    model = MMDataParallel(model, device_ids=range(cfg.gpus)).cuda()
# 将训练配置传入，其中 build_dataset()在mmdet/datasets/builder.py里实现

# get_dataset，用cfg中的参数信息，通过datasets文件夹，生成包含所有数据的一个数据集
# 再本次实例中，obj_from_dict，更有深层次的理解。根据字典型变量info去指定初始化一个parrent类对象。如果parrent类是一个虚类，
# 它会根据info的变量自动地匹配一个Matched的子类，去指定初始化这个子类的实例。
# 毫无疑问，肯定是生成datasets类子类中的KittiLiDAR类
train_dataset = get_dataset(cfg.data.train)
optimizer = build_optimizer(model, cfg.optimizer)
train_loader = build_dataloader(
    train_dataset,
    cfg.data.imgs_per_gpu,
    cfg.data.workers_per_gpu,
    dist=distributed)
start_epoch = it = 0
last_epoch = -1
lr_scheduler, lr_warmup_scheduler = build_scheduler(
    optimizer, total_iters_each_epoch=len(train_loader), total_epochs=cfg.total_epochs,
    last_epoch=last_epoch, optim_cfg=cfg.optimizer, lr_cfg=cfg.lr_config
)
# -----------------------start training---------------------------
logger.info('**********************Start training**********************')
train_model(
    model,
    optimizer,
    train_loader,
    lr_scheduler=lr_scheduler,
    optim_cfg=cfg.optimizer,
    start_epoch=start_epoch,
    total_epochs=cfg.total_epochs,
    start_iter=it,
    rank=args.local_rank,
    logger=logger,
    ckpt_save_dir=cfg.work_dir,
    lr_warmup_scheduler=lr_warmup_scheduler,
    ckpt_save_interval=cfg.checkpoint_config.interval,
    max_ckpt_save_num=args.max_ckpt_save_num,
    log_interval=cfg.log_config.interval
)

logger.info('**********************End training**********************')

可以看到其中调用了很多的build_XXX，build了很多模块。build_XXX的一般原理就是使用cfg文件中的超参（一般是一个dict）包括名称和参数，以及obj_from_dict函数，生成自己需要的模块。名称就代表调用的类的名称，比如type='SingleStageDetector'，这样通过调用build_detector生成的detector就是class SingleStageDetector()。
在train_model中，主要部分和其他模型差不多：

model.train()   # 调整到训练模式（pytorch的自带功能）
optimizer.zero_grad()   # 梯度归零

outputs = batch_processor(model, data_batch)    # 计算损失

outputs['loss'].backward()  # 反向传播
clip_grad_norm_(model.parameters(), **optim_cfg.grad_clip)  # 规范梯度大小
optimizer.step()    # 优化

② `SingleStageDetector`的前向训练部分

def forward_train(self, img, img_meta, **kwargs):
    # [N,]
    batch_size = len(img_meta) # B

    ret = self.merge_second_batch(kwargs)
    #  Neck的粗糙结构如下所示：
    #  输入点云 => Backbone Network => reshape 操作 => BEV Network => (x, conv6)
    #                    ||
    #                    || Tensor2Point (体素变点云)
    #                    ||
    #                 辅助网络层 => MLP层 => point_misc
    #
    # 稀疏卷积 和 Reshape 和 Tensor2Point 的细节我在上一篇博客已经讨论了。
    #
    # 输入分析：
    # vx 可以理解为 pointclpoud_range 内的点云，包含 xyz 和雷达强度项，是 (N,4).
    # ret['coordinates'] 是 pointclpoud_range 内的点云体素化的结果，点对应的体素坐标
    # batch_size 是批处理的大小
    # 吐槽： ret['coordinates'] 才是真体素，如果我的理解有误，请大家多多指正
    #
    # 输出分析 ：
    # x, conv6 都是 BEV特征图，但是两个不同，两者中间还有一个卷积层
    # point_misc = (points_mean, point_cls, point_reg) 它是个元组
    # points_mean 是 bxyz 类型数据，xyz 是点云位置，b 是体素化后 z 轴分量， 它是（N，4）张量，为什么会有 b 这个分量，我也不太清楚，但是代码是这样写的
    # point_cls 是点云分类结果，它是（N，1）张量，用于前景分割（可不是3d目标分类呀）
    # point_reg 是点云回归结果，回归每一个3d类的中心位置，它是（N，3）张量
    #
    # 因为 SA-SSD 采用的是一个粗糙体素化处理方式，所以 vx  和 points_mean 的长度都是 N
    vx = self.backbone(ret['voxels'], ret['num_points'])
    (x, conv6), point_misc = self.neck(vx, ret['coordinates'], batch_size)
    # 这里的x经过了三维卷积，大小变为了原来1/8，又经过reshape，减少了D维度，又经过二维卷积，最后（2， 256， 176， 200）
    # point_misc包括了(points_mean, point_cls, point_reg),原始点云数据，语义分割结果，中心点结果

    losses = dict()

    aux_loss = self.neck.aux_loss(*point_misc, gt_bboxes=ret['gt_bboxes'])
    losses.update(aux_loss)

    # RPN forward and loss
    if self.with_rpn:
        rpn_outs = self.rpn_head(x) #这里代表三个输出box_preds, cls_preds, dir_cls_preds[B, 200, 176, 14],[B, 200, 176, 2],[B, 200, 176, 4]
        rpn_loss_inputs = rpn_outs + (ret['gt_bboxes'], ret['gt_labels'], ret['anchors'], ret['anchors_mask'], self.train_cfg.rpn)
        rpn_losses = self.rpn_head.loss(*rpn_loss_inputs)
        losses.update(rpn_losses)
        guided_anchors = self.rpn_head.get_guided_anchors(*rpn_outs, ret['anchors'], ret['anchors_mask'], ret['gt_bboxes'], thr=0.1)
    else:
        raise NotImplementedError

    # bbox head forward and loss
    if self.extra_head:
        bbox_score = self.extra_head(conv6, guided_anchors)
        refine_loss_inputs = (bbox_score, ret['gt_bboxes'], ret['gt_labels'], guided_anchors, self.train_cfg.extra)
        refine_losses = self.extra_head.loss(*refine_loss_inputs)
        losses.update(refine_losses)

    return losses

这里大部分注释参考了这篇博客.

图片来源这篇博客.
在上图中Backbone几乎没有任何作用，输入什么就输出什么；Neck部分包含了论文给的图中的Backbone network和Auxiliary network两部分；rpn_head是论文中的Detection部分；rpn_head.get_guided_anchors是对提取出来的bbox进行筛选；extra_head对应的就是PSWarp部分。下面一块一块的学习。

③ SpMiddleFHD.forward

SpMiddleFHD也就是Neck部分，也就是论文中的Backbone network和Auxiliary network两部分。注释如下

def forward(self, voxel_features, coors, batch_size, is_test=False):
    # voxel_features是(b_s x N) x 4 体素
    # coors已经经过了pad和cat，是一个batch的coors
    points_mean = torch.zeros_like(voxel_features)
    points_mean[:, 0] = coors[:, 0]
    points_mean[:, 1:] = voxel_features[:, :3]
    # points_mean代表点云的真实距离值（包含了每个点属于哪个batch）！！！！！！！！！！！！！！！！！！！！！！！
    coors = coors.int()
    x = spconv.SparseConvTensor(voxel_features, coors, self.sparse_shape, batch_size)   # !!!!!!!!!真正的变成了体素
    # 对voxel_features按照coors进行索引，coors在之前的处理中加入例如batch这个位置，变成了四维
    # 输出是一个【batch_size，channels, sparse_shape】的数据（2， 4， 40， 1600， 1408）
    # 就是让数据按照coors里的坐标进行了排列，成为了标准的体素空间
    x, point_misc = self.backbone(x, points_mean, is_test)
    # x是backbone的输出，体素维度缩小8倍后的64维特征，point_misc包括几部分（mean cls reg）是auxiliary的输出，即预测出来的Seg和Center
    x = x.dense()
    N, C, D, H, W = x.shape     #（2， 64， 5， 200， 176）
    x = x.view(N, C * D, H, W)  #（2， 320， 200 ，176）
    # 这里的D, H, W全部缩小了8倍，D=5
    # reshape D是立起来的那个维度，直接把D维度上的特征都视为BEV图上一个点的不同特征，拼接，变成二维的特征
    # fcn就是BEVnet，包含几个二维卷积
    x = self.fcn(x)     # （2， 256， 200， 176）
    if is_test:
        return x
    return x, point_misc
    # x是detector的输出（2， 256， 200， 176），point_misc是auxiliary的输出

spconv中包含了点云体素化的方法，就是spconv.SparseConvTensor，注意函数的输入coors中要包含每个点所属的batch中的第几帧数据，也就是pad操作。
其中还包括了三维稀疏特征到2D平面特征的转化，就是reshape造作，将第三个维度和channel维度合并。

④ SSDRotateHead.forward

这个head是得到最终预测的3D bbox和class，由于两者是分开得到的，中间经历了一个不同的卷积层，因此可能存在一定的位置误差。

def forward(self, x):
    # x从SpMiddleFHD中来，是[B(2), C(256), H(200), W(176)]的张量
    box_preds = self.conv_box(x)    # 输出 [B, 14, 200, 176] 的张量
    cls_preds = self.conv_cls(x)    # 输出 [B, 2, 200, 176] 的张量
    # [N, C, y(H), x(W)]
    # 对张量做转置，contiguous 是让置换后的张量内存分布连续的操作
    box_preds = box_preds.permute(0, 2, 3, 1).contiguous()  # [B, 200, 176, 14]
    cls_preds = cls_preds.permute(0, 2, 3, 1).contiguous()  # [B, 200, 176, 2]

    if self._use_direction_classifier:
        dir_cls_preds = self.conv_dir_cls(x)                # 输出 [B, 4, 200, 176] 的张量
        # 为什么是 4 呢？
        # 是因为 conv_dir_cls 的通道数定义为 num_anchor_per_loc * 2 = 2*2
        # 输出 [B, 200, 176, 4] 的张量,因为每个loc有两个角度的anchor，都包括前向后向两个状态
        dir_cls_preds = dir_cls_preds.permute(0, 2, 3, 1).contiguous() # [B, 200, 176, 4]

    return box_preds, cls_preds, dir_cls_preds  # [B, 200, 176, 14],[B, 200, 176, 2],[B, 200, 176, 4]

⑤ PSWarpHead.get_guided_anchors

PSWarpHead.forward的输入还有一个guided_anchors，要把这部分的意义搞懂，才能知道PSWarpHead到底是计算的那些bbox的分类。上源码。

    # anchors_mask 是 （1408*1600*2，1） 的 bool 型向量
    # anchors 是 （1600*1408*2，7） 的张量
    # box_preds, cls_preds, dir_cls_preds 是 [B, 200, 176, 14],[B, 200, 176, 2],[B, 200, 176, 4]
    # 每个变量的 C 值都不一样，分别是 7， num_class， 2
    # N 是 batch size
    def get_guided_anchors(self, box_preds, cls_preds, dir_cls_preds, anchors, anchors_mask, gt_bboxes, thr=.1):
        batch_size = box_preds.shape[0]

        # batch_box_preds 是 [N(2), H x W x 2(1600 x 1408 x 2)，7] 的张量
        batch_box_preds = box_preds.view(batch_size, -1, self._box_code_size)
        #  batch_anchors_mask 是 [N(2), H x W x 2(1600*1408*2)] 的张量
        batch_anchors_mask = anchors_mask.view(batch_size, -1)
        # [N(2), H x W x 2(1600*1408*2)]
        batch_cls_preds = cls_preds.view(batch_size, -1)

        batch_box_preds = second_box_decode(batch_box_preds, anchors)

        if self._use_direction_classifier:
            # [N(2), H x W x 2(1600*1408*2), 2]
            batch_dir_preds = dir_cls_preds.view(batch_size, -1, 2)

        new_boxes = []
        if gt_bboxes is None:
            gt_bboxes = [None] * batch_size

        # 一个batch一个batch的处理
        # 首先，把跟网络初次预测的 3d框 跟 Anchor_mask 下的 Anchor比较
        #      把重叠度高的 Anchor 保留下来（mask中为0的框直接去掉，因为为0代表着框里没有点）；
        # 其次，这些 Anchor 对应的网络预测的 3d框 所对应的cls_preds 用 sigmoid 处理一遍，
        #      把高于阈值 thr 的 Anchor 框保留下来
        # 再者，如果是训练阶段，给每一个框一个 3d框 的label真值
        for box_preds, cls_preds, dir_preds, a_mask, gt_boxes in zip(
                batch_box_preds, batch_cls_preds, batch_dir_preds, batch_anchors_mask, gt_bboxes
        ):
            # 根据mask（代表这个anchor里边有没有点云点存在），拿出有效box_preds，cls_preds，dir_preds
            box_preds = box_preds[a_mask]
            cls_preds = cls_preds[a_mask]
            dir_preds = dir_preds[a_mask]

            if self._use_direction_classifier:
                # [N(2), H x W x 2(1600*1408*2), 2]，这里拿出[H x W x 2(1600*1408*2), 2](一个batch)，拿出最后一个维度的最大值来，代表这个框预测出来的最有可能的分类结果(朝向分类结果)
                dir_labels = torch.max(dir_preds, dim=-1)[1] # [H x W x 2(1600*1408*2)]

            if self._use_sigmoid_cls:
                # 进行一下sigmoid，0-1之间，代表某个框是某个分类的可能性大小，每个框对每个分类都有可能性
                total_scores = torch.sigmoid(cls_preds)
            else:
                total_scores = F.softmax(cls_preds, dim=-1)[..., 1:]

            # 去掉维度大小为1的维度
            top_scores = torch.squeeze(total_scores, -1)

            # 把预测可能性高于阈值 thr 的 Anchor 框保留下来
            selected = top_scores > thr

            box_preds = box_preds[selected]

            if self._use_direction_classifier:
                # 根据dir和box_preds,得到框的真实角度
                dir_labels = dir_labels[selected]
                opp_labels = (box_preds[..., -1] > 0) ^ dir_labels.byte()
                box_preds[opp_labels, -1] += np.pi

            # add ground-truth
            if gt_boxes is not None:
                box_preds = torch.cat([gt_boxes, box_preds],0)
            # 保存每一个合格的 Anchor
            new_boxes.append(box_preds)
        return new_boxes    # 注意这里面放的是点云坐标系下的真实距离坐标

最终剩下的box_preds中，经过了层层的筛选，大概意思就是本来是每个体素点上都有2个框，好几万个，经过这么一筛选，得到了有可能是目标种类物体的框，就几十个。这些甚至几乎可以放到图中进行可视化了（还差一步NMS）。

⑤ PSWarpHead.forward

PSWarpHead的前向计算部分就是得到了每个框的得分（可能性）。

def forward(self, x, guided_anchors, is_test=False):
    x = self.convs(x)# 张量尺寸为 [B, 28, 200, 176]，称之为 confidence map
    bbox_scores = list()
    # i代表第几个batch
    for i, ga in enumerate(guided_anchors):
        if len(ga) == 0:
            # 如果这个批次没有 guided anchor，就输出一个零值张量，尺寸跟 x 一样
            bbox_scores.append(torch.empty(0).type_as(x))
            continue
        # 得到guided_anchor的x和y区域
        # xs, ys 分别是矩形区域内的栅格采样点在 x 和 y 轴坐标，是 [4*7, N] 张量
        # N代表这个batch的guided_anchor里共有这么多的框
        (xs, ys) = self.gen_grid_fn(ga[:, [0, 1, 3, 4, 6]])
        # (xs, ys)[28, N]是指，在每个框里面取出来28个点的坐标（BEV）

        # 提取这个batch下的特征图，im 是 [C(28), 200, 176] 的张量
        im = x[i]
        # 在每个 anchor 内的栅格采样点中插值出特征图中的特征向量，是 [C(28), 200, 176]
        out = bilinear_interpolate_torch_gridsample(im, xs, ys) # 28 x 1 x N x 1
        # 以第一个维度做平均，score 是一个标量，返回每个 anchor 中所有采样点对应特征之平均值,28个特征求平均
        # 这样理解：在进行双线性插值时，两个输入分别是[28, 1, 200, 176]和[28, N, 1, 2](详情见bilinear_interpolate_torch_gridsample)
        #          第一个输入就可以看作200 x 176个特征点，每个特征点在周围采样28点中的第一点的特征1 x 1 x200 x 176，特征channel是1
        #          每个点都要采样28个点，一共就是[28, 1, 200, 176]，特征channel是1
        #          在进行双线性插值时，先归一化，最终我要得到的是N x 1的维度，28个采样点视为28种插值方法依次对中心点进行插值，就得到28个N x 1的特征，就是28 x 1 x N x 1，特征channel是1
        #          再对这28种插值特征求平均，得到的就是需要的N x 1的特征，维度[N, 1]
        score = torch.mean(out, 0).view(-1)
        # [B, N] 再loss中，bbox_scores与labels求损失，其实bbox_scores这里就是指插值得到的这个框的分类
        bbox_scores.append(score)

    # B x 200 x 176
    # 如果是模型学习阶段，就只输出 bbox_scores
    if is_test:
        return bbox_scores, guided_anchors
    else:
        return torch.cat(bbox_scores, 0)

PSWarp的方法就是在每个guided_anchors中均匀采样28个点，用28个点插值出每个guided_anchor的得分，28 x N，再平均一下就是每个guided_anchors的最终分类得分。用来插值的特征是conv6，是SpMiddleFHD，也就是Backbone network部分的一个输出。

这里其实只贴出了一小部分的源码，还有大量的调用函数需要阅读才能完全弄懂这个模型，还有三个loss的计算方法没写，有时间再写。整个mmdetection框架包含的内容更多，一个一个看的话太慢，建议还是跟着算法走，了解常用的方法。
SASSD的了解应该到此为止了，中间的启发有很多，尤其是辅助网络，可以适用于很多的模型，PSWarp部分有一定的作用，但感觉作用不是很大。再者就是spconv库的灵活运用，非常适合3D稀疏卷积。
之前注释过源码的SequeezeSeg，Rangenet++，Salsanet等算法是针对语义分割任务的，而且均是基于深度图方法，voxel_base的方法与深度图方法相比较，能更大程度保存点云数据的3D信息，似乎更适用于点云处理，但也不是太过绝对的，当然还有point_based的方法保存的信息更多，处理起来也更难。
最后还是非常感谢这位作者.

基于人工智能的智能视频内容分析系统小彭律师 python
基于人工智能的智能视频内容分析系统系统功能1.视频数据预处理降噪与滤波：去除视频画面中的噪点和干扰画质增强：调整亮度、对比度和色彩平衡关键帧提取：减少数据量，提取关键信息2.目标识别检测基于深度学习模型（YOLO、FasterR-CNN等）识别多种目标类型（人、车辆、物品等）适应不同光照、角度和遮挡情况输出目标位置、类别和置信度3.行为分析研判基于时序模型（LSTM、3D-CNN等）分析目标动作规
4D雷达再上热搜！华为/小米上车高工智能汽车自动驾驶人工智能汽车
智驾能力边界的不断抬升，对于传感器的要求仍在增加。去年至今，不管是端到端，还是大模型，本质上并没有解决摄像头（视觉感知）的物理性能缺陷；激光雷达处于成本下降区间，安全冗余作用明显，但对于恶劣天气、穿透能力以及抗干扰性仍存在劣势。而毫米波雷达“全天候全天时”工作的能力恰恰是最好的补充；同时，随着4D成像雷达技术的成熟，也解决了过去一直存在的目标识别精度有限、分辨率低以及高程探测能力有限等问题。尤其是
PCL 点云OBB包围盒（二）大鱼BIGFISH 点云进阶 C++PCL 点云OBB包围盒
文章目录一、简介二、实现步骤二、实现代码三、实现效果参考资料一、简介包围盒是一种求解离散点集最优包围空间的算法，基本思想是用体积稍大且特性简单的几何体（称为包围盒）来近似地代替复杂的几何对象。（来源于百度）常用的求解包围盒的算法主要有AABB和OOB算法，但AABB算法容易受到物体朝向的影响，产生较大的空隙，因此本文将以OOB算法思想实现最小包围盒的求取。包围盒的应用有很多，如机械上的碰撞测试、物
点云空洞的边界识别提取 pso-bp 神经网络的模型来修复点云空洞附python代码点云-激光雷达-Slam-三维牙齿激光雷达点云 c++为主神经网络人工智能深度学习点云 python
代码是一个Python程序，用于处理3D点云数据，特别是检测和修复点云中的孔洞区域。1.**导入库**：-`numpy`：用于数学运算。-`open3d`：用于处理3D数据和可视化。-`torch`：PyTorch库，用于深度学习。-`torch.nn`和`torch.optim`：PyTorch的神经网络和优化器模块。-`mpl_toolkits.mplot3d`和`matplotlib.pyp
点云边缘提取及可视化 Alan Lan PCL
点云素材：bunny.txt#include#include#includevoidCreateCloudFromTxt(conststd::string&file_path,pcl::PointCloud::Ptrcloud){std::ifstreamfin(file_path.c_str());std::stringline;pcl::PointXYZpoint;while(getline(
Deep Lake：人工智能时代的数据湖开源项目精选人工智能
DeepLake是一款由Activeloop开发的开源深度学习数据湖，旨在解决深度学习数据管理的挑战。它提供高效的多模态数据管理、类似Git的版本控制、强大的查询和可视化功能，并与MLOps生态系统无缝集成，助你轻松驾驭海量数据，加速模型训练！Stars数8,458Forks数652主要特点多模态数据支持：支持图像、视频、音频、文本、点云等各种数据类型。张量存储：以深度学习框架友好的张量格式存储数
C++ 实现 ROS 2 点云欧几里得聚类 c++
C++实现ROS2点云欧几里得聚类在LivoxMid-360采集的sensor_msgs::msg::PointCloud2点云数据上进行欧几里得聚类（EuclideanClusterExtraction），具体流程如下：✅1.订阅PointCloud2并转换为pcl::PointCloud解释：sensor_msgs::msg::PointCloud2是ROS2点云消息格式，PCL不能直接处理。
点云从入门到精通技术详解100篇-基于激光雷达点云的三维目标检测格图素书目标检测人工智能计算机视觉
目录前言图像目标检测算法研究现状点云目标检测算法研究现状基于投影图的方法基于体素的方法基于点云的多模态融合方法2地面点云滤波及神经网络2.1目标检测数据集及采集设备2.1.1KITTI数据集2.1.2车载激光雷达2.2地面点云滤波算法2.2.1RANSAC算法2.2.2CSF算法本文篇幅较长，分为上下两篇，下篇详见基于激光雷达点云的三维目标检测（续）前言近几年来，在计算机视觉领域，利用深度学习卷积
Chebykan wx 文章阅读やっはろ深度学习
文献筛选[1]神经网络：全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]强化学习：一项调查[10]使用PySR和SymbolicRegression.jl的科学可解释机器学习[11]Z.Liu,Y.Wang,S.Vaidya,F
PCL 点云迭代加权最小二乘法拟合平面（抑制噪声）大鱼BIGFISH 点云进阶最小二乘法平面 C++PCL 迭代加权
文章目录一、简介二、实现代码三、实现效果参考资料一、简介受到之前博客的启发（Matlab点云最小二乘法拟合平面（剔除噪声）），我们不仅可以通过剔除一些异常点来拟合更为合适的平面，而且还可以在这个过程中对每个点进行加权来抑制噪声点，双管齐下也可以使得算法更具鲁棒性，并拟合出合适的平面，具体过程如下所示：1、首先使用加权的最小二乘法拟合一个平面系数的初值。2、计算所有有效点到拟合平面的距离did_i
Faster R-CNN原理详解以及Pytorch实现模型训练与推理阿_旭深度学习实战 cnn pytorch 人工智能 Faster RCNN
《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【YOLOv8多目标识别与自动标注软件开发】8.【基于深度学习的行人跌倒检测系统】9.【基于深度学习的PCB板缺陷检测系统
常见的点云数据的获取方式我是瓦力点云深度学习计算机视觉人工智能深度学习开发语言
1.激光雷达（LiDAR）获取方式：激光脉冲测距原理：激光雷达通过发射激光脉冲并接收反射信号来测量物体与传感器之间的距离。计算激光脉冲从发射到返回所需的时间，并将其转换为距离，从而生成三维点云数据。常用设备：车载激光雷达（如Velodyne、Ouster）无人机搭载激光雷达地面激光扫描仪（如Leica、Trimble）2.结构光扫描获取方式：投射光栅图案原理：结构光扫描仪向物体表面投射已知图案的光
PointNet++改进策略：模块改进 | x-Conv | PointCNN，结合局部结构与全局排列提升模型性能我是瓦力 PointNet++改进策略人工智能深度学习计算机视觉
目录前言PointCNN实现细节1.XXX-Conv操作输入输出步骤2.PointCNN网络架构层级卷积分类与分割任务3.数据增强4.效率优化前言这篇论文介绍了一种名为PointCNN的方法，旨在从点云（pointcloud）数据中学习特征。传统卷积神经网络（CNN）在处理规则网格数据（如图像）时非常有效，但由于点云是无序且不规则的，直接在其上应用卷积操作会导致形状信息丢失，并对点的排列顺序敏感。
点云网络的论文理解（三）-点云网络的优化 PointNet++的总体说明 CUHK-SZ-relu PointNet 深度学习
总体说明这个部分是为了让大家可以更好地理解文章1.以前的网络有什么缺点1.首先第一点就是论文当中反复提到的没有局部特征的问题。2.另外一个就是PointNet不具有平移不变性，理解一下这个，PointNet最后是一个maxpooling所以决定是不是选择当前内容的唯一因素是大小，因为除了pooling之外使用的就只有mlp，之前的所有一系列处理其实都可以等价为乘上一个参数，每个的参数可能不同，有正
无人机动态追踪技术难点与距离分析！云卓SKYDROID 无人机人工智能云卓科技智能跟踪吊舱
一、技术难点概述目标识别与跟踪算法的鲁棒性复杂场景适应性**：在动态背景（如人群、森林）或光照变化（逆光、夜间）下，算法需精准区分目标与干扰物。传统计算机视觉方法（如光流法、卡尔曼滤波）易受干扰，需结合深度学习（如YOLO、SiamRPN++）提升抗干扰能力。多目标跟踪与遮挡处理**：目标被遮挡或短暂消失时，需通过轨迹预测或特征匹配恢复跟踪，对算法的记忆能力和实时性要求极高。实时性要求**：算法需
基于PyTorch的深度学习——机器学习1 Wis4e 深度学习机器学习 pytorch
监督学习是最常见的一种机器学习类型，其任务的特点就是给定学习目标，这个学习目标又称标签、标注或实际值等，整个学习过程就是围绕如何使预测与目标更接近而来的。近些年，随着深度学习的发展，分类除传统的二分类、多分类、多标签分类之外，也出现了一些新内容，如目标检测、目标识别、图像分割等监督学习的重要内容半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，同时由部分使用标记
仿射变换矩阵应用点云学习 c++pcl点云处理算法 pcl 点云处理 3D视觉
目录1原理介绍2数学公式推导3计算流程4示例代码仿射变换是计算机视觉、图像处理和点云处理中常用的几何变换之一。它不仅包括旋转和平移，还包括缩放和剪切等线性变换。仿射变换保持了点、直线和平面的平行性。1原理介绍仿射变换在三维空间中通常由一个3×3的线性变换矩阵和一个3×1的平移向量组成。通过使用齐次坐标，我们可以将仿射变换表示为一个4×4矩阵：其中：A是一个3×3的线性变换矩阵（包含旋转、缩放、剪切
PointPillars:数据预处理壹十壹激光雷达感知深度学习人工智能神经网络 python c++
在PointPillars算法中，将点云划分为点柱（Pillars）是核心步骤之一，用于将稀疏点云数据转换为规则的张量表示，方便后续2D卷积操作。以下是点云划分为点柱的具体方法和实现步骤：1.点云划分为网格将3D空间划分为规则的网格，形成柱状区域（Pillars）。操作步骤：定义网格范围和分辨率：确定点云的空间范围，例如：Xmin,Xmax,Ymin,Ymax,Zmin,ZmaxX_{\text{
Velodyne16线激光雷达点云数据中的线束（ring）是如何分布的壹十壹激光雷达编辑器
将sensor_msgs::PointCloud2转为pcl::PointCloud后的点云数据线束（ring）是从下往上进行递增排序。在下图中线束0为深蓝色，线束1是红色，线束2为淡蓝色，线束3为橘黄色，线束4为绿色，线束6为黄色。（一帧激光雷达点云的强度值在RVIZ中显示的颜色与该帧点云数据中激光雷达强度值的最大值有关）
什么是SaaS化部署 LCY133 阿里云
SaaS化部署是将传统软件转变为“软件即服务”（SoftwareasaService，SaaS）模式的过程。其核心是通过云端托管、多租户架构和按需订阅的方式，让用户通过互联网直接使用软件功能，无需自行安装和维护本地服务器。以下是详细解析：核心特点云端托管•软件部署在云端服务器（如AWS、阿里云），用户通过浏览器或API访问。•优势：无需本地硬件投入，降低运维成本。多租户架构（Multi-tenan
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
PointNet、PointNet++ 基于深度学习的3D点云分类和分割一颗小树x 人工智能感知算法自动驾驶深度学习机器学习 3D点云 PointNet
前言PointNet是直接对点云进行处理的，它对输入点云中的每一个点，学习其对应的空间编码，之后再利用所有点的特征得到一个全局的点云特征。Pointnet提取的全局特征能够很好地完成分类任务，但局部特征提取能力较差，这使得它很难对复杂场景进行分析。PointNet++核心是提出了多层次特征提取结构，有效提取局部特征提取，和全局特征。目录一、PointNet1.1PointNet思路流程1.2Poi
计算机视觉｜3D 点云处理黑科技：PointNet++ 原理剖析与实战指南紫雾凌寒 AI 炼金厂 #深度学习 #计算机视觉深度学习计算机视觉 3d cnn PointNet++3d云 3d云数据
一、引言在当今数字化与智能化快速发展的时代，3D点云处理技术在多个前沿领域中发挥着重要作用。特别是在自动驾驶和机器人视觉等领域，这项技术已成为实现智能化的关键支撑。以自动驾驶为例，车辆需要实时感知周围复杂的环境信息，包括行人、车辆、交通标志和路况等。3D点云数据能够提供高精度的三维空间信息，使自动驾驶车辆更准确地识别和定位周围物体，从而做出安全、合理的行驶决策。在城市街道上，自动驾驶车辆通过3D点
点云数据处理--splat转3dtiles gaohualan 3d python 数据结构算法
文章目录处理流程简介核心功能实现数据读取与格式转换定义Point类数据读取splat转gltf点云数据分割定义四叉树递归生成3dtiles瓦片生成tileset.json递归生成tileset.json计算box主函数调用渲染下一步工作性能优化渲染效果调优其他源码地址：github处理流程简介基本流程：读取点云数据。制作tile构建四叉树分割点云将点云转换为glTF格式。生成配置文件tileset
机器视觉3D上下料技术上的分析视觉人机器视觉杂说 3d c#人工智能 AI编程 opencv 开发语言
机器视觉3D上下料是工业自动化领域的重要应用，通过3D视觉技术引导机器人完成物料的精准抓取、定位和放置，尤其适用于复杂、无序或高精度的场景。以下是其核心内容梳理：核心组成3D视觉系统：硬件：常用3D相机（结构光、ToF、双目视觉等），如Kinect、IntelRealSense、工业级品牌（Keyence、康耐视，苏州大视通智能科技有限公司）。软件：点云处理（如PCL库）、三维匹配算法（ICP、深
【基于国产RK3588-NPU的yolov5的AI智能盒子】贝壳里的沙人工智能
基于国产RK3588-NPU的yolov5的AI智能盒子背景识别效果区别Python版本目标识别实现cmake（c/c++）版本实现背景前面写了一篇关于基YOLOV5实现的AI智能盒子的实现方案，这篇文章着重讲了如何在NVIDIA-英伟达芯片上如何实现目标识别的过程(可能已经被官方屏蔽了)。但是因为中美芯片限制问题，很多朋友联系到我，跟我提了是否可以基于国产芯片来迁移yolov5框架平台？国产芯片
Python库 - Mayavi 司南锤 PYTHON库 python 开发语言
Mayavi是一个用于科学数据可视化的Python库，特别适用于三维数据的可视化。基于VTK（VisualizationToolkit）库，提供了简单易用的接口来创建复杂的三维图形。Mayavi可以用于绘制各种类型的三维图形，如点云、曲面、体积数据等，并且支持交互式操作。文章目录安装Mayavi基本概念基本用法1.创建一个简单的三维图形2.绘制点云3.绘制等值面4.交互式操作高级用法1.使用模块和
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
点云从入门到精通技术详解100篇-基于背包激光雷达点云在城市公园单木参数提取中的应用格图素书人工智能
目录前言国内外发展现状（DevelopmentStatusatHomeandAbroad）背包LiDAR技术及其在林业调查中的应用进展单木胸径提取算法研究现状单木树高提取算法研究现状2背包LiDAR城市公园树木数据采集及预处理2.1测区概况（OverviewTestArea）2.2背包LiDAR数据采集与处理（BackpackLiDARDataAcquisitionand2.2.1背包激光雷达系统
PCL 生成任意长度的圆柱点云点云侠' 点云学习矩阵线性代数算法开发语言人工智能
目录一、概述二、代码实现一、概述二、代码实现#include#include
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb