NNNNNathan

PV-RCNN论文和逐代码解析（二）

第一阶段：

1、MeanVFE （voxel特征编码）

2、VoxelBackBone8x（3D CNN 提取voxel特征）

3、HeightCompression（高度方向Z轴堆叠）

5、BaseBEVBackbone（SECOND中的RPN层）

6、AnchorHeadSingle（anchor分类和回归头）

4、VoxelSetAbstraction（VSA模块，对不同voxel特征层完成SA）

第二阶段：

7、PointHeadSimple Predicted Keypoint Weighting （PKW前背景权重加权）

8、PVRCNNHead（二阶proposal精调）

在PV-RCNN论文和逐代码解析（一）中，已经实现了上述模块的黑色部分，其与SECOND网络的实现大致相同，可以看我上篇文章：

PV-RCNN论文和逐代码解析（一）_NNNNNathan的博客-CSDN博客1、前言当前的点云3D检测主要分为两大类，第一类为grid-based的方法，第二类为point-based的方法。grid-based的方法将不规则的点云数据转换成规则的3D voxels （VoxelNet， SECOND , Fast PointRCNN， Part A^2 Net）或者转化成 2D的BEV特征图（PIXOR, HDNet，PointPillars），这种方法可以将不规则的数据转换后使用3D或者2D的CNN来高效的进行特征提取。...https://blog.csdn.net/qq_41366026/article/details/123349889?spm=1001.2014.3001.5502

其中第四点（VSA模块）与第一阶段的区域提议是分开的两条计算线；先完成对voxel的Set Abstraction操作后，再在第二阶段的box refinement中融合不同的特征来更好的定位bbox。

4、VoxelSetAbstraction

PV-RCNN在3D卷积的多层的voxel特整层上对voxel进行set abstraction操作,用一小部分关键点来编码整个场景，用于后续的proposal refinement network。

代码都在：pcdet/models/backbones_3d/pfe/voxel_set_abstraction.py

4.1 最远点采样FPS

为了让采样的一小部分关键点均匀分布在稀疏的点云中，首先对原始的点云数据进行了最远点采样（Furthest Point Sampling），其中KITTI数据集采样2048个关键点，Waymo数据集采样4096个关键点。

    def get_sampled_points(self, batch_dict):
        """
        Args:
            batch_dict:

        Returns:
            keypoints: (N1 + N2 + ..., 4), where 4 indicates [bs_idx, x, y, z]
        """
        batch_size = batch_dict['batch_size']
        if self.model_cfg.POINT_SOURCE == 'raw_points':
            # 取出所有原始点的xyz数据, shape (N_raw_point, 3)   batch_id, x, y, z, r
            src_points = batch_dict['points'][:, 1:4]
            # 取出所有点对应的batch_id, shape (N_raw_point,)
            batch_indices = batch_dict['points'][:, 0].long()
        elif self.model_cfg.POINT_SOURCE == 'voxel_centers':
            src_points = common_utils.get_voxel_centers(
                batch_dict['voxel_coords'][:, 1:4],
                downsample_times=1,
                voxel_size=self.voxel_size,
                point_cloud_range=self.point_cloud_range
            )
            batch_indices = batch_dict['voxel_coords'][:, 0].long()
        else:
            raise NotImplementedError
        # 创建用于存储关键点的列表
        keypoints_list = []
        # 逐帧点云获取关键点
        for bs_idx in range(batch_size):
            # 得到属于当前帧的mask
            bs_mask = (batch_indices == bs_idx)
            # 索引出所有属于当前帧的点 shape (1, num_of_point, 3)
            sampled_points = src_points[bs_mask].unsqueeze(dim=0)  # (1, N, 3)
            # 根据采样的模式，此处是最远点采样，
            # 在KITTI中关键点个数为2048，在Waymo中关键点个数为4096
            # cur_pt_idxs shape (1, 2048) 为关键点在原始点云中的索引
            if self.model_cfg.SAMPLE_METHOD == 'FPS':
                cur_pt_idxs = pointnet2_stack_utils.farthest_point_sample(
                    sampled_points[:, :, 0:3].contiguous(), self.model_cfg.NUM_KEYPOINTS
                ).long()
                # 如果采样点数小于设置的采样点数，则重复采样至设置采样点数
                if sampled_points.shape[1] < self.model_cfg.NUM_KEYPOINTS:
                    times = int(self.model_cfg.NUM_KEYPOINTS / sampled_points.shape[1]) + 1
                    non_empty = cur_pt_idxs[0, :sampled_points.shape[1]]
                    cur_pt_idxs[0] = non_empty.repeat(times)[:self.model_cfg.NUM_KEYPOINTS]
                # 根据cur_pt_idxs取出当前帧的所有关键点 shape (1, 2048, 3)
                keypoints = sampled_points[0][cur_pt_idxs[0]].unsqueeze(dim=0)


            elif self.model_cfg.SAMPLE_METHOD == 'SPC':
                cur_keypoints = self.sectorized_proposal_centric_sampling(
                    roi_boxes=batch_dict['rois'][bs_idx], points=sampled_points[0]
                )
                bs_idxs = cur_keypoints.new_ones(cur_keypoints.shape[0]) * bs_idx
                keypoints = torch.cat((bs_idxs[:, None], cur_keypoints), dim=1)
            else:
                raise NotImplementedError
            # 将当前帧中选取的关键点加入keypoints_list列表
            keypoints_list.append(keypoints)
        # 在第0维度将所有关键点进行拼接 （2048*batch_size, 3）
        keypoints = torch.cat(keypoints_list, dim=0)  # (B, M, 3) or (N1 + N2 + ..., 4)
        # 将keypoints数据中该点所属帧 (batch_idx, x, y, z)
        if len(keypoints.shape) == 3:
            batch_idx = torch.arange(batch_size,
                                     device=keypoints.device).view(-1, 1).repeat(1, keypoints.shape[1]).view(-1, 1)
            keypoints = torch.cat((batch_idx.float(), keypoints.view(-1, 3)), dim=1)
        return keypoints

得到选取的关键点 shape : (batch*2048， 4) , 4-->batch_idx, x, y, z

4.2 3D CNN VSA

PV-RCNN中使用了PointNet++中提出的SA操作来对不同尺度上的voxel特征进行聚合。

在VoxelBackBone8x中，分别得到了1x，2x， 4x， 8x的voxel-wise feature volumes，VSA操作会分别在这些尺度的voxel-wise feature volumes上进行，得到4个尺度的voxel编码特征。如下图所示

VSA的实现与PointNet++的SA操作相同，只不过将操作对象从原始点云中的点换成了voxel-wise feature。

公式表述如下：

为经过3D CNN的第K层的voxel特征的集合

为voxel在第K层中的3D坐标，Nk是第K层中非空的voxel

为每个voxel 特征在对应半径内关键点的相对位置信息

对每一个关键点，首先确定他在第K层上，半径为R_k邻域内的非空voxel，将这些非空voxel组成voxel-wsie的特征向量集合；然后将不同尺度上相同关键点获取的voxel-wsie的特征向量拼接在一起，并使用一个简单的PointNet网络来融合该关键点不同尺度的特征，公式如下：

其中M（·）代表在k层中固定半径内voxel 特征集合中的随机采样操作，在实现中，每个集合中最大采样16或32个voxel-wise feature，节省计算资源；G（·）代表多层感知网络（MLP），来编码voxel-wise的特征和相对位置。max（·）操作取每个voxel set中特征最大的voxel-wise feature。

同时，每一层的R_k设置如下（单位:米），用于聚合不同的感受野信息：

1x : [0.4, 0.8] ，采样数[16, 16]，MLP维度[[16, 16], [16, 16]]

2x : [0.8, 1.2]，采样数[16, 32]，MLP维度[[32, 32], [32, 32]]

3x : [1.2, 2.4]，采样数[16, 32]，MLP维度[[64, 64]], [64, 64]]

4x : [2.4, 4.8]，采样数[16, 32]，MLP维度[[64, 64], [64, 64]]

得到的特征为：

最终学习到的特征结合了基于3DCNN学习到的特征和基于PointNet从voxel-wise SA中学习到的特征。

4.3 Extended VSA

在对每层3D卷积的输出进行VSA操作后，为了能够是学习到的特征更加丰富，作者扩展了VSA模块；在原来VSA模块的特征上加上了来自原点的SA特征和来自堆叠后BEV视角的双线性插值特征，如下图所示

最终的公式如下：

加入Extended VSA的好处：

1、来自原点的SA操作可以弥补因为voxelization导致的量化损失

2、来自BEV视角的插值SA操作拥有更大的Z轴（高度）感受野

最终得到的特征具有很强的保存3D场景结构信息的能力：

[
(2048 * batch, 256) BEV视角下点特征数据
(2048 * batch, 32)  原始点云下特征数据
(2048 * batch, 32)  x_conv1 第一次稀疏卷积后特征数据
(2048 * batch, 64)  x_conv2 第二次稀疏卷积后特征数据
(2048 * batch, 128) x_conv3 第三次稀疏卷积后特征数据
(2048 * batch, 128) x_conv4 第四次稀疏卷积后特征数据
]

G(·)网络结构：

Sequential(
  (0): Linear(in_features=640, out_features=128, bias=False)
  (1): BatchNorm1d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (2): ReLU()
)

最终得到的关键点编码特征维度（batch*2048， 128）。

代码都在这个文件：pcdet/models/backbones_3d/pfe/voxel_set_abstraction.py

    def forward(self, batch_dict):
        """
        Args:
            batch_dict:
                batch_size:
                keypoints: (B, num_keypoints, 3)
                multi_scale_3d_features: {
                        'x_conv4': ...
                    }
                points: optional (N, 1 + 3 + C) [bs_idx, x, y, z, ...]
                spatial_features: optional
                spatial_features_stride: optional

        Returns:
            point_features: (N, C)
            point_coords: (N, 4)

        """
        """
        ===============================
        通过最远点采样，获取每一帧点云的关键点
        ===============================
        """
        keypoints = self.get_sampled_points(batch_dict)

        """
        ============================
        Extended VSA中对BEV插值SA操作
        ============================
        """
        point_features_list = []
        if 'bev' in self.model_cfg.FEATURES_SOURCE:
            # 通过对BEV的特征进行插值获取关键点的特征数据
            point_bev_features = self.interpolate_from_bev_features(
                # 所有的关键点
                keypoints,
                # 将高度进行堆叠后的BEV特征图
                batch_dict['spatial_features'],
                # batch size
                batch_dict['batch_size'],
                # 高度堆叠后的BEV特征图的下采样倍数，默认是8倍
                bev_stride=batch_dict['spatial_features_stride']
            )
            # 将插值得到的关键点特征存入列表
            point_features_list.append(point_bev_features)
        # batch_size
        batch_size = batch_dict['batch_size']
        # 取出所有关键点的xyz坐标
        new_xyz = keypoints[:, 1:4].contiguous()
        # 存储每帧点云关键点的个数
        new_xyz_batch_cnt = new_xyz.new_zeros(batch_size).int()
        # 获取batch中每帧点云中关键点的个数
        for k in range(batch_size):
            new_xyz_batch_cnt[k] = (keypoints[:, 0] == k).sum()

        """
        所有SA层的配置中MLPS为1*1的卷积，DOWNSAMPLE_FACTOR该层对应的下采样倍数
        
        """

        """
        ============================
        Extended VSA中对原始点云的操作
        ============================
        POOL_RADIUS为该层对应的采样半径，
        NSAMPLE为半径内最大的采样点数
        SA_LAYER:
            raw_points:
                MLPS: [[16, 16], [16, 16]]
                POOL_RADIUS: [0.4, 0.8]
                NSAMPLE: [16, 16]
        ============================
        """
        if 'raw_points' in self.model_cfg.FEATURES_SOURCE:
            # 得到所有一批数据中所有原始点云数据 shape （N, 5） batch_id, x, y, z, r
            raw_points = batch_dict['points']
            # pooled_features: (2048 * batch, 32)
            pooled_features = self.aggregate_keypoint_features_from_one_source(
                # batch size
                batch_size=batch_size,
                # 聚合函数，这里采用PointNet++的Set Abstraction
                aggregate_func=self.SA_rawpoints,
                # 原始点的xyz数据
                xyz=raw_points[:, 1:4],
                # 每个原始点云的 reflect intensity
                xyz_features=raw_points[:, 4:].contiguous() if raw_points.shape[1] > 4 else None,
                # 每个点所在batch中的索引
                xyz_bs_idxs=raw_points[:, 0],
                # 关键点的xyz shape : (2048, 3)
                new_xyz=new_xyz,
                # 一批数据中关键点的个数
                new_xyz_batch_cnt=new_xyz_batch_cnt,
                # False
                filter_neighbors_with_roi=self.model_cfg.SA_LAYER['raw_points'].get('FILTER_NEIGHBOR_WITH_ROI', False),
                # None
                radius_of_neighbor=self.model_cfg.SA_LAYER['raw_points'].get('RADIUS_OF_NEIGHBOR_WITH_ROI', None),
                # None
                rois=batch_dict.get('rois', None)
            )

            point_features_list.append(pooled_features)

        """
        ====================================
        VSA中对不同尺度3D CNN的voxel-wise的操作
        1x, 2x, 4x, 8x
        ====================================
        POOL_RADIUS为该层对应的采样半径，
        NSAMPLE为半径内最大的采样点数
        x_conv1:
                DOWNSAMPLE_FACTOR: 1
                MLPS: [[16, 16], [16, 16]]
                POOL_RADIUS: [0.4, 0.8]
                NSAMPLE: [16, 16]
        x_conv2:
            DOWNSAMPLE_FACTOR: 2
            MLPS: [[32, 32], [32, 32]]
            POOL_RADIUS: [0.8, 1.2]
            NSAMPLE: [16, 32]
        x_conv3:
            DOWNSAMPLE_FACTOR: 4
            MLPS: [[64, 64], [64, 64]]
            POOL_RADIUS: [1.2, 2.4]
            NSAMPLE: [16, 32]
        x_conv4:
            DOWNSAMPLE_FACTOR: 8
            MLPS: [[64, 64], [64, 64]]
            POOL_RADIUS: [2.4, 4.8]
            NSAMPLE: [16, 32]
        =====================================
        """

        for k, src_name in enumerate(self.SA_layer_names):
            # 获取非空voxel的xyz的index shape : (16000*batch, 4)
            # 16000为训练中选取的最大非空voxel数
            # 4-->(batch_idx, z, y, x)
            cur_coords = batch_dict['multi_scale_3d_features'][src_name].indices
            # 获取非空voexel的特征
            cur_features = batch_dict['multi_scale_3d_features'][src_name].features.contiguous()
            # 获取每个voxel在点云坐标系中xyz的中心点坐标 (16000*batch, 3)
            xyz = common_utils.get_voxel_centers(

                cur_coords[:, 1:4], downsample_times=self.downsample_times_map[src_name],
                voxel_size=self.voxel_size, point_cloud_range=self.point_cloud_range
            )
            # VSA操作
            pooled_features = self.aggregate_keypoint_features_from_one_source(
                # batch_size
                batch_size=batch_size,
                # 第K层上的SA网络
                aggregate_func=self.SA_layers[k],
                # 所有voxel在点云坐标系下中心点的坐标
                xyz=xyz.contiguous(),
                # 所有voxel在第K层的特征
                xyz_features=cur_features,
                # 所有点在batch中的mask
                xyz_bs_idxs=cur_coords[:, 0],
                # 关键点坐标 (2048, 3)
                new_xyz=new_xyz,
                # 关键点个数
                new_xyz_batch_cnt=new_xyz_batch_cnt,
                # False
                filter_neighbors_with_roi=self.model_cfg.SA_LAYER[src_name].get('FILTER_NEIGHBOR_WITH_ROI', False),
                # None
                radius_of_neighbor=self.model_cfg.SA_LAYER[src_name].get('RADIUS_OF_NEIGHBOR_WITH_ROI', None),
                # None
                rois=batch_dict.get('rois', None)
            )
            # 得到的pooled_features 维度为 (2048 * batch, C)
            point_features_list.append(pooled_features)

        """
        [
        (2048 * batch, 256) BEV视角下点特征数据
        (2048 * batch, 32)  原始点云下特征数据
        (2048 * batch, 32)  x_conv1 第一次稀疏卷积后特征数据
        (2048 * batch, 64)  x_conv2 第二次稀疏卷积后特征数据
        (2048 * batch, 128) x_conv3 第三次稀疏卷积后特征数据
        (2048 * batch, 128) x_conv4 第四次稀疏卷积后特征数据
        ]
        """
        # point_features (2048 * batch, 640)
        point_features = torch.cat(point_features_list, dim=-1)

        batch_dict['point_features_before_fusion'] = point_features.view(-1, point_features.shape[-1])
        """
        将不同尺度拼接的特征使用一个简单的MLP网络对处在不同尺度的特征进行聚合
        vsa_point_feature_fusion
        Sequential(
          (0): Linear(in_features=640, out_features=128, bias=False)
          (1): BatchNorm1d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (2): ReLU()
        )
        """
        # point_features (2048 * batch, 640)-->(2048 * batch, 128)
        point_features = self.vsa_point_feature_fusion(point_features.view(-1, point_features.shape[-1]))
        # (batch*2048, C)
        batch_dict['point_features'] = point_features
        # (batch*2048, 4)    4-->(batch_id, x, y, z)
        batch_dict['point_coords'] = keypoints
        return batch_dict

BEV视角插值代码：

# 获取从BEV视角通过插值得到的关键点特征
    def interpolate_from_bev_features(self, keypoints, bev_features, batch_size, bev_stride):
        """
        Args:
            keypoints: (N1 + N2 + ..., 4)
            bev_features: (B, C, H, W)
            batch_size:
            bev_stride:

        Returns:
            point_bev_features: (N1 + N2 + ..., C)
        """
        # 得到该关键点对应的voxel的x坐标 shape : (2048*batch,)
        x_idxs = (keypoints[:, 1] - self.point_cloud_range[0]) / self.voxel_size[0]
        # 得到该关键点对应的voxel的y坐标 shape : (2048*batch,)
        y_idxs = (keypoints[:, 2] - self.point_cloud_range[1]) / self.voxel_size[1]
        # x坐标除下采样倍数 shape : (2048*batch,)
        x_idxs = x_idxs / bev_stride
        # y坐标除下采样倍数 shape : (2048*batch,)
        y_idxs = y_idxs / bev_stride
        # 结果列表
        point_bev_features_list = []
        for k in range(batch_size):  # 逐帧进行插值操作
            bs_mask = (keypoints[:, 0] == k)  # 当前帧点云的mask

            cur_x_idxs = x_idxs[bs_mask]  # 取出属于当前帧关键点的x坐标
            cur_y_idxs = y_idxs[bs_mask]  # 取出属于当前帧关键点的y坐标
            # 对当前帧的BEV特征图进行维度转换 (C, 200, 176)  --> (200, 176, C)
            cur_bev_features = bev_features[k].permute(1, 2, 0)
            # 通过双线性插值获得关键点的特征  shape (2048, C)
            point_bev_features = bilinear_interpolate_torch(cur_bev_features, cur_x_idxs, cur_y_idxs)
            # 结果放入列表中
            point_bev_features_list.append(point_bev_features)
        # 将通过插值得到的关键点特征在第0维度进行拼接 （2048*batch, C）
        point_bev_features = torch.cat(point_bev_features_list, dim=0)  # (N1 + N2 + ..., C)
        return point_bev_features

5、PointHeadSimple Predicted Keypoint Weighting

在将不同尺度的场景都编码到N个关键点后，将会在后面的精调阶段使用到这些关键点的特征，但是这些被最远点采样（FPS）算法选取出来的关键点是均匀的分布在点云中的，这就意味着有一部分的关键点并没有落在GT_box内，他们就代表了背景；作者在这里认为，属于前景的关键定应该主导box的精调，所以作者在这里加入了PKW模块用于预测改关键点属于前景点还是背景点。

PKW模块用于调整前背景点的权重方式来实现，其中对于前背景点的分割GT值，由于在自动驾驶场景的数据集中所有的3D物体都是独立的，不会像图片中物体overlap的情况，可以直接判断一个点是否在3Dbox内即可得到前背景的类别，权重调整公式如下：

A（·）是一个三层的多层感知机，最终接上一个sigmoid函数来判断该点的属于前景的置信度。

由于3D场景中前背景点的数量过于不均衡，PKW模块使用Focal Loss进行训练，Focal Loss的alpha，gamma参数设置与RetinaNet一直，alpha为0.25，gamma为2

注：对于点前背景分割，PV-RCNN与PointRCNN中设置一直，对每个GTBox扩大0.2m，判断是否有关键点落在GTBox边沿，并将这个处于边沿的GTBox点不进行loss计算。

5.1 PKW模块

代码在：pcdet/models/dense_heads/point_head_simple.py

    def forward(self, batch_dict):
        """
        Args:
            batch_dict:
                batch_size:
                point_features: (N1 + N2 + N3 + ..., C) or (B, N, C)
                point_features_before_fusion: (N1 + N2 + N3 + ..., C)
                point_coords: (N1 + N2 + N3 + ..., 4) [bs_idx, x, y, z]
                point_labels (optional): (N1 + N2 + N3 + ...)
                gt_boxes (optional): (B, M, 8)
        Returns:
            batch_dict:
                point_cls_scores: (N1 + N2 + N3 + ..., 1)
                point_part_offset: (N1 + N2 + N3 + ..., 3)
        """
        # 这里取出vsa_point_feature_fusion之前的特征 shape : (batch * 2048, 640)
        if self.model_cfg.get('USE_POINT_FEATURES_BEFORE_FUSION', False):
            point_features = batch_dict['point_features_before_fusion']
        else:
            point_features = batch_dict['point_features']

        """
        前背景分类的MLP设置
            Sequential(
            (0): Linear(in_features=640, out_features=256, bias=False)
            (1): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (2): ReLU()
            (3): Linear(in_features=256, out_features=256, bias=False)
            (4): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (5): ReLU()
            (6): Linear(in_features=256, out_features=1, bias=True)
            )
        """
        # point_cls_preds  shape : (batch * 2048, 1)
        point_cls_preds = self.cls_layers(point_features)

        ret_dict = {
            'point_cls_preds': point_cls_preds,
        }
        # 将预测结果用sigmoid函数映射到0-1之间，得到前背景分类概率
        # PKW模块的权重调整会在PVRCNNHead模块中进行,将预测结果放入batch_dict
        point_cls_scores = torch.sigmoid(point_cls_preds)
        batch_dict['point_cls_scores'], _ = point_cls_scores.max(dim=-1)
        # 训练模型下，需要对关键点预测进行target assignment, 前景为1, 背景为0
        if self.training:
            targets_dict = self.assign_targets(batch_dict)
            # 存储所有关键点属于前背景的mask
            ret_dict['point_cls_labels'] = targets_dict['point_cls_labels']
        self.forward_ret_dict = ret_dict
        return batch_dict

5.2 关键点的target assignment

代码在：pcdet/models/dense_heads/point_head_template.py

    def assign_stack_targets(self, points, gt_boxes, extend_gt_boxes=None,
                             ret_box_labels=False, ret_part_labels=False,
                             set_ignore_flag=True, use_ball_constraint=False, central_radius=2.0):
        """
        Args:
            points: (N1 + N2 + N3 + ..., 4) [bs_idx, x, y, z]
            gt_boxes: (B, M, 8)
            extend_gt_boxes: [B, M, 8]
            ret_box_labels: True
            ret_part_labels: Fasle
            set_ignore_flag: True
            use_ball_constraint: False
            central_radius:

        Returns:
            point_cls_labels: (N1 + N2 + N3 + ...), long type, 0:background, -1:ignored
            point_box_labels: (N1 + N2 + N3 + ..., code_size)

        """
        assert len(points.shape) == 2 and points.shape[1] == 4, 'points.shape=%s' % str(points.shape)
        assert len(gt_boxes.shape) == 3 and gt_boxes.shape[2] == 8, 'gt_boxes.shape=%s' % str(gt_boxes.shape)
        assert extend_gt_boxes is None or len(extend_gt_boxes.shape) == 3 and extend_gt_boxes.shape[2] == 8, \
            'extend_gt_boxes.shape=%s' % str(extend_gt_boxes.shape)
        assert set_ignore_flag != use_ball_constraint, 'Choose one only!'
        # 得到一批数据中batch_size的大小，以方便逐帧完成target assign
        batch_size = gt_boxes.shape[0]
        # 得到一批数据中所有点云的batch_id
        bs_idx = points[:, 0]
        # 初始化每个点云的类别，默认全0属于背景； shape （batch * 16384）
        point_cls_labels = points.new_zeros(points.shape[0]).long()
        # 初始化每个点云预测box的参数，默认全0； shape （batch * 16384, 8）
        point_box_labels = gt_boxes.new_zeros((points.shape[0], 8)) if ret_box_labels else None
        # None
        point_part_labels = gt_boxes.new_zeros((points.shape[0], 3)) if ret_part_labels else None
        # 逐帧点云数据进行处理
        for k in range(batch_size):
            # 得到一个mask，用于取出一批数据中属于当前帧的点
            bs_mask = (bs_idx == k)
            # 取出对应的点shape (16384, 3), PV-RCNN关键点(2048, 3)
            points_single = points[bs_mask][:, 1:4]
            # 初始化当前帧中点的类别，默认为0背景， (16384, ), PV-RCNN关键点(2048,)
            point_cls_labels_single = point_cls_labels.new_zeros(bs_mask.sum())
            """PV-RCNN中点的数量是2048或者4096
            points_single : (16384, 3) --> (1, 16384, 3)
            gt_boxes : (batch, num_of_GTs, 8) --> (当前帧的GT, num_of_GTs, 8)
            box_idxs_of_pts : (16384, )，其中点云分割中背景为-1, 前景点指向GT中的索引，
            例如[-1,-1,3,20,-1,0]，其中，3,20,0分别指向第3个、第20个和第0个GT
            """
            # 计算哪些中点在GTbox, box_idxs_of_pts
            box_idxs_of_pts = roiaware_pool3d_utils.points_in_boxes_gpu(
                points_single.unsqueeze(dim=0), gt_boxes[k:k + 1, :, 0:7].contiguous()
            ).long().squeeze(dim=0)
            # mask 表明该帧中的哪些点属于前景点，哪些点属于背景点;得到属于前景点的mask
            box_fg_flag = (box_idxs_of_pts >= 0)
            # 是否忽略在enlarge box中的点 True
            if set_ignore_flag:
                # 计算哪些点在GTbox_enlarge中
                extend_box_idxs_of_pts = roiaware_pool3d_utils.points_in_boxes_gpu(
                    points_single.unsqueeze(dim=0), extend_gt_boxes[k:k + 1, :, 0:7].contiguous()
                ).long().squeeze(dim=0)
                # GTBox内的点
                fg_flag = box_fg_flag
                # ^为异或运算符，不同为真，相同为假，这样就可以得到哪些点在GT enlarge中了
                ignore_flag = fg_flag ^ (extend_box_idxs_of_pts >= 0)
                # 将这些真实GT边上的点设置为-1      loss计算时，不考虑这类点
                point_cls_labels_single[ignore_flag] = -1

            elif use_ball_constraint:
                box_centers = gt_boxes[k][box_idxs_of_pts][:, 0:3].clone()
                box_centers[:, 2] += gt_boxes[k][box_idxs_of_pts][:, 5] / 2
                ball_flag = ((box_centers - points_single).norm(dim=1) < central_radius)
                fg_flag = box_fg_flag & ball_flag
            else:
                raise NotImplementedError

            # [box_idxs_of_pts[fg_flag]]取出所有点中属于前景的点，
            # 并为这些点分配对应的GT_box shape (num_of_gt_match_by_points, 8)
            # 8个维度分别是x, y, z, l, w, h, heading, class_id
            gt_box_of_fg_points = gt_boxes[k][box_idxs_of_pts[fg_flag]]
            # 将类别信息赋值给对应的前景点 (16384, )
            point_cls_labels_single[fg_flag] = 1 if self.num_class == 1 else gt_box_of_fg_points[:, -1].long()
            # 赋值点的类别GT结果到的batch中对应的帧位置
            point_cls_labels[bs_mask] = point_cls_labels_single
            # 如果该帧中GT的前景点的数量大于0且需要预测每个点的box PV-RCNN中不需要，PointRCNN中需要
            if ret_box_labels and gt_box_of_fg_points.shape[0] > 0:
                # 初始化该帧中box的8个回归参数，并置0
                # 此处编码为(Δx, Δy, Δz, dx, dy, dz, cos(heading), sin(heading)) 8个
                point_box_labels_single = point_box_labels.new_zeros((bs_mask.sum(), 8))
                # 对属于前景点的box进行编码 得到的是 （num_of_fg_points, 8）
                # 其中8是(Δx, Δy, Δz, dx, dy, dz, cos(heading), sin(heading))
                fg_point_box_labels = self.box_coder.encode_torch(
                    gt_boxes=gt_box_of_fg_points[:, :-1], points=points_single[fg_flag],
                    gt_classes=gt_box_of_fg_points[:, -1].long()
                )
                # 将每个前景点的box信息赋值到该帧中box参数预测中
                # fg_point_box_labels: (num_of_GT_matched_by_point,8)
                # point_box_labels_single: (16384, 8)
                point_box_labels_single[fg_flag] = fg_point_box_labels
                # 赋值点的回归编码结果到的batch中对应的帧位置
                point_box_labels[bs_mask] = point_box_labels_single

            # False
            if ret_part_labels:
                point_part_labels_single = point_part_labels.new_zeros((bs_mask.sum(), 3))
                transformed_points = points_single[fg_flag] - gt_box_of_fg_points[:, 0:3]
                transformed_points = common_utils.rotate_points_along_z(
                    transformed_points.view(-1, 1, 3), -gt_box_of_fg_points[:, 6]
                ).view(-1, 3)
                offset = torch.tensor([0.5, 0.5, 0.5]).view(1, 3).type_as(transformed_points)
                point_part_labels_single[fg_flag] = (transformed_points / gt_box_of_fg_points[:, 3:6]) + offset
                point_part_labels[bs_mask] = point_part_labels_single

        # 将每个点的类别、每个点对应box的7个回归参数放入字典中
        targets_dict = {
            # 将一个batch中所有点的GT类别结果放入字典中 shape (batch * 16384)
            'point_cls_labels': point_cls_labels,
            # 将一个batch中所有点的GT_box编码结果放入字典中 shape (batch * 16384) shape (batch * 16384, 8)
            'point_box_labels': point_box_labels,
            # None
            'point_part_labels': point_part_labels
        }
        return targets_dict

6、PVRCNNHead（二阶proposal精调）

在第VSA模块中，已经一帧点云场景编码到一小部分拥有多尺度语义信息的关键点特征中，同时，也由BEV视角下生成了很多3D的proposal（ROI）；在第二阶段的refinement过程中，需要将来自ROI的特征融合关键点的特征，提升最终box预测的准确度和泛化性。

作者在这里提出了基于SA操作的keypoint-to-grid ROI feature abstraction，用于多尺度的ROI特征的编码。

对于一个3D ROI，

待续

你可能感兴趣的:(点云检测,人工智能,计算机视觉,自动驾驶,目标检测,深度学习)

大盘依旧低迷，二胎和自动驾驶活跃虚拟大师
本周来看，大盘依然不温不火，呈现箱形震荡。很多人都在打赌，沪指在上周调整之后有望突破新高，其实不然，目前的沪指基本上很难回复到以前的高位，甚至不会有向上突破的趋势，而且目前大盘的题材不鲜明，权重股没有扛起反攻的大旗。近期来看，二胎在本周表现强势，掀起几度涨停狂潮，金发拉比10天9板，成为目前的市场总龙头（目前已经停牌核查）。与之跟随的是贝因美，高乐股份，安奈儿等。目前我国的生育大家都心知肚明，所以
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
物联网系统中-告警配置功能的定义小赖同学啊 test Technology Precious 物联网 struts servlet
物联网系统中的告警配置功能是用户定义异常事件触发条件、通知方式和处理流程的核心管理模块。它通过对设备数据、系统状态的实时监控，在满足预设规则时主动推送风险信息，确保运维人员及时响应。以下是其详细定义与技术实现要点：一、核心定义告警配置功能允许用户通过可视化界面或API，为物联网系统设定异常检测规则与响应策略，包含三大核心要素：触发条件：基于设备数据/系统指标的逻辑判断（如温度＞100℃持续5分钟）
梧州10家正规亲子鉴定中心大全(附2024年权威鉴定地址汇总) 鼎律基因刘主任
实验室实力：配备了多套高端实验设备，包括美国AB公司3500XL遗传分析仪、9700金座PCR扩增仪、普洛麦格公司超精确检测系统PP21+PPY23，准确度高达99.9999%超高精确试剂盒等，保证实验数据的稳定性和准确性。鉴定结果具有权威性。全国各省市均有司法鉴定所协助采样咨询服务点，受理相当方便。梧州亲子鉴定电话：195-4000-6126(微信同号，需要提前预约)1.梧州司法鉴定中心梧州亲子
Nacos和Eureka对比
1、Nacos注册中心原理2、Nacos与Eureka的共同点都支持服务注册和服务拉取都支持服务提供者心跳方式做健康检测3、Nacos与Eureka的区别Nacos支持服务端主动检测提供者状态：临时实例采用心跳模式，非临时实例采用主动检测模式。临时实例心跳不正常会被剔除，非临时实例则不会被剔除。Nacos支持服务列表变更的消息推送模式，服务列表更新更及时；Eureka每隔30秒pull一次服务，服
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
曲靖8家亲子鉴定机构一览(附2024最新亲子鉴定收费标准) 基因亲子
据相关科学研究表明，对于目前的科技水平而言，亲子鉴定是很容易的，出错率也是非常的低，只要是具有DNA检测能力的医疗机构均可以做隐私亲子鉴定，根据不完全统计得出的实验结果，出错的几率约为0.0001%。1.曲靖DNA基因鉴定中心：150-1301-2478，需要提前预约)曲靖亲子鉴定在线咨询：150-1301-2478(微信同号，需要提前预约)曲靖亲子鉴定地址：150-1301-2478曲靖市麒麟区
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
离岗误报率 20%？陌讯时序算法实测降 90% 2501_92474711 算法计算机视觉目标跟踪机器学习人工智能边缘计算
开篇：工业安防中的"隐形漏洞"在制造业车间、变电站等关键场景，离岗检测是保障生产安全的核心环节。传统监控系统依赖人工巡检，存在85%的漏检率；而普通视觉算法在光照变化、人员遮挡场景下，误报率常高达20%以上[实测数据显示]。某汽车零部件厂曾因离岗检测失效导致设备空转2小时，直接损失超12万元。这种"看得见的监控，防不住的风险"困境，凸显了传统视觉方案在复杂工业场景中的局限性。技术解析：从单帧检测到
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
嘉兴正规的亲子鉴定中心在哪(附2024年最新亲子鉴定办理流程) 成之嘉_基因检测
2024年嘉兴最新亲子鉴定收费标准：个人隐私亲子鉴定收费标准：￥2000-￥2400，常见用途：怀疑孩子的父亲身份，想私下偷偷检测；无创胎儿亲子鉴定收费标准：￥4500-￥5000，常见用途：孩子未出世，怀疑胎儿的父亲身份，想思想偷偷检测；司法亲子鉴定收费标准：￥2400-￥3600，常见用途：上户口、移民；成之嘉亲子鉴定优势1、全程匿名2、快速出结果3、检测更精准口号：每一次检测都是一份责任联系
疫情之下的你我他小橙梓
进入十月末期后再次被限制了出行，这次限制范围是不能出市，员工出差也被限制到了最严格的审批条件，所有人按照一周两次的行程码检测执行。望眼身边人执行此条例的并不多，学校由于自身特殊原因对于在校人员更加叮嘱不准外出，很多会议也采用了线上的模式。当把目光聚焦到今天（16日）总计全国范围新增感染11例，分别是7例在大连、2例在黑河、云南和北京各1例，这个数字距离半个月前接近3位数多地区感染已有了好转。新型冠
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
FunASR Paraformer-zh：高效中文端到端语音识别方案全解
项目简介FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱，集成了多种语音识别、语音活动检测（VAD）、说话人识别等模块。其中paraformer-zh和paraformer-zh-streaming是针对中文语音识别任务优化的端到端模型，分别适用于离线和流式场景。Paraformer采用并行Transformer架构，兼具高精度和低延迟，广泛应用于智能客服、会议转写、语音助手等场景。主要特点
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1