Niuip

小白科研笔记：剖析SA-SSD的Voxel生成和Anchor机制以及稀疏卷积特征变换细节

1. 引言

对于3D目标检测算法SA-SSD，考虑到我还是个大白，代码层面上有 $N$ 个细节我还不是特别懂。具体而言，我会解决以下几个问题：

Voxel是怎么生成的，数据格式是什么？
Anchor是怎么生成的，数据格式是什么？以及Anchor Mask是什么？
Anchor和Anchor Mask用在哪里？
Anchor对于基于Anchor的检测算法的作用是什么？
3D稀疏卷积特征如何变成BEV特征？

好啦，经过一番努力，这四个细节我是弄明白了，那么还有 $N - 4$ 个细节等着我留着在下一个博客讨论。

2. 理解SA-SSD中的Voxel生成

在car_cfg.py文件中可以看到有关Voxel生成的超参数。

        generator=dict(
            type='VoxelGenerator',
            voxel_size=[0.05, 0.05, 0.1], # 体素小方块的尺寸，长宽 0.05 米， 高 0.1 米
            # 点云范围表示：
            # 表示 x 轴范围是 [0, 70.4]
            # 表示 y 轴范围是 [-40, 40]
            # 表示 z 轴范围是 [-3, 1]
            point_cloud_range=[0, -40., -3., 70.4, 40., 1.],
            max_num_points=5, # 计算一个体素最多需要5个点
            max_voxels=20000  # 体素最大值
        ),

根据我之前一篇博客的分析，Voxel的生成代码写在类KITTILiDAR的初始化中。

self.generator = generator

generator被指定为car_cfg.py中的VoxelGenerator。来看看这个类的初始化代码：

class VoxelGenerator:
    def __init__(self,
                 voxel_size,
                 point_cloud_range,
                 max_num_points,
                 max_voxels=20000):
        point_cloud_range = np.array(point_cloud_range, dtype=np.float32)
        # [0, -40, -3, 70.4, 40, 1]
        voxel_size = np.array(voxel_size, dtype=np.float32)
        # 我用计算器算了一下，grid_size 是 1408*1600*40 
        grid_size = (
            point_cloud_range[3:] - point_cloud_range[:3]) / voxel_size
        # grid_size 取整
        grid_size = np.round(grid_size).astype(np.int64)
        self._voxel_size = voxel_size
        self._point_cloud_range = point_cloud_range
        self._max_num_points = max_num_points
        self._max_voxels = max_voxels
        self._grid_size = grid_size

	# 计算体素
    def generate(self, points):
        return points_to_voxel(
            points, self._voxel_size, self._point_cloud_range,
            self._max_num_points, True, self._max_voxels)

函数points_to_voxel有点复杂，我先读读它的注释，弄懂它的输入输出流：

def points_to_voxel(points, # N*3 的点云
                     voxel_size, # 一个 voxel 的尺寸，长宽 0.05 米， 高 0.1 米
                     coors_range, # [0, -40, -3, 70.4, 40, 1]
                     max_points=35, # 使用时候让 max_points = 5
                     reverse_index=True,
                     max_voxels=20000):
    """convert kitti points(N, >=3) to voxels. This version calculate
    everything in one loop. now it takes only 4.2ms(complete point cloud)
    with jit and 3.2ghz cpu.(don't calculate other features)
    Note: this function in ubuntu seems faster than windows 10.

    Args:
        points: [N, ndim] float tensor. points[:, :3] contain xyz points and
            points[:, 3:] contain other information such as reflectivity.
        voxel_size: [3] list/tuple or array, float. xyz, indicate voxel size
        coors_range: [6] list/tuple or array, float. indicate voxel range.
            format: xyzxyz, minmax
        max_points: int. indicate maximum points contained in a voxel.
        reverse_index: boolean. indicate whether return reversed coordinates.
            if points has xyz format and reverse_index is True, output
            coordinates will be zyx format, but points in features always
            xyz format.
        max_voxels: int. indicate maximum voxels this function create.
            for second, 20000 is a good choice. you should shuffle points
            before call this function because max_voxels may drop some points.

    Returns: （可以读读下面代码，我把所有张量尺寸都标注好了）
        voxels: [M, max_points, ndim] float tensor. only contain points.
        coordinates: [M, 3] int32 tensor.
        num_points_per_voxel: [M] int32 tensor.
    """
    if not isinstance(voxel_size, np.ndarray):
        voxel_size = np.array(voxel_size, dtype=points.dtype)
    if not isinstance(coors_range, np.ndarray):
        coors_range = np.array(coors_range, dtype=points.dtype)
    # voxelmap_shape 就是 [1408，1600，40] 的元组 
    voxelmap_shape = (coors_range[3:] - coors_range[:3]) / voxel_size
    voxelmap_shape = tuple(np.round(voxelmap_shape).astype(np.int32).tolist())
    # 反过来，voxelmap_shape = [40, 1600, 1408]
    if reverse_index:
        voxelmap_shape = voxelmap_shape[::-1]
    # don't create large array in jit(nopython=True) code.
    # num_points_per_voxel 长度是 20000 的元组
    num_points_per_voxel = np.zeros(shape=(max_voxels, ), dtype=np.int32)
    # coor_to_voxelidx 是 40*1600*1408 的张量，里面被 -1 填充
    coor_to_voxelidx = -np.ones(shape=voxelmap_shape, dtype=np.int32)
    # voxels 是 20000*5*3 的张量，3 表示 xyz 坐标， 5 表示一个体素内可容纳最多点的数量
    voxels = np.zeros(
        shape=(max_voxels, max_points, points.shape[-1]), dtype=points.dtype)
    # coors 是 20000*3 的张量，被零填充，表示体素的坐标
    coors = np.zeros(shape=(max_voxels, 3), dtype=np.int32)
    if reverse_index:
    	# 调用 cuda 函数做点云体素化
    	# 调用该函数时，voxels, coors,num_points_per_voxel，都被修改了
    	# 为了方便起见，记 voxel_num 为 V
        voxel_num = _points_to_voxel_reverse_kernel(
            points, voxel_size, coors_range, num_points_per_voxel,
            coor_to_voxelidx, voxels, coors, max_points, max_voxels)

    else:
        voxel_num = _points_to_voxel_kernel(
            points, voxel_size, coors_range, num_points_per_voxel,
            coor_to_voxelidx, voxels, coors, max_points, max_voxels)

    coors = coors[:voxel_num] # V*3 表示所有体素的位置
    voxels = voxels[:voxel_num] # V*5*3 表示所有体素内点的位置
    num_points_per_voxel = num_points_per_voxel[:voxel_num] # 长度是 V 的元组，表示，每一个体素中实际容纳了多少点

	# 下面这行代码被注释掉了，顺带分析一下吧
	# 求解每个体素中，所有容纳点的重心，并把计算结果放到 voxels 中了
	# 这样 voxels 就是 V*5*4 的张量了
    
    # voxels[:, :, -3:] = voxels[:, :, :3] - \
    #     voxels[:, :, :3].sum(axis=1, keepdims=True)/num_points_per_voxel.reshape(-1, 1, 1)
    return voxels, coors, num_points_per_voxel

总而言之，voxels和coor算是弄懂了。

然后再回过头来看，KITTILiDAR中，voxel是具体怎么调用和计算的。代码中如下所示：

        if isinstance(self.generator, VoxelGenerator):
        	# 我擦，被注释掉了，居然没有使用 generate 函数
            #voxels, coordinates, num_points = self.generator.generate(points)
            
            voxel_size = self.generator.voxel_size # voxel 的尺寸，长宽 0.05 米， 高 0.1 米
            pc_range = self.generator.point_cloud_range # [0, -40., -3., 70.4, 40., 1.]
            grid_size = self.generator.grid_size # [1408，1600，40]

            keep = points_op_cpu.points_bound_kernel(points, pc_range[:3], pc_range[3:])
            voxels = points[keep, :] # 保留范围内的点云，是 N*3 的张量
            # 直接做除法然后取整得到 voxel，是 N*3 的张量
            coordinates = ((voxels[:, [2, 1, 0]] - np.array(pc_range[[2,1,0]], dtype=np.float32)) / np.array(
                voxel_size[::-1], dtype=np.float32)).astype(np.int32)
            num_points = np.ones(len(keep)).astype(np.int32) # voxel 数目

            data['voxels'] = DC(to_tensor(voxels.astype(np.float32)))
            data['coordinates'] = DC(to_tensor(coordinates))
            data['num_points'] = DC(to_tensor(num_points))

SA-SSD中计算voxel的方法比较简陋，没有调用正规方法points_to_voxel。也不明白为什么。先放在这吧（狗头）。

3. 理解SA-SSD中的Anchor作用

作为小白，初次接触Anchor还不太了解它的作用。所以很有必要扣一下SA-SSD中相关代码的细节。

3.1 Anchor生成

在car_cfg.py文件中可以看到有关Anchor生成的超参数。因为SA-SSD只训练学习Car类目标，所以Anchor是针对于车单独一类。

        anchor_generator=dict(
            type='AnchorGeneratorStride', # 生成 Anchor 的指定类
            sizes=[1.6, 3.9, 1.56], # 一个Anchor的尺寸，宽1.6米，长3.9米，高1.56米
            anchor_strides=[0.4, 0.4, 1.0],
            anchor_offsets=[0.2, -39.8, -1.78],
            rotations=[0, 1.57], # 只考虑 0度 和 90度，两种Anchor情况
        ),
        anchor_area_threshold=1,
        out_size_factor=8,

根据我之前一篇博客的分析，Anchor的生成代码写在类KITTILiDAR的初始化中。其中，anchor_generator被指定为car_cfg.py中的AnchorGeneratorStride。Python中*的含义是用来接受任意多个参数并将其放在一个元组，可见这篇博客。[::-1]表示取从后向前（相反）的元素，可见这篇博客。[:2]表示取元组中索引为0和1的元素。

        # anchor
        if anchor_generator is not None:
        	# 由第二节讨论，grid_size是 [1408，1600，40]
        	# feature_map_size  应该指 xy 平面上的空间区域，记为 [1408，1600]
            feature_map_size = self.generator.grid_size[:2] // self.out_size_factor
            # [1408，1600] => [1408，1600, 1] => [1, 1600, 1408]
            feature_map_size = [*feature_map_size, 1][::-1]
            # 喂入 [1, 1600, 1408] 生成 anchors
            # 它是 (1, 1600, 1408, 1, 2, 7) 的张量，
            # 2 表示旋转角度类别（ 0 和 90 度），7 表示 Anchor 参数，xyzwlh 以及 Yaw 旋转角
            anchors = anchor_generator(feature_map_size)
            # 7 个参数，分别是 xyzwlh 和 Yaw 旋转角
            # self.anchors 是 （1600*1408*2，7） 的张量
            self.anchors = anchors.reshape([-1, 7])
            # 生成 BEV 视图下的 anchors_bv，仅仅使用 [0, 1, 3, 4, 6]
            # 使用了 xy wl 和 旋转角
            # rbbox2d 输出 [N, 4(xmin, ymin, xmax, ymax)] bboxes
            # self.anchors_bv 是 （1600*1408*2，4） 的张量
            self.anchors_bv = rbbox2d_to_near_bbox(
                self.anchors[:, [0, 1, 3, 4, 6]])
        else:
            self.anchors=None

上述代码核心是anchor_generator(feature_map_size)，我们看看AnchorGeneratorStride是如何生成Anchor吧：

    def __call__(self, feature_map_size):
        return create_anchors_3d_stride(
            feature_map_size, self._sizes, self._anchor_strides,
            self._anchor_offsets, self._rotations, self._dtype)

它调用函数create_anchors_3d_stride（这段代码中间部分没看懂，关注一下该函数输入和输出的张量就行）。np.meshgrid可以参考这篇博文。

def create_anchors_3d_stride(feature_size, # 是 [1, 1600, 1408]
                             sizes=[1.6, 3.9, 1.56], # 单个 Anchor 的长度
                             anchor_strides=[0.4, 0.4, 0.0], # 指每个 Anchor 的间距 cfg 中是 [0.4, 0.4, 1.0],
                             anchor_offsets=[0.2, -39.8, -1.78],
                             rotations=[0, np.pi / 2],
                             dtype=np.float32):
    """
    Args:
        feature_size: list [D, H, W](zyx)
        sizes: [N, 3] list of list or array, size of anchors, xyz

    Returns:
        anchors: [*feature_size, num_sizes, num_rots, 7] tensor.
    """
    # almost 2x faster than v1
    x_stride, y_stride, z_stride = anchor_strides # 分别是 0.4，0.4，1.0
    x_offset, y_offset, z_offset = anchor_offsets # 分别是 0.2，-39.8，-1.78
    z_centers = np.arange(feature_size[0], dtype=dtype) # 生成数组，0
    y_centers = np.arange(feature_size[1], dtype=dtype) # 生成数组，0，1，...,1600-1
    x_centers = np.arange(feature_size[2], dtype=dtype) # 生成数组，0，1，...，1408-1
    
    # 这里算 center 是有问题的，y_centers 可以到 599.8m，实际上雷达测不到这么远
    z_centers = z_centers * z_stride + z_offset # -1.78
    y_centers = y_centers * y_stride + y_offset # -39.8，-39.4，...，599.8
    x_centers = x_centers * x_stride + x_offset # 0.2，0.6，...，563.0
    sizes = np.reshape(np.array(sizes, dtype=dtype), [-1, 3]) # 变成 1*3 张量，如果要生成 N 种 Anchor，就会有 N*3 张量
    rotations = np.array(rotations, dtype=dtype)
    # 生成网格点
    rets = np.meshgrid(
        x_centers, y_centers, z_centers, rotations, indexing='ij')
    tile_shape = [1] * 5 # 等价于 [1,1,1,1,1]
    tile_shape[-2] = int(sizes.shape[0]) # 如果要生成 N 种 Anchor，它等于 [1,1,1,N,1]
    # 大概遍历 1408 次，下面这段代码比较难懂
    for i in range(len(rets)):
        rets[i] = np.tile(rets[i][..., np.newaxis, :], tile_shape)
        rets[i] = rets[i][..., np.newaxis]  # for concat
    sizes = np.reshape(sizes, [1, 1, 1, -1, 1, 3])
    tile_size_shape = list(rets[0].shape)
    tile_size_shape[3] = 1
    sizes = np.tile(sizes, tile_size_shape)
    rets.insert(3, sizes)
    ret = np.concatenate(rets, axis=-1)
    # 输出结果是 (1, 1600, 1408, 1, 2, 7) 的张量
    # 第一维没啥说的
    # 第二维是 anchor 在 y 轴上的序号 0~1600-1
    # 第三维是 anchor 在 x 轴上的序号 0~1408-1
    # 第四维是 anchor 的类别，只生成 car，所以只有这一类
    # 第五维是 anchoe 的转角，只生成了 0 度和 90 度，这两类
    # 第六维是 anchor 的7个，第7个为 Yaw 旋转角，前六个是 xyz 和 wlh
    return np.transpose(ret, [2, 1, 0, 3, 4, 5])

上面这段代码稍微有些难懂。幸好这段代码没什么依赖，可以直接把它截下来，单独跑一跑结果，打印那些你搞不懂的变量。下面是我的调试代码（可以生成多个类别的Anchor）：

def main():
    feature_size = [1, 1600, 1408]
    # 一个类别的 Anchor
    # 生成结果是 (1, 1600, 1408, 1, 2, 7)
    res = create_anchors_3d_stride(feature_size, anchor_strides=[0.4, 0.4, 1.0])
    # 两个类别的 Anchor，不过不同类别的 anchor_strides 是一样的
    # 生成结果是 (1, 1600, 1408, 2, 2, 7)
    # res = create_anchors_3d_stride(feature_size, sizes=[[1.6, 3.9, 1.56],[1.0, 3.0, 2.56]], anchor_strides=[0.4, 0.4, 1.0])
    print("ss: ", res[0][0][0][0][0][:])
    print("ss: ", res[0][0][1000][0][0][:])

if __name__ == "__main__":
    main()

输出结果是七维向量，具体含义在代码中已讲了：

ss:  [  0.2  -39.8   -1.78   1.6    3.9    1.56   0.  ]
ss:  [400.2  -39.8   -1.78   1.6    3.9    1.56   0.  ]

在 $(1000, 0)$ 处的Anchor的坐标分量居然是400.2米，显然是用不到这么远的Anchor。不知道啥情况。也许后续做了些处理。总而言之，Anchor生成之谜算是解决了（狗头）。

3.2 Anchor Mask

在KITTILiDAR类中生成了Anchor，同时也生成了Anchor Mask。考虑到雷达点云是稀疏，尽管Anchor覆盖了整个BEV区域。显然，只有在有点云的地方，才有可能有3d目标。那些没有点云的空洞区域的Anchor是没啥用的。Anchor Mask的作用就是把覆盖点云的Anchor标记出来。来看这一段生成Anchor Mask代码。np.cumsum表示轴上累加，这里用于做某个轴上的离散积分，可参考这篇博客。

# 在 cfg 文件中， self.anchor_area_threshold = 1
if self.anchor_area_threshold >= 0 and self.anchors is not None:
	# coordinates 是 N*3 的张量
	# grid_size 是 [1408，1600，40]
	# tuple(grid_size[::-1][1:]） 是 [1600, 1408] 的元组
	# dense_voxel_map 是 1600*1408 的矩阵，
	# dense_voxel_map[i][j] = a，表示 (i,j) 区域内体素的个数为 a
	# dense_voxel_map 可以看作是体素分布的密度函数
	dense_voxel_map = sparse_sum_for_anchors_mask(
    	coordinates, tuple(grid_size[::-1][1:]))
    # 在第零轴上累加
    dense_voxel_map = dense_voxel_map.cumsum(0)
    # 接着在第一轴上累加，得到 dense_voxel_map，还是 1600*1408 的矩阵
    dense_voxel_map = dense_voxel_map.cumsum(1)
    # 累加操作可以看作是积分，两次累加，相当于在 x 轴和 y 轴做积分
    # 这时候 dense_voxel_map 是一个关于体素的分布函数
    
    # self.anchors_bv 是 BEV 视图下生成的 Anchors，是 （1600*1408*2，5） 的张量
    # voxel_size 是 [0.05, 0.05, 0.1]
    # pc_range 是 [0, -40., -3., 70.4, 40., 1.]
    # grid_size 是 [1408，1600，40]
    # anchors_area 是 1408*1600*2 的向量
    anchors_area = fused_get_anchors_area(
        dense_voxel_map, self.anchors_bv, voxel_size, pc_range, grid_size)
    # anchor_area_threshold = 1，说明只要 Anchor 里面有一个体素，就把它归入 Mask
    # anchors_mask 是 1408*1600*2 的 bool 型向量
    anchors_mask = anchors_area > self.anchor_area_threshold
    data['anchors_mask'] =  DC(to_tensor(anchors_mask.astype(np.uint8)))

代码中的函数sparse_sum_for_anchors_mask如下所示：

# numba是一个用于编译Python数组和数值计算函数的编译器，
# 这个编译器能够大幅提高直接使用Python编写的函数的运算速度。
# shape 是 [1600, 1408] 的元组
@numba.jit(nopython=True)
def sparse_sum_for_anchors_mask(coors, shape):
	# ret 是 1600*1408 的网格，网格单元中的值对应该区域覆盖体素个数
    ret = np.zeros(shape, dtype=np.float32)
    for i in range(coors.shape[0]):
        ret[coors[i, 1], coors[i, 2]] += 1

    return ret

代码中的函数fused_get_anchors_area如下所示：

# dense_map 1600*1408 的离散分布函数（差一个比例因子）
# anchors_bv BEV 视图下的 anchors，是 （1600*1408*2，5） 的张量
# stride 是 voxel size [0.05, 0.05, 0.1]
# offset 是 pc_range 是 [0, -40., -3., 70.4, 40., 1.]
# grid_size 是 [1408，1600，40]
@numba.jit(nopython=True)
def fused_get_anchors_area(dense_map, anchors_bv, stride, offset,
                           grid_size):
    # 初始化为 （1600*1408*2，4） 的零张量
    anchor_coor = np.zeros(anchors_bv.shape[1:], dtype=np.int32)
    grid_size_x = grid_size[0] - 1 # 1408-1
    grid_size_y = grid_size[1] - 1 # 1600-1
    N = anchors_bv.shape[0] # 1600*1408*2
    ret = np.zeros((N), dtype=dense_map.dtype) # 1600*1408*2维的零向量
    for i in range(N):
    	# 把实际坐标转换为体素中的位置
    	# anchors_bv[i, ：4] 代表一个 2D box 的 (xmin, ymin, xmax, ymax)
        anchor_coor[0] = np.floor(
            (anchors_bv[i, 0] - offset[0]) / stride[0])
        anchor_coor[1] = np.floor(
            (anchors_bv[i, 1] - offset[1]) / stride[1])
        anchor_coor[2] = np.floor(
            (anchors_bv[i, 2] - offset[0]) / stride[0])
        anchor_coor[3] = np.floor(
            (anchors_bv[i, 3] - offset[1]) / stride[1])
        # 不能超过体素范围
        anchor_coor[0] = max(anchor_coor[0], 0)
        anchor_coor[1] = max(anchor_coor[1], 0)
        anchor_coor[2] = min(anchor_coor[2], grid_size_x)
        anchor_coor[3] = min(anchor_coor[3], grid_size_y)
        ID = dense_map[anchor_coor[3], anchor_coor[2]] # xmax, ymax
        IA = dense_map[anchor_coor[1], anchor_coor[0]] # xmin, ymin
        IB = dense_map[anchor_coor[3], anchor_coor[0]]
        IC = dense_map[anchor_coor[1], anchor_coor[2]]
        # 从分布函数中，计算这一块区域的概率，概率越高表示体素越多
        # ret[i] 表示区域 x_min
        # F(x_min
        # F(x_max,y_max) - F(x_max,y_min) - F(x_min,y_max) + F(x_min,y_min)
        ret[i] = ID - IB - IC + IA
    return ret

3.3 Anchor使用

Anchor主要使用在检测器的Head上。前面的Backbone Network都没有使用。

我先分析Anchor在检测器的第一个Head，即SSDRotateHead，上的使用情况。Anchor主要使用在get_guided_anchors这个函数上。get_guided_anchors在整个前向计算图中的位置可以参考我上一篇文章中的图1。Neck输出的BEV特征图，输入到SSDRotateHead中，进行3D框的预测和点云类别分类。初始3D框预测结果会喂入到get_guided_anchors中，输出与初始3D预测框重叠度较高的Anchor Mask中的Anchor，作为“引导Anchor”（Guided Anchor）。

# 有必要解释一下 rpn_outs 的构成
# rpn_outs  = [box_preds, cls_preds, dir_cls_preds]
# dir_cls_preds 是方向分类，分为面向相机，和背对相机两类
# 记 N 是 Batch Size
# box_preds 是一个 [N, y(H), x(W)，C]的张量，C = 7，用7个变量表示一个 box
# cls_preds 是一个 [N, y(H), x(W)，C]的张量，C = num_class，如果只识别车的话，那就一类
# dir_cls_preds 是一个 [N, y(H), x(W)，2]的张量
# y(H), x(W) 是从BEV视图下 y 轴 和 x 轴的坐标分量
# x 轴范围是 0~70.4m，y 轴范围是 -40.0~40.0 （如果你还记得的话）
# 啰嗦一句，H 和 W 可不是什么相机成像面尺寸啥的，别搞错了，H=1408，W=1600，是体素化的范围
guided_anchors = self.rpn_head.get_guided_anchors(*rpn_outs, ret['anchors'], ret['anchors_mask'], ret['gt_bboxes'], thr=0.1)

注释：为啥Neck输出的是BEV特征图？SA-SSD不是输入体素化点云，做稀疏卷积，最后得到体素特征呀？论文中还有一步Reshape操作，把点特征变成BEV特征。这个细节第五节分析。

大概意思是这样的。话不多说上代码（这段代码我没有看的太懂，大致意思以注释的方式写在代码中了）。for in zip()属于并行遍历。

	# anchors_mask 是 （1408*1600*2，1） 的 bool 型向量
	# anchors 是 （1600*1408*2，7） 的张量
	# box_preds, cls_preds, dir_cls_preds 是 [N, H, W，C] 的张量
	# 每个变量的 C 值都不一样，分别是 7， num_class， 2
	# N 是 batch size
    def get_guided_anchors(self, box_preds, cls_preds, dir_cls_preds, anchors, anchors_mask, gt_bboxes, thr=.1):
        batch_size = box_preds.shape[0]

		# batch_box_preds 是 [N, H*W，7] 的张量
        batch_box_preds = box_preds.view(batch_size, -1, self._box_code_size)
        # batch_anchors_mask 是 [N, 1600*1408*2] 的张量
        batch_anchors_mask = anchors_mask.view(batch_size, -1)
        # batch_cls_preds 是 [N, H*W] 的张量，这样写岂不是只能识别一类目标
        # 如果识别多类目标的话，应该是[N, H*W，num_class] 吧
        batch_cls_preds = cls_preds.view(batch_size, -1)
        # second_box_decode 的代码不是特别懂
        batch_box_preds = second_box_decode(batch_box_preds, anchors)

        if self._use_direction_classifier:
            batch_dir_preds = dir_cls_preds.view(batch_size, -1, 2)

        new_boxes = []
        if gt_bboxes is None:
            gt_bboxes = [None] * batch_size

		# zip 打包遍历，感觉是遍历 N 遍，即 batch_size 的次数
        for box_preds, cls_preds, dir_preds, a_mask, gt_boxes in zip(
                batch_box_preds, batch_cls_preds, batch_dir_preds, batch_anchors_mask, gt_bboxes
        ):
        	# 从函数名上理解，这段代码是获取 Guided Anchor，
        	# 这一段代码我看的不是特别懂，但是我知道这一段的意思
        	# 首先，把跟网络初次预测的 3d框 跟 Anchor_mask 下的 Anchor比较
        	#      把重叠度高的 Anchor 保留下来；
        	# 其次，这些 Anchor 对应的网络初次预测的 3d框 所对应的cls_preds 用 sigmoid 处理一遍，
        	#      把高于阈值 thr 的 Anchor 框保留下来
        	# 再者，如果是训练阶段，有 3d框 的真值
        	# 就对每一个 Guided Anchor 贴上一个 3d框 的真值
            box_preds = box_preds[a_mask]
            cls_preds = cls_preds[a_mask]
            dir_preds = dir_preds[a_mask]

            if self._use_direction_classifier:
                dir_labels = torch.max(dir_preds, dim=-1)[1]

            if self._use_sigmoid_cls:
                total_scores = torch.sigmoid(cls_preds)
            else:
                total_scores = F.softmax(cls_preds, dim=-1)[..., 1:]

            top_scores = torch.squeeze(total_scores, -1)

            selected = top_scores > thr

            box_preds = box_preds[selected]

            if self._use_direction_classifier:
                dir_labels = dir_labels[selected]
                opp_labels = (box_preds[..., -1] > 0) ^ dir_labels.byte()
                box_preds[opp_labels, -1] += np.pi

            # add ground-truth
            if gt_boxes is not None:
                box_preds = torch.cat([gt_boxes, box_preds],0)

			# 保存每一个合格的 Anchor
            new_boxes.append(box_preds)
        return new_boxes

3.4 Anchor的作用

我以前不是搞深度学习的，更没搞过什么目标检测。再初次分析代码的时候，读到Anchor，总是不能理解，然后就把Anchor相关的代码跳过去了。深度学习的大框架不难理解，加上这篇文章的代码写得还算清晰，所以前面几篇博客的讨论还算顺利。随着代码阅读的深入，我对Anchor的认识越来越深入。直到我写在这里才算明白。

言归正传。下面是我对Anchor的通俗理解。3d目标检测预测一个目标的7个参数外加目标的类别（共8个参数）。假设我只预测车这一类，那么我需要回归出一个目标的7个参数，即xyzwlh和yaw角。然而网络大多是不靠谱的，它回归出来一堆不太精确的目标。考虑到车这一类有着共性，比如各色型号的车的长宽高都差不多（专指小车），以及车都在地上跑（车中心距离地面的高度差不多一致）。Anchor是作为3d目标的一种先验（Prior），指3d目标可能以某种姿态角度出现的地方。如果我只识别车，我可以生成一堆Anchors，固定它的wlh和z，让它们匀称地分布在BEV视图下。3d目标一定在某个Anchor的附近。给不靠谱网络识别的3D框和这一堆Anchors做类似交集的运算，可以得到一些靠谱的Anchors（即SA-SSD中的引导Anchor），用于做后续处理。

有时候，Anchors的数量太多了。考虑到有点云的地方才会有目标，我们可以扔掉那些自身不覆盖任何点云的Anchor（这是Anchor Mask的工作）。然后对剩下的Acnhor和不靠谱网络生成的3D框做类似交集的运算，可以得到一些靠谱的Anchors（即SA-SSD中的引导Anchor），用于做后续处理。

从上一篇博客的计算图图1和图3可见，SA-SSD并没有使用rpn_outs（即不靠谱网络的输出），而是使用Guided Anchors做最后的3D目标检测精调优化。后续处理就是Extra_Head的事情了，这篇博客讲不完了，留着下篇分析。

4. 稀疏3D特征转换为BEV特征

再说特征转换之前。首先说稀疏卷积。

SA-SSD处理点云用到稀疏卷积。稀疏卷积不难理解，我只对一些细节做个讨论。稀疏卷积可以参考我的一篇博客。作为普通卷积的延伸，稀疏卷积的输入必须是Voxel，因为稀疏卷积的感受野是离散形式的立方块，所以输入点云必须按照体素尺寸离散化成int形式。点云体素化过程可以参考第二节。体素化后的点云是 $H\times W\times D$ 的张量，也是在第二节分析的 $1408\times 1600\times 40$ 尺寸的张量。步长Stride=1和核尺寸为 $3$ 的稀疏卷积输出 $N\times C\times D\times H\times W$ 的张量。 $C$ 是输出通道数。 $N$ 是批处理大小。如果是步长Stride=2的稀疏卷积，输出的 $D, H, W$ 都会缩小。这和普通卷积一样，留意一下就好。

还有一处细节，就是SA-SSD的辅助网络前面一部分需要点云特征输入。需要把体素化的点云特征转变为一般的点云特征，即把体素坐标转化为雷达坐标，这是tensor2points做的事情（就叫反体素过程吧）。对于步长Stride=2的稀疏卷积输出特征，反体素过程中，用到的体素尺寸需要翻倍。代码中是可以看到的。

        x = self.conv0(x)
        x = self.down0(x)  # sp
        x = self.conv1(x)  # 2x sub
        
        if not is_test:
        	# 反体素，之前有 down0 的降采样，用到的体素尺寸翻了一倍
            vx_feat, vx_nxyz = tensor2points(x, voxel_size=(.1, .1, .2))
            p1 = nearest_neighbor_interpolate(points_mean, vx_nxyz, vx_feat)

        x = self.down1(x)
        x = self.conv2(x)

        if not is_test:
        	# 反体素，之前有 down1 的降采样，用到的体素尺寸翻了一倍
            vx_feat, vx_nxyz = tensor2points(x, voxel_size=(.2, .2, .4))
            p2 = nearest_neighbor_interpolate(points_mean, vx_nxyz, vx_feat)

        x = self.down2(x)
        x = self.conv3(x)

        if not is_test:
        	# 反体素，之前有 down2 的降采样，用到的体素尺寸翻了一倍
            vx_feat, vx_nxyz = tensor2points(x, voxel_size=(.4, .4, .8))
            p3 = nearest_neighbor_interpolate(points_mean, vx_nxyz, vx_feat)

        out = self.extra_conv(x)

最后说特征变换，从三维卷积特征变成BEV特征，对应SA-SSD框图中的Reshape。代码如下：

    def forward(self, voxel_features, coors, batch_size, is_test=False):

        points_mean = torch.zeros_like(voxel_features)
        points_mean[:, 0] = coors[:, 0]
        points_mean[:, 1:] = voxel_features[:, :3]

        coors = coors.int()
        x = spconv.SparseConvTensor(voxel_features, coors, self.sparse_shape, batch_size)
        x, point_misc = self.backbone(x, points_mean, is_test)

		# 三维卷积特征变成BEV特征
        x = x.dense()
        N, C, D, H, W = x.shape # N, C, D, H, W 已经讨论啦
        # 其实把 C 和 D 两维合起来就行了
        # C*D 就是 BEV特征的通道数了。
        # BEV特征就像一个图像的特征，H, W表示特征图的尺寸
        x = x.view(N, C * D, H, W) 

        x = self.fcn(x)

        if is_test:
            return x

        return x, point_misc

在之前的博客分析过整体框架，所以这些代码的出处我就不细说了。

5. 结束语

我在代码注释中分析了各个张量的尺寸。这个分析过程可能会有些错误。小白希望尽可能地搞懂各个细节，但还是有些代码也没能够看懂。如果后续读懂了，会做补充。

你可能感兴趣的:(computer,vision论文代码分析)

计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
EcmaScript和JavaScript的区别每天吃八顿前端 ecmascript
ECMAScript和JavaScript是经常被混淆的两个术语，但实际上它们之间存在一些区别：ECMAScript：ECMAScript（通常缩写为ES，并且有版本号如ES5,ES6和ES7等）是由ECMA国际（EuropeanComputerManufacturersAssociation）制定的一种脚本语言的规范。这个规范定义了语法、命令、数据类型等基本元素。ECMAScript是一种规范，
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
2024年CSP-J初赛备考建议再临TSC c++杂谈 c++学习
针对2024年CSP-J（ComputerSciencePrinciplesJunior，即计算机科学原理初级认证）的备考，首先，先来看考试可能考的东西：动规（包括背包问题），主要在程序阅读还有程序补全题考，这方面，了解动规的原理就可以轻松拿分高精，也是在阅读和补全题，了解原理即可，Z2~Z3应该就学高精了深搜广搜，基础题可能会给你一个片段，然后问你这是什么算法，或者，问你下列选项中哪个正确，给你
单片机在医疗设备中的应用实例教程 kkchenjj 单片机单片机嵌入式硬件
单片机在医疗设备中的应用实例教程单片机基础单片机概述单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器、输入输出接口等主要计算机部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于工业控制、家用电器、汽车电子、医疗设备等多个领域。特点集成度高：单片机将计算机的主要部件集成在一块芯片上
单片机与传感器接口技术应用实例教程 kkchenjj 单片机单片机 nosql 嵌入式硬件
单片机与传感器接口技术应用实例教程单片机基础单片机概述单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器、输入输出接口等主要计算机部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于工业控制、家用电器、汽车电子、通信设备、医疗器械等领域。特点集成度高：单片机将计算机的主要部件集成在一
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
什么是DSL和GPL 牧竹子通识 DSL GPL
DSL的全称是domain-specificlanguage，它在wiki上的定义如下：Adomain-specificlanguage(DSL)isacomputerlanguagespecializedtoaparticularapplicationdomain.与之相对的是GPL(general-purposelanguage)。DSL指的是针对特定应用领域而设计使用的计算机语言，而GPL指
什么是DSL yimi1995 程序员的日常
转载：http://blog.csdn.net/dslztx/article/details/46682889DSL的全称是domain-specificlanguage，它在wiki上的定义如下：Adomain-specificlanguage(DSL)isacomputerlanguagespecializedtoaparticularapplicationdomain.与之相对的是GPL(g
ecmascript和javascript的区别？ 2301_79698214 ecmascript javascript
ECMAScript是JavaScript的标准规范，而JavaScript是基于ECMAScript规范开发的一种编程语言。简单来说，ECMAScript是一套定义了JavaScript语法和语义的规范，而JavaScript是实际的编程语言。具体来说，ECMAScript是由ECMA（EuropeanComputerManufacturersAssociation，欧洲计算机制造商协会）定义和
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
大语言模型应用指南：长期记忆 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：长期记忆作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能领域的快速发展，大语言模型因其强大的语言生成和理解能力而受到广泛关注。然而，现有的大语言模型通常具有短期记忆特性，即在生成文本时，仅依赖于输入序列的上下文信息，缺乏对过去输入或历史对话上下文的记忆能力。这限制了模型在需要考虑长期历史信息
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
力扣LeetCode-栈和队列流忆，留宜 LeetCode leetcode c++算法
栈与队列基本知识C++标准库有很多版本，三个最为普遍的STL版本HPSTL其他版本的C++STL，一般是以HPSTL为蓝本实现出来的，HPSTL是C++STL的第一个实现版本，而且开放源代码。P.J.PlaugerSTL由P.J.Plauger参照HPSTL实现出来的，被VisualC++编译器所采用，不是开源的。SGISTL由SiliconGraphicsComputerSystems公司参照H
cs寄存器 x86 特权模式_我们一起学RISC-V——01-了解处理器和寄存器黎贝卡 cs寄存器 x86 特权模式
本期内容如下：形象认识处理器RISC-V处理器面貌处理器都能做什么RISC-V核对外接口一、形象认识处理器1.1指令集分类处理器指令集分为两类，CISC(ComplexInstructionSetComputers，复杂指令集计算机)和RISC(ReducedInstructionSetComputers，精简指令集计算机)。CISC处理器，当以为美国Intel，AMD的X86处理器为代表，当然中
csapp-chapter1 SFARL 博客 c++
title:csapp_chapter1date:2020-06-1319:24:20tags:[网课,CSAPP,第一章]CSAPP和CMUIntroductiontocomputersystem(CS15-2132015fall)的笔记。相关资料Textbook在vscode上使用C1.COURSE-OVERVIEW从编程者的角度来讲述计算机系统。这也是为什么我第一门课选择这个的原因，因为自己
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
单片机在汽车电子中的应用实例教程 kkchenjj 单片机单片机汽车 mongodb
单片机在汽车电子中的应用实例教程单片机基础介绍单片机的定义与结构单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器（RAM和ROM）、输入/输出接口（I/O）、定时器、计数器等主要计算机功能部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于各种控制领域，如工业控制、家用电器、汽车电
Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉 Hazelyu27 计算机视觉大数据计算机视觉深度学习
本书的内容分成三个部分：1.初始阶段初始阶段学习：机器学习、神经网络、卷积神经网络、建立数据集。2.实践阶段实践阶段：深入学习深度学习，理解先进技术，发现最佳实践方式。3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。本书提供了对应网站：http://pyimg.co/fnkxk本文介绍前两章内容：基本介绍和深度学习简介。
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
OpenCV计算机视觉学习（16）——仿射变换学习笔记牛马程序员24 计算机视觉 opencv 学习
OpenCV计算机视觉学习（16）——仿射变换学习笔记如果需要其他图像处理的文章及代码，请移步小编的GitHub地址传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/ComputerVisionPractice在计算机视觉和图像处理中，仿射变换是一种重要的几何变换方法。它可以通过线性变换和平移来改变图像的形状和位置，广泛应用与图像校正，对象识别以及增强现实
JSON：轻量级的数据交换格式 Tsingfeng. 基础释疑 json
JSON（JavaScriptObjectNotation,JS对象简谱）是一种轻量级的数据交换格式。它基于ECMAScript（EuropeanComputerManufacturersAssociation,欧洲计算机协会制定的js规范）的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生
05-树8 File Transfer(C) L_glonar c语言数据结构
日常，满分Wehaveanetworkofcomputersandalistofbi-directionalconnections.Eachoftheseconnectionsallowsafiletransferfromonecomputertoanother.Isitpossibletosendafilefromanycomputeronthenetworktoanyother?InputSp
05-树9 Huffman Codes（C） L_glonar c语言数据结构
日常，这一次，耗费我三天，其实第二天时便已经将对整个框架有清晰的了解了，（看了解析了），但是一步步排除，确实让我学到了很多。In1953,DavidA.Huffmanpublishedhispaper"AMethodfortheConstructionofMinimum-RedundancyCodes",andhenceprintedhisnameinthehistoryofcomputersci
CS269I：Incentives in Computer Science 学习笔记 Lecture 16: Revenue-Maximizing Auctions（收入最大化拍卖） ldc1513 学习笔记算法博弈论
Lecture16:Revenue-MaximizingAuctions（收入最大化拍卖）1RevenueMaximizationandBayesianAnalysis一直以来，我们关注的都是最大化社会福利的拍卖设计（至少在那些真实出价的场景中）。福利最大化确实是在很多场景中我们最多考虑的事情，比如我们之前看了很长时间的赞助搜索和在线广告。在福利最大化拍卖中，收入也被考虑过，但也仅仅是机制的一个副
HDU2196Computer 树形dp Vibrant
传送门解法1树的直径参考博客#include//树的直径#defineMAXN10010usingnamespacestd;typedefpairP;intdis[MAXN],Max,root;vectora[MAXN];voidInit(intn){Max=0;for(inti=1;iMax)Max=sum,root=now;for(inti=0;i//记忆化搜索#defineMAXN10010
python开发简单猜拳游戏 RelievedCy python 游戏开发语言
目录规则定义三个类启动器主体积分器启动器主体规则定制判断胜负结果展示积分器初始化积分展示当前积分设置为无限循环规则1：石头，2：剪刀，3：布，0：退出定义三个类启动器主体积分器启动器def__init__(self):self.run()#启动器@staticmethoddefrun():computer=random.randint(1,3)try:user=int(input(">1:石头\n
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">