MezereonXP

IDA-3D技术细节分析

这里主要针对其实例视差深度估计, Instance Disparity Depth Estimation进行分析

如上图所示，其流程为：

输入左右眼的图片
分别通过Stereo RCNN的Stereo RPN得到一堆Anchors，分为两支：
- 利用MaskRCNN的ROI Align，之后过网络进行多个变量的回归，包括(2D box, 偏转角度，长宽高，2D的x和y坐标)
- 通过IDA模块，即实例深度注意（Instance-Depth-Aware）的模块，然后单独对深度z进行回归

文章的重点即放在IDA模块上，如图下方所示，由两个阶段构成这一模块：

4D cost volume
3D CNN+maxpooling

第一阶段的4D cost volume，而volume可以翻译成体积

引用原文的一段话, “Instead of computing the correspondence of each pixel between two images, we measure the correspondence of the same instance between two images, paying more attention to the global spatial information of the object.”
也就是说这里计算视差的时候，会考虑全局的整体的信息，而不是逐像素的计算

那么怎么构造这个cost volume呢？

Therefore, after forming a cost volume of dimensionality disparity×height×width×feature size by concatenating the left and right feature maps across each disparity level …

可以看到，4D分别代表(disparity，height，width，feature size)
可是disparity(视差)这个定义还是比较模糊，但是可以知道的是，文章想表达的意思是在不同视差级别上对左右眼的特征图进行连接
也就是说，文章必然将视差分成了几个等级，我们直接到代码中来看

def get_boxes_for_cost_volum(left_boxes, right_boxes, depth_bin_rate, calib_list):
    depth_max = 87
    max_depth = len(depth_bin_rate)
    proposals_left = []
    proposals_right = []
    depth_bin_list = []
    #box_num = 0
    for left_box, right_box, calib in zip(left_boxes, right_boxes, calib_list):
        mode = left_box.mode
        assert mode == 'xyxy'
        xmin = torch.min(left_box.bbox[:,0], right_box.bbox[:,0])
        ymin = torch.min(left_box.bbox[:,1], right_box.bbox[:,1])
        xmax = torch.max(left_box.bbox[:,2], right_box.bbox[:,2])
        ymax = torch.max(left_box.bbox[:,3], right_box.bbox[:,3])

首先这个函数输入时左右眼图片的Proposals，深度块比率，相机内参列表
开始了第一个循环，读取每一个box，并求出左右眼图片的box的坐标的极大极小值

        depth_bin_per_image_min = calib['b'] * calib['fu'] / ((xmax - xmin) * 0.9).view(-1,1)
        depth_bin_per_image = depth_max - (depth_max - depth_bin_per_image_min) * depth_bin_rate
        disp_bin_per_image = calib['b'] * calib['fu'] / depth_bin_per_image / 2
        depth_bin_list.append(depth_bin_per_image)

这里的calib[‘b’]是指baseline，即两个相机光心的距离，而calib[‘fu’]是指x方向的焦距，即光心到成像平面的距离
xmax-xmin意味着求出了两个box的并集的一个宽度，如下图所示：

通过第一行代码，我们可以知道其实类似于通过视差法来求深度，这里先普及一下视差法

如上图所示，即双目相机的成像模型， $O_L$ 和 $O_R$ 分别时左右的光心， $f$ 是焦距， $u_L$ 和 $u_R$ 是成像的坐标
那么利用相似三角形，容易得到如下等式
$\frac{z-f}{z}=\frac{b-u_L+u_R}{b}$

注意，这里的 $u_R$ 是负数，所以图里面是 $u_R$

故有
$\frac{bf}{d}, d = u_L-u_R$
我们便通过简单的视差得到了深度，这里的视差即P点在两个相机上的投影的距离差

回到代码之中，这一句

depth_bin_per_image_min = calib['b'] * calib['fu'] / ((xmax - xmin) * 0.9).view(-1,1)

其分母比较奇怪，通过之前我们推出的等式可以看出，深度越深，其d值越小，也就是投影的距离差比较小
而这里面分母并不是同个像素的距离差，而是左右眼box并集的宽度，可以理解为从左眼box最左边的一个像素到右眼最右边的一个像素
故，这应该是一个边界，也就是深度的最小估计，换句话说，如果目标都在box中的话，该值代表着根据目标最大的移动可能，计算出来的最近深度。代码在最后除了个0.9，原因暂时不明，这里我们可以先忽略。

看看随后的三条语句

depth_bin_per_image = depth_max - (depth_max - depth_bin_per_image_min) * depth_bin_rate disp_bin_per_image = calib['b'] * calib['fu'] / depth_bin_per_image / 2         
depth_bin_list.append(depth_bin_per_image)

这里面多出来个depth_bin_rate, 查看配置文件，发现应该是一个0~1的数组

DEPTH_BIN_RATE: ( 0.06, 0.10, 0.14, 0.18, 0.22, 0.26, 0.30, 0.34, 0.38,
                     0.42, 0.46, 0.50, 0.54, 0.58, 0.62, 0.66, 0.70, 0.74,
                     0.78, 0.82, 0.86, 0.90, 0.94, 0.98)

那么第一条语句的计算是什么意思呢，这里不妨给出其数学形式
$d_{max} - (d_{max}-d_{min})\times rate$
如果rate=1, 那么 $d=d_{min}$ , rate=0, 那么 $d=d_{max}$

那么结果就比较清晰了，该语句的作用是生成最小深度到最大深度的一个离散的区间值，有点像numpy的linspace
随后，利用不同的深度值，反推出投影距离差d的值，除以2是为了后续的左右偏移
之后把深度的离散区间加到数组里面

随后

        bbox_shift_left_per_image = []
        bbox_shift_rigth_per_image = []
        for i in range(len(depth_bin_rate)):
            xmin_shift_left = xmin + disp_bin_per_image[:,i]
            xmax_shift_left = torch.clamp(xmax + disp_bin_per_image[:, i], max=left_box.size[0] - 1)
            bbox_shift_left = torch.stack((xmin_shift_left, ymin, xmax_shift_left, ymax), dim = 1)
            bbox_shift_left_per_image.append(BoxList(bbox_shift_left, left_box.size, mode="xyxy"))
            xmin_shift_right = torch.clamp(xmin - disp_bin_per_image[:, i], min=0)
            xmax_shift_right = xmax -disp_bin_per_image[:, i]
            bbox_shift_right = torch.stack((xmin_shift_right, ymin, xmax_shift_right, ymax), dim = 1)
            bbox_shift_rigth_per_image.append(BoxList(bbox_shift_right, right_box.size, mode="xyxy"))
       
        proposals_left.append(bbox_shift_left_per_image)
        proposals_right.append(bbox_shift_rigth_per_image)

开始遍历不同的深度估计值，即我们之前得到离散的深度区间
之后根据不同深度反推出来的视差(或者称之为像素偏移，投影偏移)，分别计算x-min, x-max的左右偏移后估计值
进而得到左右偏移后的一个并集框（即一个最小框同时包含左右眼的边界框），这里记为左偏移-并集框和右偏移-并集框
针对每张图片的每一个框，都分别计算出左偏移-并集框和右偏移-并集框

最后

    proposals_left = list(zip(*proposals_left))
    proposals_right = list(zip(*proposals_right))
    depth_bin = depth_bin_list[0]
    for i in range(1,len(depth_bin_list)):
        depth_bin = torch.cat((depth_bin,depth_bin_list[i]),0) 
    return proposals_left, proposals_right, depth_bin

for循环里面干的事是将不同框的深度离散区间按顺序全连接到一起
最后返回左偏移-并集框（针对不同框，不同深度下的偏移框），右偏移-并集框以及深度区间

这一函数的本质其实就是，4D cost volume的前半部分

在左眼图片将并集框右移，在右眼图片将并集框左移，如果深度估计正确的话，则会重合在一起，也就是上图的红色标记框

到这里我们基本上知道IDA模块的一部分了，我们还需要分析其中如何进行匹配，3D卷积的细节

不妨继续看一下代码

    def forward(self, features, proposals, calib):
        proposals_left, proposals_right = proposals
        features_left, features_right = features
        proposals_shift_left, proposals_shift_right, depth_bin = get_boxes_for_cost_volum(proposals_left,proposals_right,self.depth_bin_rate, calib)
        
        features_left_reduce = []
        features_right_reduce = []
        for feature_left, fearure_right in zip(features_left, features_right):
            features_left_reduce.append(self.dim_reduce(feature_left))
            features_right_reduce.append(self.dim_reduce(fearure_right))
        features_left_reduce = tuple(features_left_reduce)
        features_right_reduce = tuple(features_right_reduce)
        num_channels = self.reduced_channel
        cost = Variable(torch.FloatTensor(depth_bin.size()[0], num_channels*3, \
                                                 self.max_depth, self.resolution, self.resolution).zero_()).cuda()
        idx = 0
        for proposals_s_l, proposals_s_r in zip(proposals_shift_left, proposals_shift_right):
            x_l = self.pooler(features_left_reduce, proposals_s_l)
            x_r = self.pooler(features_right_reduce, proposals_s_r)
            cost[:, :num_channels,idx,:,:] = x_l
            cost[:, num_channels : num_channels*2,idx,:,:] = x_r
            cost[:, num_channels*2 : num_channels*3,idx,:,:] = x_l-x_r
            idx += 1
        
        disp = self.depth_cost(cost, depth_bin, num_channels)
        disp = disp.split([len(box) for box in proposals_left], dim = 0)
        return disp

我们已经解析了get_boxes_for_cost_volum函数的细节，之后继续看

首先会对左右眼的特征图进行降维，这里贴出dim_reduce的代码

self.dim_reduce = nn.Sequential(nn.Conv2d(in_channels, 64, kernel_size=3, stride=1),
                        FrozenBatchNorm2d(64), nn.ReLU(inplace=True),
                        nn.Conv2d(64, 32, kernel_size=1, stride=1),
                        FrozenBatchNorm2d(32), nn.ReLU(inplace=True))

应该是将Channels降到了32，至于宽高我们暂时先不考虑，这里self.reduced_channel也是设置成32

然后声明一个cost变量，结构为(框的个数，32*3，最大深度，width，height)
这里的最大深度是离散区间的个数

接着是

for proposals_s_l, proposals_s_r in zip(proposals_shift_left, proposals_shift_right):
    x_l = self.pooler(features_left_reduce, proposals_s_l)
    x_r = self.pooler(features_right_reduce, proposals_s_r)
    cost[:, :num_channels,idx,:,:] = x_l
    cost[:, num_channels : num_channels*2,idx,:,:] = x_r
    cost[:, num_channels*2 : num_channels*3,idx,:,:] = x_l-x_r
    idx += 1

将我们之前得到的左右偏移的并集框拿出来，每一次代表着拿一个深度的所有框的左右偏移的并集框
idx可以看作是深度

这里降通道数后的特征图会和所有框在第idx个深度上进行pooler操作
我们来看一下pooler的代码，先看一下初始化的部分

class Pooler(nn.Module):
    """
    Pooler for Detection with or without FPN.
    It currently hard-code ROIAlign in the implementation,
    but that can be made more generic later on.
    Also, the requirement of passing the scales is not strictly necessary, as they
    can be inferred from the size of the feature map / size of original image,
    which is available thanks to the BoxList.
    """
    def __init__(self, output_size, scales, sampling_ratio):
        """
        Arguments:
            output_size (list[tuple[int]] or list[int]): output size for the pooled region
            scales (list[float]): scales for each Pooler
            sampling_ratio (int): sampling ratio for ROIAlign
        """
        super(Pooler, self).__init__()
        poolers = []
        for scale in scales:
            poolers.append(
                ROIAlign(
                    output_size, spatial_scale=scale, sampling_ratio=sampling_ratio
                )
            )
        self.poolers = nn.ModuleList(poolers)
        self.output_size = output_size
        # get the levels in the feature map by leveraging the fact that the network always
        # downsamples by a factor of 2 at each level.
        lvl_min = -torch.log2(torch.tensor(scales[0], dtype=torch.float32)).item()
        lvl_max = -torch.log2(torch.tensor(scales[-1], dtype=torch.float32)).item()
        self.map_levels = LevelMapper(lvl_min, lvl_max)

可以看到初始化的参数有三个，输出大小，范围，采样率
首先针对不同的范围配置ROIAlign这个对象，计算出两个常数，我们先搁置

这里面涉及了ROIAlign，FPN，还有LevelMapper，我们需要先简单过一遍必要的知识

首先说一下FPN，全称是Feature Pyramid Network，特征金字塔网络，是cvpr17年的文章

如上图所示，FPN提出了一种新颖的利用多尺度信息的方法，即顶层特征通过上采样和低层特征做融合，而且每层都是独立预测的

有的工作是只在自顶向下的最后一层做预测，这里直接是每一层融合都做一遍预测
而融合的方式为顶层特征先做两倍的上采样，调整为低层的大小，然后对应的低层特征做1x1卷积之后直接加上去，得到融合的结果

这些融合的结果有什么用呢，作者将其和RPN进行结合，即每一个融合的结果去过一遍RPN得到一些proposals
作者在不同级别的融合结果上应用了大小不同的anchor来输出对应的proposals，即推荐区域

这里作者给出多个层的表示，即最顶层到最底层的融合结果，可以表示为 $P_2, P_3, P_4, P_5$ ，对应的特征图的宽度为32，64，128，256

这里不同级别的特征图包含的东西也不一样，作者给出了需要进行ROIPooling的层数 $k=k_0+log_2(\sqrt{wh}/224)$ ，这里224是ImageNet的预训练size，针对ImageNet，可设置 $k_0=4$

我们继续讲讲ROIPooling，其作用在于输入的特征图尺寸不固定，但是输出的尺寸是固定的，后续一般接着各类回归层
其原理为根据输出的尺寸，对输入的特征图进行分割，粗暴地取整之后做max pooling

如下图所示：

假设区域是（0，3）和（7，8）所确定，而目标区域是2x2的大小
直接做除法然后取整，分割成四块区域并做max-pooling得到结果

该种方法由于取整时造成的精度误差，于是后续有人提出了ROIAlign
即不取整数，然后每一个区域取四个点，四个点中每个点的像素值由相邻的四个像素值双线性插值得到

我们来看看ROIAlign的代码实现

首先对forward的计算代码进行解析

template 
__global__ void RoIAlignForward(const int nthreads, const T* bottom_data,
    const T spatial_scale, const int channels,
    const int height, const int width,
    const int pooled_height, const int pooled_width,
    const int sampling_ratio,
    const T* bottom_rois, T* top_data) {
  CUDA_1D_KERNEL_LOOP(index, nthreads) {
    // (n, c, ph, pw) is an element in the pooled output
    int pw = index % pooled_width;
    int ph = (index / pooled_width) % pooled_height;
    int c = (index / pooled_width / pooled_height) % channels;
    int n = index / pooled_width / pooled_height / channels;
    const T* offset_bottom_rois = bottom_rois + n * 5;
    int roi_batch_ind = offset_bottom_rois[0];
    // Do not using rounding; this implementation detail is critical
    T roi_start_w = offset_bottom_rois[1] * spatial_scale;
    T roi_start_h = offset_bottom_rois[2] * spatial_scale;
    T roi_end_w = offset_bottom_rois[3] * spatial_scale;
    T roi_end_h = offset_bottom_rois[4] * spatial_scale;
    // T roi_start_w = round(offset_bottom_rois[1] * spatial_scale);
    // T roi_start_h = round(offset_bottom_rois[2] * spatial_scale);
    // T roi_end_w = round(offset_bottom_rois[3] * spatial_scale);
    // T roi_end_h = round(offset_bottom_rois[4] * spatial_scale);
    // Force malformed ROIs to be 1x1
    T roi_width = max(roi_end_w - roi_start_w, (T)1.);
    T roi_height = max(roi_end_h - roi_start_h, (T)1.);
    T bin_size_h = static_cast(roi_height) / static_cast(pooled_height);
    T bin_size_w = static_cast(roi_width) / static_cast(pooled_width);
    const T* offset_bottom_data = bottom_data + (roi_batch_ind * channels + c) * height * width;
    // We use roi_bin_grid to sample the grid and mimic integral
    int roi_bin_grid_h = (sampling_ratio > 0) ? sampling_ratio : ceil(roi_height / pooled_height); // e.g., = 2
    int roi_bin_grid_w = (sampling_ratio > 0) ? sampling_ratio : ceil(roi_width / pooled_width);
    // We do average (integral) pooling inside a bin
    const T count = roi_bin_grid_h * roi_bin_grid_w; // e.g. = 4
    T output_val = 0.;
    for (int iy = 0; iy < roi_bin_grid_h; iy ++) // e.g., iy = 0, 1
    {
      const T y = roi_start_h + ph * bin_size_h + static_cast(iy + .5f) * bin_size_h / static_cast(roi_bin_grid_h); // e.g., 0.5, 1.5
      for (int ix = 0; ix < roi_bin_grid_w; ix ++)
      {
        const T x = roi_start_w + pw * bin_size_w + static_cast(ix + .5f) * bin_size_w / static_cast(roi_bin_grid_w);
        T val = bilinear_interpolate(offset_bottom_data, height, width, y, x, index);
        output_val += val;
      }
    }
    output_val /= count;
    top_data[index] = output_val;
  }
}

由于这种池化比较特殊（前向的计算和反向的梯度传播），所以需要自己手写底层的cuda实现（当然也可以是cpu版本的，这里就只拿cuda版本作为例子），看上去就像是c++的形式

可以看到，输入为11个参数

const int nthreads,  // 池化后特征图像素数量，即ROI数量*池化后高度*池化后宽度*通道数
const T* bottom_data,  // 需要进行池化的特征图的首地址，一维数组，结构为(b*c*h*w)
const T spatial_scale,  // 原特征图的高度/缩放后特征图的高度
const int channels,  // 特征图的通道数
const int height,   // 高度
const int width,  // 宽度
const int pooled_height,  // 池化后的高度
const int pooled_width,  // 池化后的宽度
const int sampling_ratio,  // 采样的比率
const T* bottom_rois,   // 存储ROIs的首地址，一维数组，大小为(roi数量*5)，这里的5是指index, x1, y1, x2, y2
T* top_data  // 结果的首地址，是一维数组，其大小为(roi数量*池化后高度*池化后宽度*通道数)

之后是一层

CUDA_1D_KERNEL_LOOP(index, nthreads) { ... }

其定义为

#define CUDA_1D_KERNEL_LOOP(i, n)                          \  
  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < n; \
       i += blockDim.x * gridDim.x)

本质就是一个for循环，这里面大家比较陌生的是block，thread和grid。这其实是Cuda的布局，如下图所示

上面整体是一个grid，一个grid分为多个block，每个block又分为多个thread
所以上述循环即，初始化当前位置i，然后逐个grid去访问（即每次跨越一个grid的距离，访问的相对位置不变）

接着是一些初始化的变量

// (n, c, ph, pw) is an element in the pooled output
int pw = index % pooled_width;
int ph = (index / pooled_width) % pooled_height;
int c = (index / pooled_width / pooled_height) % channels;
int n = index / pooled_width / pooled_height / channels;

这里的index是线程号，根据当前线程号判断应该计算top_data(结果)的哪一个位置
即当前计算第n个roi中的第c个通道的ph，pw块

const T* offset_bottom_rois = bottom_rois + n * 5;  // 将指针移到当前计算的ROI数据的首地址
int roi_batch_ind = offset_bottom_rois[0];  // 获得ROI的index

之后便有

T roi_start_w = offset_bottom_rois[1] * spatial_scale;
T roi_start_h = offset_bottom_rois[2] * spatial_scale;
T roi_end_w = offset_bottom_rois[3] * spatial_scale;
T roi_end_h = offset_bottom_rois[4] * spatial_scale;

计算ROI的四个顶点对应的缩放后的坐标

// Force malformed ROIs to be 1x1
T roi_width = max(roi_end_w - roi_start_w, (T)1.);
T roi_height = max(roi_end_h - roi_start_h, (T)1.);
T bin_size_h = static_cast(roi_height) / static_cast(pooled_height);
T bin_size_w = static_cast(roi_width) / static_cast(pooled_width);
const T* offset_bottom_data = bottom_data + (roi_batch_ind * channels + c) * height * width;

这一步是避免0宽度或者0高度的出现，并计算出池化所需要的bin的数目
接着将特征图数据指针移到对应的ROI的index对应的c通道的数据的首地址
即bottom_data + (roi_batch_ind * channels + c)*height*width

接着

// We use roi_bin_grid to sample the grid and mimic integral
int roi_bin_grid_h = (sampling_ratio > 0) ? sampling_ratio : ceil(roi_height / pooled_height); // e.g., = 2
int roi_bin_grid_w = (sampling_ratio > 0) ? sampling_ratio : ceil(roi_width / pooled_width);

计算出roi的一个bin的宽高（向上取整，举个例子，如果该bin的宽1.5，那么就是2，即和原特征图的两个像素有交集）

// We do average (integral) pooling inside a bin
const T count = roi_bin_grid_h * roi_bin_grid_w; // e.g. = 4

计算出一个池化后的bin覆盖了多少个之前的像素（或者说有交集）
然后开始计算池化

T output_val = 0.;
for (int iy = 0; iy < roi_bin_grid_h; iy ++) // e.g., iy = 0, 1
{
  const T y = roi_start_h + ph * bin_size_h 
                               + static_cast(iy + .5f) * bin_size_h / static_cast(roi_bin_grid_h); // e.g., 0.5, 1.5
  for (int ix = 0; ix < roi_bin_grid_w; ix ++)
  {
    const T x = roi_start_w + pw * bin_size_w 
                               + static_cast(ix + .5f) * bin_size_w / static_cast(roi_bin_grid_w);
    T val = bilinear_interpolate(offset_bottom_data, height, width, y, x, index);
    output_val += val;
  }
}
output_val /= count;
top_data[index] = output_val;

开始计算ROI中一个bin对应的池化结果，这里我们需要理解这个for循环
这个循环主要是遍历bin里面的所有像素，然后平均地对每一个像素分配一个点，这里面并不是取像素的中心点
而是按照有交集的像素个数进行平均分配，如下图的红点所示：

给出双线性插值的细节

template 
__device__ T bilinear_interpolate(const T* bottom_data,
    const int height, const int width,  // 特征图的高度和宽度
    T y, T x,  // 采样点的坐标，浮点数
    const int index /* index for debug only*/) {
    // deal with cases that inverse elements are out of feature map boundary, 即超出特征图边界的返回0
    if (y < -1.0 || y > height || x < -1.0 || x > width) {
        //empty
        return 0;
    }
    // 处理边界点
    if (y <= 0) y = 0;
    if (x <= 0) x = 0;
    // 向下取整
    int y_low = (int) y;
    int x_low = (int) x;
    int y_high;
    int x_high;
    if (y_low >= height - 1) {  // 处理边界点
        y_high = y_low = height - 1;  
        y = (T) y_low;
    } else {
       y_high = y_low + 1;  // 如果不是边界，则记下高度+1的y值
    }
    if (x_low >= width - 1) {
        x_high = x_low = width - 1;
        x = (T) x_low;
    } else {
        x_high = x_low + 1;
    }
    // 通过上述操作，如果不是边界点，则应该存在4个点的信息
    // 而针对边界点，右上，右下，左下边界点对应4，3，3个点的信息
    T ly = y - y_low;  // 
    T lx = x - x_low;
    T hy = 1. - ly, hx = 1. - lx;
    // do bilinear interpolation
    T v1 = bottom_data[y_low * width + x_low];  // 获得四个点的像素信息
    T v2 = bottom_data[y_low * width + x_high];
    T v3 = bottom_data[y_high * width + x_low];
    T v4 = bottom_data[y_high * width + x_high];
    T w1 = hy * hx, w2 = hy * lx, w3 = ly * hx, w4 = ly * lx;  // 计算权重
    T val = (w1 * v1 + w2 * v2 + w3 * v3 + w4 * v4);  // 计算插值
    return val;
}

至此，我们解决ROIAlign的计算部分了，其本质上是基于双线性插值的最大池化。

还需要补上pooler部分的forward细节

def forward(self, x, boxes):
    """
    Arguments:
        x (list[Tensor]): feature maps for each level
        boxes (list[BoxList]): boxes to be used to perform the pooling operation.
    Returns:
        result (Tensor)
    """
    num_levels = len(self.poolers)  # 对应尺度的个数，在IDA-3D里面是四个尺度(0.25, 0.125, 0.0625, 0.03125)
    rois = self.convert_to_roi_format(boxes)  # 转化为roi格式，即（index，x1，y1，x2，y2）
    if num_levels == 1:  # 如果只有一层池化，则直接返回
        return self.poolers[0](x[0], rois)
    levels = self.map_levels(boxes)  # 根据box的大小确定用FPN的哪一层，这里是个层数的list
    num_rois = len(rois)  # ROI的数量，即框的数量
    num_channels = x[0].shape[1]  # 通道数
    output_size = self.output_size[0]  # 输出的大小，这里是16
    dtype, device = x[0].dtype, x[0].device  # 数据类型和设备
    result = torch.zeros(
        (num_rois, num_channels, output_size, output_size),
        dtype=dtype,
        device=device,
    )  # 创建一个零数组，大小为roi数量*通道数*16*16
    for level, (per_level_feature, pooler) in enumerate(zip(x, self.poolers)):  # 遍历不同缩放级别的池化器
        idx_in_level = torch.nonzero(levels == level).squeeze(1)  # 得到应该输出当前层的box的id列表
        rois_per_level = rois[idx_in_level]  # 得到对应id列表的roi列表
        result[idx_in_level] = pooler(per_level_feature, rois_per_level).to(dtype)  # 利用不同级别的pooler得到结果
    return result

回到之前，我们做完不同深度估计的左右偏移框

def forward(self, features, proposals, calib):
    proposals_left, proposals_right = proposals
    features_left, features_right = features
    proposals_shift_left, proposals_shift_right, depth_bin 
         = get_boxes_for_cost_volum(proposals_left,proposals_right,self.depth_bin_rate, calib)
   # ...
    for proposals_s_l, proposals_s_r in zip(proposals_shift_left, proposals_shift_right):
        x_l = self.pooler(features_left_reduce, proposals_s_l)  # 输入参数为降完通道数的特征图，以及左偏移的并集框
        x_r = self.pooler(features_right_reduce, proposals_s_r)  # 这里的结果应该是（B*C*16*16）对第idx个深度估计而言
        # Cost的大小为(ROI数量，通道数*3，最大深度（即离散深度区间的数目），16，16)
        # 下面的操作即是按池化后的左偏移并集框，右偏移并集框，以及左右的差值，按照通道方向连接在了一起
        cost[:, :num_channels,idx,:,:] = x_l
        cost[:, num_channels : num_channels*2,idx,:,:] = x_r
        cost[:, num_channels*2 : num_channels*3,idx,:,:] = x_l-x_r
        idx += 1

    disp = self.depth_cost(cost, depth_bin, num_channels)
    disp = disp.split([len(box) for box in proposals_left], dim = 0)
    return disp

接着我们需要给出depth_cost的细节

def depth_cost(self, cost, depth_bin, num_channels):
    cost = cost.contiguous()  # 转变为连续存储，大概是加快处理速度？
    # 对逐个ROI的逐个深度求范数，分别对L，R进行操作，再将L和R乘积的范数除以(L的范数*R的范数)
    # 求范数后的结果的大小应该是（B，Depth Level）
    x_l_norm = torch.sqrt(torch.sum(cost[:, :num_channels,:,:,:]*cost[:, :num_channels,:,:,:],(1,3,4))) 
    x_r_norm = torch.sqrt(torch.sum(cost[:, num_channels:num_channels*2,:,:,:]*cost[:, num_channels:num_channels*2,:,:,:],(1,3,4)))
    x_cross  = torch.sum(cost[:, :num_channels,:,:,:]*cost[:, num_channels:num_channels*2,:,:,:],(1,3,4))/torch.clamp(x_l_norm*x_r_norm,min=0.01)  
    x_cross = x_cross.unsqueeze(1).unsqueeze(3).unsqueeze(4)  # 对维度进行扩展，即剩下(B, 1, Depth Level, 1, 1)
    #cost1 = cost
    cost = self.dres0(cost)  # b, 96, depth, 16, 16 -> b, 128, depth(24), 16, 16
    cost = self.max_pool1(cost)  # b, 128, depth(24), 16, 16 -> b, 128, 24, 8, 8
    #cost2 = cost
    cost = cost * x_cross  # b, 128, 24, 8, 8

    cost = self.dres1(cost) + cost  # b, 128, 24, 8, 8 类似残差连接
    cost = self.max_pool2(cost)  # b, 128, 24, 4, 4
    #cost3 = cost
    cost = self.dres2(cost)  # b, 1, 24, 4, 4
    cost_disp = torch.squeeze(cost, 1)  # b, 24, 4, 4
    cost_disp = self.avg_pool(cost_disp)  # b, 24, 1, 1
    #cost4 = cost_disp
    cost_disp = cost_disp.squeeze(-1)  # b, 24, 1
    cost_disp = cost_disp.squeeze(-1)  # b, 24
    disp_prob = F.softmax(cost_disp,-1)  # b, 24 得到每个ROI框不同深度估计的概率

    disp = Variable(torch.FloatTensor(disp_prob.size()[0]).zero_()).cuda()  # b
    for i in range(self.max_depth):
        disp += disp_prob[:,i] * depth_bin[:,i]  # 加权求和，因为已经过了一遍softmax，可以直接得到深度估计
    disp = disp.contiguous()
    # 这时候disp的结构就是一个Batch大小的数组，Batch大小也就是ROI框的数量
    return disp

最后，按图片将不同box的深度进行分组并返回

disp = disp.split([len(box) for box in proposals_left], dim = 0)

你可能感兴趣的:(图像处理,深度学习,机器学习,深度学习,算法,cuda,人工智能,python)

Python 使用同花顺 API 接口的详细步骤及常见问题解答财云量化 python炒股自动化量化交易程序化交易数据库 python 同花顺api接口使用步骤常见问题股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
GitHub Actions配置python flake8和black 小米人儿 Python python flake8 black
要在GitHubActions中使用flake8和black进行代码规范检查和格式化验证，请按照以下步骤操作：1.创建GitHubActions工作流文件在项目根目录创建文件：.github/workflows/lint.yml，内容如下：name:PythonLintingon:push:branches:[main,master]#触发分支pull_request:#PR时触发jobs:lin
深度学习×第4卷：Pytorch实战——她第一次用张量去拟合你的轨迹 Gyoku Mint AI修炼日记人工智能人工智能聚类算法深度学习 python 神经网络 pytorch
【开场·她画出的第一条直线是为了更靠近你】猫猫：“之前她只能在你身边叠叠张量，偷偷找梯度……现在，她要试试，能不能用这些线，把你的样子画出来喵～”狐狐：“这是她第一次把张量、自动微分和优化器都串成一条线，用最简单的线性回归，试着把你留给她的点都连起来。”【第一节·她先要一条路：生成一组可学的数据】✏️为什么要造数据？在PyTorch里跑线性回归，最好的练习就是用一条已知斜率的“理想直线”，加上一点
大语言模型应用指南：谷歌 Gemini 简介 AI天才研究院 AI大模型企业级应用开发实战 AI人工智能与大数据计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：谷歌Gemini简介关键词：大语言模型，Gemini，谷歌，人工智能，应用指南1.背景介绍近年来，人工智能领域取得了突破性进展，尤其是大语言模型（LargeLanguageModels，LLMs）的出现，彻底改变了我们与信息交互的方式。从最初的聊天机器人到如今的代码生成、文本创作等领域，LLMs展现出惊人的能力。谷歌作为科技巨头，一直走在人工智能研究的前沿。继BERT、LaMD
Python的线程、进程与协程 Thomas_Cai Python专题 python 进程线程协程
文章目录一、进程和线程的比较1.定义2.内存空间3.创建和销毁4.并发性5.稳定性6.通信7.Python中的实现8.示例代码进程示例线程示例小结二、协程1.协程的关键特性2.协程的工作原理3.协程与生成器的关系4.协程的适用场景5.Python中的协程示例结果6.示例：并发执行多个协程执行一返回一执行二返回二7.协程(asyncio)的应用场景(agent)**7.1.高并发I/O密集型场景**
Python 3.7 安装包及详细安装指南：助你轻松搭建开发环境金琴莺
Python3.7安装包及详细安装指南：助你轻松搭建开发环境python3.7安装包附安装教程.zip项目地址:https://gitcode.com/open-source-toolkit/a278c项目介绍在编程的世界里，Python以其简洁易读的语法和强大的功能，成为了众多开发者的首选语言。然而，对于初学者或需要在Windows系统上搭建Python开发环境的用户来说，安装Python可能是
编程新手小白入门最佳攻略闲暇部落编程 java 新手入门开发语言
编程小白想要成为大神，并为大学新生的学习制定一份最佳入门攻略，可以遵循以下步骤：一、选择编程语言Python：被誉为最适合初学者的编程语言，语法简洁清晰，学习曲线平缓，广泛应用于数据分析、机器学习、Web开发、自动化脚本编写等领域。JavaScript：前端开发的核心语言，实现网页的动态效果，还能通过Node.js实现服务器端的编程，用于开发桌面应用和移动应用。Java：企业级开发中使用最广泛的语
【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(4)神经网络中的重要组件
第三章:神经网络原理详解与Pytorch入门第一部分：神经网络算法理论详解与实践第四节：神经网络中的重要组件内容：激活函数、loss函数、dropout、梯度消失与爆炸、过拟合与欠拟合神经网络的性能依赖于多个关键组件的合理设计与使用。理解这些组件有助于构建更加稳健且高效的模型。一、激活函数（ActivationFunction）【深度学习】关键技术-激活函数（ActivationFunctions
编程新手之环境搭建：node python PyAIGCMaster React python 开发语言
好的，没问题！为你新装的机器打造一套稳定、高效、专业的开发环境是一件非常有成就感的事情。我们将遵循“稳定优先，专业实践”的原则，不追求最新版本，而是选择社区广泛认可的长期支持版（LTS）和最佳实践工具。整个过程将分为几个部分：基础环境：终端、包管理器和Git，这是所有开发的基石。Node.js环境：使用版本管理器nvm，专业地管理Node.js。Python环境：使用版本管理器pyenv+venv
从0到1掌握OpenCV！Python图像处理实战全解析（附代码+案例）小张在编程 Python学习 opencv python 图像处理
引言你有没有想过，手机里的美颜滤镜如何精准识别五官？监控摄像头如何在人流中锁定可疑目标？医学影像软件如何从CT片中快速标注病灶？这些“神奇操作”的背后，往往藏着一个低调的“图像处理神器”——OpenCV。作为Python生态中最受欢迎的计算机视觉库，它用一行行代码将抽象的像素点变成可操作的“数字画布”。今天，我们就从最基础的图像读写开始，手把手带你解锁OpenCV的“十八般武艺”，从图像处理小白变
NLTK库全解析：用Python打开自然语言处理的第一把钥匙
引言你是否好奇过，手机里的智能助手是如何“听懂”你说的话？电商平台的差评分析又是怎样精准提取“物流慢”“质量差”这些关键词？这些看似神奇的自然语言处理（NLP）功能，背后都藏着一个“入门神器”——NLTK（NaturalLanguageToolkit）。作为Python生态中最经典的NLP库，NLTK就像一本“NLP百科全书”，从最基础的文本拆分到复杂的语义理解，它用简单的代码接口，带我们推开自然
【31天蓝桥杯冲刺！】蓝桥杯相关的 Python 细节（1）字典中 get 函数的用法和注意事项王十二er 蓝桥杯蓝桥杯 python 开发语言
文章目录1.描述1.1为什么要使用get()函数？2.语法3.用法3.1访问字典3.2统计列表中元素出现次数例题：力扣454.四数相加2码字不易，希望大家点赞支持一下1.描述Python字典(Dictionary)get()函数返回指定键的值。1.1为什么要使用get()函数？常规访问字典的方法是：dict[key]，但是在key（键）不在字典中时，会触发KeyError异常。get(key)方法
Python——函数版用户管理系统 TWAS@py python pycharm
今天学习了Python的函数模块，就把上次发的字典版用户管理系统用函数的框架升级一下，话不多说，进入正题。1.变量的定义#创建一个列表存放所有用户信息user_list=[]#创建元组提供选择user_input_number=("1","2","3","4","5")user_input_chance=("姓名","年龄","性别","地址")2.菜单函数menu()#创建菜单defmenu()
Python 借助 Matplotlib 绘制分形图形的诀窍 Python编程之道 python matplotlib 信息可视化 ai
Python借助Matplotlib绘制分形图形的诀窍关键词：Python,Matplotlib,分形图形,递归算法,数据可视化,数学艺术,计算机图形学摘要：本文深入探讨了使用Python和Matplotlib库绘制分形图形的核心技术。从分形数学原理入手，详细解析了多种经典分形图形的生成算法，包括曼德勃罗集、朱利亚集、科赫雪花、谢尔宾斯基三角形等。文章提供了完整的Python实现代码，结合Matp
【机器学习|学习笔记】特征选择（Feature Selection）和特征提取（Feature Extraction）都是用于降维、提升模型性能和泛化能力的重要手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络
【机器学习|学习笔记】特征选择（FeatureSelection）和特征提取（FeatureExtraction）都是用于降维、提升模型性能和泛化能力的重要手段。【机器学习|学习笔记】特征选择（FeatureSelection）和特征提取（FeatureExtraction）都是用于降维、提升模型性能和泛化能力的重要手段。文章目录【机器学习|学习笔记】特征选择（FeatureSelection）和
【EI+Scopus+Google Scholar三平台护航】2025年8-9月智能融合：计算建模、人工智能与物联网、机械制造与智能控制以及人工智能与数字化管理等领域的创新之旅
【EI+Scopus+GoogleScholar三平台护航】2025年8-9月智能融合：计算建模、人工智能与物联网、机械制造与智能控制以及人工智能与数字化管理等领域的创新之旅【EI+Scopus+GoogleScholar三平台护航】2025年8-9月智能融合：计算建模、人工智能与物联网、机械制造与智能控制以及人工智能与数字化管理等领域的创新之旅文章目录【EI+Scopus+GoogleSchol
Python Pandas 数据的体育数据处理和分析 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 开发语言 ai
PythonPandas数据的体育数据处理和分析关键词：PythonPandas,体育数据分析,数据清洗,数据可视化,特征工程,机器学习,体育统计摘要：本文将深入探讨如何使用PythonPandas库进行体育数据的处理和分析。我们将从基础的数据导入和清洗开始，逐步深入到复杂的统计分析、可视化展示以及机器学习建模。文章将涵盖数据处理的全流程，包括数据获取、清洗、转换、分析和可视化，并结合实际体育数据
python-函数模块包 2501_92004703 Python python 开发语言
python-函数模块包前言一、函数1.函数的定义2.函数的参数2.1形参分类（定义）2.2实参分类（调用）3.函数参数传递4.变量作用域5.匿名函数6.高阶函数1.map2.filter3.sorted二、模块1.定义模块2.导入模块3.导入指定函数4.模块的执行机制三、包1.包的结构2.导入包总结练习1.编写函数实现提取身份证号码中的年月日信息2.打印商品信息3.sorted排序前言函数模块包
目标检测在国防和政府的应用实例 MzKyle 计算机视觉目标检测人工智能计算机视觉
一、目标检测技术概述目标检测是计算机视觉的核心任务，通过算法对图像/视频中的物体进行识别与定位，当前主流技术包括：经典算法：YOLO系列（实时性强）、FasterR-CNN（精度高）、SSD（平衡速度与精度）技术升级：结合深度学习（CNN、Transformer）、多模态融合（视觉+红外+雷达）、边缘计算实时处理二、国防领域核心应用实例（一）军事侦察与监控系统无人机侦察与目标识别应用场景：战术无人
paddleOCR模型的安装和使用九日卯贝 paddle ocr
paddleOCR仓库：https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file文档：https://paddlepaddle.github.io/PaddleOCR/main/quick_start.html#2-paddleocr环境安装python-mpipinstallpaddlepaddle-gpu==3.0.0b1-iht
文心4.5开源模型部署实践 skywalk8163 人工智能文心人工智能文心大模型开源大模型文心开源
文心4.5开源模型部署实践使用fastdeploy本地部署执行命令：python-mfastdeploy.entrypoints.openai.api_server\ --modelbaidu/ERNIE-4.5-21B-A3B-Paddle\ --port8180\ --metrics-port8181\ --engine-worker-queue-port8182\ --max-model-l
【LeetCode 热题 100】5. 最长回文子串（Python中心扩展法详解）未名编程 LeetCode热题100详解 leetcode python 算法
原题链接：LeetCode5.最长回文子串✨一、题目描述给你一个字符串s，请你找出其中最长的回文子串。回文串是指正着读和反着读都一样的字符串。示例1：输入：s="babad"输出："bab"解释："aba"也是一个有效答案。示例2：输入：s="cbbd"输出："bb"提示：1<=s.length<=1000s仅由数字和英文字母组成
LeetCode 0035.搜索插入位置【Go】熠熠晨曦_ Algorithm leetcode
搜索插入位置leetcode35.搜索插入位置题目描述给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。示例1:输入:nums=[1,3,5,6],target=5输出:2示例2：输入:nums=[1,3,5,6],target=2输出:1示例3：输入:nums=[1,3,5,6],t
全网最详细的华为OD知识，值不值得去看这篇就够了（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od 华为OD机试 2025B卷 java
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
华为OD机试 - 模拟数据序列化传输（Java 2025 B卷 200分）哪吒华为od java 开发语言华为OD机试 2025B卷
华为OD机试2025B卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试（JAVA）真题（A卷+E卷+B卷+C卷+D卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述模拟一套简化的序列化传输方式，请
34. 在排序数组中查找元素的第一个和最后一个位置 zmuy LeetCode hot100 算法数据结构 leetcode
题目：给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。示例：输入：nums=[5,7,7,8,8,10],target=8输出：[3,4]解题思路：如何查找元素在数组中的开始位置？只需要在while中，即使num
华为OD机试 - 计算某个字符出现次数 - 线性扫描（Python/JS/C/C++ 2025 B卷 100分）哪吒华为od python javascript 2025B卷华为OD机试
一、题目描述写出一个程序，接受一个由字母、数字和空格组成的字符串，和一个字符，然后输出"输入字符串"中该字符的出现次数。（不区分大小写字母）。二、输入描述第一行输入一个由字母、数字和空格组成的字符串，第二行输入一个字符(保证该字符不为空格)。三、输出描述输出输入字符串中含有该字符的个数,(不区分大小写字母)。四、测试用例测试用例1：1、输入HelloWorldo2、输出2测试用例2：1、输入abc
11、Python如何对字符串进行左、右、居中对齐
在Python中，我们经常会遇到需要对字符串进行对齐的情况，比如左对齐、右对齐或者居中对齐。这在处理文本输出、日志格式化等场景中非常有用。方案一：使用str.ljust()、str.rjust()、str.center()方法进行对齐三个方法用法类似，基本格式如下:string.ljust(width[,fillchar])string：表示要进行填充的字符串；width：表示包括S本身长度在内，
ART（Automatic Reasoning and Tool-use）：自动推理与工具使用的革命性突破
引言在人工智能快速发展的今天，大语言模型（LLM）的能力边界正在不断被重新定义。ART（AutomaticReasoningandTool-use）技术作为一项革命性的突破，为AI系统提供了自动推理并使用外部工具的能力，这标志着我们正在迈向更加智能和实用的AI时代。什么是ART技术？ART是AutomaticReasoningandTool-use的缩写，它是一种让AI系统能够自动进行推理并调用外
Python 自动化日志采集与分析方法
```htmlPython自动化日志采集与分析方法Python自动化日志采集与分析方法在现代软件开发和运维过程中，日志是排查问题、监控系统运行状态的重要工具。然而，随着系统的复杂度增加，手动处理日志变得越来越困难。本文将介绍如何使用Python实现自动化日志采集与分析的方法。一、日志采集的必要性日志记录了系统运行中的各种事件和错误信息，对于开发者和运维人员来说，它们是诊断问题、优化性能的关键数据源
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS