图波列夫

SiamMask 测试程序分析

之前分析了 DaSiamRPN 的测试代码，侧重于执行细节。到了 SiamMask，似乎主题应该有所升华。故事的明线为跟踪器构成，暗线为训练流图。
相比于 DaSiamRPN，SiamMask 不仅网络结构是现代化的，系统设计也更具匠心。这便于我们一窥其轮廓。
SiamMask/models 文件夹下定义了网络的基本架构。

SiamMask

Features

RPN

Mask

网络工作流为：

z_f

'x_f

z_f

'x_f

exemplar

Features

instance

Features

RPN

Mask

SiamMask/experiments/siammask 文件夹定义了实际网络。具体到 Custom，其多了一个 Refine 模块用于融合不同层次上的特征。

Custom

ResDown

MaskCorr

Refine

SiamMask/tools 文件夹中定义了测试和评估程序。

下面介绍其环境配置。编译 Cython 需要 python3-devel 库。

SiamMask/requirements.txt

项目推荐安装以下包：

Cython 是 Python 及其扩展 Cython 编程语言（基于 Pyrex）的优化静态编译器。它使 Python 编写 C 扩展就像 Python 本身一样简单。
Colorama 实现跨平台彩色终端文本。
NumPy 是使用 Python 进行科学计算的基础包。
Fire 用于自动生成命令行界面的库。（未见使用）
torch 指定了0.4.1版本。
torchvision 用于 Torch 深度学习的图像、视频数据集和模型。
Numba 是一个开源 JIT 编译器，它将 Python 和 NumPy 代码的子集转换为快速机器码。（在 pysot 中使用）
SciPy 是数学、科学和工程的开源软件。SciPy 库依赖于 NumPy，它提供方便快捷的 N 维数组操作。（未见使用）
h5py 从 Python 读取和写入 HDF5文件。（未见使用）
pandas 用于数据分析、时间序列和统计的强大的数据结构。（未见使用）
tqdm Python 和 CLI 的快速、可扩展的进度条。
opencv-python 用于 Python 的非官方预构建 OpenCV 包。

get_test_data.sh 脚本首先借助 jvlmdr/trackdat 下载 vot2016 vot2018 搭配作者相应的 json 文件。然后下载 DAVIS-2017-trainval-480p.zip。DAVIS 2017 在每个视频序列中标注了多个实例。
jvlmdr/trackdat 中解析 json 文件需要安装 jq。

test_mask_refine.sh

test.py

检查输入参数3是否存在。

if [ -z "$4" ]
  then
    echo "Need input parameter!"
    echo "Usage: bash `basename "$0"` \$CONFIG \$MODEL \$DATASET \$GPUID"
    exit
fi

git-rev-parse 挑选并管理参数。–show-toplevel 显示顶级目录的绝对路径。
将项目加入 Python 的环境变量中，创建“logs”文件夹。

ROOT=`git rev-parse --show-toplevel`
export PYTHONPATH=$ROOT:$PYTHONPATH

mkdir -p logs

导入参数后运行 test.py。

config=$1
model=$2
dataset=$3
gpu=$4

CUDA_VISIBLE_DEVICES=$gpu python -u $ROOT/tools/test.py \
    --config $config \
    --resume $model \
    --mask --refine \
    --dataset $dataset 2>&1 | tee logs/test_$dataset.log

test.py

Created with Raphaël 2.2.0 main config, model, dataset load_config add_file_handler Custom load_pretrain load_dataset vos_enable? track_vos End track_vot yes no

load_config 加载 JSON 配置文件并设置args.arch的值。
add_file_handler 创建一个记录器并绑定文件句柄。

    global args, logger, v_id
    args = parser.parse_args()
    cfg = load_config(args)

    init_log('global', logging.INFO)
    if args.log != "":
        add_file_handler('global', args.log, logging.INFO)

    logger = logging.getLogger('global')
    logger.info(args)

Custom 为论文实现的网络。
如果不是“Custom”，加载 models 下指定的结构。
load_pretrain 能够处理网络之间的不一致。

    # setup model
    if args.arch == 'Custom':
        from custom import Custom
        model = Custom(anchors=cfg['anchors'])
    else:
        model = models.__dict__[args.arch](anchors=cfg['anchors'])

    if args.resume:
        assert isfile(args.resume), '{} is not a valid file'.format(args.resume)
        model = load_pretrain(model, args.resume)
    model.eval()
    model = model.cuda()

load_dataset 能够加载 VOT、DAVIS、ytb_vos 三种数据集。

    # setup dataset
    dataset = load_dataset(args.dataset)

仅以上三种数据源支持掩膜输出。
调用 track_vos 或者 track_vot。

    # VOS or VOT?
    if args.dataset in ['DAVIS2016', 'DAVIS2017', 'ytb_vos'] and args.mask:
        vos_enable = True  # enable Mask output
    else:
        vos_enable = False

    total_lost = 0  # VOT
    iou_lists = []  # VOS
    speed_list = []

    for v_id, video in enumerate(dataset.keys(), start=1):
        if vos_enable:
            iou_list, speed = track_vos(model, dataset[video], cfg['hp'] if 'hp' in cfg.keys() else None,
                                 args.mask, args.refine, args.dataset in ['DAVIS2017', 'ytb_vos'])
            iou_lists.append(iou_list)
        else:
            lost, speed = track_vot(model, dataset[video], cfg['hp'] if 'hp' in cfg.keys() else None,
                             args.mask, args.refine)
            total_lost += lost
        speed_list.append(speed)

记录最终结果。

    # report final result
    if vos_enable:
        for thr, iou in zip(thrs, np.mean(np.concatenate(iou_lists), axis=0)):
            logger.info('Segmentation Threshold {:.2f} mIoU: {:.3f}'.format(thr, iou))
    else:
        logger.info('Total Lost: {:d}'.format(total_lost))

    logger.info('Mean Speed: {:.2f} FPS'.format(np.mean(speed_list)))

track_vos

track_vos 函数中使用了 Image.open。分割数据的标注亦为图片。

    image_files = video['image_files']

    annos = [np.array(Image.open(x)) for x in video['anno_files']]
    if 'anno_init_files' in video:
        annos_init = [np.array(Image.open(x)) for x in video['anno_init_files']]
    else:
        annos_init = [annos[0]]

"DAVIS2017"和"ytb_vos"会开启多目标跟踪。

    if not mot_enable:
        annos = [(anno > 0).astype(np.uint8) for anno in annos]
        annos_init = [(anno_init > 0).astype(np.uint8) for anno_init in annos_init]

    if 'start_frame' in video:
        object_ids = [int(id) for id in video['start_frame']]
    else:
        object_ids = [o_id for o_id in np.unique(annos[0]) if o_id != 0]
        if len(object_ids) != len(annos_init):
            annos_init = annos_init*len(object_ids)
    object_num = len(object_ids)

每个目标都遍历图像，在起止帧之间执行跟踪。
pred_masks记录所有的 mask。
boundingRect() 计算点集或灰度图像的非零像素的垂直矩形。

    toc = 0
    pred_masks = np.zeros((object_num, len(image_files), annos[0].shape[0], annos[0].shape[1]))-1
    for obj_id, o_id in enumerate(object_ids):

        if 'start_frame' in video:
            start_frame = video['start_frame'][str(o_id)]
            end_frame = video['end_frame'][str(o_id)]
        else:
            start_frame, end_frame = 0, len(image_files)

        for f, image_file in enumerate(image_files):
            im = cv2.imread(image_file)
            tic = cv2.getTickCount()
            if f == start_frame:  # init
                mask = annos_init[obj_id] == o_id
                x, y, w, h = cv2.boundingRect((mask).astype(np.uint8))
                cx, cy = x + w/2, y + h/2
                target_pos = np.array([cx, cy])
                target_sz = np.array([w, h])
                state = siamese_init(im, target_pos, target_sz, model, hp)  # init tracker
            elif end_frame >= f > start_frame:  # tracking
                state = siamese_track(state, im, mask_enable, refine_enable)  # track
                mask = state['mask']
            toc += cv2.getTickCount() - tic
            if end_frame >= f >= start_frame:
                pred_masks[obj_id, f, :, :] = mask
    toc /= cv2.getTickFrequency()

MultiBatchIouMeter 批量计算 IoU。

    if len(annos) == len(image_files):
        multi_mean_iou = MultiBatchIouMeter(thrs, pred_masks, annos,
                                            start=video['start_frame'] if 'start_frame' in video else None,
                                            end=video['end_frame'] if 'end_frame' in video else None)
        for i in range(object_num):
            for j, thr in enumerate(thrs):
                logger.info('Fusion Multi Object{:20s} IOU at {:.2f}: {:.4f}'.format(video['name'] + '_' + str(i + 1), thr,
                                                                           multi_mean_iou[i, j]))
    else:
        multi_mean_iou = []

pred_mask_final合并图像上多个目标的模板索引，默认0通道为背景。索引直接保存为图片无法可视化。

    if args.save_mask:
        video_path = join('test', args.dataset, 'SiamMask', video['name'])
        if not isdir(video_path): makedirs(video_path)
        pred_mask_final = np.array(pred_masks)
        pred_mask_final = (np.argmax(pred_mask_final, axis=0).astype('uint8') + 1) * (
                np.max(pred_mask_final, axis=0) > state['p'].seg_thr).astype('uint8')
        for i in range(pred_mask_final.shape[0]):
            cv2.imwrite(join(video_path, image_files[i].split('/')[-1].split('.')[0] + '.png'), pred_mask_final[i].astype(np.uint8))

由于图像序列处理完才显示，所以有些卡顿。

    if args.visualization:
        pred_mask_final = np.array(pred_masks)
        pred_mask_final = (np.argmax(pred_mask_final, axis=0).astype('uint8') + 1) * (
                np.max(pred_mask_final, axis=0) > state['p'].seg_thr).astype('uint8')
        COLORS = np.random.randint(128, 255, size=(object_num, 3), dtype="uint8")
        COLORS = np.vstack([[0, 0, 0], COLORS]).astype("uint8")
        mask = COLORS[pred_mask_final]
        for f, image_file in enumerate(image_files):
            output = ((0.4 * cv2.imread(image_file)) + (0.6 * mask[f,:,:,:])).astype("uint8")
            cv2.imshow("mask", output)
            cv2.waitKey(1)

    logger.info('({:d}) Video: {:12s} Time: {:02.1f}s Speed: {:3.1f}fps'.format(
        v_id, video['name'], toc, f*len(object_ids) / toc))

    return multi_mean_iou, f*len(object_ids) / toc

track_vot

Created with Raphaël 2.2.0 track_vot model, video get_axis_aligned_bbox siamese_init cxy_wh_2_rect siamese_track cxy_wh_2_rect vot_overlap

regions记录目标框以及状态。

    regions = []  # result and states[1 init / 2 lost / 0 skip]
    image_files, gt = video['image_files'], video['gt']

    start_frame, end_frame, lost_times, toc = 0, len(image_files), 0, 0

get_axis_aligned_bbox 能够得到目标的最小外接矩形。
遍历图像序列，由目标出现的帧初始化。

    for f, image_file in enumerate(image_files):
        im = cv2.imread(image_file)
        tic = cv2.getTickCount()
        if f == start_frame:  # init
            cx, cy, w, h = get_axis_aligned_bbox(gt[f])
            target_pos = np.array([cx, cy])
            target_sz = np.array([w, h])
            state = siamese_init(im, target_pos, target_sz, model, hp)  # init tracker
            location = cxy_wh_2_rect(state['target_pos'], state['target_sz'])
            regions.append(1 if 'VOT' in args.dataset else gt[f])

在后续帧跟踪，由state获取目标框。
vot_overlap 计算两个多边形之间的重叠。

        elif f > start_frame:  # tracking
            state = siamese_track(state, im, mask_enable, refine_enable)  # track
            if mask_enable:
                location = state['ploygon'].flatten()
                mask = state['mask']
            else:
                location = cxy_wh_2_rect(state['target_pos'], state['target_sz'])
                mask = []

            if 'VOT' in args.dataset:
                gt_polygon = ((gt[f][0], gt[f][1]), (gt[f][2], gt[f][3]),
                              (gt[f][4], gt[f][5]), (gt[f][6], gt[f][7]))
                if mask_enable:
                    pred_polygon = ((location[0], location[1]), (location[2], location[3]),
                                    (location[4], location[5]), (location[6], location[7]))
                else:
                    pred_polygon = ((location[0], location[1]),
                                    (location[0] + location[2], location[1]),
                                    (location[0] + location[2], location[1] + location[3]),
                                    (location[0], location[1] + location[3]))
                b_overlap = vot_overlap(gt_polygon, pred_polygon, (im.shape[1], im.shape[0]))
            else:
                b_overlap = 1

OTB 测试一跟到底，VOT 跟丢则隔几帧重置。

            if b_overlap:
                regions.append(location)
            else:  # lost
                regions.append(2)
                lost_times += 1
                start_frame = f + 5  # skip 5 frames
        else:  # skip
            regions.append(0)
        toc += cv2.getTickCount() - tic

处理完一帧后进行显示。这里复制得到im_show似乎并无必要。

        if args.visualization and f >= start_frame:  # visualization (skip lost frame)
            im_show = im.copy()
            if f == 0: cv2.destroyAllWindows()
            if gt.shape[0] > f:
                if len(gt[f]) == 8:
                    cv2.polylines(im_show, [np.array(gt[f], np.int).reshape((-1, 1, 2))], True, (0, 255, 0), 3)
                else:
                    cv2.rectangle(im_show, (gt[f, 0], gt[f, 1]), (gt[f, 0] + gt[f, 2], gt[f, 1] + gt[f, 3]), (0, 255, 0), 3)
            if len(location) == 8:
                if mask_enable:
                    mask = mask > state['p'].seg_thr
                    im_show[:, :, 2] = mask * 255 + (1 - mask) * im_show[:, :, 2]
                location_int = np.int0(location)
                cv2.polylines(im_show, [location_int.reshape((-1, 1, 2))], True, (0, 255, 255), 3)
            else:
                location = [int(l) for l in location]
                cv2.rectangle(im_show, (location[0], location[1]),
                              (location[0] + location[2], location[1] + location[3]), (0, 255, 255), 3)
            cv2.putText(im_show, str(f), (40, 40), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 255), 2)
            cv2.putText(im_show, str(lost_times), (40, 80), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 0, 255), 2)

            cv2.imshow(video['name'], im_show)
            cv2.waitKey(1)
    toc /= cv2.getTickFrequency()

跟踪完成，记录结果到文本文件。

    # save result
    name = args.arch.split('.')[0] + '_' + ('mask_' if mask_enable else '') + ('refine_' if refine_enable else '') +\
           args.resume.split('/')[-1].split('.')[0]

    if 'VOT' in args.dataset:
        video_path = join('test', args.dataset, name,
                          'baseline', video['name'])
        if not isdir(video_path): makedirs(video_path)
        result_path = join(video_path, '{:s}_001.txt'.format(video['name']))
        with open(result_path, "w") as fin:
            for x in regions:
                fin.write("{:d}\n".format(x)) if isinstance(x, int) else \
                        fin.write(','.join([vot_float2str("%.4f", i) for i in x]) + '\n')
    else:  # OTB
        video_path = join('test', args.dataset, name)
        if not isdir(video_path): makedirs(video_path)
        result_path = join(video_path, '{:s}.txt'.format(video['name']))
        with open(result_path, "w") as fin:
            for x in regions:
                fin.write(','.join([str(i) for i in x])+'\n')

    logger.info('({:d}) Video: {:12s} Time: {:02.1f}s Speed: {:3.1f}fps Lost: {:d}'.format(
        v_id, video['name'], toc, f / toc, lost_times))

    return lost_times, f / toc

get_axis_aligned_bbox

numpy.linalg.norm 计算矩阵或矢量的范数。默认计算矩阵元素平方和再开根号。
求多边形中心(cx, cy)，外接矩形[(x1, y1), (x2, y2)]。
A1是平行四边形拉伸为矩形后的面积，A2为外接矩形的面积。

    nv = region.size
    if nv == 8:
        cx = np.mean(region[0::2])
        cy = np.mean(region[1::2])
        x1 = min(region[0::2])
        x2 = max(region[0::2])
        y1 = min(region[1::2])
        y2 = max(region[1::2])
        A1 = np.linalg.norm(region[0:2] - region[2:4]) * np.linalg.norm(region[2:4] - region[4:6])
        A2 = (x2 - x1) * (y2 - y1)
        s = np.sqrt(A1 / A2)
        w = s * (x2 - x1) + 1
        h = s * (y2 - y1) + 1
    else:
        x = region[0]
        y = region[1]
        w = region[2]
        h = region[3]
        cx = x+w/2
        cy = y+h/2

    return cx, cy, w, h

MultiBatchIouMeter

获得预测掩膜及标注的数量。构造预测结果的 id 列表object_ids。

    targets = np.array(targets)
    outputs = np.array(outputs)

    num_frame = targets.shape[0]
    if start is None:
        object_ids = np.array(list(range(outputs.shape[0]))) + 1
    else:
        object_ids = [int(id) for id in start]

    num_object = len(object_ids)
    res = np.zeros((num_object, len(thrs)), dtype=np.float32)

output_max_id为每个像素位置预测的 id，0通道为背景。
outputs_max合并一张图上的预测。
thrs为全局变量。对于每个阈值，output_thr过滤结果，对于每个目标，target_j选中其表注像素位置。

    output_max_id = np.argmax(outputs, axis=0).astype('uint8')+1
    outputs_max = np.max(outputs, axis=0)
    for k, thr in enumerate(thrs):
        output_thr = outputs_max > thr
        for j in range(num_object):
            target_j = targets == object_ids[j]

对于每幅图像，pred为目标 j 的预测掩码。统计数量，计算与标注的交并比。

            if start is None:
                start_frame, end_frame = 1, num_frame - 1
            else:
                start_frame, end_frame = start[str(object_ids[j])] + 1, end[str(object_ids[j])] - 1
            iou = []
            for i in range(start_frame, end_frame):
                pred = (output_thr[i] * output_max_id[i]) == (j+1)
                mask_sum = (pred == 1).astype(np.uint8) + (target_j[i] > 0).astype(np.uint8)
                intxn = np.sum(mask_sum == 2)
                union = np.sum(mask_sum > 0)
                if union > 0:
                    iou.append(intxn / union)
                elif union == 0 and intxn == 0:
                    iou.append(1)
            res[j, k] = np.mean(iou)
    return res

siamese_init

siamese_init 构造state字典。

state

TrackerConfig

net

window

avg_chans,target_pos,target_sz

TrackerConfig 配置参数。
generate_anchor 生成锚点。

    state = dict()
    state['im_h'] = im.shape[0]
    state['im_w'] = im.shape[1]
    p = TrackerConfig()
    p.update(hp, model.anchors)

    p.renew()

    net = model
    p.scales = model.anchors['scales']
    p.ratios = model.anchors['ratios']
    p.anchor_num = len(p.ratios) * len(p.scales)
    p.anchor = generate_anchor(model.anchors, p.score_size)

    avg_chans = np.mean(im, axis=(0, 1))

    wc_z = target_sz[0] + p.context_amount * sum(target_sz)
    hc_z = target_sz[1] + p.context_amount * sum(target_sz)
    s_z = round(np.sqrt(wc_z * hc_z))
    # initialize the exemplar
    z_crop = get_subwindow_tracking(im, target_pos, p.exemplar_size, s_z, avg_chans)

    z = Variable(z_crop.unsqueeze(0))
    net.template(z.cuda())

numpy.outer 计算两个向量的外积。

    if p.windowing == 'cosine':
        window = np.outer(np.hanning(p.score_size), np.hanning(p.score_size))
    elif p.windowing == 'uniform':
        window = np.ones((p.score_size, p.score_size))
    window = np.tile(window.flatten(), p.anchor_num)

    state['p'] = p
    state['net'] = net
    state['avg_chans'] = avg_chans
    state['window'] = window
    state['target_pos'] = target_pos
    state['target_sz'] = target_sz
    return state

generate_anchor

由 Anchors 类创建锚点，转译为[cx,cy,w,h]格式。

    anchors = Anchors(cfg)
    anchor = anchors.anchors
    x1, y1, x2, y2 = anchor[:, 0], anchor[:, 1], anchor[:, 2], anchor[:, 3]
    anchor = np.stack([(x1+x2)*0.5, (y1+y2)*0.5, x2-x1, y2-y1], 1)

    total_stride = anchors.stride
    anchor_num = anchor.shape[0]

按原来的方式广播得到所有的锚点。复制锚点，然后添加不同位置的偏移量。

    anchor = np.tile(anchor, score_size * score_size).reshape((-1, 4))
    ori = - (score_size // 2) * total_stride
    xx, yy = np.meshgrid([ori + total_stride * dx for dx in range(score_size)],
                         [ori + total_stride * dy for dy in range(score_size)])
    xx, yy = np.tile(xx.flatten(), (anchor_num, 1)).flatten(), \
             np.tile(yy.flatten(), (anchor_num, 1)).flatten()
    anchor[:, 0], anchor[:, 1] = xx.astype(np.float32), yy.astype(np.float32)
    return anchor

siamese_track

mask

no_mask

siamese_track

get_subwindow_tracking

net.track_mask

net.track

    p = state['p']
    net = state['net']
    avg_chans = state['avg_chans']
    window = state['window']
    target_pos = state['target_pos']
    target_sz = state['target_sz']

由扩展后的宽高计算等效面积。使用与模板分支相同的缩放系数得到检测区域。

    wc_x = target_sz[1] + p.context_amount * sum(target_sz)
    hc_x = target_sz[0] + p.context_amount * sum(target_sz)
    s_x = np.sqrt(wc_x * hc_x)
    scale_x = p.exemplar_size / s_x
    d_search = (p.instance_size - p.exemplar_size) / 2
    pad = d_search / scale_x
    s_x = s_x + 2 * pad
    crop_box = [target_pos[0] - round(s_x) / 2, target_pos[1] - round(s_x) / 2, round(s_x), round(s_x)]

    # extract scaled crops for search region x at previous target position
    x_crop = Variable(get_subwindow_tracking(im, target_pos, p.instance_size, round(s_x), avg_chans).unsqueeze(0))

运行网络。

    if mask_enable:
        score, delta, mask = net.track_mask(x_crop.cuda())
    else:
        score, delta = net.track(x_crop.cuda())

解码出预测框，并根据位置、宽高比和位移量惩罚得分，挑选出最优预测。

    delta = delta.permute(1, 2, 3, 0).contiguous().view(4, -1).data.cpu().numpy()
    score = F.softmax(score.permute(1, 2, 3, 0).contiguous().view(2, -1).permute(1, 0), dim=1).data[:,
            1].cpu().numpy()

    delta[0, :] = delta[0, :] * p.anchor[:, 2] + p.anchor[:, 0]
    delta[1, :] = delta[1, :] * p.anchor[:, 3] + p.anchor[:, 1]
    delta[2, :] = np.exp(delta[2, :]) * p.anchor[:, 2]
    delta[3, :] = np.exp(delta[3, :]) * p.anchor[:, 3]

    def change(r):
        return np.maximum(r, 1. / r)

    def sz(w, h):
        pad = (w + h) * 0.5
        sz2 = (w + pad) * (h + pad)
        return np.sqrt(sz2)

    def sz_wh(wh):
        pad = (wh[0] + wh[1]) * 0.5
        sz2 = (wh[0] + pad) * (wh[1] + pad)
        return np.sqrt(sz2)

    # size penalty
    target_sz_in_crop = target_sz*scale_x
    s_c = change(sz(delta[2, :], delta[3, :]) / (sz_wh(target_sz_in_crop)))  # scale penalty
    r_c = change((target_sz_in_crop[0] / target_sz_in_crop[1]) / (delta[2, :] / delta[3, :]))  # ratio penalty

    penalty = np.exp(-(r_c * s_c - 1) * p.penalty_k)
    pscore = penalty * score

    # cos window (motion model)
    pscore = pscore * (1 - p.window_influence) + window * p.window_influence
    best_pscore_id = np.argmax(pscore)

    pred_in_crop = delta[:, best_pscore_id] / scale_x
    lr = penalty[best_pscore_id] * score[best_pscore_id] * p.lr  # lr for OTB

    res_x = pred_in_crop[0] + target_pos[0]
    res_y = pred_in_crop[1] + target_pos[1]

    res_w = target_sz[0] * (1 - lr) + pred_in_crop[2] * lr
    res_h = target_sz[1] * (1 - lr) + pred_in_crop[3] * lr

    target_pos = np.array([res_x, res_y])
    target_sz = np.array([res_w, res_h])

numpy.unravel_index 将平面索引或平面索引数组转换为坐标数组的元组。
由best_pscore_id得到特征图上的位置。
track_refine 函数运行 Refine 模块，由相关特征图上 $1\times 1\times 256$ 的特征向量与检测下采样前的特征图得到目标掩膜。

    # for Mask Branch
    if mask_enable:
        best_pscore_id_mask = np.unravel_index(best_pscore_id, (5, p.score_size, p.score_size))
        delta_x, delta_y = best_pscore_id_mask[2], best_pscore_id_mask[1]

        if refine_enable:
            mask = net.track_refine((delta_y, delta_x)).cuda().sigmoid().squeeze().view(
                p.out_size, p.out_size).cpu().data.numpy()
        else:
            mask = mask[0, :, delta_y, delta_x].sigmoid(). \
                squeeze().view(p.out_size, p.out_size).cpu().data.numpy()

warpAffine() 对图像应用仿射变换。
手动构造变换矩阵mapping，a和b为尺度系数，c和d为平移量。

        def crop_back(image, bbox, out_sz, padding=-1):
            a = (out_sz[0] - 1) / bbox[2]
            b = (out_sz[1] - 1) / bbox[3]
            c = -a * bbox[0]
            d = -b * bbox[1]
            mapping = np.array([[a, 0, c],
                                [0, b, d]]).astype(np.float)
            crop = cv2.warpAffine(image, mapping, (out_sz[0], out_sz[1]),
                                  flags=cv2.INTER_LINEAR,
                                  borderMode=cv2.BORDER_CONSTANT,
                                  borderValue=padding)
            return crop

crop_box为检测截取框，格式为[x,y,width,height]。s为缩放系数。sub_box为预测的模板区域框。
p.out_size似乎与p.exemplar_size混用。
back_box为背景框。为什么back_box的左上角坐标为负？

        s = crop_box[2] / p.instance_size
        sub_box = [crop_box[0] + (delta_x - p.base_size / 2) * p.total_stride * s,
                   crop_box[1] + (delta_y - p.base_size / 2) * p.total_stride * s,
                   s * p.exemplar_size, s * p.exemplar_size]
        s = p.out_size / sub_box[2]
        back_box = [-sub_box[0] * s, -sub_box[1] * s, state['im_w'] * s, state['im_h'] * s]
        mask_in_img = crop_back(mask, back_box, (state['im_w'], state['im_h']))

OpenCV4 的 findContours() 函数返回值数量少。
在二进制图像中查找轮廓。
minAreaRect() 寻找包围输入2D 点集的最小区域的旋转矩形。
boxPoints 查找旋转矩形的四个顶点。用于绘制旋转的矩形。

        target_mask = (mask_in_img > p.seg_thr).astype(np.uint8)
        if cv2.__version__[-5] == '4':
            contours, _ = cv2.findContours(target_mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
        else:
            _, contours, _ = cv2.findContours(target_mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
        cnt_area = [cv2.contourArea(cnt) for cnt in contours]
        if len(contours) != 0 and np.max(cnt_area) > 100:
            contour = contours[np.argmax(cnt_area)]  # use max area polygon
            polygon = contour.reshape(-1, 2)
            # pbox = cv2.boundingRect(polygon)  # Min Max Rectangle
            prbox = cv2.boxPoints(cv2.minAreaRect(polygon))  # Rotated Rectangle

            # box_in_img = pbox
            rbox_in_img = prbox
        else:  # empty mask
            location = cxy_wh_2_rect(target_pos, target_sz)
            rbox_in_img = np.array([[location[0], location[1]],
                                    [location[0] + location[2], location[1]],
                                    [location[0] + location[2], location[1] + location[3]],
                                    [location[0], location[1] + location[3]]])

由结果更新状态。

    target_pos[0] = max(0, min(state['im_w'], target_pos[0]))
    target_pos[1] = max(0, min(state['im_h'], target_pos[1]))
    target_sz[0] = max(10, min(state['im_w'], target_sz[0]))
    target_sz[1] = max(10, min(state['im_h'], target_sz[1]))

    state['target_pos'] = target_pos
    state['target_sz'] = target_sz
    state['score'] = score
    state['mask'] = mask_in_img if mask_enable else []
    state['ploygon'] = rbox_in_img if mask_enable else []
    return state

SiamMask

SiamMask 是网络结构的抽象，主要定义模块。

    def __init__(self, anchors=None, o_sz=127, g_sz=127):
        super(SiamMask, self).__init__()
        self.anchors = anchors  # anchor_cfg
        self.anchor_num = len(self.anchors["ratios"]) * len(self.anchors["scales"])
        self.anchor = Anchors(anchors)
        self.features = None
        self.rpn_model = None
        self.mask_model = None
        self.o_sz = o_sz
        self.g_sz = g_sz
        self.all_anchors = None

set_all_anchors

Anchors.generate_all_anchors

set_all_anchors 函数在测试中并没有用到。

        # cx,cy,w,h
        if not self.anchor.generate_all_anchors(image_center, size):
            return
        all_anchors = self.anchor.all_anchors[1]  # cx, cy, w, h
        self.all_anchors = torch.from_numpy(all_anchors).float().cuda()
        self.all_anchors = [self.all_anchors[i] for i in range(4)]

feature_extractor

    def feature_extractor(self, x):
        return self.features(x)

rpn

    def rpn(self, template, search):
        pred_cls, pred_loc = self.rpn_model(template, search)
        return pred_cls, pred_loc

mask

    def mask(self, template, search):
        pred_mask = self.mask_model(template, search)
        return pred_mask

template

    def template(self, z):
        self.zf = self.feature_extractor(z)
        cls_kernel, loc_kernel = self.rpn_model.template(self.zf)
        return cls_kernel, loc_kernel

track

    def track(self, x, cls_kernel=None, loc_kernel=None, softmax=False):
        xf = self.feature_extractor(x)
        rpn_pred_cls, rpn_pred_loc = self.rpn_model.track(xf, cls_kernel, loc_kernel)
        if softmax:
            rpn_pred_cls = self.softmax(rpn_pred_cls)
        return rpn_pred_cls, rpn_pred_loc

Anchors

object.__dict__ 是用于存储对象（可写）属性的字典或其他映射对象。

    def __init__(self, cfg):
        self.stride = 8
        self.ratios = [0.33, 0.5, 1, 2, 3]
        self.scales = [8]
        self.round_dight = 0
        self.image_center = 0
        self.size = 0

        self.__dict__.update(cfg)

        self.anchor_num = len(self.scales) * len(self.ratios)
        self.anchors = None  # in single position (anchor_num*4)
        self.all_anchors = None  # in all position 2*(4*anchor_num*h*w)
        self.generate_anchors()

generate_anchors

round_dight似乎是为了兼容 Python2和3的舍入。
基础锚点的中心为原点，mmdetection
的 AnchorGenerator 支持这一操作，而 maskrcnn-benchmark
中的 AnchorGenerator 不能。
为什么中间结果是整形而返回值却不是？这与 AnchorGenerator 正好相反。

        self.anchors = np.zeros((self.anchor_num, 4), dtype=np.float32)

        size = self.stride * self.stride
        count = 0
        for r in self.ratios:
            if self.round_dight > 0:
                ws = round(math.sqrt(size*1. / r), self.round_dight)
                hs = round(ws * r, self.round_dight)
            else:
                ws = int(math.sqrt(size*1. / r))
                hs = int(ws * r)

            for s in self.scales:
                w = ws * s
                h = hs * s
                self.anchors[count][:] = [-w*0.5, -h*0.5, w*0.5, h*0.5][:]
                count += 1

generate_all_anchors

generate_all_anchors 同时生成了两种数据格式的 anchor。
如果仅调用一次，为何不在初始化函数中调用？

避免重复生成？
self.image_center是整张图吗？

        if self.image_center == im_c and self.size == size:
            return False
        self.image_center = im_c
        self.size = size

a0x表示 $\mathrm{anchor}_0$ 的 xy 坐标，即 x 和 y 对称。
x1、y1、x2、y2以及cx、cy、w、h的形状为 [anchor_num, 1, 1]。
self.anchors形状为[A, 4]，由于不加 padding 会使得anchor起始点不是图像边缘，generate_all_anchors 输入为中心点和空间尺寸。

corner2center

        a0x = im_c - size // 2 * self.stride
        ori = np.array([a0x] * 4, dtype=np.float32)
        zero_anchors = self.anchors + ori

        x1 = zero_anchors[:, 0]
        y1 = zero_anchors[:, 1]
        x2 = zero_anchors[:, 2]
        y2 = zero_anchors[:, 3]

        x1, y1, x2, y2 = map(lambda x: x.reshape(self.anchor_num, 1, 1), [x1, y1, x2, y2])
        cx, cy, w, h = corner2center([x1, y1, x2, y2])

disp_x是[1, 1, size]，disp_y是[1, size, 1]，两个相加会怎样？
cx为[anchor_num, 1, size]，cy为[anchor_num, size,1]。
zero让其变为[anchor_num, size,1]。
利用 numpy 运算来 broadcast。

        disp_x = np.arange(0, size).reshape(1, 1, -1) * self.stride
        disp_y = np.arange(0, size).reshape(1, -1, 1) * self.stride

        cx = cx + disp_x
        cy = cy + disp_y

        # broadcast
        zero = np.zeros((self.anchor_num, size, size), dtype=np.float32)
        cx, cy, w, h = map(lambda x: x + zero, [cx, cy, w, h])
        x1, y1, x2, y2 = center2corner([cx, cy, w, h])

        self.all_anchors = np.stack([x1, y1, x2, y2]), np.stack([cx, cy, w, h])
        return True

Custom

Custom 是实际网络的载体。增加了 track_mask、track_refine、track_refine 和 refine 函数用于处理 mask。

refine

Refine.forward

track_refine

    def __init__(self, pretrain=False, **kwargs):
        super(Custom, self).__init__(**kwargs)
        self.features = ResDown(pretrain=pretrain)
        self.rpn_model = UP(anchor_num=self.anchor_num, feature_in=256, feature_out=256)
        self.mask_model = MaskCorr()
        self.refine_model = Refine()

    def refine(self, f, pos=None):
        return self.refine_model(f, pos)

    def template(self, template):
        self.zf = self.features(template)

    def track(self, search):
        search = self.features(search)
        rpn_pred_cls, rpn_pred_loc = self.rpn(self.zf, search)
        return rpn_pred_cls, rpn_pred_loc

    def track_mask(self, search):
        self.feature, self.search = self.features.forward_all(search)
        rpn_pred_cls, rpn_pred_loc = self.rpn(self.zf, self.search)
        self.corr_feature = self.mask_model.mask.forward_corr(self.zf, self.search)
        pred_mask = self.mask_model.mask.head(self.corr_feature)
        return rpn_pred_cls, rpn_pred_loc, pred_mask

    def track_refine(self, pos):
        pred_mask = self.refine_model(self.feature, self.corr_feature, pos=pos)
        return pred_mask

MaskCorr

Mask

MaskCorr 并未从 Mask 中受益，而是直接使用了 DepthCorr。

注意这里 Mask 分支输出通道数巨大。

    def __init__(self, oSz=63):
        super(MaskCorr, self).__init__()
        self.oSz = oSz
        self.mask = DepthCorr(256, 256, self.oSz**2)

    def forward(self, z, x):
        return self.mask(z, x)

DepthCorr

kernel

conv_kernel

conv2d_dw_group

input

conv_search

head

DepthCorr 运行需要两个输入。

    def __init__(self, in_channels, hidden, out_channels, kernel_size=3):
        super(DepthCorr, self).__init__()
        # adjust layer for asymmetrical features
        self.conv_kernel = nn.Sequential(
                nn.Conv2d(in_channels, hidden, kernel_size=kernel_size, bias=False),
                nn.BatchNorm2d(hidden),
                nn.ReLU(inplace=True),
                )
        self.conv_search = nn.Sequential(
                nn.Conv2d(in_channels, hidden, kernel_size=kernel_size, bias=False),
                nn.BatchNorm2d(hidden),
                nn.ReLU(inplace=True),
                )

        self.head = nn.Sequential(
                nn.Conv2d(hidden, hidden, kernel_size=1, bias=False),
                nn.BatchNorm2d(hidden),
                nn.ReLU(inplace=True),
                nn.Conv2d(hidden, out_channels, kernel_size=1)
                )

    def forward_corr(self, kernel, input):
        kernel = self.conv_kernel(kernel)
        input = self.conv_search(input)
        feature = conv2d_dw_group(input, kernel)
        return feature

    def forward(self, kernel, search):
        feature = self.forward_corr(kernel, search)
        out = self.head(feature)
    return out

conv2d_dw_group

只在 DepthCorr 中调用，为什么不整合到函数中？conv2d_dw_group 中变换x和kernel的维度。

    batch, channel = kernel.shape[:2]
    x = x.view(1, batch*channel, x.size(2), x.size(3))  # 1 * (b*c) * k * k
    kernel = kernel.view(batch*channel, 1, kernel.size(2), kernel.size(3))  # (b*c) * 1 * H * W
    out = F.conv2d(x, kernel, groups=batch*channel)
    out = out.view(batch, channel, out.size(2), out.size(3))
    return out

Refine

掩模细化模块。
论文图9. 使用堆叠细化模块生成掩模的示意图。

图7. 细化模块 $U_3$ 的示例。

self.v2、self.v1、self.v0为垂直分支（vertical），压缩通道；self.h2、self.h1、self.h0作用于水平分支（horizontal），消化融合结果。

模型实现与图中略有不同。

torch.nn.ConvTranspose2d 在由多个输入平面组成的输入图像上应用2D 转置卷积运算符。该模块可以看作 Conv2d 相对于其输入的梯度。它也被称为分数步长卷积或反卷积（尽管它不是实际的去卷积操作）。

    def __init__(self):
        """
        Mask refinement module
        Please refer SiamMask (Appendix A)
        https://arxiv.org/abs/1812.05050
        """
        super(Refine, self).__init__()
        self.v0 = nn.Sequential(nn.Conv2d(64, 16, 3, padding=1), nn.ReLU(),
                           nn.Conv2d(16, 4, 3, padding=1), nn.ReLU())

        self.v1 = nn.Sequential(nn.Conv2d(256, 64, 3, padding=1), nn.ReLU(),
                           nn.Conv2d(64, 16, 3, padding=1), nn.ReLU())

        self.v2 = nn.Sequential(nn.Conv2d(512, 128, 3, padding=1), nn.ReLU(),
                           nn.Conv2d(128, 32, 3, padding=1), nn.ReLU())

        self.h2 = nn.Sequential(nn.Conv2d(32, 32, 3, padding=1), nn.ReLU(),
                           nn.Conv2d(32, 32, 3, padding=1), nn.ReLU())

        self.h1 = nn.Sequential(nn.Conv2d(16, 16, 3, padding=1), nn.ReLU(),
                           nn.Conv2d(16, 16, 3, padding=1), nn.ReLU())

        self.h0 = nn.Sequential(nn.Conv2d(4, 4, 3, padding=1), nn.ReLU(),
                           nn.Conv2d(4, 4, 3, padding=1), nn.ReLU())

        self.deconv = nn.ConvTranspose2d(256, 32, 15, 15)

        self.post0 = nn.Conv2d(32, 16, 3, padding=1)
        self.post1 = nn.Conv2d(16, 4, 3, padding=1)
        self.post2 = nn.Conv2d(4, 1, 3, padding=1)

torch.nn.functional.pad 对于参数pad，要填充的维度数满足 $\left\lfloor\frac{\text{len(pad)}}{2}\right\rfloor$ 并且填充维度设置从最后一个维度依次向前。例如，要填充输入张量的最后一个维度，则pad具有形式(padLeft, padRight)；填充输入张量的最后2个维度使用(padLeft, padRight, padTop, padBottom)；要填充最后3个维度，请使用(padLeft, padRight, padTop, padBottom, padFront, padBack)。

f为 ResNet 的特征图元组。
f[0]形状为[1, 64, 125, 125]，
f[1]形状为[1, 256, 63, 63]，
f[2]形状为[1, 512, 31, 31]，
f[3]形状为[1, 1024, 31, 31]。
p0``p1``p2表示补0填充后，取出目标位置的特征图。
p3为相关特征图上的特征向量。

令人困惑的是p0、p1和p2中，目标特征块位于左上角而不是居中。

    def forward(self, f, corr_feature, pos=None):
        p0 = torch.nn.functional.pad(f[0], [16,16,16,16])[:, :, 4*pos[0]:4*pos[0]+61, 4*pos[1]:4*pos[1]+61]
        p1 = torch.nn.functional.pad(f[1], [8,8,8,8])[:, :, 2*pos[0]:2*pos[0]+31, 2*pos[1]:2*pos[1]+31]
        p2 = torch.nn.functional.pad(f[2], [4,4,4,4])[:, :, pos[0]:pos[0]+15, pos[1]:pos[1]+15]

        p3 = corr_feature[:, :, pos[0], pos[1]].view(-1, 256, 1, 1)

        out = self.deconv(p3)
        out = self.post0(F.upsample(self.h2(out) + self.v2(p2), size=(31, 31)))
        out = self.post1(F.upsample(self.h1(out) + self.v1(p1), size=(61, 61)))
        out = self.post2(F.upsample(self.h0(out) + self.v0(p0), size=(127, 127)))
        out = out.view(-1, 127*127)
        return out
```## [ResDownS](https://github.com/foolwood/SiamMask/blob/master/experiments/siammask/custom.py#L17)


[ResDownS](https://github.com/foolwood/SiamMask/blob/master/experiments/siammask/custom.py#L17) 模块中，判断特征图尺寸，如果是 exemplar 则进行中心截取。
```python
    def __init__(self, inplane, outplane):
        super(ResDownS, self).__init__()
        self.downsample = nn.Sequential(
                nn.Conv2d(inplane, outplane, kernel_size=1, bias=False),
                nn.BatchNorm2d(outplane))

    def forward(self, x):
        x = self.downsample(x)
        if x.size(3) < 20:
            l, r = 4, -4
            x = x[:, :, l:r, l:r]
        return x

ResDown

resnet50

ResDownS

ResDown 得到下采样之后的 resnet50 特征。

    def __init__(self, pretrain=False):
        super(ResDown, self).__init__()
        self.features = resnet50(layer3=True, layer4=False)
        if pretrain:
            load_pretrain(self.features, 'resnet.model')

        self.downsample = ResDownS(1024, 256)

    def forward(self, x):
        output = self.features(x)
        p3 = self.downsample(output[-1])
        return p3

    def forward_all(self, x):
        output = self.features(x)
        p3 = self.downsample(output[-1])
        return output, p3

get_dataset_zoo

检查data文件夹下的数据，文件夹命名需要与--dataset参数一致。

    root = realpath(join(dirname(__file__), '../data'))
    zoos = listdir(root)

    def valid(x):
        y = join(root, x)
        if not isdir(y): return False

        return exists(join(y, 'list.txt')) \
               or exists(join(y, 'train', 'meta.json'))\
               or exists(join(y, 'ImageSets', '2016', 'val.txt'))

    zoos = list(filter(valid, zoos))
    return zoos

总结

以上分析了 SiamMask 的大体结构。可以看出，数据增广、锚框管理以及损失函数的缺失导致无法组织训练。项目缺失的版图可以参照检测框架进行补充。这里，open-mmlab/mmdetection 比 facebookresearch/maskrcnn-benchmark 更为适宜。facebookresearch/maskrcnn-benchmark 虽然组织清晰，但仅有 Resize 和 RandomHorizontalFlip 变换。而 open-mmlab/mmdetection 的 ExtraAugmentation 提供：

PhotoMetricDistortion
Expand
RandomCrop

并且，AnchorGenerator 支持设置锚点中心，与 SiamMask 兼容。

一个好消息是作者承诺训练代码在下个月开源：

参考资料：

什么情况下应该设置 cudnn.benchmark = True？
StrangerZhang/ pysot-toolkit
noagarcia/visdom-tutorial
fatal error: Python.h: No such file or directory
Download jq
Shell scripting: -z and -n options with if
7.3. Other Comparison Operators
4.12.3. Command Line Arguments
Minimum-Area Rectangle Containing a Set of Points
minimum-area-bounding-rectangle/python/min_bounding_rect.py
minAreaRect()
Finding minimum-area-rectangle for given points?
How to resume interrupted download automatically in curl?
What is an upright rectangle?
What is numpy method int0?

你可能感兴趣的:(VisualTracking,PyTorch,视觉跟踪,Visual,Tracking,孪生网络)

车联网技术的隐私和数据安全挑战色宁科技人工智能人工智能
引言：随着科技的迅猛发展，车联网技术正逐渐改变着我们的出行方式和交通系统。这项技术将汽车、互联网和通信技术相结合，使车辆能够相互通信、共享数据和连接到外部网络。然而，随之而来的是隐私和数据安全的挑战。本文将探讨车联网技术在隐私保护和数据安全方面所面临的挑战，并提出应对这些挑战的措施。第一部分：车联网技术的隐私挑战车联网技术的发展给我们带来了许多便利，但同时也对个人隐私构成了潜在威胁。以下是一些车联
离线环境下通过docker安装redis镜像 MonkeyKing.sun docker redis 容器
1.在其他机器上下载Redis镜像你可以在一台能够访问外网的机器上拉取Redis镜像，并将其导出为文件，然后将文件传输到你的目标机器进行加载。步骤：在有网络访问的机器上拉取Redis镜像：在有网络的机器上，使用以下命令拉取Redis镜像：dockerpullredis将镜像保存为tar文件：使用dockersave命令将拉取的镜像保存为一个tar文件：dockersave-oredis_image
深度学习模型在汽车自动驾驶领域的应用 eso1983 深度学习汽车自动驾驶
汽车自动驾驶是一个高度复杂的系统，深度学习和计算技术在其中扮演核心角色。今天简单介绍一下自动驾驶领域常用的深度学习模型及其计算原理的解析。1.深度学习模型分类及应用场景1.1视觉感知模型CNN（卷积神经网络）应用：图像分类、物体检测（车辆、行人、交通标志）、语义分割（道路、车道线）。典型模型：YOLO：实时目标检测，低延迟特性适合自动驾驶。MaskR-CNN：结合检测与像素级分割，用于精确场景理解
127.0.0.1 与 localhost：必须知道的区别与用法四七伵其他面试宝典 localhost 127.0.0.1 后端
前言在开发与运维工作中，我们经常会遇到127.0.0.1和localhost，它们在很多情况下看似可以互换使用，但实际上有一些细微的区别。本文将通过多个示例，帮助理解它们的本质差异，以及它们在不同应用场景中的适用性。1.基本概念1.1.127.0.0.1是什么？127.0.0.1是一个特殊的IP地址，被称为回环地址（LoopbackAddress）。它表示本机（即当前设备），用于本地网络通信，不经
软件架构原理与实战：深入理解BFF模式及其在微服务中的应用 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着互联网的不断发展，软件架构也不断演进，微服务架构成为了当前最流行的软件架构之一。微服务架构将软件应用程序划分为一系列小的服务，每个服务都独立部署和扩展。这种架构的优点在于它的灵活性、可扩展性和容错性。在微服务架构中，服务之间通过网络进行通信，因此需要一种适合网络通信的架构模式。这就是BFF模式的诞生。BFF（BackingFrontend）模式是一种软件架构模式，它将前端应用程序与
网络工程师（10）设备管理 IT 青年软考网络工程师软考网络工程师
前言设备管理中的数据传输控制方式是确保设备与内存（或CPU）之间高效、准确地进行数据传送的关键。一、程序直接控制方式1.工作原理：由CPU发出I/O指令，直接控制数据的传输过程。CPU需要不断查询外设的状态，以确定数据是否传输完成。2.优点：其工作过程简单，不需要额外的硬件支持。3.缺点：CPU和外围设备只能串行工作，这限制了数据传输的效率。CPU在一段时间内只能和一台外围设备交换数据信息，无法实
自然语言处理-词嵌入 (Word Embeddings) 纠结哥_Shrek 自然语言处理人工智能
词嵌入（WordEmbedding）是一种将单词或短语映射到高维向量空间的技术，使其能够以数学方式表示单词之间的关系。词嵌入能够捕捉语义信息，使得相似的词在向量空间中具有相近的表示。常见词嵌入方法基于矩阵分解的方法LatentSemanticAnalysis(LSA)LatentDirichletAllocation(LDA)非负矩阵分解(NMF)基于神经网络的方法Word2Vec（Google提
计算机网络概述听风与他计算机网络网络软件设计师
前言本文主要是【计算机网络概述】——计算机网络概述的文章，如果有什么需要改进的地方还请大佬指出⛺️作者简介：大家好，我是听风与他☁️博客首页：CSDN主页听风与他每日一句：狠狠沉淀，顶峰相见目录前言计算机网络21世纪的特征早期网络分类互联网互联网概述计算机网络互联网服务提供者ISP互联网交换点IXP互联网的组成边缘部分计算机之间通信核心部分分组交换计算机网络类别1.按照网络的作用范围来进行分类2.
数据通信与计算机网络（精炼知识点）桃花键神系统架构师数据通信与计算机网络
前言该部分知识点不多，分值3分知识点TCPTCP采用可变大小的滑动窗口协议进行流量控制。在前向纠错系统中，当接收端检测到错误后就根据纠错编码的规律自行纠错;在后向纠错系统中，接收方会请求发送方重发出错分组。IP协议不预先建立虚电路，而是对每个数据报独立地选择路由并一站一站地进行转发，直到送达目标地。层次化网络设计层次化网络设计应该遵循一些简单的原则，这些原则可以保证设计出来的网络更加具有层次的特性
什么是“脚本语言” 暮雨澪脚本语言
一、脚本脚本语言又被称为扩建的语言,或者动态语言,是一种编程语言,用来控制软件应用程序,脚本通常是以文本(ASCⅡ)保存,只是在被调用时进行解释或者编译。当执行脚本时，计算机会执行一连串的操作。这些操作可能只涉及Illustrator，也可能涉及其他应用程序，如文字处理、电子表格和数据管理程序。Illustrator可支持多种脚本环境（例如，MicrosoftVisualBasic、AppleSc
开发环境搭建-4：WSL 配置 docker 运行环境 Lilixxs 环境搭建基础设施 docker 容器运维
在WSL环境中构建：WSL2(2.3.26.0)+OracleLinux8.7官方镜像基本概念说明容器技术利用Linux系统的文件系统（UnionFS）、命名空间（namespace）、权限管理（cgroup），虚拟出一个独立于主系统的文件系统（文件、网络、权限与主机相互独立），由于Linux系统一切均基于文件，因此这样就可实现多个虚拟环境在同一主机上的运行容器技术VS虚拟机VS实机运行实机运行=
计算机网络的分类不会游泳的鱼ꦿ 网络分类
计算机网络的分类划分形式：①网络的作用范围。②网络的传输技术方式。③网络的通信介质。④网络的通信速率。⑤网络的使用范围。⑥网络的控制方式。⑦网络的拓扑结构。具体如下：1.按网络的作用范围分类（1）局域网（LAN）。局域网是计算机通过高速线路相连组成的网络，一般限定在较小的区域内。覆盖的地理范围从几十米到几千米之内。（2）城域网（MAN）。城域网一般限定在一座城市的范围内，覆盖的地理范围从几十千米到
Nginx--日志（介绍、配置、日志轮转） m0_74825466 nginx 运维
前言：本博客仅作记录学习使用，部分图片出自网络，如有侵犯您的权益，请联系删除一、Nginx日志介绍nginx有一个非常灵活的日志记录模式，每个级别的配置可以有各自独立的访问日志,所需日志模块ngx_http_log_module的支持，日志格式通过log_format命令来定义，日志对于统计和排错是非常有利的，下面总结了nginx日志相关的配置包括access_log、log_format、ope
基于5G的MEC应用部署研究和政务园区实践罗思付之技术屋行业数字化研究及信息化建设专栏 5G 政务
摘要在5G时代，移动通信将进一步实现物与物、物与人更加多元化的连接，最终走进万物互联的时代。不同的行业领域对网络带宽、时延、可靠性等方面的需求各有侧重，引入MEC技术可以充分发挥5G网络优势，解决不同垂直行业用户的应用需求，创造更多网络价值。结合5G及MEC的技术特点，对基于5G的MEC应用部署进行研究。同时，参与某政务园区5G+MEC平台的的应用部署实践，根据客户需求制定实施方案并通过验证，有力
计算机网络之计算机网络的分类 DKPT #计算机网络计算机网络笔记学习开发语言算法
计算机网络可以根据不同的角度进行分类，以下是几种常见的分类方式：1.按照规模和范围：局域网（LAN，LocalAreaNetwork）：覆盖较小范围（例如一个建筑物或校园），通常使用以太网技术。城域网（MAN，MetropolitanAreaNetwork）：覆盖城市范围，通常由多个局域网组成，通过高速光纤连接。广域网（WAN，WideAreaNetwork）：覆盖较大范围，可以跨越城市、国家甚至
分布式系统架构7：本地缓存快乐非自愿架构缓存
1.引入缓存的影响我们在开发时，用到缓存的情况，无非就是为了减少客户端对相同资源的重复请求，降低服务器的负载压力。引入缓存后，既有好处也有坏处引入缓存负面影响：开发角度，增加了系统复杂度，需考虑缓存失效、更新、一致性问题运维角度，缓存会掩盖一些缺陷问题安全角度，缓存可能泄密某些保密数据引入缓存的理由：为了缓解CPU压力，将实时计算运行结果存储起来，节省CPU压力为了缓解I/O压力，将原本对网络、磁
【ProxyBroker】用Python打破网络限制的利器山河不见老 python python 开发语言
ProxyBroker1.什么是ProxyBroker2.ProxyBroker的功能3.ProxyBroker的优势4.ProxyBroker的使用方法5.ProxyBroker的应用场景6.结语项目地址：1.什么是ProxyBrokerProxyBroker是一个开源工具，它可以异步地从多个来源找到公共代理，并同时对它们进行检查。在当今互联网世界中，隐私保护和访问限制已经成为了许多人关注的焦点
服务器虚拟化实战：架构、技术与最佳实践一ge科研小菜鸡运维服务器
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言服务器虚拟化是现代IT基础设施的重要组成部分，通过虚拟化技术可以提高服务器资源利用率、降低硬件成本，并增强系统的可扩展性与容灾能力。本教程将深入讲解服务器虚拟化的核心技术、主流平台、部署方案及实际案例，帮助读者掌握虚拟化架构的最佳实践。2.服务器虚拟化架构服务器虚拟化主要由虚拟化层、管理层和存储/网络层三部分组成：层级主要功能常见技术硬件
搭建 Hyperledger Fabric区块链网络幸运数字-12 区块链fabric fabric
1.Linux系统+互联网+手这里以下载最新版为例，得益于官网文档；网址为：教程2.下载工具2.1sudoapt-getupdatesudoapt-getinstallcurlsudoapt-getinstallgitsudoapt-getinstallvimsudoapt-get-yinstalldocker-composesudosystemctlstartdocker//runsudosys
Haskell语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Haskell语言的安全开发引言在现代软件开发中，安全性已经成为一个不可忽视的重要方面。一方面，随着信息技术的发展，各类网络攻击和安全漏洞层出不穷；另一方面，越来越多的项目要求遵循高安全标准，以保护用户的隐私和数据。在众多编程语言中，Haskell凭借其强大的类型系统和函数式编程模型，提供了许多内置特性来帮助开发者编写安全的代码。本文将深入探讨Haskell语言的安全开发方法，包含其特性、最佳实践
CondaValueError: Malformed version string ‘~‘: invalid character(s). 椰椰荔枝糖 python conda
这个错误通常表示conda命令中使用了无效的版本字符串，其中包含了不允许的字符。在这种情况下，提到了波浪号~，它可能被解释为无效字符。尝试使用一个有效的版本号来安装PyTorchLightning，例如：condainstallpytorch-lightning这会安装最新版本的PyTorchLightning。如果需要特定版本的PyTorchLightning，可以指定版本号：condainst
基于深度学习的大规模模型训练 SEU-WYL 深度学习dnn 深度学习人工智能 dnn
基于深度学习的大规模模型训练涉及训练具有数百万甚至数十亿参数的深度神经网络，以处理复杂的任务，如自然语言处理、计算机视觉和语音识别。以下是关于基于深度学习的大规模模型训练的详细介绍：1.背景和动机数据和模型规模增长：随着数据量和模型复杂度的增加，传统的单机或小规模集群训练难以满足需求。计算资源需求：大规模模型训练需要大量计算资源和存储，单一设备无法满足。任务复杂性：处理复杂任务（如GPT-3、BE
软考-软件设计师(8)-系统开发与软件工程:UML、网络计划技术、软件过程模型、系统开发方法论、设计模式、敏捷开发、软件测试、软件质量保证、项目管理、开发工具、环路复杂性、数据库设计等高频考点霸道流氓气质软考软件工程设计模式软考软件设计师
场景软考-软件设计师-系统开发与软件工程模块高频考点整理。以下为高频考点、知识点汇总。软件设计师上午选择题知识点、高频考点、口诀记忆技巧、经典题型汇总：软考-软件设计师(1)-计算机基础知识点:进制转换、数据编码、内存编址、串并联可靠性、海明校验码、吞吐率、多媒体等：软考-软件设计师(1)-计算机基础知识点:进制转换、数据编码、内存编址、串并联可靠性、海明校验码、吞吐率、多媒体等-CSDN博客软考
《Semantic communications - Principles and challenges》语义通信文献阅读与分析总结 snow每天都要好好学习深度学习深度学习
《语义通信：原理与挑战》文献详细总结1.语义通信的概念语义通信是一种超越传统香农通信范式的全新通信模式，它关注的是信息意义的传递，而不仅仅是数据本身的准确传输。传统通信强调比特级别的准确性，而语义通信更强调信息对接收方执行特定任务的有效性。这种模式被认为是第六代（6G）无线网络的核心技术之一，能够支持包括智能交通、智能监控、视频会议、增强现实（AR）和虚拟现实（VR）在内的多种智能应用。在语义通信
深入浅出：Python `with` 语句详解软件架构师笔记 python python 网络服务器
深入浅出：Pythonwith语句详解1.什么是with语句？with语句是Python中用于简化资源管理的语法糖。它确保在进入代码块时自动获取资源，并在退出代码块时自动释放资源。常见的资源包括文件、网络连接、数据库连接等。with语句的核心思想是“上下文管理”，即在一定范围内自动处理资源的获取和释放，避免了手动管理资源带来的复杂性和潜在错误。1.1上下文管理器with语句依赖于上下文管理器（Co
深度解读大语言模型中的Transformer架构老三不说话、 transformer
一、Transformer的诞生背景传统的循环神经网络（RNN）和长短期记忆网络（LSTM）在处理自然语言时存在诸多局限性。RNN由于其递归的结构，在处理长序列时容易出现梯度消失和梯度爆炸的问题。这导致模型难以捕捉长距离的依赖关系，对于复杂的自然语言文本，无法有效地学习到上下文的关键信息。LSTM虽然在一定程度上缓解了梯度消失的问题，但依然存在梯度不稳定的情况。而且，RNN和LSTM在计算过程中，
云原生网络架构 key_3_feng 云原生网络云原生架构
着云原生技术的不断发展和演进，实现容器间互联的云原生网络架构也在不断地进行优化和完善，从Docker本身的动态端口映射网络模型到CNCF的CNI容器网络接口，再到“ServiceMesh+CNI”层次化的SDN。容器网络以容器的典型实现Docker为例，其自身在网络架构上默认采用桥接模式，即Linux网桥模式，创建的每一个Docker容器都会桥接到这个docker0的网桥上，形成一个二层互联的网络
12.udp 就很对 udp 网络协议网络
12.udp**1.UDP特性****2.UDP编程框架（C/S模式）****3.UDP发送接收函数****4.UDP编程练习**1.UDP特性连接特性：无链接，通信前无需像TCP那样建立连接。可靠性：不可靠，不保证数据按序到达、不保证数据无丢失或重复。数据传输：适合传输大数据，但实际传输受网络MTU等因素限制。2.UDP编程框架（C/S模式）服务器端流程：创建套接字：调用socket()函数，参
C# 项目代码怎么把NuGet包剥离出来？然后VS打开项目右键还原NuGet包就可以使用凯明哲 c#开发语言
如果你想从C#.NETFramework项目中完全移除NuGet包并将其独立于项目，以下是一种方法：在VisualStudio中，打开你的C#.NETFramework项目。在“解决方案资源管理器”中，右键点击项目，选择“管理NuGet程序包”选项。在弹出的窗口中，找到要移除的NuGet包，并选择卸载。确认卸载操作，这将从你的项目中移除NuGet包。现在，你已经从C#.NETFramework项目
【YOLO11改进 - Backbone主干】LSKNet：旋转目标检测新网络,通过DW卷积核和空间选择机制来动态调整目标的感受野 YOLO大师目标检测网络人工智能 yolov11 YOLO python 计算机视觉
YOLOv11目标检测创新改进与实战案例专栏文章目录：YOLOv11创新改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv11目标检测创新改进与实战案例文章目录YOLOv11目标检测创新改进与实战案例专栏介绍摘要创新点文章链接基本原理**LSKNet的结构**3.2大核卷积3.3空间核选择核心代码YOLO11引入代码tasks注册步骤1
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb