Niuip

简析SA-SSD在预处理训练评估的框架

1. 前言

作为一个小白，笔者认为，从实践角度去深入一个深度学习领域（比如3D目标检测），不可忽视两件最为基础的事情：（1）怎样处理数据集；（2）怎样评估实验结果。这篇博客分析cvpr2020论文SA-SSD: Structure Aware Single-stage 3D Object Detection from Point Cloud的开源代码中的数据预处理，模型训练和结果评估这几块基础代码。

总结自己分析代码的两个小技巧：（1）从顶到下理解代码；（2）没有必要读懂全部的代码，只需要读懂需要读懂的部分即可。

2. 数据预处理

从代码的ReadMe获知数据处理使用tools/create_data.py文件。这个文件主要做三件事。

（1）调用函数create_kitti_info_file获取数据集中点云图像路径；

（2）调用函数create_reduced_point_cloud获取相机视场内的点云；

（3）调用函数create_groundtruth_database生成3D目标检测真值；

2.1 获取数据集中点云图像路径

这一节分析函数create_kitti_info_file。数据集分成三个数据子集，训练集（Train），验证集（Validation），和测试集（Test）。测试集没有真值，测试集的结果需要提交到KITTI上，得到3D目标各个类别检测精度。在KITTI上提交结果需要先注册KITTI账号，用学校或企业邮箱注册即可。

第一步：获取各个子集index

从SA-SSD开源代码中下载imagesets.tar.gz，里面包含train.txt，val.txt，test.txt。这些文本中存放各个子数据集的index。函数_read_imageset_file会读取它们的index，并保存成list数据结构：

    train_img_ids = _read_imageset_file("./data/ImageSets/train.txt")
    val_img_ids = _read_imageset_file("./data/ImageSets/val.txt")
    test_img_ids = _read_imageset_file("./data/ImageSets/test.txt")

第二步：获取各个子集中点云和图像的路径

对各个子数据集调用函数get_kitti_image_info，以获取点云和图像的路径。函数_calculate_num_points_in_gt用来数相机视场范围内LiDAR点云的个数。点云总数会存放在字典型变量kitti_infos_train中。结果将存放在pkl类型文件。

对训练数据而言：

    kitti_infos_train = kitti.get_kitti_image_info(
        data_path,
        training=True,
        velodyne=True,
        calib=True,
        image_ids=train_img_ids,
        relative_path=relative_path)
    _calculate_num_points_in_gt(data_path, kitti_infos_train, relative_path)
    filename = save_path / 'kitti_infos_train.pkl'
    print(f"Kitti info train file is saved to {filename}")
    with open(filename, 'wb') as f:
        pickle.dump(kitti_infos_train, f)

上述这个过程适用于验证集和测试集的处理。把path换了就行。

简要分析函数get_kitti_image_info，它的输出image_info是一个字典型变量，包含'image_idx'，pointcloud_num_features，velodyne_path，img_path，img_shape，annos。image_info还包含标定的参数，比如相机内参数，calib/P0到calib/P4，雷达相机外参数，calib/R0_rect和calib/Tr_velo_to_cam。

我重点交代annos，它也是一个字典型变量，跟目标检测标注相关。生成它的代码如下所示：

        if label_info:
        	# 找到目标检测标签label的路径
            label_path = get_label_path(idx, path, training, relative_path)
            if relative_path:
            	# 如果是相对路径就加上前缀，得到绝对路径
                label_path = str(root_path / label_path)
            # 读取目标检测标签
            annotations = get_label_anno(label_path)

        if annotations is not None:
            image_info['annos'] = annotations
            # 根据kitti官方指标（比如遮挡度），给目标检测标签添加难易度评价
            # annos["difficulty"] = 0（Easy）, 1（Mid），2（Hard）
            add_difficulty_to_annos(image_info)

有必要了解函数get_label_anno，来看一下哈：

def get_label_anno(label_path):
    annotations = {}
    annotations.update({
        'name': [],
        'truncated': [],
        'occluded': [],
        'alpha': [],
        'bbox': [],
        'dimensions': [],
        'location': [],
        'rotation_y': []
    })
    with open(label_path, 'r') as f:
        lines = f.readlines()
    # if len(lines) == 0 or len(lines[0]) < 15:
    #     content = []
    # else:
    content = [line.strip().split(' ') for line in lines]
    num_objects = len([x[0] for x in content if x[0] != 'DontCare'])
    annotations['name'] = np.array([x[0] for x in content])
    num_gt = len(annotations['name'])
    annotations['truncated'] = np.array([float(x[1]) for x in content])
    annotations['occluded'] = np.array([int(float(x[2])) for x in content])
    annotations['alpha'] = np.array([float(x[3]) for x in content])
    annotations['bbox'] = np.array(
        [[float(info) for info in x[4:8]] for x in content]).reshape(-1, 4)
    # dimensions will convert hwl format to standard lhw(camera) format.
    annotations['dimensions'] = np.array(
        [[float(info) for info in x[8:11]] for x in content]).reshape(
            -1, 3)[:, [2, 0, 1]]
    annotations['location'] = np.array(
        [[float(info) for info in x[11:14]] for x in content]).reshape(-1, 3)
    annotations['rotation_y'] = np.array(
        [float(x[14]) for x in content]).reshape(-1)
    if len(content) != 0 and len(content[0]) == 16:  # have score
        annotations['score'] = np.array([float(x[15]) for x in content])
    else:
        annotations['score'] = np.zeros((annotations['bbox'].shape[0], ))
    index = list(range(num_objects)) + [-1] * (num_gt - num_objects)
    annotations['index'] = np.array(index, dtype=np.int32)
    annotations['group_ids'] = np.arange(num_gt, dtype=np.int32)
    return annotations

在annos中，truncated和occluded用于衡量该3d目标被遮挡的程度，用于给该3d目标被检测到的难易程度打分。bbox和dimensions都表示3d目标的长宽高，它们的区别见代码中的注释。location表示3d框中心点的位置。rotation_y表示3d框中Yaw角度。score表示目标类别置信度。num_objects表示当前点云中有多少3d目标。name指3d目标类别。index和group_ids指该3d目标的索引和类索引。这些变量的英文解释如下所示：

图1：标注信息释义转自博客

函数_calculate_num_points_in_gt会根据雷达外参数把点云投在相机坐标系下，然后滤除相机视场外的点，计算剩下点云的个数，把结果更新到annos["num_points_in_gt"]中。

KITTI官方给出对Easy，Medium，Hard的定量解释。
Easy: Min. bounding box height: 40 Px, Max. occlusion level: Fully visible, Max. truncation: 15 %
Moderate: Min. bounding box height: 25 Px, Max. occlusion level: Partly occluded, Max. truncation: 30 %
Hard: Min. bounding box height: 25 Px, Max. occlusion level: Difficult to see, Max. truncation: 50 %

2.2 获取相机视场内的点云

这一节分析函数create_reduced_point_cloud。

第一步：读各个子数据集在2.1节整理的pkl类型文件

    if train_info_path is None:
        train_info_path = pathlib.Path(data_path) / 'kitti_infos_train.pkl'
    if val_info_path is None:
        val_info_path = pathlib.Path(data_path) / 'kitti_infos_val.pkl'
    if test_info_path is None:
        test_info_path = pathlib.Path(data_path) / 'kitti_infos_test.pkl'

第二步：获取相机视场范围内的点云

	# 视场范围内的点云保存在velodyne_reduced中
    _create_reduced_point_cloud(data_path, train_info_path, save_path)
    _create_reduced_point_cloud(data_path, val_info_path, save_path)
    _create_reduced_point_cloud(data_path, test_info_path, save_path)

2.3 获取3D目标检测真值

简要分析函数create_groundtruth_database。这一段代码有点杂乱。大致是每一类别的3d框都收集起来。把3D框真值存在pkl文件中。它的具体用处看后续代码中怎么调用吧。

2.4 小结

学习3D框标注信息以及如何处理它。

3. 训练框架简介

SA-SSD代码实在mmdetection平台上开发的。所以它无论是训练还是做预测，都会按照mmdetection的一套流程。关于mmdetection各种api的介绍可以参考这篇非常不错的博客。也可以参考mmdetection官方文档。这篇知乎帖子写的也很不错。

如果要训练一个网络，会执行下面代码：

python3 train.py ../configs/car_cfg.py

其中car_cfg.py是配置文件，用于保存模型超参数，训练超参数，和测试超参数，以及学习策略配置等等。

在train.py文件中，用下述代码生成训练数据集：

	# 生成训练数据集
    train_dataset = get_dataset(cfg.data.train)

	# 开始训练
	# mmdetection的一行代码就训练，然而这种简洁的操作多少有些惊艳
	# 后来发现，损失函数（smooth l1），优化器（SGD），学习率，训练批次等都在car_cfg.py定义好啦
    train_detector(
        model,
        train_dataset,
        cfg,
        distributed=distributed,
        validate=args.validate,
        logger=logger)

看看cfg内容（一堆参数）：

# 虽然参数很多，但是看到超参数的名字不难猜到它的意思
# dataset settings
# model training and testing settings
train_cfg = dict(
    rpn=dict(
        assigner=dict(
            pos_iou_thr=0.6,
            neg_iou_thr=0.45,
            min_pos_iou=0.45, # this one is to limit the force assignment
            ignore_iof_thr=-1,
            similarity_fn ='NearestIouSimilarity'
        ),
        nms=dict(
            nms_across_levels=False,
            nms_pre=2000,
            nms_post=2000,
            nms_thr=0.7,
            min_bbox_size=0
        ),
        allowed_border=0,
        pos_weight=-1,
        smoothl1_beta=1 / 9.0,
        debug=False),
    extra=dict(
        assigner=dict(
            pos_iou_thr=0.7,
            neg_iou_thr=0.7,
            min_pos_iou=0.7,
            ignore_iof_thr=-1,
            similarity_fn ='RotateIou3dSimilarity'
        )
    )
)

dataset_type = 'KittiLiDAR'
data_root = '/home/billyhe/data/KITTI/'
img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
data = dict(
    imgs_per_gpu=2,
    workers_per_gpu=4,
    train=dict(
        type=dataset_type,
        root=data_root + 'training/',
        ann_file=data_root + 'ImageSets/train.txt',
        img_prefix=None,
        img_scale=(1242, 375),
        img_norm_cfg=img_norm_cfg,
        size_divisor=32,
        flip_ratio=0.5,
        with_mask=False,
        with_label=True,
        with_point=True,
        class_names = ['Car', 'Van'],
        augmentor=dict(
            type='PointAugmentor',
            root_path=data_root,
            info_path=data_root + 'kitti_dbinfos_train.pkl',
            sample_classes=['Car'],
            min_num_points=5,
            sample_max_num=15,
            removed_difficulties=[-1],
            global_rot_range=[-0.78539816, 0.78539816],
            gt_rot_range=[-0.78539816, 0.78539816],
            center_noise_std=[1., 1., .5],
            scale_range=[0.95, 1.05]
        ),
        generator=dict(
            type='VoxelGenerator',
            voxel_size=[0.05, 0.05, 0.1],
            point_cloud_range=[0, -40., -3., 70.4, 40., 1.],
            max_num_points=5,
            max_voxels=20000
        ),
        anchor_generator=dict(
            type='AnchorGeneratorStride',
            sizes=[1.6, 3.9, 1.56],
            anchor_strides=[0.4, 0.4, 1.0],
            anchor_offsets=[0.2, -39.8, -1.78],
            rotations=[0, 1.57],
        ),
        anchor_area_threshold=1,
        out_size_factor=8,
        test_mode=False),

    # 做验证的超参数和训练超参数是一样的，就不放出来了。
    # 在val中，test_mode=True
    # val=dict(...)
)

# optimizer
optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.001)
optimizer_config = dict(grad_clip=dict(max_norm=10, norm_type=2))
# learning policy
lr_config = dict(
    policy='cosine',
    warmup='linear',
    warmup_iters=500,
    warmup_ratio=1.0 / 3,
)

checkpoint_config = dict(interval=5)
log_config = dict(
    interval=20,
    hooks=[
        dict(type='TextLoggerHook'),
    ])
total_epochs = 50
dist_params = dict(backend='nccl')
log_level = 'INFO'
work_dir = '../saved_model_vehicle'
load_from = None
resume_from = None
workflow = [('train', 1)]

然后瞧瞧函数get_dataset，它的核心操作是调用函数obj_from_dict（大概是根据输入需求写data_info，然后从datasets读出dset，添加至dsets。dsets是输出的训练数据）：

    dsets = []
    for i in range(num_dset):
        data_info = copy.deepcopy(data_cfg)
        data_info['ann_file'] = ann_files[i]
        data_info['proposal_file'] = proposal_files[i]
        data_info['img_prefix'] = img_prefixes[i]
        if generator is not None:
            data_info['generator'] = generator
        if anchor_generator is not None:
            data_info['anchor_generator'] = anchor_generator
        if augmentor is not None:
            data_info['augmentor'] = augmentor
        if target_encoder is not None:
            data_info['target_encoder'] = target_encoder
        # 核心操作
        dset = obj_from_dict(data_info, datasets)
        dsets.append(dset)
    if len(dsets) > 1:
        dset = ConcatDataset(dsets)
    else:
        dset = dsets[0]
    return dset

而函数train_detector是一套模板化流程，其中调用了torch的DataLoader。更为具体的分析可以参考mmdetection说明博客。

4. 结果评估

作为小白，处理一个完整的数据集，不仅仅需要对数据做预处理，还需要做结果评估（Evaluation），即计算预测值和真值间的误差。3D目标检测的误差计算稍微复杂。我们看看SA-SSD是怎样做处理的。

4.1 3D目标检测评估指标

怎样衡量网络预测的3D框和对应真值3D框之间的差异呢？对于KITTI数据集来说，拿车类目标做个例子，如果预测3D框和真值3D框之间重叠的部分占真值3D框的70%以上（70%是官方规定的），那么就可以认为预测3D框是准确的。如果10个预测结果中，有7个是准确的，那么车类目标识别率是70%。3D目标识别率简记为 $A P$ ，或者 $3 D A P$ ，或者 $AP_{3D}$ 。

使用IoU（Intersection-over-Union）表示预测3D框和真值3D框之间重叠的部分占真值3D框的比重。

每一种类别，KITTI官方规定的百分百阈值都不一样，可以参考下面原话:

For cars we require an 3D bounding box overlap of 70%, while for pedestrians and cyclists we require a 3D bounding box overlap of 50%.

把不同类别的目标识别结果平均起来，可以得到平均目标识别结果 $m A P$ 。

对于同一种类别，不断调整百分百阈值（称之为召回率，Recall），可以得到不同阈值下的 $A P$ 值（称之为精度，Precision），进而会形成一条关于阈值百分比和 $A P$ 的曲线，即召回率精度曲线（Recall-Precision Curve）。曲线覆盖面积将反应算法实际性能。曲线覆盖面积越趋近于1，算法性能越好。

除了使用 $3 D A P$ ，还会检测2D目标的精度 $2 D A P$ ，还会检测在 $B E V$ 视图下的目标精度 $B E V A P$ 。这些 $A P$ 的定义都差不多。

4.2 评估流程

从代码的ReadMe获知结果评估使用tools/test.py文件。需要如下操作：

python3 test.py ../configs/car_cfg.py ../saved_model_vehicle/epoch_50.pth

其中car_cfg.py是配置文件，用于保存模型超参数，训练超参数，和测试超参数，以及学习策略配置等等。pth文件是模型训练好的参数。

评估流程代码如下。把Train那一块流程搞懂，这一块流程也很相似，比如常见函数get_dataset，build_detector（加载SA-SSD网络，具体代码会在下一篇博客分析）。函数get_official_eval_result用来评估目标检测结果，输出 $3 D A P$ ， $2 D A P$ ，和 $B E V A P$ 。

    dataset = utils.get_dataset(cfg.data.val)
    class_names = cfg.data.val.class_names
    if args.gpus == 1:
        model = build_detector(
            cfg.model, train_cfg=None, test_cfg=cfg.test_cfg)
        load_checkpoint(model, args.checkpoint)
        model = MMDataParallel(model, device_ids=[0])

        data_loader = build_dataloader(
            dataset,
            1,
            cfg.data.workers_per_gpu,
            num_gpus=1,
            #collate_fn= cfg.data.collate_fn,
            shuffle=False,
            dist=False)
        # 一口气输出全部测试集的预测结果
        outputs = single_test(model, data_loader, args.out, class_names)
    else:
        NotImplementedError
    # kitti evaluation
    gt_annos = kitti.get_label_annos(dataset.label_prefix, dataset.sample_ids)
    # 计算class_names类别下2D AP，3D Ap和BEV AP
    result = get_official_eval_result(gt_annos, outputs, current_classes=class_names)

5. 结束语

因为是小白，不懂3D目标检测，从白天看到黑夜，把整体框架看明白了。初次接触mmdetection有点难受。但是弄懂了，就觉得这个框架对调参数和搭建网络都非常友好。mmdetection是面向目标检测的代码集成库，还需要深入学习。在下一篇博客中，我将分析SA-SSD的网络细节。有时间我会分析一下mmdetection。不知道时间是否充裕，就不立flag啦。

你可能感兴趣的:(computer,vision论文代码分析)

计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
EcmaScript和JavaScript的区别每天吃八顿前端 ecmascript
ECMAScript和JavaScript是经常被混淆的两个术语，但实际上它们之间存在一些区别：ECMAScript：ECMAScript（通常缩写为ES，并且有版本号如ES5,ES6和ES7等）是由ECMA国际（EuropeanComputerManufacturersAssociation）制定的一种脚本语言的规范。这个规范定义了语法、命令、数据类型等基本元素。ECMAScript是一种规范，
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
2024年CSP-J初赛备考建议再临TSC c++杂谈 c++学习
针对2024年CSP-J（ComputerSciencePrinciplesJunior，即计算机科学原理初级认证）的备考，首先，先来看考试可能考的东西：动规（包括背包问题），主要在程序阅读还有程序补全题考，这方面，了解动规的原理就可以轻松拿分高精，也是在阅读和补全题，了解原理即可，Z2~Z3应该就学高精了深搜广搜，基础题可能会给你一个片段，然后问你这是什么算法，或者，问你下列选项中哪个正确，给你
单片机在医疗设备中的应用实例教程 kkchenjj 单片机单片机嵌入式硬件
单片机在医疗设备中的应用实例教程单片机基础单片机概述单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器、输入输出接口等主要计算机部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于工业控制、家用电器、汽车电子、医疗设备等多个领域。特点集成度高：单片机将计算机的主要部件集成在一块芯片上
单片机与传感器接口技术应用实例教程 kkchenjj 单片机单片机 nosql 嵌入式硬件
单片机与传感器接口技术应用实例教程单片机基础单片机概述单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器、输入输出接口等主要计算机部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于工业控制、家用电器、汽车电子、通信设备、医疗器械等领域。特点集成度高：单片机将计算机的主要部件集成在一
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
什么是DSL和GPL 牧竹子通识 DSL GPL
DSL的全称是domain-specificlanguage，它在wiki上的定义如下：Adomain-specificlanguage(DSL)isacomputerlanguagespecializedtoaparticularapplicationdomain.与之相对的是GPL(general-purposelanguage)。DSL指的是针对特定应用领域而设计使用的计算机语言，而GPL指
什么是DSL yimi1995 程序员的日常
转载：http://blog.csdn.net/dslztx/article/details/46682889DSL的全称是domain-specificlanguage，它在wiki上的定义如下：Adomain-specificlanguage(DSL)isacomputerlanguagespecializedtoaparticularapplicationdomain.与之相对的是GPL(g
ecmascript和javascript的区别？ 2301_79698214 ecmascript javascript
ECMAScript是JavaScript的标准规范，而JavaScript是基于ECMAScript规范开发的一种编程语言。简单来说，ECMAScript是一套定义了JavaScript语法和语义的规范，而JavaScript是实际的编程语言。具体来说，ECMAScript是由ECMA（EuropeanComputerManufacturersAssociation，欧洲计算机制造商协会）定义和
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
大语言模型应用指南：长期记忆 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：长期记忆作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能领域的快速发展，大语言模型因其强大的语言生成和理解能力而受到广泛关注。然而，现有的大语言模型通常具有短期记忆特性，即在生成文本时，仅依赖于输入序列的上下文信息，缺乏对过去输入或历史对话上下文的记忆能力。这限制了模型在需要考虑长期历史信息
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
力扣LeetCode-栈和队列流忆，留宜 LeetCode leetcode c++算法
栈与队列基本知识C++标准库有很多版本，三个最为普遍的STL版本HPSTL其他版本的C++STL，一般是以HPSTL为蓝本实现出来的，HPSTL是C++STL的第一个实现版本，而且开放源代码。P.J.PlaugerSTL由P.J.Plauger参照HPSTL实现出来的，被VisualC++编译器所采用，不是开源的。SGISTL由SiliconGraphicsComputerSystems公司参照H
cs寄存器 x86 特权模式_我们一起学RISC-V——01-了解处理器和寄存器黎贝卡 cs寄存器 x86 特权模式
本期内容如下：形象认识处理器RISC-V处理器面貌处理器都能做什么RISC-V核对外接口一、形象认识处理器1.1指令集分类处理器指令集分为两类，CISC(ComplexInstructionSetComputers，复杂指令集计算机)和RISC(ReducedInstructionSetComputers，精简指令集计算机)。CISC处理器，当以为美国Intel，AMD的X86处理器为代表，当然中
csapp-chapter1 SFARL 博客 c++
title:csapp_chapter1date:2020-06-1319:24:20tags:[网课,CSAPP,第一章]CSAPP和CMUIntroductiontocomputersystem(CS15-2132015fall)的笔记。相关资料Textbook在vscode上使用C1.COURSE-OVERVIEW从编程者的角度来讲述计算机系统。这也是为什么我第一门课选择这个的原因，因为自己
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
单片机在汽车电子中的应用实例教程 kkchenjj 单片机单片机汽车 mongodb
单片机在汽车电子中的应用实例教程单片机基础介绍单片机的定义与结构单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器（RAM和ROM）、输入/输出接口（I/O）、定时器、计数器等主要计算机功能部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于各种控制领域，如工业控制、家用电器、汽车电
Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉 Hazelyu27 计算机视觉大数据计算机视觉深度学习
本书的内容分成三个部分：1.初始阶段初始阶段学习：机器学习、神经网络、卷积神经网络、建立数据集。2.实践阶段实践阶段：深入学习深度学习，理解先进技术，发现最佳实践方式。3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。本书提供了对应网站：http://pyimg.co/fnkxk本文介绍前两章内容：基本介绍和深度学习简介。
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
OpenCV计算机视觉学习（16）——仿射变换学习笔记牛马程序员24 计算机视觉 opencv 学习
OpenCV计算机视觉学习（16）——仿射变换学习笔记如果需要其他图像处理的文章及代码，请移步小编的GitHub地址传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/ComputerVisionPractice在计算机视觉和图像处理中，仿射变换是一种重要的几何变换方法。它可以通过线性变换和平移来改变图像的形状和位置，广泛应用与图像校正，对象识别以及增强现实
JSON：轻量级的数据交换格式 Tsingfeng. 基础释疑 json
JSON（JavaScriptObjectNotation,JS对象简谱）是一种轻量级的数据交换格式。它基于ECMAScript（EuropeanComputerManufacturersAssociation,欧洲计算机协会制定的js规范）的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生
05-树8 File Transfer(C) L_glonar c语言数据结构
日常，满分Wehaveanetworkofcomputersandalistofbi-directionalconnections.Eachoftheseconnectionsallowsafiletransferfromonecomputertoanother.Isitpossibletosendafilefromanycomputeronthenetworktoanyother?InputSp
05-树9 Huffman Codes（C） L_glonar c语言数据结构
日常，这一次，耗费我三天，其实第二天时便已经将对整个框架有清晰的了解了，（看了解析了），但是一步步排除，确实让我学到了很多。In1953,DavidA.Huffmanpublishedhispaper"AMethodfortheConstructionofMinimum-RedundancyCodes",andhenceprintedhisnameinthehistoryofcomputersci
CS269I：Incentives in Computer Science 学习笔记 Lecture 16: Revenue-Maximizing Auctions（收入最大化拍卖） ldc1513 学习笔记算法博弈论
Lecture16:Revenue-MaximizingAuctions（收入最大化拍卖）1RevenueMaximizationandBayesianAnalysis一直以来，我们关注的都是最大化社会福利的拍卖设计（至少在那些真实出价的场景中）。福利最大化确实是在很多场景中我们最多考虑的事情，比如我们之前看了很长时间的赞助搜索和在线广告。在福利最大化拍卖中，收入也被考虑过，但也仅仅是机制的一个副
HDU2196Computer 树形dp Vibrant
传送门解法1树的直径参考博客#include//树的直径#defineMAXN10010usingnamespacestd;typedefpairP;intdis[MAXN],Max,root;vectora[MAXN];voidInit(intn){Max=0;for(inti=1;iMax)Max=sum,root=now;for(inti=0;i//记忆化搜索#defineMAXN10010
python开发简单猜拳游戏 RelievedCy python 游戏开发语言
目录规则定义三个类启动器主体积分器启动器主体规则定制判断胜负结果展示积分器初始化积分展示当前积分设置为无限循环规则1：石头，2：剪刀，3：布，0：退出定义三个类启动器主体积分器启动器def__init__(self):self.run()#启动器@staticmethoddefrun():computer=random.randint(1,3)try:user=int(input(">1:石头\n
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http