Niuip

小白科研笔记：简析3d目标检测框指标计算和结果文本输出以及结果可视化

1. 前言

因为工作需要，要了解3d目标检测框的指标计算过程。

2. 3D目标框数据格式

随便打开一个Ground truth标签，比如000006.txt，可以看到如下的内容：

Car 0.00 2 -1.55 548.00 171.33 572.40 194.42 1.48 1.56 3.62 -2.72 0.82 48.22 -1.62
Car 0.00 0 -1.21 505.25 168.37 575.44 209.18 1.67 1.64 4.32 -2.61 1.13 31.73 -1.30
Car 0.00 0 0.15 49.70 185.65 227.42 246.96 1.50 1.62 3.88 -12.54 1.64 19.72 -0.42
Car 0.00 1 2.05 328.67 170.65 397.24 204.16 1.68 1.67 4.29 -12.66 1.13 38.44 1.73
DontCare -1 -1 -10 603.36 169.62 631.06 186.56 -1 -1 -1 -1000 -1000 -1000 -10
DontCare -1 -1 -10 578.97 168.88 603.78 187.56 -1 -1 -1 -1000 -1000 -1000 -10

这些数据代表了什么含义呢？可以参考这篇博客。官方给出的数据说明如下所示：

图1：KITTI数据中3D目标框的标注格式

我们以第一个物体来作说明。

Car 0.00 2 -1.55 548.00 171.33 572.40 194.42 1.48 1.56 3.62 -2.72 0.82 48.22 -1.62

它的type标签是Car，说明该物体是车类，如果是Dont Care，表示该物体不纳入目标检测情况之内。它的truncated标签是0，说明这个目标在RGB图像边界内，如果等于1，说明该目标卡在边界上了。它的occluded标签是2，说明这个目标有很大一部分被遮挡住了。它的alpha标签是-1.55，换算为角度约是 $-88\, \deg$ ，表示观测该物体的角度。它的bbox标签是548.00 171.33 572.40 194.42，分别表示该物体在RGB图像上，相应2D框的左上角和右下角顶点的像素坐标。它的dimensions标签是1.48 1.56 3.62，表示目标的高度，宽度，和长度，单位是米。它的location标签是-2.72 0.82 48.22，表示目标中心的位置，单位是米。它的rotation_y标签是-1.62，换算为角度约是 $-92\, \deg$ ，表示物体自身旋转角，这里表示这个物体大概是横着出现在观察者的视线内。从图1上可以看出，score只用于网络预测，真值是1，网络预测值是在 $[0, 1]$ 范围之内，表示目标检测置信度。

3. 3D目标框指标计算

3.1 总体计算框架

在我之前的博客已经讲解了3D目标框的四种指标（2D检测框的准确率，3D检测框的准确率，BEV视图下检测框的准确率，以及检测目标旋转角度的准确率）和它们的计算方法，以及不同类别在不同检测指标下的阈值。这里不再叙述。咱们直接看3D框指标计算的代码。这里以SA-SSD的test.py作为说明。

总体代码如下所示：

    # 加载网络参数和测试数据集
    cfg = mmcv.Config.fromfile(args.config)
    cfg.model.pretrained = None

    dataset = utils.get_dataset(cfg.data.val)
    class_names = cfg.data.val.class_names
    if args.gpus == 1:
        model = build_detector(
            cfg.model, train_cfg=None, test_cfg=cfg.test_cfg)
        load_checkpoint(model, args.checkpoint)
        model = MMDataParallel(model, device_ids=[0])

        data_loader = build_dataloader(
            dataset,
            1,
            cfg.data.workers_per_gpu,
            num_gpus=1,
            #collate_fn= cfg.data.collate_fn,
            shuffle=False,
            dist=False)
        # 把测试集的结果一股脑地输出
        outputs = single_test(model, data_loader, args.out, class_names)
    else:
        NotImplementedError
    # kitti evaluation
    # 从 Ground Truth 中提取测试集目标检测的真值
    gt_annos = kitti.get_label_annos(dataset.label_prefix, dataset.sample_ids)
    # 根据目标检测的真值和预测值，计算四个检测指标
    result = get_official_eval_result(gt_annos, outputs, current_classes=class_names)

上述代码的核心函数有三个，分别是：single_test，get_label_annos，和get_official_eval_result。先分析get_label_annos和get_official_eval_result，然后再去分析single_test。

3.2 简析get_label_annos

函数get_label_annos的作用是获取目标检测的真值。

# label_folder 是目标检测真值标签的存放文件夹
# image_ids 是目标检测的 id，list 数组
def get_label_annos(label_folder, image_ids=None):
	# 如果没有 image_ids，就抓取文件夹内所有标签对应 id，再变成 list 格式
    if image_ids is None:
        filepaths = pathlib.Path(label_folder).glob('*.txt')
        prog = re.compile(r'^\d{6}.txt$')
        filepaths = filter(lambda f: prog.match(f.name), filepaths)
        image_ids = [int(p.stem) for p in filepaths]
        image_ids = sorted(image_ids)
    if not isinstance(image_ids, list):
        image_ids = list(range(image_ids))
    # annos 存放所有 id 的真值，是一个 list 结构，存放的是 dict
    annos = []
    label_folder = pathlib.Path(label_folder)
    # 遍历每一个 id， 抓取真值
    for idx in image_ids:
        image_idx_str = get_image_index_str(idx)
        label_filename = label_folder / (image_idx_str + '.txt')
        anno = get_label_anno(label_filename)
        num_example = anno["name"].shape[0] # 这一帧图像中目标的个数
        anno["image_idx"] = np.array([idx] * num_example, dtype=np.int64) 
        annos.append(anno)
    return annos

再去看看函数get_label_anno（从文本中抓取目标的真值信息）：

def get_label_anno(label_path):
    annotations = {}
    annotations.update({
        'name': [],
        'truncated': [],
        'occluded': [],
        'alpha': [],
        'bbox': [],
        'dimensions': [],
        'location': [],
        'rotation_y': []
    })
    with open(label_path, 'r') as f:
        lines = f.readlines()
    # if len(lines) == 0 or len(lines[0]) < 15:
    #     content = []
    # else:
    content = [line.strip().split(' ') for line in lines]
    num_objects = len([x[0] for x in content if x[0] != 'DontCare'])
    annotations['name'] = np.array([x[0] for x in content])
    num_gt = len(annotations['name'])
    annotations['truncated'] = np.array([float(x[1]) for x in content])
    annotations['occluded'] = np.array([int(float(x[2])) for x in content])
    annotations['alpha'] = np.array([float(x[3]) for x in content])
    annotations['bbox'] = np.array(
        [[float(info) for info in x[4:8]] for x in content]).reshape(-1, 4)
    # dimensions will convert hwl format to standard lhw(camera) format.
    annotations['dimensions'] = np.array(
        [[float(info) for info in x[8:11]] for x in content]).reshape(
            -1, 3)[:, [2, 0, 1]]
    annotations['location'] = np.array(
        [[float(info) for info in x[11:14]] for x in content]).reshape(-1, 3)
    annotations['rotation_y'] = np.array(
        [float(x[14]) for x in content]).reshape(-1)
    if len(content) != 0 and len(content[0]) == 16:  # have score
        annotations['score'] = np.array([float(x[15]) for x in content])
    else:
        annotations['score'] = np.zeros((annotations['bbox'].shape[0], ))
    index = list(range(num_objects)) + [-1] * (num_gt - num_objects)
    annotations['index'] = np.array(index, dtype=np.int32)
    annotations['group_ids'] = np.arange(num_gt, dtype=np.int32)
    return annotations

3.3 简析get_official_eval_result

函数get_official_eval_result的作用是根据目标检测的真值和预测值，计算四个检测指标。运行程序时候的输出如下所示：

图2：get_official_eval_result输出示意图

这一块的代码如下所示：

def get_official_eval_result(gt_annos, dt_annos, current_classes, difficultys=[0, 1, 2]):
	# 对八类目标的阈值设定，分为 overlap_0_7 和 overlap_0_5 两大类
	# 咱们主要关注 Car 类
	# 它在 overlap_0_7 检测阈值是 0.7 0.7 0.7
	# 它在 overlap_0_5 检测阈值是 0.7 0.5 0.5
    overlap_0_7 = np.array([[0.7, 0.5, 0.5, 0.7, 0.5, 0.7, 0.7, 0.7], 
                            [0.7, 0.5, 0.5, 0.7, 0.5, 0.7, 0.7, 0.7],
                            [0.7, 0.5, 0.5, 0.7, 0.5, 0.7, 0.7, 0.7]])
    overlap_0_5 = np.array([[0.7, 0.5, 0.5, 0.7, 0.5, 0.5, 0.5, 0.5], 
                            [0.5, 0.25, 0.25, 0.5, 0.25, 0.5, 0.5, 0.5],
                            [0.5, 0.25, 0.25, 0.5, 0.25, 0.5, 0.5, 0.5]])
    min_overlaps = np.stack([overlap_0_7, overlap_0_5], axis=0)  # [2, 3, 5]
    class_to_name = {
        0: 'Car',
        1: 'Pedestrian',
        2: 'Cyclist',
        3: 'Van',
        4: 'Person_sitting',
        5: 'car',
        6: 'tractor',
        7: 'trailer',
    }
    name_to_class = {v: n for n, v in class_to_name.items()}
    if not isinstance(current_classes, (list, tuple)):
        current_classes = [current_classes]
    current_classes_int = []
    for curcls in current_classes:
        if isinstance(curcls, str):
            current_classes_int.append(name_to_class[curcls])
        else:
            current_classes_int.append(curcls)
    current_classes = current_classes_int
    min_overlaps = min_overlaps[:, :, current_classes]
    result = ''
    # check whether alpha is valid
    compute_aos = False
    for anno in dt_annos:
        if anno['alpha'].shape[0] != 0:
            if anno['alpha'][0] != -10:
                compute_aos = True
            break
    # 检测指标核心计算代码
    mAPbbox, mAPbev, mAP3d, mAPaos = do_eval_v2(
        gt_annos, dt_annos, current_classes, min_overlaps, compute_aos, difficultys)
    # 文本输出的代码
    # j 表示遍历的大类，比如 Car 一类
    for j, curcls in enumerate(current_classes):
        # mAP threshold array: [num_minoverlap, metric, class]
        # mAP result: [num_class, num_diff, num_minoverlap]
        # i 表示遍历 overlap_0_7, overlap_0_5
        # 打印这两种大阈值下的目标检测指标结果，如图 2 所示
        for i in range(min_overlaps.shape[0]):
            result += print_str(
                (f"{class_to_name[curcls]} "
                 "AP@{:.2f}, {:.2f}, {:.2f}:".format(*min_overlaps[i, :, j])))
            # 0, 1, 2 分别对应目标检测的难易程度，
            # 0 --- Easy
            # 1 --- Medium
            # 2 --- Hard
            result += print_str((f"bbox AP:{mAPbbox[j, 0, i]:.2f}, "
                                 f"{mAPbbox[j, 1, i]:.2f}, "
                                 f"{mAPbbox[j, 2, i]:.2f}"))
            result += print_str((f"bev  AP:{mAPbev[j, 0, i]:.2f}, "
                                 f"{mAPbev[j, 1, i]:.2f}, "
                                 f"{mAPbev[j, 2, i]:.2f}"))
            result += print_str((f"3d   AP:{mAP3d[j, 0, i]:.2f}, "
                                 f"{mAP3d[j, 1, i]:.2f}, "
                                 f"{mAP3d[j, 2, i]:.2f}"))
            if compute_aos:
                result += print_str((f"aos  AP:{mAPaos[j, 0, i]:.2f}, "
                                     f"{mAPaos[j, 1, i]:.2f}, "
                                     f"{mAPaos[j, 2, i]:.2f}"))

    return result

3d目标指标计算核心函数是do_eval_v2，简要分析一下这段代码：

def do_eval_v2(gt_annos,
               dt_annos,
               current_classes,
               min_overlaps,
               compute_aos=False,
               difficultys = [0, 1, 2]):
    # min_overlaps: [num_minoverlap, metric, num_class]
    ret = eval_class_v3(gt_annos, dt_annos, current_classes, difficultys, 0,
                        min_overlaps, compute_aos)
    # ret: [num_class, num_diff, num_minoverlap, num_sample_points]
    mAP_bbox = get_mAP_v2(ret["precision"])
    mAP_aos = None
    if compute_aos:
        mAP_aos = get_mAP_v2(ret["orientation"])
    ret = eval_class_v3(gt_annos, dt_annos, current_classes, difficultys, 1,
                        min_overlaps)
    mAP_bev = get_mAP_v2(ret["precision"])
    ret = eval_class_v3(gt_annos, dt_annos, current_classes, difficultys, 2,
                        min_overlaps)
    mAP_3d = get_mAP_v2(ret["precision"])
    return mAP_bbox, mAP_bev, mAP_3d, mAP_aos

函数eval_class_v3构造等着需要的时候再去分析。

3.4 简析single_test和结果文本输出

这一段代码如下所示：

def single_test(model, data_loader, saveto=None, class_names=['Car']):
    template = '{} ' + ' '.join(['{:.4f}' for _ in range(15)]) + '\n'
    if saveto is not None:
        mmcv.mkdir_or_exist(saveto)

	# 网络设置为推断模式
    model.eval()
    # 初始化一个网络预测结果，总存放位置
    annos = []
    prog_bar = mmcv.ProgressBar(len(data_loader.dataset))
    #class_names = get_classes('kitti')

	# 开始把测试集的数据一个一个往里面丢
    for i, data in enumerate(data_loader):
        with torch.no_grad():
        	# results 是网络输出的结果
            results = model(return_loss=False, **data)
        image_shape = (375,1242)
        # 解析网络的输出结果
        for re in results:
            img_idx = re['image_idx']
            if re['bbox'] is not None:
            	# 网络输出的主要结果
                box2d = re['bbox']
                box3d = re['box3d_camera']
                labels = re['label_preds']
                scores = re['scores']
                alphas = re['alphas']
                # 初始化一个 存放网络输出结果的 dict
                anno = kitti.get_start_result_anno()
                num_example = 0
                # 2d框不能超出图像尺寸范围
                for bbox2d, bbox3d, label, score, alpha in zip(box2d, box3d, labels, scores, alphas):
                    if bbox2d[0] > image_shape[1] or bbox2d[1] > image_shape[0]:
                        continue
                    if bbox2d[2] < 0 or bbox2d[3] < 0:
                        continue
                    bbox2d[2:] = np.minimum(bbox2d[2:], image_shape[::-1])
                    bbox2d[:2] = np.maximum(bbox2d[:2], [0, 0])
                    anno["name"].append(class_names[int(label)])
                    anno["truncated"].append(0.0)
                    anno["occluded"].append(0)
                    #anno["alpha"].append(-10)
                    anno["alpha"].append(alpha)
                    anno["bbox"].append(bbox2d)
                    #anno["dimensions"].append(np.array([-1,-1,-1]))
                    anno["dimensions"].append(bbox3d[[3, 4, 5]])
                    #anno["location"].append(np.array([-1000,-1000,-1000]))
                    anno["location"].append(bbox3d[:3])
                    #anno["rotation_y"].append(-10)
                    anno["rotation_y"].append(bbox3d[6])
                    anno["score"].append(score)
                    num_example += 1
                # 把 anno 存放到总体结果 annos 中，顺便写预测结果（如果需要的话）
                if num_example != 0:
                    if saveto is not None:
                        of_path = os.path.join(saveto, '%06d.txt' % img_idx)
                        with open(of_path, 'w+') as f:
                            for name, bbox, dim, loc, ry, score, alpha in zip(anno['name'], \
                                                                       anno["bbox"], \
                                                                       anno["dimensions"], \
                                                                       anno["location"], \
                                                                       anno["rotation_y"], \
                                                                       anno["score"],\
                                                                       anno["alpha"]):
                                # 写检测结果，和 kitti 提供的 ground truth 格式是一样的
                                line = template.format(name, 0, 0, alpha, *bbox, *dim[[1,2,0]], *loc, ry, score)
                                f.write(line)

                    anno = {n: np.stack(v) for n, v in anno.items()}
                    annos.append(anno)
                else:
                    if saveto is not None:
                        of_path = os.path.join(saveto, '%06d.txt' % img_idx)
                        f = open(of_path, 'w+')
                        f.close()
                    annos.append(kitti.empty_result_anno())
            else:
                if saveto is not None:
                    of_path = os.path.join(saveto, '%06d.txt' % img_idx)
                    f = open(of_path, 'w+')
                    f.close()
                annos.append(kitti.empty_result_anno())

            # if show:
            #     model.module.show_result(data, result,
            #                              data_loader.dataset.img_norm_cfg)
            num_example = annos[-1]["name"].shape[0]
            annos[-1]["image_idx"] = np.array(
                [img_idx] * num_example, dtype=np.int64)


        batch_size = len(results)
        for _ in range(batch_size):
            prog_bar.update()

    return annos

4. 可视化3D目标检测结果

使用kitti官方提供的Matlab可视化代码。Ground Truth可视化效果如下所示：

图2：ground truth标签示意图

SA-SSD网络预测的效果如下所示（需要把预测的txt文档中的score值去掉才能显示下图，不然只能显示一个目标）：

图2：预测标签示意图

还是挺有趣的。

Run-time type information--RTTI diaoju3333 c/c++runtime
Incomputerprogramming,run-timetypeinformationorrun-timetypeidentification(RTTI)[1]referstoaC++mechanismthatexposesinformationaboutanobject'sdatatypeatruntime.Run-timetypeinformationcanapplytosimpledat
CE 451/551 Computer-Aided Research 后端
CE451/551–Computer-AidedResearchintheChemicalandMaterialsSciences:Homework#11(Graded#3)(Due:Tuesday,11MarchTuesday2025,5:00pm)Thegoalofthisassignmentistopracticetheuseofcookbooks,templates,andcodesnip
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线云梦优选计算机数据库大数据计算机视觉学习人工智能
一、基础准备1.数学基础线性代数深入矩阵运算，理解矩阵乘法、转置、逆等基本概念。掌握特征值与特征向量的几何意义，理解其在图像压缩、特征提取中的应用。学习奇异值分解（SVD）及其在降维和数据压缩中的具体应用。概率与统计熟悉贝叶斯定理及其在分类任务中的应用，如朴素贝叶斯分类器。理解常见概率分布（如正态分布、二项分布）及其性质。学习统计推断方法，如假设检验、置信区间估计，以评估模型性能。微积分掌握梯度、
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
【AI热点】OpenAI新发布API技术深度洞察碣石潇湘无限路人工智能
以下内容基于对OpenAI最新发布的AgentAPI及相关工具的官方信息、技术演示和已有报道进行综合解读与深度分析，供您参考。本报告将围绕最新发布的ResponsesAPI（智能体核心新接口）、内置工具（websearch、filesearch、computeruse）、全新的AgentsSDK以及核心安全与可观测性机制，帮助您深入理解其原理、特性及应用价值。一、背景：为什么要推出新的AgentA
从零开始大模型开发与微调：PyTorch 2.0深度学习环境搭建 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch2.0深度学习环境搭建作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，大模型开发与微调成为了当前研究的热点。大模型能够学习到丰富的知识，并在各个下游任务上取得优异的性能。然而，大模型开发与微调需要强大的计算资源和专业的知识背景，这对于许多初学者和研究
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
Chart GPT、DeepSeek 辅助学习H3C网络工程师考试（一） qq_58647543 H3C认证路由交换网络工程师 gpt 学习网络
计算机网络基本计算机网络基本概念是网络技术的基础，涵盖了计算机网络的定义、类型、发展历程及其各种重要概念。下面详细讲解这些内容：1.计算机网络的基本概念计算机网络（ComputerNetwork）指的是由多个计算机和其他硬件设备通过通信链路连接起来，通过交换信息资源和共享硬件、软件资源的系统。计算机网络的核心目标是实现计算机之间的数据传输、资源共享和远程访问。计算机网络的主要功能包括：数据通信：传
从零开始大模型开发与微调：编码器的实现 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：编码器的实现作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：自然语言处理，大模型，Transformer架构，编码器模块，序列到序列学习文章目录从零开始大模型开发与微调：编码器的实现1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系2.1编码器模块简介2.2编码器与Transfo
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
多模态大模型：技术原理与实战模型压缩实战 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战模型压缩实战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：多模态大模型，技术原理，模型压缩，实战，TensorFlow，PyTorch，模型压缩方法，应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型在图像识别、语音识别、自然语言处理等领域的应用越来越广泛。然而，多模态大模型通常具有庞大
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
Vision Transformer 分类水果图片集 Python 代码（可训练自己数据集） Illusionna. transformer 深度学习人工智能
代码链接:https://github.com/Illusionna/ComputerVision/tree/main/EfficientTransformerArepositoryforViT.ContributetoIllusionna/TransformerdevelopmentbycreatinganaccountonGitHub.https://github.com/Illusionna
AI智能体，AI computer use：浏览器使用（Browser Use）项目实际体验，deepseek r1，百度云，满血版几道之旅 Dify与Langflow 智能体（Agent）知识库人工智能
文章目录前言BrowserUse项目简介支持的大模型快速开始windows安装uv安装虚拟环境激活之安装相关的python库安装playwright趁着这个空当，咱去把deepseekv1搞一下构建BrowserUse智能体报错错误解决后，重新运行前言Agent项目中，一个重要的组成部分便是电脑使用。甚至，我感觉，对于openai这种的，实力比较强的公司，电脑使用几乎可以70%地与Agent划等号
window下命令行重启 Joyner2018 计算机综合 windows
在Windows系统下，通过命令行可以执行多种方式来重启计算机。以下是几种常用的方法：1.使用shutdown命令在命令提示符中执行以下命令：shutdown/r/t0/r：表示重启计算机。/t0：表示立即重启（时间为0秒）。2.使用PowerShell在PowerShell中执行以下命令：Restart-Computer这将立即重启计算机。3.通过任务计划程序重启如果需要定时重启，可以使用以下命
特征工程 (Feature Engineering) AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征工程(FeatureEngineering)作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在机器学习和数据科学领域，特征工程（FeatureEngineering）一直是一个至关重要的环节。它指的是从原始数据中提取或构造出有助于模型学习的特征，从而提高模型预测准确性的过程。特征工程的成功与否，直接关系到模型性能的好坏
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
COMP1005 Computer Science 后端
COMP1005BWinter2025–“IntroductiontoComputerScienceI”COMP1005BAssignment#3Functions,Strings,FilesOverviewInthisassignment,youwilldemonstrateyourunderstandingof(inadditiontoprevioustopics):•Readingandwr
创建ASCII数字打印机(OpenCV C++) 河边一只猫 opencv c++cv
学习OpenCV3（中文版）LearningOpenCV3ComputerVisioninC++withtheOpenCVLibrary第四章练习1建立一个500×500大小的单通道图像，每个像素值都为0。a.创建一个ASCII数字打印机，你可以在自己电脑上输入数字，并在一个20像素高、10像素宽的方块中显示数字。当你键入时，数字将从左到右显示，直到到达图像的末尾才停止。b.允许键入回车和退格。c
EMET8002 Case Studies in Applied Economic 后端
EMET8002CaseStudiesinAppliedEconomicAnalysisandEconometricsSemester12025ComputerLabinWeek3Question1:SimpleLinearRegressionDownloadthe“states”datafromWattleandopenitinStata.Aspartofthisquestionweexplor
开源之夏经验分享｜Koupleless 社区魏照华：开源精神是场永不停歇的接力开源中间件开源项目介绍oss
开源之夏经验分享｜Koupleless社区魏照华：开源精神是场永不停歇的接力魏照华ComputerScienceKoupleless社区贡献者就读于UniversityofWolloging，ComputerScience专业研究生。本文5428字，预计阅读14分钟今天SOFAStack邀请到了开源之夏2024Koupleless社区的中选学生魏照华同学！在本项目中，他参与完成了Koupleles
Computer Systems A Programmer‘s Perspective 深入理解计算机系统 1 清水湾的水 linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、编译系统1.编译系统的流程二、硬件架构1.CPU2.内存3.总线4.输入输出设备三、解释内存中的指令1.程序执行的流程2.程序执行过程中发生了什么3.设备容量4.Cache5.存储设备的层次结构四、操作系统的作用1.操作系统的作用2.进程3.进程角度五、虚拟内存1.虚拟内存2.文件3.系统之间利用网络通信六、系统加速1
【Python】OpenCV算法使用案例全解岱宗夫up 教学 opencv 计算机视觉人工智能算法
OpenCV算法使用案例全解前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。从简单的图像滤波到复杂的三维重建，OpenCV涵盖了计算机视觉领域的众多算法。本文将详细介绍OpenCV中常见算法的使用案例，帮助读者更好地理解和应用这些强大的工具。一、图像处理基础（一）滤波操作滤波是图像处理中最基
ES: 机器学习、专家系统、控制系统的数学映射 wishchin AI/ES
一、基本定义1.机器学习维基定义：机器学习有下面几种定义：“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”一种经常引用的英文定义是：AcomputerprogramissaidtolearnfromexperienceEw
CE 451/551 Computer-Aided Research 后端
CE451/551–Computer-AidedResearchintheChemicalandMaterialsSciences:Homework#10(Graded#2)(Due:Tuesday,4March2025,5:00pm)AswehavenowfinishedlearningthebasicsofPython,itistimetopracticewritingsomeactualco
神经架构搜索原理与代码实例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
神经架构搜索：原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习的快速发展，神经网络在各个领域取得了显著的成果。然而，设计一个高效、通用的神经网络架构仍然是一个具有挑战性的问题。手动设计网络架构需要大量的专业知识和经验，而且往往效率低下。因此，神经架构搜索（NeuralArchitectureS
Transformer模型详解 Yuki-^_^ Transformer模型详解人工智能 transformer 深度学习人工智能
导读Transformer在许多的人工智能领域，如自然语言处理(NaturalLanguageProcessing,NLP)、计算机视觉(ComputerVision,CV)和语音处理(SpeechProcessing,SP)取得了巨大的成功。因此，自然而然的也吸引了许多工业界和学术界的研究人员的兴趣。到目前为止，已经提出了大量基于Transformer的相关工作和综述。本文基于邱锡鹏[1]老师近
PHP Captcha实现图片验证码生成及识别（附源码） mayday1102 PHP php captcha
目录什么是Captchacomposer安装思路修改Captcha.php源码调用什么是CaptchaCAPTCHA（CompletelyAutomatedPublicTuringTesttoTellComputersandHumansApart）是区分计算机和人类的一种程序算法。composer安装composerrequirephp-quickorm/captcha思路由于原扩展基于sessi
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option