OpenMMLab

数据增强神器 SimpleCopyPaste 支持全流程

引言

SimpleCopyPaste 数据增强是谷歌在 2021 年 1 月提出的一种实例分割的数据增强方法，它通过在训练过程中直接将一张图片中的实例简单地复制粘贴到另外一张图片中得到新的训练样本，创造出了场景更加复杂的新数据以显著提升全监督和半监督方式训练的实例分割模型的性能。

基于该数据增强，使用 EfficientNet-B7 骨干网络和 NAS-FPN 结构的算法模型可以在 COCO 测试集上实现 49.1 mask AP 和 57.3 box AP 的单模型结果，比之前的 SOTA 方法在 mask AP 和 box AP 上分别提高了 0.6 和 1.5。单纯作为一种数据增强方法就可以刷新 SOTA ，也是非常少见的工作了， 因此 MMDetection 对此进行了深入得调研，并决定对此算法进行复现，复现过程主要有以下 4 步：

对 SimpleCopyPaste 原理进行深入理解
参考和了解 MMDetection 中已有的混合数据增强
复用现有代码，开发 SimpleCopyPaste
训练模型，对齐算法精度

目前已经在 MMDetection v2.24.0 中支持并释放了模型，欢迎大家使用。

论文链接：https://arxiv.org/pdf/2012.07177.pdf

代码链接：https://github.com/open-mmlab/mmdetection/tree/master/configs/simple_copy_paste

SimpleCopyPaste 原理简析

SimpleCopyPaste 属于一种混合 数据增强。混合数据增强可以将不同图片中的信息进行混合，同时修改对应的标签。典型的还有 MixUp 、CutMix 和 Mosaic。

MixUp [1] 对输入像素和标签进行线性组合创建新的样本。
CutMix [2] 从一张图片剪裁出矩形粘贴到另一张图片上。
Mosaic [3] 将多张图片拼接成一张图片。

虽然 MixUp、CutMix 和 Mosaic 可用于组合多个图像或其裁剪版本以创建新的训练数据，但是这些数据增强方法并不是实例级别的，对于实例分割任务的帮助有限。

SimpleCopyPaste 类似于 MixUp 和 CutMix，但只复制实例的像素，而不是实例的检测框中的所有像素。首先，随机选取两张图片，分别进行随机尺度抖动，然后从一张图片中随机选取一些实例，直接粘贴到另外一张图片上，同时更新检测框、类别标签和掩码。整体流程如下：

随机尺度抖动根据抖动的程度可以分为 LargeScaleJitting(LSJ) 和 StandardScaleJitting(SSJ) 。LSJ Resize 和 Crop 图像的大小范围为原始图像大小的 0.1 到 2.0，SSJ Resize 和 Crop 图像的大小范围为原始图像大小的 0.8 到 1.25。如果图像比它们的原始尺寸小，那么图像会被填充灰度像素值。两种尺度抖动方法也使用水平翻转。具体逻辑如下：

This content is only supported in a Docs.

注意，将一些实例直接粘贴到另一张图片上，通常会遮挡原图的实例。SimpleCopyPaste 通过 bbox_occluded_thr=10 和 mask_occluded_thr=300两个阈值，同时从检测框和掩码对被遮挡的实例进行筛选。具体逻辑如下：

根据粘贴实例的掩码更新原图实例的掩码；
根据更新后的原图实例的掩码更新原图实例的检测框；
如果更新后的检测框与原本的检测框的坐标差值的绝对值的最大值不大于 bbox_occluded_thr，那么这个实例会被保留；
如果更新的掩码像素数量大于 mask_occluded_thr，那么这个实例会被保留；
两个条件同时不满足的实例会被过滤掉。

参考已有的混合数据增强

MMDetection 在支持 YOLOX 系列算法时已经支持 Mosaic 和 MixUp ，我们先简要对先有的 Mosaic 和 MixUp 进行分析，这有助于后续的 SimpleCopyPaste 的开发。

(1) MixUp

MixUp 数据增强是将两张图片按照随机比例进行逐像素点叠加，然后简单地把子图中的标签整合在一起作为混合后图片的标签。

MMDetection 中 MixUp 数据增强的主要逻辑集中在 _mixup_transform 函数，内部集成了 Resize、Flip、Crop 和 Filter 等功能。对于采样选取的图片，已经完成了 Resize 等数据增强，而随机选取的图片还没有进行任何处理，所以需要在 _mixup_transform 函数中对随机选取的图片进行数据增强，之后再进行 MixUp 操作。相关配置和增强示例如下：

dict(

    type='MixUp',

    img_scale=img_scale,

    ratio_range=(0.8, 1.6),

    pad_val=114.0)

(2) Mosaic

Mosaic 数据增强是随机选取 4 张图片拼接在一起，然后简单地把子图中的标签整合在一起作为混合后图片的标签。

MMDetection 中 Mosaic 数据增强的主要逻辑集中在 _mosaic_transform 函数。首先，创建一个两倍 img_scale 尺寸的空图，确定图像拼接的中心点；然后，根据左上、右上、左下和右下四个方位对不同图像分别进行缩放和拼接；最后，将四张图片的标签拼接在一起。相关配置和增强示例如下：

dict(type='Mosaic', img_scale=img_scale, pad_val=114.0),

dict(

    type='RandomAffine',

    scaling_ratio_range=(0.1, 2),

    border=(-img_scale[0] // 2, -img_scale[1] // 2)),

# 注意 Mosaic 需要同 RandomAffine 一起使用，否则图片的尺寸会扩大一倍。RandomAffine 可以单独使用。

(3) Mosaic + MixUp

Mosaic 和 MixUp 两种数据增强可以一起使用，相关配置和增强示例如下：

dict(type='Mosaic', img_scale=img_scale, pad_val=114.0),

dict(

    type='RandomAffine',

    scaling_ratio_range=(0.1, 2),

    border=(-img_scale[0] // 2, -img_scale[1] // 2)),

dict(

    type='MixUp',

    img_scale=img_scale,

     ratio_range=(0.8, 1.6),

     pad_val=114.0),

(4) YOLOX

YOLOX 同时采用了 Mosaic 和 MixUp 两种数据增强，并且增加了色调变换。典型配置和增强示例如下：

# yolox_s_8x8_300e_coco.py

train_pipeline = [

    dict(type='Mosaic', img_scale=img_scale, pad_val=114.0),

    dict(

        type='RandomAffine',

        scaling_ratio_range=(0.1, 2),

        border=(-img_scale[0] // 2, -img_scale[1] // 2)),

    dict(

        type='MixUp',

        img_scale=img_scale,

        ratio_range=(0.8, 1.6),

        pad_val=114.0),

    dict(type='YOLOXHSVRandomAug'),

    ...

    )

]



train_dataset = dict(

    type='MultiImageMixDataset',

    dataset=dict(

        type=dataset_type,

        ...

    ),

    pipeline=train_pipeline)

注意：对于混合数据增强，必须配合 MMDetection 中的数据集装饰器 MultiImageMixDataset 才能使用。

MultiImageMixDataset 数据集装饰器

MultiImageMixDataset 数据集装饰器，需要配置两个 pipeline ：内部的 pipeline 是 load_pipeline ，外部的 pipeline 是train_pipeline 。

混合数据增强需要随机选取多个图片，这些图片通常需要进行相同的处理，这部分处理可以通过 load_pipeline 进行处理，经过相同处理的图片会存在 mix_results。合并后的 results 只是增加了 mix_results，可以进行任意的 transform 而不会报错。

train_pipeline 需要包括混合操作，例如Mosaic 、 MixUp 和 CopyPaste 。这些混合操作需要保证输入的 results 中有 mix_results ，输出之前需要删除 mix_results 。具体流程如下：

总之，MultiImageMixDataset 的主要功能是：对于需要随机选取其他图片进行数据增强的 transform ，在进入 transform 进行数据增强之前，在 results 中准备好 mix_results ，具体实现如下：

def __getitem__(self, idx):

    results = copy.deepcopy(self.dataset[idx])

    for (transform, transform_type) in zip(self.pipeline,

                                           self.pipeline_types):

        if self._skip_type_keys is not None and \

                transform_type in self._skip_type_keys:

            continue



        if hasattr(transform, 'get_indexes'):

            for i in range(self.max_refetch):

                # Make sure the results passed the loading pipeline

                # of the original dataset is not None.

                indexes = transform.get_indexes(self.dataset)

                if not isinstance(indexes, collections.abc.Sequence):

                    indexes = [indexes]

                mix_results = [

                    copy.deepcopy(self.dataset[index]) for index in indexes

                ]

                if None not in mix_results:

                    results['mix_results'] = mix_results

                    break

            else:

                raise RuntimeError(

                    'The loading pipeline of the original dataset'

                    ' always return None. Please check the correctness '

                    'of the dataset and its pipeline.')



        for i in range(self.max_refetch):

            # To confirm the results passed the training pipeline

            # of the wrapper is not None.

            updated_results = transform(copy.deepcopy(results))

            if updated_results is not None:

                results = updated_results

                break

        else:

            raise RuntimeError(

                'The training pipeline of the dataset wrapper'

                ' always return None.Please check the correctness '

                'of the dataset and its pipeline.')



        if 'mix_results' in results:

            results.pop('mix_results')

注意：由于部分 transform 可能会返回 None ，使用 max_refetch 来确保 dataset 返回的样本不是 None ，同时避免陷入循环。

复用现有代码

SimpleCopyPaste 与 Mosaic 和 MixUp 的不同之处在于：需要对两张图片分别进行缩放、剪切、翻转和填充，再从一张图片中随机选取一些实例粘贴到另一张图片上。缩放、剪切、翻转和填充这些数据增强是非常通用的数据增强，MMDetection 中已经有非常完备的实现了，可以直接复用。具体复用的方式，是利用 MultiImageMixDataset的load_pipeline和train_pipeline。

之前的 Mosaic 和 MixUp 并不需要对随机选取的图片进行特殊处理，所以 load_pipeline 仅包含 LoadImageFromFile 和 LoadAnnotations 用于加载图片和标注。后续的数据增强统一放在 train_pipeline 中，比如Mosaic、RandomAffine、MixUp、YOLOXHSVRandomAug等等。

然而，SimpleCopyPaste 需要对随机选取的图片进行相同的数据增强，所以可以在 load_pipeline 中增加 Resize、 RandomCrop、FilterAnnotations 、RandomFlip 和 Pad 。

其中 FilterAnnotations 是过滤一些特别小的物体的标注，Pad 保证输出的图片具备相同的尺寸，可以直接进行复制粘贴而不会出现像素点越界问题。具体配置如下：

load_pipeline = [

    dict(type='LoadImageFromFile', file_client_args=file_client_args),

    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),

    dict(

        type='Resize',

        img_scale=image_size,

        ratio_range=(0.8, 1.25),

        multiscale_mode='range',

        keep_ratio=True),

    dict(

        type='RandomCrop',

        crop_type='absolute_range',

        crop_size=image_size,

        recompute_bbox=True,

        allow_negative_crop=True),

    dict(type='FilterAnnotations', min_gt_bbox_wh=(1e-2, 1e-2)),

    dict(type='RandomFlip', flip_ratio=0.5),

    dict(type='Pad', size=image_size),

]

train_pipeline = [

    dict(type='CopyPaste', max_num_pasted=100),

    dict(type='Normalize', **img_norm_cfg),

    dict(type='DefaultFormatBundle'),

    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks']),

]

train=dict(

    type='MultiImageMixDataset',

    dataset=dict(

        type=dataset_type,

        ann_file=data_root + 'annotations/instances_train2017.json',

        img_prefix=data_root + 'train2017/',

        pipeline=load_pipeline),

   pipeline=train_pipeline)

那么，接下来只需要实现 CopyPaste 。

首先，需要定义一个 get_indexes 函数，表明当前数据增强需要随机选取其他图片进行辅助：

def get_indexes(self, dataset):

 return random.randint(0, len(dataset))

在调用 CopyPaste 数据增强时，results 中已经包含了 mix_results，分别作为：dst_results 和 src_results:

dst_img = dst_results['img']

dst_bboxes = dst_results['gt_bboxes']

dst_labels = dst_results['gt_bboxes_labels']

dst_masks = dst_results['gt_masks']

dst_ignore_flags = dst_results['gt_ignore_flags']



src_img = src_results['img']

src_bboxes = src_results['gt_bboxes']

src_labels = src_results['gt_bboxes_labels']

src_masks = src_results['gt_masks']

src_ignore_flags = src_results['gt_ignore_flags']

然后，需要对原图中被遮挡的实例更新掩码和标签：

# update masks and generate bboxes from updated masks

composed_mask = np.where(np.any(src_masks.masks, axis=0), 1, 0)

updated_dst_masks = self._get_updated_masks(dst_masks, composed_mask)

updated_dst_bboxes = updated_dst_masks.get_bboxes()

具体操作可以概述为：从一张图片中选取一些实例，将这些实例的掩码取并作为遮挡掩码，将另一张图片中的全部实例的掩码分别与遮挡掩码进行取交，交集的部分就是被遮挡的部分，去除被遮挡的部分作为更新后的掩码，将更新后的掩码的最小外接矩形作为更新后的检测框。其中，原图实例掩码更新的方式如下：

def _get_updated_masks(self, masks, composed_mask):

    masks.masks = np.where(composed_mask, 0, masks.masks)

    return masks

通过 bbox_occluded_thr 和 mask_occluded_thr 过滤掉不符合条件的实例：

# filter totally occluded objects

bboxes_inds = np.all(

    np.abs(

        (updated_dst_bboxes - dst_bboxes)) <= self.bbox_occluded_thr,

    axis=-1)

masks_inds = updated_dst_masks.masks.sum(

    axis=(1, 2)) > self.mask_occluded_thr

valid_inds = bboxes_inds | masks_inds

最后，将选择粘贴的实例的像素点叠加到图片上，并将粘贴的实例的标签与更新后的实例的标签整合到一起，就完成了实例的 CopyPaste。

img = dst_img * (1 - composed_mask[..., np.newaxis]

                         ) + src_img * composed_mask[..., np.newaxis]

bboxes = np.concatenate([updated_dst_bboxes[valid_inds], src_bboxes])

labels = np.concatenate([dst_labels[valid_inds], src_labels])

masks = np.concatenate(

    [updated_dst_masks.masks[valid_inds], src_masks.masks])

对齐精度

谷歌的原始论文中全部的实验采用了 batchsize=256 ，图片尺寸 1024x1024 的实验配置，简单换算一下，每卡 2 图的话，需要 128 张卡，这个配置相信对于绝大多数的用户来说都是比较高的，所以我们采用了折衷的方案，基于 ImageNet 预训练的 Resnet50 骨干网络和 Mask R-CNN 模型，batchsize=64 和图片尺寸 1024x1024 ，同时对学习率进行线性缩放，同样开启同步 BN ，参考论文中的精度曲线，在 270 epoch 的条件下基本对齐精度。下面是谷歌原始的配置：

train:

  train_batch_size: 256

  total_steps: 270000

  learning_rate:

    type: 'step'

    warmup_learning_rate: 0.0032

    warmup_steps: 1000

    init_learning_rate: 0.32

    learning_rate_steps: [243000, 256500, 263250]

    learning_rate_levels: [0.032, 0.0032, 0.00032]

  gradient_clip_norm: 0

  frozen_variable_prefix: null

  l2_weight_decay: 4.0e-05

这里是我们第一版的配置：

# optimizer assumes batch_size = (32 GPUs) x (2 samples per GPU)

optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=0.00004)

optimizer_config = dict(grad_clip=None)



# lr steps at [0.9, 0.95, 0.975] of the maximum iterations

lr_config = dict(

    policy='step',

    warmup='linear',

    warmup_iters=1000,

    warmup_ratio=0.001,

    step=[243000, 256500, 263250])

checkpoint_config = dict(interval=6000)

# The model is trained by 270k iterations with batch_size 64,

# which is roughly equivalent to 144 epochs.

runner = dict(type='IterBasedRunner', max_iters=270000)



# NOTE: `auto_scale_lr` is for automatically scaling LR,

# USER SHOULD NOT CHANGE ITS VALUES.

# base_batch_size = (32 GPUs) x (2 samples per GPU)

auto_scale_lr = dict(base_batch_size=64)

最后，我们在 Standard Scale Jittering 和 ImageNet 初始化 backbone 的条件下，迭代 270k ，约等于 148 epoch，在 coco 验证集上实现了 45.1 box AP ，与论文中的精度曲线（下图）一致。

最后，学会设计混合数据增强的小伙伴们可以参考本文，在 MMDetection 中实现 CutMix ，不过要考虑一下检测任务与分类任务的差异哦。

如果觉得 MMDetection 对你有帮助，欢迎点点 star ，也欢迎大家多多提交 PR~

参考文献

[1] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. In ICLR, 2018.

[2] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. Cutmix: Regularization strategy to train strong classifiers with localizable features. In ICCV, 2019.

[3] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv:2004.10934, 2020.

[4] Ghiasi G, Cui Y, Srinivas A, et al. Simple copy-paste is a strong data augmentation method for instance segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 2918-2928.

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET 程序的强名称签名与安全防护技术干货深盾科技安全
在.NET开发领域，保障程序的安全性和完整性至关重要。强名称签名和有效的安全防护措施是实现这一目标的关键手段。下面将详细介绍.NET程序的强名称签名以及相关的安全防护方法。一、什么是强名称签名强名称签名是.NET框架提供的一种安全机制，其主要作用是唯一标识程序集、验证程序集的完整性以及解决版本冲突问题。它本质上是通过加密技术为程序集创建数字签名，确保程序集在分发和运行过程中的安全性。二、签名文件要
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag