从月亮走向月亮7

Human3.6m数据处理（mhformer代码解读）

对于3d人体姿态估计任务中数据集human3.6m的处理

写在最前面：这是我自己的理解，说的不一定对。

human3.6m有很多格式的数据，包括视频、2d ground truth、3d ground truth，还分为xyz坐标的表示形式和旋转向量表示形式，这篇只用到2d 和3d ground truth（坐标表示的）。

这篇csdn以cvpr2022的mhformer为例，基本上videopose3d之后数据处理的方式都差不多。

源码地址：

GitHub - Vegetebird/MHFormer: [CVPR 2022] MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimationhttps://github.com/Vegetebird/MHFormer

1 数据集下载

在代码dataset下的readme中给出了processed data的下载地址，由论文VideoPose3D给出。

（不要从官网下，那个需要实验室申请，很麻烦，点最后的here下载，下面是下载地址）https://drive.google.com/drive/folders/112GPdRC9IEcwcJRyrLJeYw9_YV4wLdKC?usp=sharinghttps://drive.google.com/drive/folders/112GPdRC9IEcwcJRyrLJeYw9_YV4wLdKC?usp=sharing 下载的数据放到代码dataset下：

包括3d, 2d ground truth, 由cpn获得的2d label

|-- dataset
|   |-- data_3d_h36m.npz
|   |-- data_2d_h36m_gt.npz
|   |-- data_2d_h36m_cpn_ft_h36m_dbb.npz

2 数据格式解析

由官网信息及各种对数据集介绍的帖子得知，human3.6m数据的具体内容是人体的32个关键点的坐标信息。

可以用debug查看内容

图2-1 data_3d_h36m.npz的具体内容示意图

可以看到，具体内容包括S1等多个subject的数据，每个subject分为15个action，action下是具体的xyz坐标信息。

3 模型的数据处理部分

3.1 3d数据加载（Human36mDataset）

    root_path = opt.root_path
    dataset_path = root_path + 'data_3d_' + opt.dataset + '.npz'

    dataset = Human36mDataset(dataset_path, opt)
    actions = define_actions(opt.actions)

加载3d数据集，这里用到Human36mDataset类（common->load_data_hm36.py中）：

这个类主要用于加载和处理数据，具体来说有两个作用，一：复制相机参数到每一个subject、action的数据下（由原来的position变为 position和camera两块数据）；二：remove不需要的点（从32个keypoints到17个keypoints）

ps：1 相机参数说明：

相机参数可以用于坐标系的转换等，分为内部参数（intrinsic_params）和外部参数（extrinsic_params）

内参：

'id'：相机的唯一标识符。
'center'：相机的中心坐标，是一个包含两个元素的列表，分别表示x和y坐标。
'focal_length'：相机的焦距，是一个包含两个元素的列表，分别表示主焦距和次焦距。
'radial_distortion'：径向畸变系数，是一个包含三个元素的列表。
'tangential_distortion'：切向畸变系数，是一个包含两个元素的列表。
'res_w'：相机的水平分辨率。
'res_h'：相机的垂直分辨率。
'azimuth'：相机的方位角。

外参：

'orientation'：相机的旋转矩阵，是一个包含四个元素的列表，分别表示四元数的四个分量。
'translation'：相机的平移向量，是一个包含三个元素的列表，分别表示x、y和z方向上的平移距离。

ps：2 世界坐标和相机坐标说明：

世界坐标系就是正常的坐标系，3d ground truth的坐标系。

说一下相机坐标系：相机坐标系是在相机上建立的坐标系。这个坐标系的原点位于小孔，z轴与光轴重合，x轴和y轴平行投影面。

世界坐标->相机坐标：世界坐标 * 旋转矩阵 + 平移变换 -> 相机坐标（大概是这样，就是说复制相机参数是用于坐标转换的）

为什么要转换：我的理解是，原数据每个subject，每个action都有4个机位的视频，对于每一段视频都有自己对应的3d label，而3d ground truth里只是一个实验室的坐标系，所以用相机参数进行转换，可以得到对应的4份3d label

class Human36mDataset(MocapDataset):
    def __init__(self, path, opt, remove_static_joints=True):
        super().__init__(fps=50, skeleton=h36m_skeleton)
        self.train_list = ['S1', 'S5', 'S6', 'S7', 'S8']
        self.test_list = ['S9', 'S11']

        self._cameras = copy.deepcopy(h36m_cameras_extrinsic_params)
        for cameras in self._cameras.values():
            for i, cam in enumerate(cameras):
                cam.update(h36m_cameras_intrinsic_params[i])
                for k, v in cam.items():
                    if k not in ['id', 'res_w', 'res_h']:
                        cam[k] = np.array(v, dtype='float32') 

                if opt.crop_uv == 0:
                    cam['center'] = normalize_screen_coordinates(cam['center'], w=cam['res_w'], h=cam['res_h']).astype(
                        'float32')
                    cam['focal_length'] = cam['focal_length'] / cam['res_w'] * 2

                if 'translation' in cam:
                    cam['translation'] = cam['translation'] / 1000 

                cam['intrinsic'] = np.concatenate((cam['focal_length'],
                                                   cam['center'],
                                                   cam['radial_distortion'],
                                                   cam['tangential_distortion']))

        data = np.load(path,allow_pickle=True)['positions_3d'].item()

        self._data = {}
        for subject, actions in data.items():
            self._data[subject] = {}
            for action_name, positions in actions.items():
                self._data[subject][action_name] = {
                    'positions': positions,
                    'cameras': self._cameras[subject],
                }

        if remove_static_joints:
            self.remove_joints([4, 5, 9, 10, 11, 16, 20, 21, 22, 23, 24, 28, 29, 30, 31])

            self._skeleton._parents[11] = 8
            self._skeleton._parents[14] = 8

    def supports_semi_supervised(self):
        return True

上面是Human36mDataset类代码，通过3.1 3d数据加载这一步，3d的数据到了一个Human36mDataset类的对象中，包括position和camera。

3.2 数据处理（包括2d和3d）（Fusion、ChunkedGenerator）

    if opt.train:
        train_data = Fusion(opt=opt, train=True, dataset=dataset, root_path=root_path)
        train_dataloader = torch.utils.data.DataLoader(train_data, batch_size=opt.batch_size,
                                                       shuffle=True, num_workers=int(opt.workers), pin_memory=True)

    test_data = Fusion(opt=opt, train=False, dataset=dataset, root_path =root_path)
    test_dataloader = torch.utils.data.DataLoader(test_data, batch_size=opt.batch_size,
                                                  shuffle=False, num_workers=int(opt.workers), pin_memory=True)

用到Fusion类（common->load_data_hm36.py)，下面具体说一下这个类：

1 Fusion->perpare_data

先说perpare_data：

下面这块代码，传入的dataset是3.1中加载的3d数据，folder_list当训练时选s1 s5 s6 s7 s8 测试的时候选s9 s11。

具体的作用 1：通过world_to_camera把3d数据从世界坐标系转为相机坐标系；2：让2d的序列的长度和3d的序列长度保持一致； 3：数据标准化

perpare_data return的是2dkeypoints

    def prepare_data(self, dataset, folder_list):
        for subject in folder_list:
            for action in dataset[subject].keys():
                anim = dataset[subject][action]

                positions_3d = []
                for cam in anim['cameras']:
                    pos_3d = world_to_camera(anim['positions'], R=cam['orientation'], t=cam['translation'])
                    pos_3d[:, 1:] -= pos_3d[:, :1] 
                    positions_3d.append(pos_3d)
                anim['positions_3d'] = positions_3d

        keypoints = np.load(self.root_path + 'data_2d_' + self.data_type + '_' + self.keypoints_name + '.npz',allow_pickle=True)
        keypoints_symmetry = keypoints['metadata'].item()['keypoints_symmetry']

        self.kps_left, self.kps_right = list(keypoints_symmetry[0]), list(keypoints_symmetry[1])
        self.joints_left, self.joints_right = list(dataset.skeleton().joints_left()), list(dataset.skeleton().joints_right())
        keypoints = keypoints['positions_2d'].item()

        for subject in folder_list:
            assert subject in keypoints, 'Subject {} is missing from the 2D detections dataset'.format(subject)
            for action in dataset[subject].keys():
                assert action in keypoints[
                    subject], 'Action {} of subject {} is missing from the 2D detections dataset'.format(action,
                                                                                                         subject)
                for cam_idx in range(len(keypoints[subject][action])):

                    mocap_length = dataset[subject][action]['positions_3d'][cam_idx].shape[0]
                    assert keypoints[subject][action][cam_idx].shape[0] >= mocap_length

                    if keypoints[subject][action][cam_idx].shape[0] > mocap_length:
                        keypoints[subject][action][cam_idx] = keypoints[subject][action][cam_idx][:mocap_length]

        for subject in keypoints.keys():
            for action in keypoints[subject]:
                for cam_idx, kps in enumerate(keypoints[subject][action]):
                    cam = dataset.cameras()[subject][cam_idx]
                    if self.crop_uv == 0:
                        kps[..., :2] = normalize_screen_coordinates(kps[..., :2], w=cam['res_w'], h=cam['res_h'])
                    keypoints[subject][action][cam_idx] = kps
        
        return keypoints

2 Fusion->fetch

输出out_poses_3d、out_poses_2d、out_camera_params（是已经转换为相机坐标的数据）

[subject,action,i(camera_id)]

    def fetch(self, dataset, subjects, subset=1, parse_3d_poses=True):
        out_poses_3d = {}
        out_poses_2d = {}
        out_camera_params = {}

        for subject in subjects:
            for action in self.keypoints[subject].keys():
                if self.action_filter is not None:
                    found = False
                    for a in self.action_filter:
                        if action.startswith(a):
                            found = True
                            break
                    if not found:
                        continue

                poses_2d = self.keypoints[subject][action]

                for i in range(len(poses_2d)):
                    out_poses_2d[(subject, action, i)] = poses_2d[i]

                if subject in dataset.cameras():
                    cams = dataset.cameras()[subject]
                    assert len(cams) == len(poses_2d), 'Camera count mismatch'
                    for i, cam in enumerate(cams):
                        if 'intrinsic' in cam:
                            out_camera_params[(subject, action, i)] = cam['intrinsic']

                if parse_3d_poses and 'positions_3d' in dataset[subject][action]:
                    poses_3d = dataset[subject][action]['positions_3d']
                    assert len(poses_3d) == len(poses_2d), 'Camera count mismatch'
                    for i in range(len(poses_3d)): 
                        out_poses_3d[(subject, action, i)] = poses_3d[i]

        if len(out_camera_params) == 0:
            out_camera_params = None
        if len(out_poses_3d) == 0:
            out_poses_3d = None

        stride = self.downsample
        if subset < 1:
            for key in out_poses_2d.keys():
                n_frames = int(round(len(out_poses_2d[key]) // stride * subset) * stride)
                start = deterministic_random(0, len(out_poses_2d[key]) - n_frames + 1, str(len(out_poses_2d[key])))
                out_poses_2d[key] = out_poses_2d[key][start:start + n_frames:stride]
                if out_poses_3d is not None:
                    out_poses_3d[key] = out_poses_3d[key][start:start + n_frames:stride]
        elif stride > 1:
            for key in out_poses_2d.keys():
                out_poses_2d[key] = out_poses_2d[key][::stride]
                if out_poses_3d is not None:
                    out_poses_3d[key] = out_poses_3d[key][::stride]

        return out_camera_params, out_poses_3d, out_poses_2d

Fusion中用到ChunkedGenerator

3 ChunkedGenerator

用于生成数据块。它接受一些参数，如batch_size、cameras、poses_3d和poses_2d等，并根据这些参数生成数据块。这个类的主要功能是：

初始化时，根据输入的poses_2d和poses_3d计算数据块的数量（num_batches）。
提供next_pairs()方法，用于获取下一个数据块的索引对。
提供get_batch()方法，用于根据给定的索引对获取一个数据块。
根据需要，可以启用或禁用数据增强（augment）。
如果提供了相机信息（cameras），则还可以获取相机数据。
如果提供了3D姿态信息（poses_3d），则还可以获取3D姿态数据。
如果提供了左右关键点信息（kps_left和kps_right），则还可以获取关键点数据。
如果设置了endless参数，则可以无限循环生成数据块

class ChunkedGenerator:
    def __init__(self, batch_size, cameras, poses_3d, poses_2d,
                 chunk_length=1, pad=0, causal_shift=0,
                 shuffle=False, random_seed=1234,
                 augment=False, reverse_aug= False,kps_left=None, kps_right=None, joints_left=None, joints_right=None,
                 endless=False, out_all = False):
        assert poses_3d is None or len(poses_3d) == len(poses_2d), (len(poses_3d), len(poses_2d))
        assert cameras is None or len(cameras) == len(poses_2d)

        pairs = []
        self.saved_index = {}
        start_index = 0

        for key in poses_2d.keys():
            assert poses_3d is None or poses_3d[key].shape[0] == poses_2d[key].shape[0]
            n_chunks = (poses_2d[key].shape[0] + chunk_length - 1) // chunk_length  # 需要多少个chunks
            offset = (n_chunks * chunk_length - poses_2d[key].shape[0]) // 2
            bounds = np.arange(n_chunks + 1) * chunk_length - offset  # 每个chunk的起始和结束索引
            augment_vector = np.full(len(bounds - 1), False, dtype=bool)  # 用false填充
            reverse_augment_vector = np.full(len(bounds - 1), False, dtype=bool)
            keys = np.tile(np.array(key).reshape([1,3]),(len(bounds - 1),1))
            pairs += list(zip(keys, bounds[:-1], bounds[1:], augment_vector,reverse_augment_vector))
            if reverse_aug:
                pairs += list(zip(keys, bounds[:-1], bounds[1:], augment_vector, ~reverse_augment_vector))
            if augment:
                if reverse_aug:
                    pairs += list(zip(keys, bounds[:-1], bounds[1:], ~augment_vector,~reverse_augment_vector))
                else:
                    pairs += list(zip(keys, bounds[:-1], bounds[1:], ~augment_vector, reverse_augment_vector))

            end_index = start_index + poses_3d[key].shape[0]
            self.saved_index[key] = [start_index,end_index]
            start_index = start_index + poses_3d[key].shape[0]


        if cameras is not None:
            self.batch_cam = np.empty((batch_size, cameras[key].shape[-1]))

        if poses_3d is not None:
            self.batch_3d = np.empty((batch_size, chunk_length, poses_3d[key].shape[-2], poses_3d[key].shape[-1]))
        self.batch_2d = np.empty((batch_size, chunk_length + 2 * pad, poses_2d[key].shape[-2], poses_2d[key].shape[-1]))

        self.num_batches = (len(pairs) + batch_size - 1) // batch_size
        self.batch_size = batch_size
        self.random = np.random.RandomState(random_seed)
        self.pairs = pairs
        self.shuffle = shuffle
        self.pad = pad
        self.causal_shift = causal_shift
        self.endless = endless
        self.state = None

        self.cameras = cameras
        if cameras is not None:
            self.cameras = cameras
        self.poses_3d = poses_3d
        self.poses_2d = poses_2d

        self.augment = augment
        self.kps_left = kps_left
        self.kps_right = kps_right
        self.joints_left = joints_left
        self.joints_right = joints_right
        self.out_all = out_all

    def num_frames(self):
        return self.num_batches * self.batch_size

    def random_state(self):
        return self.random

    def set_random_state(self, random):
        self.random = random

    def augment_enabled(self):
        return self.augment

    def next_pairs(self):
        if self.state is None:
            if self.shuffle:
                pairs = self.random.permutation(self.pairs)
            else:
                pairs = self.pairs
            return 0, pairs
        else:
            return self.state

    def get_batch(self, seq_i, start_3d, end_3d, flip, reverse):
        subject,action,cam_index = seq_i
        seq_name = (subject,action,int(cam_index))
        start_2d = start_3d - self.pad - self.causal_shift
        end_2d = end_3d + self.pad - self.causal_shift

        seq_2d = self.poses_2d[seq_name].copy()
        low_2d = max(start_2d, 0)
        high_2d = min(end_2d, seq_2d.shape[0])
        pad_left_2d = low_2d - start_2d
        pad_right_2d = end_2d - high_2d
        if pad_left_2d != 0 or pad_right_2d != 0:
            self.batch_2d = np.pad(seq_2d[low_2d:high_2d], ((pad_left_2d, pad_right_2d), (0, 0), (0, 0)), 'edge')
        else:
            self.batch_2d = seq_2d[low_2d:high_2d]

        if flip:
            self.batch_2d[ :, :, 0] *= -1
            self.batch_2d[ :, self.kps_left + self.kps_right] = self.batch_2d[ :,
                                                                  self.kps_right + self.kps_left]
        if reverse:
            self.batch_2d = self.batch_2d[::-1].copy()

        if self.poses_3d is not None:
            seq_3d = self.poses_3d[seq_name].copy()
            if self.out_all:
                low_3d = low_2d
                high_3d = high_2d
                pad_left_3d = pad_left_2d
                pad_right_3d = pad_right_2d
            else:
                low_3d = max(start_3d, 0)
                high_3d = min(end_3d, seq_3d.shape[0])
                pad_left_3d = low_3d - start_3d
                pad_right_3d = end_3d - high_3d
            if pad_left_3d != 0 or pad_right_3d != 0:
                self.batch_3d = np.pad(seq_3d[low_3d:high_3d],
                                          ((pad_left_3d, pad_right_3d), (0, 0), (0, 0)), 'edge')
            else:
                self.batch_3d = seq_3d[low_3d:high_3d]

            if flip:
                self.batch_3d[ :, :, 0] *= -1
                self.batch_3d[ :, self.joints_left + self.joints_right] = \
                    self.batch_3d[ :, self.joints_right + self.joints_left]
            if reverse:
                self.batch_3d = self.batch_3d[::-1].copy()

        if self.cameras is not None:
            self.batch_cam = self.cameras[seq_name].copy()
            if flip:
                self.batch_cam[ 2] *= -1
                self.batch_cam[ 7] *= -1

        if self.poses_3d is None and self.cameras is None:
            return None, None, self.batch_2d.copy(), action, subject, int(cam_index)
        elif self.poses_3d is not None and self.cameras is None:
            return np.zeros(9), self.batch_3d.copy(), self.batch_2d.copy(),action, subject, int(cam_index)
        elif self.poses_3d is None:
            return self.batch_cam, None, self.batch_2d.copy(),action, subject, int(cam_index)
        else:
            return self.batch_cam, self.batch_3d.copy(), self.batch_2d.copy(),action, subject, int(cam_index)

OpenCV实现在图像中绘制汉字海上的风浪 opencv 人工智能计算机视觉编程
在本文中，我将向您展示如何使用OpenCV库在图像中绘制汉字。OpenCV是一个广泛使用的计算机视觉库，它提供了许多强大的功能，包括图像处理和绘图。首先，我们需要安装OpenCV库。您可以通过在终端或命令提示符中运行以下命令来安装它：pipinstallopencv-python接下来，我们将使用Python编写代码来实现在图像中绘制汉字。请确保您已经安装了Python和OpenCV库。impor
【精华推荐】AI大模型学习必逛的十大顶级网站大模型入门学习人工智能学习大模型入门 llama 大模型教程大模型学习大模型
随着人工智能技术的快速发展，AI大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说，找到合适的学习资源至关重要。本文将为大家推荐十大必备网站，帮助你更好地理解和应用AI大模型。1.CourseraCoursera是一个在线学习平台，提供各类AI和机器学习课程，包括斯坦福大学的机器学习课程和深度学习专项课程。通过视频讲解
Python从0到100（十八）：面向对象编程应用是Dream呀 python 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
YOLOv8改进主干RTMDet论文系列：高效涨点的单阶段目标检测器主干 IdfdFsharp YOLO 计算机视觉
近年来，目标检测技术在计算机视觉领域取得了显著的进展。为了提高目标检测器的性能和降低延时，研究人员不断提出新的方法和架构。本文介绍了一篇名为"YOLOv8改进主干RTMDet"的论文系列，该系列通过结合最新的RTMDet论文和采用CSPNeXt主干结构，实现了高性能、低延时的单阶段目标检测器主干。在本论文系列中，作者着重研究了目标检测器主干的改进方法。主干网络在目标检测中扮演着重要的角色，它负责提
Python项目-基于深度学习的校园人脸识别考勤系统天天进步2015 Python项目实战 python
引言随着人工智能技术的快速发展，深度学习在计算机视觉领域的应用日益广泛。人脸识别作为其中的一个重要分支，已经在安防、金融、教育等多个领域展现出巨大的应用价值。本文将详细介绍如何使用Python和深度学习技术构建一个校园人脸识别考勤系统，该系统能够自动识别学生身份并记录考勤信息，大大提高了考勤效率，减轻了教师的工作负担。系统概述功能特点实时人脸检测与识别：能够从摄像头视频流中实时检测并识别人脸自动考
笔记-Python图片处理（OpenCV-Python ）大白砌墙笔记 python opencv
OpenCV是一个基于BSD许可（开源）发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和MacOS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV-Python是OpenCV的Python的API接口，它拥有OpenCVC++API
AI创业机遇：垂直领域无限可能 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI创业垂直领域机器学习深度学习自然语言处理计算机视觉无人驾驶1.背景介绍人工智能（AI）正在各行各业掀起一场革命，为创业者带来了前所未有的机遇。垂直领域，即特定行业或细分市场，正在成为AI创业的热门选择。本文将深入探讨AI在垂直领域的应用，并提供实用的指南，帮助读者把握AI创业机遇。2.核心概念与联系2.1AI与垂直领域AI在垂直领域的应用，需要理解AI与垂直领域的关系。AI可以为垂直领域提供智
DeepSeek人工智能领域的创新先锋与变革力量 CodeJourney. 数据库算法人工智能
在科技飞速发展的时代，人工智能（AI）无疑是最具变革性的力量之一。DeepSeek作为人工智能领域的关键参与者，正以其独特的技术路径和创新理念，深刻影响着行业的发展格局。深入解读相关信息，能让我们更全面地认识DeepSeek在人工智能领域的重要贡献、技术优势、发展战略以及其带来的广泛影响。一、DeepSeek的技术突破与创新（一）核心技术成就DeepSeek在自然语言处理（NLP）和计算机视觉等人
深度学习数据集封装-----目标检测篇科研小天才深度学习目标检测人工智能
前言在上篇文章中，我们深入探讨了图像分类数据集的制作流程。图像分类作为计算机视觉领域的一个基础任务，通常被认为是最为简单直接的子任务之一。然而，当我们转向目标检测任务时，复杂度便显著提升，尤其是在标注框的处理环节。不同的模型架构往往对标注框的处理方式有着各自独特的要求。以YOLO系列为例，它自有一套成熟且高效的方法来应对这一挑战。鉴于篇幅有限，本文暂不深入展开YOLO的相关内容，感兴趣的读者可以查
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手紫雾凌寒 AI 炼金厂 #计算机视觉 #深度学习机器学习计算机视觉人工智能 transformer ConvNeXt 动态网络神经网络
一、引言在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）长期以来一直是核心技术，自诞生以来，它在图像分类、目标检测、语义分割等诸多任务中都取得了令人瞩目的成果。然而，随着VisionTransformer（ViT）的出现，计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制，打破了传统卷积神经网络的局部感知局限，能够捕捉长距离依赖关系，在图
【计算机视觉】手势识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
手势识别是计算机视觉领域中的重要方向，通过对摄像机采集的手部相关的图像序列进行分析处理，进而识别其中的手势，手势被识别后用户就可以通过手势来控制设备或者与设备交互。完整的手势识别一般有手的检测和姿态估计、手部跟踪和手势识别等。一、手掌检测importcv2importmediapipeasmp#初始化MediaPipe手部模型mp_hands=mp.solutions.handshands=mp_
【Python】OpenCV算法使用案例全解岱宗夫up 教学 opencv 计算机视觉人工智能算法
OpenCV算法使用案例全解前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。从简单的图像滤波到复杂的三维重建，OpenCV涵盖了计算机视觉领域的众多算法。本文将详细介绍OpenCV中常见算法的使用案例，帮助读者更好地理解和应用这些强大的工具。一、图像处理基础（一）滤波操作滤波是图像处理中最基
An Introduction to Statistical Learning with Applicatio AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1定义统计学习（statisticallearning）是一门研究如何从数据中提取知识并应用于预测、决策或其他目的的一门学科。它是机器学习、数据挖掘、计算机视觉等领域的一个分支，是当前热门的AI方向。1.2特点数据驱动：统计学习倾向于采用结构化的数据——如表格或矩阵形式——作为输入；假设空间少：统计学习通常只考虑一种假设空间，即概率模型或概率分布；模型复杂性
图像算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
01.图像算法图像算法工程师的技术图谱和学习路径涵盖了多个技术领域，从基础知识到高级算法，涉及计算机视觉、深度学习、图像处理、数学和编程等多个方面。以下是图像算法工程师的技术图谱和学习路径的详细总结。1.基础数学与编程数学基础：线性代数：矩阵运算、特征值、特征向量、奇异值分解（SVD）等概率论与统计：概率分布、贝叶斯定理、最大似然估计（MLE）、假设检验等微积分：导数、梯度、最优化方法（梯度下降、
【深度学习】Hopfield网络：模拟联想记忆 T-I-M 深度学习人工智能
Transformer优化，什么是稀疏注意力？Transformer模型自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心架构，并在计算机视觉、语音处理等其他领域也取得了显著的成功。然而，随着模型规模的不断增大和任务复杂性的提升，Transformer的计算成本和内存需求也随之激增。为了解决这一问题，研究者们提出了多种优化方法，其中稀疏注意力（SparseAttention）是一种备
YOLO在PiscTrace上检测到数据分析那雨倾城 PiscTrace YOLO 计算机视觉视觉检测数据分析信息可视化
在现代计算机视觉领域，实时视频数据的检测与分析对于安全监控、交通管理以及智能制造等领域具有重要意义。YOLO（YouOnlyLookOnce）作为一种高效的目标检测算法，能够在保持高精度的同时实现实时检测。而PiscTrace作为一款集成了OpenCV、MiDaS和YOLO技术的桌面应用，为用户提供了全面的图像与视频流处理解决方案。本文将探讨如何利用YOLO进行实时视频数据检测，并结合PiscTr
【深度学习·命运-27】NAS四部曲end-NASNet 华东算法王深度学习·命运深度学习人工智能
NASNet（NeuralArchitectureSearchNetwork）是由GoogleBrain团队提出的另一种神经架构搜索（NAS）方法，它通过自动化搜索神经网络的结构，找到了具有竞争力的神经网络架构，尤其在计算机视觉任务（如图像分类）中表现非常优秀。NASNet是基于进化算法的架构搜索方法，与其他NAS方法相比，它具有更高的效率，并且能够生成更加优化的网络架构。1.NASNet的背景与
2024 最新计算机视觉学习路线（入门篇）_计算机视觉课程主线 m0_60721823 计算机视觉学习人工智能
Python是机器学习项目中最流行的编程语言之一，因为与Java和C++等其他编程语言相比，它简单易读。Python附带了许多可以加快开发速度的库，其中一些重要的库是OpenCV、TensorFlow、PyTorch等，它们专门用于图像处理相关任务。本文旨在向初学者介绍这一领域，为他们提供有关涉及图像的机器学习应用程序背后概念的基本知识，并从高层次的角度深入了解这些库如何在底层协同工作，以便他们在
计算机视觉｜解锁视频理解三剑客——TimeSformer 紫雾凌寒 AI 炼金厂 #计算机视觉 #自然语言处理（NPL）计算机视觉深度学习神经网络 TimeSformer transformer python timesformer
一、引言在当今数字化时代，视频数据呈爆炸式增长，从日常的社交媒体分享到安防监控、医疗影像、自动驾驶等专业领域，视频无处不在。视频理解作为计算机视觉领域的重要研究方向，旨在让计算机能够像人类一样理解视频中的内容，包括识别视频中的物体、动作、场景，以及理解事件的发展过程和语义信息等。这一技术的发展对于实现智能视频分析、视频检索、自动驾驶、智能安防等应用具有至关重要的意义，它能够帮助我们从海量的视频数据
基于YOLOv5的无人超市商品检测：食品、饮料、零食与家居用品深度学习&目标检测实战项目 YOLO 目标跟踪深度学习人工智能 ui
引言随着人工智能技术的快速发展，尤其是计算机视觉的提升，无人超市的概念逐渐成为现实。在无人超市中，商品的智能化管理和检测是其顺利运行的关键。商品检测不仅要实现高效、准确的物品识别，还要支持多种商品类别的实时检测，以保证购物体验的顺畅与安全。在此背景下，深度学习与目标检测算法，如YOLOv5，成为了实现这一目标的重要工具。YOLOv5作为目前最先进且高效的目标检测算法之一，其应用范围广泛，包括人脸检
基于YOLOv5的野生动物检测与监控系统：猫、狗、鸟、猴子、狮子、老虎、象的实时识别与分析深度学习&目标检测实战项目 YOLO 目标跟踪人工智能深度学习 ui 目标检测机器学习
1.引言随着人工智能技术的飞速发展，尤其是深度学习在计算机视觉领域的突破，目标检测技术已广泛应用于各类场景。从城市交通监控到安防系统，再到野生动物保护和生态监测，目标检测技术为我们提供了实时、精确的解决方案。在众多目标检测算法中，YOLO（YouOnlyLookOnce）系列因其高效性和实时性，已成为解决多类别目标检测任务的首选方法。本文将介绍如何使用YOLOv5进行野生动物检测与监控，包括猫、狗
计算机视觉实战：YOLOv8在工业质检中的应用（附完整代码+数据集） emmm形成中深度学习人工智能 python 计算机视觉
计算机视觉实战：YOLOv8在工业质检中的应用（附完整代码+数据集）摘要：本文为零基础读者系统讲解目标检测核心原理，基于YOLOv8实现工业缺陷检测实战项目。从数据标注到模型部署，包含环境配置、数据增强、模型训练全流程详解，手把手教你打造高精度智能质检系统！关键词：YOLOv8、目标检测、工业质检、缺陷识别、PyTorch一、为什么选择YOLOv8做工业质检？1.1工业质检的三大痛点人工成本高：传
如何学习训练大模型——100条建议（附详细说明）_如何训练自己的大模型_大模型如何训练大耳朵爱学习人工智能语言模型产品经理大模型 AI大模型
摘要：通过深入了解本文中的这些细节，并在实际项目中应用相关知识，将能够更好地理解和利用大模型的潜力，不仅在学术研究中，也在工程实践中。通过不断探索新方法、参与项目和保持热情，并将其应用于各种领域，从自然语言处理到计算机视觉和自动驾驶。通过不断学习、实践和探索，可以不断提升自己在深度学习领域的技能和洞察力，同时也能为社会和行业带来创新和改进。从小规模的项目和模型开始，逐渐迭代和扩展到更大的模型，逐步
计算机视觉毕业设计选题推荐：建议指导篇微光DeepLearning 毕设选题毕业设计计算机视觉
亲爱的同学们，转眼间我们已经迎来了大四，这一年充满了挑战与机遇。大家忙着备考研究生、公务员、教师资格证，或是寻找实习机会，同时还要面对毕业设计的重任。对于毕业设计，很多同学可能会感到陌生，不知道从何下手，也不确定自己适合哪些方向的课题。为此，我整理了一个毕业设计选题专栏，希望能为大家提供一些灵感和建议。无论你对毕业设计有任何疑问，欢迎随时来问我哦！对毕设有任何疑问都可以问学长哦!前言在计算机专业的
Transformer模型详解 Yuki-^_^ Transformer模型详解人工智能 transformer 深度学习人工智能
导读Transformer在许多的人工智能领域，如自然语言处理(NaturalLanguageProcessing,NLP)、计算机视觉(ComputerVision,CV)和语音处理(SpeechProcessing,SP)取得了巨大的成功。因此，自然而然的也吸引了许多工业界和学术界的研究人员的兴趣。到目前为止，已经提出了大量基于Transformer的相关工作和综述。本文基于邱锡鹏[1]老师近
频域分析：利用傅里叶变换（Fourier Transform）对图像进行深度解析那雨倾城 OpenCV应用计算机视觉图像处理 python opencv 视觉检测
在图像处理和计算机视觉领域，傅里叶变换（FourierTransform）是一项基础而强大的工具。它将时域信号（如图像）转化为频域信号，为我们提供了图像的频率特性，这对于图像的分析、压缩、去噪和特征提取等任务非常重要。本文将深入探讨傅里叶变换在图像中的应用，并通过实例展示如何利用傅里叶变换对输入图像进行频域分析。1.什么是傅里叶变换？傅里叶变换是一种数学变换，它将信号从时域（或空间域）转换到频域。
AI在农业中的应用:精准农业的新时代 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI,农业,精准农业,机器学习,深度学习,计算机视觉,农业机器人1.背景介绍农业是人类文明的基石，也是全球经济的重要支柱。然而，随着人口增长和资源短缺，传统农业面临着诸多挑战，例如低效率、资源浪费、环境污染和气候变化的影响。为了应对这些挑战，精准农业应运而生。精准农业是指利用现代信息技术和数据分析手段，对农业生产进行精细化管理，提高资源利用效率、产量和产品质量，同时减少环境污染。人工智能（AI）作
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
如何用 DeepSeek 进行卷积神经网络（CNN）的优化一碗黄焖鸡三碗米饭人工智能前沿与实践 cnn 人工智能神经网络机器学习深度学习
如何用DeepSeek进行卷积神经网络（CNN）的优化卷积神经网络（CNN）在计算机视觉任务中取得了巨大的成功，例如图像分类、目标检测和图像生成。然而，尽管CNN在这些任务中表现出色，它们通常需要大量的计算资源，并且在优化过程中可能会遇到一些挑战，如过拟合、训练速度慢、局部最优解等问题。为了更好地优化CNN模型，提高其性能和训练效率，DeepSeek提供了多种优化技术和工具，可以帮助我们系统地进行
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

Human3.6m数据处理（mhformer代码解读）

你可能感兴趣的:(计算机视觉)