xuehai996

基于改进OpenPose的舞蹈动作规范度评判系统

1.研究背景与意义

项目参考AAAI Association for the Advancement of Artificial Intelligence

研究背景与意义

舞蹈作为一种艺术形式，具有独特的美感和表现力。舞蹈动作的规范度评判是舞蹈教学和表演中的重要环节，对于提高舞蹈水平、培养舞蹈人才具有重要意义。然而，传统的舞蹈动作规范度评判主要依赖于人工评判，存在主观性强、评判标准不一致等问题。因此，基于改进OpenPose的舞蹈动作规范度评判系统的研究具有重要的实际意义和应用价值。

首先，基于改进OpenPose的舞蹈动作规范度评判系统可以提高评判的客观性和准确性。传统的舞蹈动作评判主要依赖于人工评判，评判标准容易受到主观因素的影响，导致评判结果不一致。而基于改进OpenPose的系统可以通过计算机视觉技术对舞蹈动作进行自动识别和分析，减少了人为因素的干扰，提高了评判的客观性和准确性。

其次，基于改进OpenPose的舞蹈动作规范度评判系统可以提高舞蹈教学的效果。传统的舞蹈教学主要依赖于教师的示范和学生的模仿，存在教学效果难以量化、学生难以准确理解和掌握舞蹈动作等问题。而基于改进OpenPose的系统可以对学生的舞蹈动作进行实时监测和评估，及时发现和纠正错误动作，帮助学生更好地理解和掌握舞蹈动作，提高舞蹈教学的效果。

此外，基于改进OpenPose的舞蹈动作规范度评判系统还可以为舞蹈表演提供技术支持。舞蹈表演需要舞者具备高度的技术水平和艺术表现力，而舞者自身对于自己的舞蹈动作难以全面评估。基于改进OpenPose的系统可以对舞者的舞蹈动作进行全面的评估和分析，帮助舞者发现和改进自己的不足之处，提高舞蹈表演的质量和水平。

综上所述，基于改进OpenPose的舞蹈动作规范度评判系统的研究具有重要的实际意义和应用价值。它可以提高评判的客观性和准确性，提高舞蹈教学的效果，为舞蹈表演提供技术支持。通过研究和开发这样的系统，可以推动舞蹈教学和表演的发展，促进舞蹈艺术的传承和创新。

2.图片演示

3.视频演示

基于改进OpenPose的舞蹈动作规范度评判系统_哔哩哔哩_bilibili

4.OpenPose简介

OpenPose 人体姿态识别项目由美国的卡耐基梅隆大学(CMU)的人工智能算法团队CAOP等人提出。此算法结合CPM和 PAFs算法实现对人体姿态的识别,包括面部表情、身体动作、手指变化等行为估计。该算法具有非常好的鲁棒性,具有非常广阔的应用前景。
传统的人体姿态识别方法大都采用自顶向下的检测方法,而OpenPose采用自底向上的检测方法,适合多人场景。依靠内部卷积神经网络,其可
以在复杂场景下,买现对人1个E沛面恍取。相比于传统方法，OpenPose的方法具有速度快、
准确率高的特点,满足工业场景的需要。
OpenPose算法的网络结构可以分为两部分，
然后作为输入进入到双分支stage模块。该模块内部串行,相互间的结构和功能一样。上支线branch
生成关节点热度置信度图S’( Part Confidence Map,PCM ),下支线branch 用来预测部分亲和度L（PartAffinity Fields，PAF) 。

5.核心代码讲解

5.1 location.py

根据给定的代码，可以将其封装为一个名为 VideoProcessor 的类。以下是封装后的代码：

from moviepy.editor import *

class VideoProcessor:
    def __init__(self, video_path):
        self.video = VideoFileClip(video_path)
    
    def get_resolution(self):
        return self.video.size
    
    def get_duration(self):
        return self.video.duration
    
    def speed_up(self, factor):
        self.video = self.video.speedx(factor)
    
    def save_video(self, output_path):
        self.video.write_videofile(output_path)

这样，你可以通过实例化 VideoProcessor 类来处理视频文件，获取分辨率、时长，加速视频，并保存处理后的视频。

这个程序文件名为location.py，主要功能是使用moviepy库对视频文件进行处理。以下是对代码的概述：

导入moviepy库中的所有模块。
创建一个VideoFileClip对象，参数为"./1.mp4"，即当前目录下的1.mp4视频文件。
打印video对象的所有属性和方法，使用dir()函数获取。
打印video对象的size属性，即视频的分辨率。
打印video对象的duration属性，即视频的总时长。
创建一个新的video2对象，通过video对象的speedx()方法将视频加速2倍。
将video2对象写入一个新的视频文件"./3.mp4"中。

5.2 ui.py



class PoseEstimation:
    def __init__(self, checkpoint_path, height_size=256, cpu=False, track=1, smooth=1):
        self.net = PoseEstimationWithMobileNet()
        self.net = load_state(self.net, checkpoint_path)
        self.height_size = height_size
        self.cpu = cpu
        self.track = track
        self.smooth = smooth

    def infer_fast(self, img, net_input_height_size, stride, upsample_ratio, cpu,
                   pad_value=(0, 0, 0), img_mean=np.array([128, 128, 128], np.float32), img_scale=np.float32(1/256)):
        height, width, _ = img.shape
        scale = net_input_height_size / height

        scaled_img = cv2.resize(img, (0, 0), fx=scale, fy=scale, interpolation=cv2.INTER_LINEAR)
        scaled_img = normalize(scaled_img, img_mean, img_scale)
        min_dims = [net_input_height_size, max(scaled_img.shape[1], net_input_height_size)]
        padded_img, pad = pad_width(scaled_img, stride, pad_value, min_dims)

        tensor_img = torch.from_numpy(padded_img).permute(2, 0, 1).unsqueeze(0).float()
        if not cpu:
            tensor_img = tensor_img.cuda()

        stages_output = self.net(tensor_img)

        stage2_heatmaps = stages_output[-2]
        heatmaps = np.transpose(stage2_heatmaps.squeeze().cpu().data.numpy(), (1, 2, 0))
        heatmaps = cv2.resize(heatmaps, (0, 0), fx=upsample_ratio, fy=upsample_ratio, interpolation=cv2.INTER_CUBIC)

        stage2_pafs = stages_output[-1]
        pafs = np.transpose(stage2_pafs.squeeze().cpu().data.numpy(), (1, 2, 0))
        pafs = cv2.resize(pafs, (0, 0), fx=upsample_ratio, fy=upsample_ratio, interpolation=cv2.INTER_CUBIC)

        return heatmaps, pafs, scale, pad

    def run_demo(self, image_provider):
        self.net = self.net.eval()
        if not self.cpu:
            self.net = self.net.cuda()

        stride = 8
        upsample_ratio = 4
        num_keypoints = Pose.num_kpts
        previous_poses = []
        delay = 1
        for img in image_provider:
            orig_img = img.copy()
            heatmaps, pafs, scale, pad = self.infer_fast(img, self.height_size, stride, upsample_ratio, self.cpu)

            total_keypoints_num = 0
            all_keypoints_by_type = []
            for kpt_idx in range(num_keypoints):  # 19th for bg
                total_keypoints_num += extract_keypoints(heatmaps[:, :, kpt_idx], all_keypoints_by_type, total_keypoints_num)

            pose_entries, all_keypoints = group_keypoints(all_keypoints_by_type, pafs)
            for kpt_id in range(all_keypoints.shape[0]):
                all_keypoints[kpt_id, 0] = (all_keypoints[kpt_id, 0] * stride / upsample_ratio - pad[1]) / scale
                all_keypoints[kpt_id, 1] = (all_keypoints[kpt_id, 1] * stride / upsample_ratio - pad[0]) / scale
            current_poses = []
            for n in range(len(pose_entries)):
                if len(pose_entries[n]) == 0:
                    continue
                pose_keypoints = np.ones((num_keypoints, 2), dtype=np.int32) * -1
                for kpt_id in range(num_keypoints):
                    if pose_entries[n][kpt_id] != -1.0:  # keypoint was found
                        pose_keypoints[kpt_id, 0] = int(all_keypoints[int(pose_entries[n][kpt_id]), 0])
                        pose_keypoints[kpt_id, 1] = int(all_keypoints[int(pose_entries[n][kpt_id]), 1])
                pose = Pose(pose_keypoints, pose_entries[n][18])
                current_poses.append(pose)

            if self.track:
                track_poses(previous_poses, current_poses, smooth=self.smooth)
                previous_poses = current_poses
            for pose in current_poses:
                pose.draw(img)
            img = cv2.addWeighted(orig_img, 0.6, img, 0.4, 0)
            for pose in current_poses:
                cv2.rectangle(img, (pose.bbox[0], pose.bbox[1]),
                              (pose.bbox[0] + pose.bbox[2], pose.bbox[1] + pose.bbox[3]), (0, 255, 0))
                if self.track:
                    cv2.putText(img, 'id: {}'.format(pose.id), (pose.bbox[0], pose.bbox[1] - 16),
                                cv2.FONT_HERSHEY_COMPLEX, 0.5, (0, 0, 255))
            cv2.imshow('Lightweight Human Pose Estimation Python Demo', img)
            key = cv2.waitKey(delay)
            if key == 27:  # esc
                return
            elif key == 112:  # 'p'
                if delay == 1:
                    delay = 0
                else:
                    delay = 1

这个程序文件是一个使用OpenPose模型进行人体姿势估计的Demo。它包含了以下功能：

引入了一些必要的库，如argparse、cv2、numpy、torch等。
定义了一些辅助函数和类，如ImageReader用于读取图片，VideoReader用于读取视频，infer_fast用于进行轻量化预测，run_demo用于运行Demo。
提供了一个CMD接口，可以通过命令行参数来指定模型路径、输入图像或视频等。
加载了OpenPose模型，并使用它对静态图像进行姿势估计。
在图像上绘制了检测到的关键点和姿势框，并显示在窗口中。

这个程序文件的主要功能是使用OpenPose模型对图像或视频中的人体进行姿势估计，并将结果可视化显示出来。

5.3 val.py



class PoseEstimation:
    def __init__(self, labels, images_folder, checkpoint_path):
        self.labels = labels
        self.images_folder = images_folder
        self.checkpoint_path = checkpoint_path

    def run_coco_eval(self, gt_file_path, dt_file_path):
        annotation_type = 'keypoints'
        print('Running test for {} results.'.format(annotation_type))

        coco_gt = COCO(gt_file_path)
        coco_dt = coco_gt.loadRes(dt_file_path)

        result = COCOeval(coco_gt, coco_dt, annotation_type)
        result.evaluate()
        result.accumulate()
        result.summarize()

    def normalize(self, img, img_mean, img_scale):
        img = np.array(img, dtype=np.float32)
        img = (img - img_mean) * img_scale
        return img

    def pad_width(self, img, stride, pad_value, min_dims):
        h, w, _ = img.shape
        h = min(min_dims[0], h)
        min_dims[0] = math.ceil(min_dims[0] / float(stride)) * stride
        min_dims[1] = max(min_dims[1], w)
        min_dims[1] = math.ceil(min_dims[1] / float(stride)) * stride
        pad = []
        pad.append(int(math.floor((min_dims[0] - h) / 2.0)))
        pad.append(int(math.floor((min_dims[1] - w) / 2.0)))
        pad.append(int(min_dims[0] - h - pad[0]))
        pad.append(int(min_dims[1] - w - pad[1]))
        padded_img = cv2.copyMakeBorder(img, pad[0], pad[2], pad[1], pad[3],
                                        cv2.BORDER_CONSTANT, value=pad_value)
        return padded_img, pad

    def convert_to_coco_format(self, pose_entries, all_keypoints):
        coco_keypoints = []
        scores = []
        for n in range(len(pose_entries)):
            if len(pose_entries[n]) == 0:
                continue
            keypoints = [0] * 17 * 3
            to_coco_map = [0, -1, 6, 8, 10, 5, 7, 9, 12, 14, 16, 11, 13, 15, 2, 1, 4, 3]
            person_score = pose_entries[n][-2]
            position_id = -1
            for keypoint_id in pose_entries[n][:-2]:
                position_id += 1
                if position_id == 1:  # no 'neck' in COCO
                    continue

                cx, cy, score, visibility = 0, 0, 0, 0  # keypoint not found
                if keypoint_id != -1:
                    cx, cy, score = all_keypoints[int(keypoint_id), 0:3]
                    cx = cx + 0.5
                    cy = cy + 0.5
                    visibility = 1
                keypoints[to_coco_map[position_id] * 3 + 0] = cx
                keypoints[to_coco_map[position_id] * 3 + 1] = cy
                keypoints[to_coco_map[position_id] * 3 + 2] = visibility
            coco_keypoints.append(keypoints)
            scores.append(person_score * max(0, (pose_entries[n][-1] - 1)))  # -1 for 'neck'
        return coco_keypoints, scores

    def infer(self, net, img, scales, base_height, stride, pad_value=(0, 0, 0), img_mean=(128, 128, 128), img_scale=1/256):
        normed_img = self.normalize(img, img_mean, img_scale)
        height, width, _ = normed_img.shape
        scales_ratios = [scale * base_height / float(height) for scale in scales]
        avg_heatmaps = np.zeros((height, width, 19), dtype=np.float32)
        avg_pafs = np.zeros((height, width, 38), dtype=np.float32)

        for ratio in scales_ratios:
            scaled_img = cv2.resize(normed_img, (0, 0), fx=ratio, fy=ratio, interpolation=cv2.INTER_CUBIC)
            min_dims = [base_height, max(scaled_img.shape[1], base_height)]
            padded_img, pad = self.pad_width(scaled_img, stride, pad_value, min_dims)

            tensor_img = torch.from_numpy(padded_img).permute(2, 0, 1).unsqueeze(0).float().cuda()
            stages_output = net(tensor_img)

            stage2_heatmaps = stages_output[-2]
            heatmaps = np.transpose(stage2_heatmaps.squeeze().cpu().data.numpy(), (1, 2, 0))
            heatmaps = cv2.resize(heatmaps, (0, 0), fx=stride, fy=stride, interpolation=cv2.INTER_CUBIC)
            heatmaps = heatmaps[pad[0]:heatmaps.shape[0] - pad[2], pad[1]:heatmaps.shape[1] - pad[3]:, :]
            heatmaps = cv2.resize(heatmaps, (width, height), interpolation=cv2.INTER_CUBIC)
            avg_heatmaps = avg_heatmaps + heatmaps / len(scales_ratios)

            stage2_pafs = stages_output[-1]
            pafs = np.transpose(stage2_pafs.squeeze().cpu().data.numpy(), (1, 2, 0))
            pafs = cv2.resize(pafs, (0, 0), fx=stride, fy=stride, interpolation=cv2.INTER_CUBIC)
            pafs = pafs[pad[0]:pafs.shape[0] - pad[2], pad[1]:pafs.shape[1] - pad[3], :]
            pafs = cv2.resize(pafs, (width, height), interpolation=cv2.INTER_CUBIC)
            avg_pafs = avg_pafs + pafs / len(scales_ratios)

        return avg_heatmaps, avg_pafs

    def evaluate(self, output_name, net, multiscale=False, visualize=False):
        net = net.cuda().eval()
        base_height = 368
        scales = [1]
        if multiscale:
            scales = [0.5, 1.0, 1.5, 2.0]
        stride = 8

        dataset = CocoValDataset(self.labels, self.images_folder)
        coco_result = []
        for sample in dataset:
            file_name = sample['file_name']
            img = sample['img']

            avg_heatmaps, avg_pafs = self.infer(net, img, scales, base_height, stride)

            total_keypoints_num = 0
            all_keypoints_by_type = []
            for kpt_idx in range(18):  # 19th for bg
                total_keypoints_num += extract_keypoints(avg_heatmaps[:, :, kpt_idx], all_keypoints_by_type, total_keypoints_num)

            pose_entries, all_keypoints = group_keypoints(all_keypoints_by_type, avg_pafs)

            coco_keypoints, scores = self.convert_to_coco_format(pose_entries, all_keypoints)

            image_id = int(file_name[0:file_name.rfind('.')])
            for idx in range(len(coco_keypoints)):
                coco_result.append({
                    'image_id': image_id,
                    'category_id': 1,  # person
                    'keypoints': coco_keypoints[idx],
                    'score': scores[idx]
                })

            if visualize:
                for keypoints in coco_keypoints:
                    for idx in range(len(keypoints) // 3):
                        cv2.circle(img, (int(keypoints[idx * 3]), int(keypoints[idx * 3 + 1])),
                                   3, (255, 0, 255), -1)
                cv2.imshow('keypoints', img)
                key = cv2.waitKey()
                if key == 27:  # esc
                    return

        with open(output_name, 'w') as f:
            json.dump(coco_result, f, indent=4)

        self.run_coco_eval(self.labels, output_name)

这个程序文件名为val.py，主要功能是对COCO数据集中的图像进行姿态估计，并评估估计结果的准确性。

程序首先导入了一些必要的库，包括argparse、cv2、json、math、numpy、torch等。然后，它导入了一些自定义的模块和函数，包括CocoValDataset、PoseEstimationWithMobileNet、extract_keypoints、group_keypoints等。

接下来，程序定义了一些辅助函数，包括run_coco_eval、normalize、pad_width、convert_to_coco_format、infer等。这些函数用于数据预处理、推断姿态估计结果等。

最后，程序定义了一个evaluate函数，该函数接受一些参数，包括标签文件路径、输出文件名、图像文件夹路径、模型检查点路径等。在evaluate函数中，程序加载模型并对每个图像进行姿态估计。然后，将估计结果转换为COCO格式，并保存到输出文件中。最后，程序调用run_coco_eval函数评估估计结果的准确性。

如果直接运行该程序文件，它会解析命令行参数，并调用evaluate函数进行姿态估计和评估。

5.4 datasets\transformations.py



class ConvertKeypoints:
    def __call__(self, sample):
        label = sample['label']
        h, w, _ = sample['image'].shape
        keypoints = label['keypoints']
        for keypoint in keypoints:  # keypoint[2] == 0: occluded, == 1: visible, == 2: not in image
            if keypoint[0] == keypoint[1] == 0:
                keypoint[2] = 2
            if (keypoint[0] < 0
                    or keypoint[0] >= w
                    or keypoint[1] < 0
                    or keypoint[1] >= h):
                keypoint[2] = 2
        for other_label in label['processed_other_annotations']:
            keypoints = other_label['keypoints']
            for keypoint in keypoints:
                if keypoint[0] == keypoint[1] == 0:
                    keypoint[2] = 2
                if (keypoint[0] < 0
                        or keypoint[0] >= w
                        or keypoint[1] < 0
                        or keypoint[1] >= h):
                    keypoint[2] = 2
        label['keypoints'] = self._convert(label['keypoints'], w, h)

        for other_label in label['processed_other_annotations']:
            other_label['keypoints'] = self._convert(other_label['keypoints'], w, h)
        return sample

    def _convert(self, keypoints, w, h):
        # Nose, Neck, R hand, L hand, R leg, L leg, Eyes, Ears
        reorder_map = [1, 7, 9, 11, 6, 8, 10, 13, 15, 17, 12, 14, 16, 3, 2, 5, 4]
        converted_keypoints = list(keypoints[i - 1] for i in reorder_map)
        converted_keypoints.insert(1, [(keypoints[5][0] + keypoints[6][0]) / 2,
                                       (keypoints[5][1] + keypoints[6][1]) / 2, 0])  # Add neck as a mean of shoulders
        if keypoints[5][2] == 2 or keypoints[6][2] == 2:
            converted_keypoints[1][2] = 2
        elif keypoints[5][2] == 1 and keypoints[6][2] == 1:
            converted_keypoints[1][2] = 1
        if (converted_keypoints[1][0] < 0
                or converted_keypoints[1][0] >= w
                or converted_keypoints[1][1] < 0
                or converted_keypoints[1][1] >= h):
            converted_keypoints[1][2] = 2
        return converted_keypoints


class Scale:
    def __init__(self, prob=1, min_scale=0.5, max_scale=1.1, target_dist=0.6):
        self._prob = prob
        self._min_scale = min_scale
        self._max_scale = max_scale
        self._target_dist = target_dist

    def __call__(self, sample):
        prob = random.random()
        scale_multiplier = 1
        if prob <= self._prob:
            prob = random.random()
            scale_multiplier = (self._max_scale - self._min_scale) * prob + self._min_scale
        label = sample['label']
        scale_abs = self._target_dist / label['scale_provided']
        scale = scale_abs * scale_multiplier
        sample['image'] = cv2.resize(sample['image'], dsize=(0, 0), fx=scale, fy=scale)
        label['img_height'], label['img_width'], _ = sample['image'].shape
        sample['mask'] = cv2.resize(sample['mask'], dsize=(0, 0), fx=scale, fy=scale)

        label['objpos'][0] *= scale
        label['objpos'][1] *= scale
        for keypoint in sample['label']['keypoints']:
            keypoint[0] *= scale
            keypoint[1] *= scale
        for other_annotation in sample['label']['processed_other_annotations']:
            other_annotation['objpos'][0] *= scale
            other_annotation['objpos'][1] *= scale
            for keypoint in other_annotation['keypoints']:
                keypoint[0] *= scale
                keypoint[1] *= scale
        return sample


class Rotate:
    def __init__(self, pad, max_rotate_degree=40):
        self._pad = pad
        self._max_rotate_degree = max_rotate_degree

    def __call__(self, sample):
        prob = random.random()
        degree = (prob - 0.5) * 2 * self._max_rotate_degree
        h, w, _ = sample['image'].shape
        img_center = (w / 2, h / 2)
        R = cv2.getRotationMatrix2D(img_center, degree, 1)

        abs_cos = abs(R[0, 0])
        abs_sin = abs(R[0, 1])

        bound_w = int(h * abs_sin + w * abs_cos)
        bound_h = int(h * abs_cos + w * abs_sin)
        dsize = (bound_w, bound_h)

        R[0, 2] += dsize[0] / 2 - img_center[0]
        R[1, 2] += dsize[1] / 2 - img_center[1]
        sample['image

该程序文件是一个数据集转换的模块，文件名为datasets\transformations.py。该模块包含了几个类，用于对数据集进行不同的转换操作。

ConvertKeypoints类：该类用于将关键点的坐标进行转换。根据关键点的坐标值和图像的宽高，对关键点进行一些处理，如判断关键点是否在图像范围内，将关键点的顺序进行重新排序等。
Scale类：该类用于对图像进行缩放操作。根据给定的概率和缩放范围，随机选择一个缩放比例对图像进行缩放，并相应地调整关键点的坐标。
Rotate类：该类用于对图像进行旋转操作。根据给定的旋转角度范围，随机选择一个旋转角度对图像进行旋转，并相应地调整关键点的坐标。
CropPad类：该类用于对图像进行裁剪和填充操作。根据给定的裁剪范围和填充颜色，随机选择一个裁剪位置对图像进行裁剪，并相应地调整关键点的坐标。
Flip类：该类用于对图像进行翻转操作。根据给定的概率，随机选择是否对图像进行水平翻转，并相应地调整关键点的坐标。

这些类的实例都可以作为函数调用，接受一个样本作为输入，并对样本进行相应的转换操作，并返回转换后的样本。

5.6 models\with_mobilenet.py

import torch
from torch import nn

from modules.conv import conv, conv_dw, conv_dw_no_bn


class Cpm(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.align = conv(in_channels, out_channels, kernel_size=1, padding=0, bn=False)
        self.trunk = nn.Sequential(
            conv_dw_no_bn(out_channels, out_channels),
            conv_dw_no_bn(out_channels, out_channels),
            conv_dw_no_bn(out_channels, out_channels)
        )
        self.conv = conv(out_channels, out_channels, bn=False)

    def forward(self, x):
        x = self.align(x)
        x = self.conv(x + self.trunk(x))
        return x


class InitialStage(nn.Module):
    def __init__(self, num_channels, num_heatmaps, num_pafs):
        super().__init__()
        self.trunk = nn.Sequential(
            conv(num_channels, num_channels, bn=False),
            conv(num_channels, num_channels, bn=False),
            conv(num_channels, num_channels, bn=False)
        )
        self.heatmaps = nn.Sequential(
            conv(num_channels, 512, kernel_size=1, padding=0, bn=False),
            conv(512, num_heatmaps, kernel_size=1, padding=0, bn=False, relu=False)
        )
        self.pafs = nn.Sequential(
            conv(num_channels, 512, kernel_size=1, padding=0, bn=False),
            conv(512, num_pafs, kernel_size=1, padding=0, bn=False, relu=False)
        )

    def forward(self, x):
        trunk_features = self.trunk(x)
        heatmaps = self.heatmaps(trunk_features)
        pafs = self.pafs(trunk_features)
        return [heatmaps, pafs]


class RefinementStageBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.initial = conv(in_channels, out_channels, kernel_size=1, padding=0, bn=False)
        self.trunk = nn.Sequential(
            conv(out_channels, out_channels),
            conv(out_channels, out_channels, dilation=2, padding=2)
        )

    def forward(self, x):
        initial_features = self.initial(x)
        trunk_features = self.trunk(initial_features)
        return initial_features + trunk_features


class RefinementStage(nn.Module):
    def __init__(self, in_channels, out_channels, num_heatmaps, num_pafs):
        super().__init__()
        self.trunk = nn.Sequential(
            RefinementStageBlock(in_channels, out_channels),
            RefinementStageBlock(out_channels, out_channels),
            RefinementStageBlock(out_channels, out_channels),
            RefinementStageBlock(out_channels, out_channels),
            RefinementStageBlock(out_channels, out_channels)
        )
        self.heatmaps = nn.Sequential(
            conv(out_channels, out_channels, kernel_size=1, padding=0, bn=False),
            conv(out_channels, num_heatmaps, kernel_size=1, padding=0, bn=False, relu=False)
        )
        self.pafs = nn.Sequential(
            conv(out_channels, out_channels, kernel_size=1, padding=0, bn=False),
            conv(out_channels, num_pafs, kernel_size=1, padding=0, bn=False, relu=False)
        )

    def forward(self, x):
        trunk_features = self.trunk(x)
        heatmaps = self.heatmaps(trunk_features)
        pafs = self.pafs(trunk_features)
        return [heatmaps, pafs]


class PoseEstimationWithMobileNet(nn.Module):
    def __init__(self, num_refinement_stages=1, num_channels=128, num_heatmaps=19, num_pafs=38):
        super().__init__()
        self.model = nn.Sequential(
            conv(     3,  32, stride=2, bias=False),
            conv_dw( 32,  64),
            conv_dw( 64, 128, stride=2),
            conv_dw(128, 128),
            conv_dw(128, 256, stride=2),
            conv_dw(256, 256),
            conv_dw(256, 512),  # conv4_2
            conv_dw(512, 512, dilation=2, padding=2),
            conv_dw(512, 512),
            conv_dw(512, 512),
            conv_dw(512, 512),
            conv_dw(512, 512)   # conv5_5
        )
        self.cpm = Cpm(512, num_channels)

        self.initial_stage = InitialStage(num_channels, num_heatmaps, num_pafs)
        self.refinement_stages = nn.ModuleList()
        for idx in range(num_refinement_stages):
            self.refinement_stages.append(RefinementStage(num_channels + num_heatmaps + num_pafs, num_channels,
                                                          num_heatmaps, num_pafs))

    def forward(self, x):
        backbone_features = self.model(x)
        backbone_features = self.cpm(backbone_features)

        stages_output = self.initial_stage(backbone_features)
        for refinement_stage in self.refinement_stages:
            stages_output.extend(
                refinement_stage(torch.cat([backbone_features, stages_output[-2], stages_output[-1]], dim=1)))

        return stages_output

这个程序文件是一个用于姿势估计的模型，基于MobileNet网络结构。它包含了几个不同的模块和阶段。

Cpm模块：这个模块包含了一个卷积层和几个深度可分离卷积层，用于对输入进行特征提取和对齐操作。
InitialStage模块：这个模块包含了一个由卷积层组成的主干网络和两个分支网络，用于生成初始的热图和关键点位置向量场。
RefinementStageBlock模块：这个模块包含了一个卷积层和一个深度可分离卷积层，用于对输入进行特征提取和细化操作。
RefinementStage模块：这个模块包含了多个RefinementStageBlock模块和两个分支网络，用于对姿势估计结果进行进一步的细化。
PoseEstimationWithMobileNet模块：这个模块是整个姿势估计模型的主体部分，包含了一个MobileNet主干网络、一个Cpm模块、一个InitialStage模块和多个RefinementStage模块。它通过前向传播将输入图像经过主干网络、Cpm模块和各个阶段的模块，最终输出姿势估计的结果。

整个模型的输入是一张图像，输出是一系列的热图和关键点位置向量场，用于表示人体的姿势。这个模型可以用于姿势估计的任务，例如人体关键点检测和动作识别等。

6.系统整体结构

整体功能和构架概述：

该项目是一个基于改进OpenPose的舞蹈动作规范度评判系统。它使用OpenPose模型进行人体姿势估计，并通过对姿势进行评估和分析，来评判舞蹈动作的规范度。

该项目包含了多个程序文件，每个文件都有不同的功能。下面是每个文件的功能整理：

文件路径	功能
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\location.py	使用moviepy库对视频文件进行处理，包括读取视频、获取视频属性和方法、加速视频等操作。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\train.py	训练模型的脚本，包括数据加载、模型训练、保存模型等操作。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\ui.py	使用OpenPose模型进行人体姿势估计的Demo，包括图像姿势估计和可视化显示。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\val.py	对COCO数据集中的图像进行姿态估计，并评估估计结果的准确性。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\datasets\coco.py	定义了一个COCO数据集的类，用于加载和处理COCO数据集。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\datasets\transformations.py	定义了一些数据集转换的类，用于对数据集进行不同的转换操作。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\datasets_init_.py	数据集模块的初始化文件，定义了datasets模块的导入行为和功能。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\models\with_mobilenet.py	定义了一个基于MobileNet网络结构的姿势估计模型。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\models_init_.py	模型模块的初始化文件，定义了models模块的导入行为和功能。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules\conv.py	定义了一些卷积相关的函数和类，用于构建卷积层。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules\get_parameters.py	定义了一些获取模型参数的函数和类。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules\keypoints.py	定义了一些处理关键点的函数和类，用于关键点的转换和可视化。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules\load_state.py	定义了一些加载模型状态的函数和类。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules\loss.py	定义了一些损失函数的函数和类，用于模型训练时的损失计算。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules\one_euro_filter.py	定义了一个OneEuroFilter类，用于进行姿势估计结果的滤波。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules\pose.py	定义了一个Pose类，用于表示姿势估计的结果。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\modules_init_.py	模块模块的初始化文件，定义了modules模块的导入行为和功能。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\scripts\convert_to_onnx.py	将模型转换为ONNX格式的脚本。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\scripts\make_val_subset.py	生成验证集子集的脚本。
E:\视觉项目\shop\基于改进OpenPose的舞蹈动作规范度评判系统\code\scripts\prepare_train_labels.py	准备训练标签的脚本。

以上是对每个文件功能的简要概述，具体的实现细节可能需要进一步查看每个文件的代码。

7.改进OpenPose

为了达到网络优化的目的,在保证精确度的前提下,本文提出采用MobileNet v3-Small替代原模型中的VGG19 网络。原网络内部为传统卷积核，随着网络的深度增加,容易出现梯度为零的情况，达不到更好的训练效果。MobileNet v3网络具有特殊的结构,比如其内部的深度可分离卷积核,其次是为了缓解梯度消失而采用的残差结构。算法运行过程中,该网络会先采用将输入维度提升后降低的方法,实现梯度的增强传播,这样极大地避免了运算时的存储过大的问题,不仅减少了计算量,而且提高了运算速度。

MobileNet v3

MobileNet v3网络是 MobileNet v1、MobileNetv2的衍生网络,经过两代的叠加与优化,同时兼顾v1网络的深度可分离卷积特点和 v2网络的线性瓶颈的残差结构,性能以及速度得到了很大的提升。并且与MobileNet v1， v2相比，MobileNet v3准确率更高,模型更小。MobileNet v3网络的核心是结合了v1的深度可分离卷积 Depthwise卷积、v2的超参数α、β及倒残差结构,同时自身又引入SE模块,加入 benck模块,在网络传播中实现了通道中可分离卷积与SE通道注意力机制和残差连接,将原有网络中Relu6用新的激活函数 h-swish (x )进行替换。

Depthwise卷积核

深度卷积核(Depthwise)每个卷积核的通道数为1,每个卷积核和输入特征矩阵通道—一对应,同样,输出特征矩阵通道和卷积核也相互对应,即输入特征和卷积核矩阵的通道数与输出特征矩阵的通道数相等。相比普通卷积核需要与每个输入通道进行卷积,然后再将通道相同位置进行叠加而言，Depthwise卷积核只需要单方面负责一个通道进行
独立卷积,大大减少了参数量和运算的冗余性。1.3.2超参数
超参数宽度乘数(Width Multiplier ) a、分辨率乘数( Resolution Multiplier )B是模型的瘦身参数，前者代表卷积核个数的一个倍域,也就是来控制卷积过程中所采用卷积核的个数,后者代表分辨率参数。两者都可以在保证准确度相对变化较小的情况下,大大减少网络参数量。

倒残差结构

普通的残差结构如 ResNet5’,在对输入矩阵进行压缩的过程中,通常采用1×1的卷积核,也就是减少输入的通道数。随后采用3×3的卷积核再对其进行卷积处理,卷积处理后就会采用1×1的卷积核来扩充通道数量,网络形状两头大、中间小,类似于瓶颈结构。MobileNet采用倒残差结构,先采用l ×1的卷积核进行升维操作,将模型变得更深,然后通过3×3的 Depthwise卷积核进行卷积,最后使用1×1的卷积核进行降维处理。

bneck

MobileNet v3网络是由一系列的bneck堆叠形成的。首先通过一个1×1卷积层来进行升维处理,在卷积后会跟有BN和 ReLU6激活函数。紧接着是一个3×3大小DW卷积,卷积后面依旧会跟有BN和 ReLU6激活函数。最后一个卷积层是1×1卷积,起到降维作用。

8.基于人体关节点提取的动作相似性计算

基于人体关节点提取的动作相似性计算方法主要包括以下几个步骤:①关节点定位。首先,提取标准图像和目标图像中的人体关节点位置信息;然后将两幅图片上的动作进行标准化,对其坐标进行转换,将其叠加到同一个坐标系中。②偏移量计算。计算标准化后各个关节点的方向和长度差异,推理计算目标图像关节点在三维空间中与标准动作的角度差异。③动作阶梯型相似度计算。依据②计算出学习者动作与标准动作各个关节点之间的偏移角度,设计动作相似度定量指标,计算舞蹈动作与标准动作各个关节点的相似度。④姿态还原。选取分数最低的关节,将标准动作图像中对应的关节位置信息再次进行坐标修正,通过坐标变化,将动作不标准的关节位置所对应的标准动作还原到目标图像中，获得相应的动作纠正建议。

关节点定位

由于存在人体身高差异、学习者在拍照的过程中也有摄像头视角差异以及与镜头的距离不同等问题,本文在进行学习者姿态与标准动作姿态对比之前需要对目标图像(学习者所拍摄的图像进行标准化操作。
由于本文所提出的算法是一种实时动作对比算法,因此在获得所拍摄学习者动作图像之后,先对图像进行预处理,即人体检测框提取和人体关节点估计,从而获得图像中学习者的各个关节点位置信息。17个关节点从上到下依次为:左右眼、左右耳、鼻、左右肩关节、左右肘关节、左右手、左右髋关节、左右膝关节和左右脚,按1至17分别编号。
根据其活动程度的大小将所获得的17个关节点分为两类:第一类为活动范围较小的左右肩关节和左右髋关节,将其定义为静止关节点;第二类为其余的关节点,其运动范围相对较大,将其定义为活动关节点。本文所定义的静止关节点主要是用来定位和确定放缩比例,从而较好地实现目标图像与标准图像人体关节的位置对比。
根据所定义的两类关节点,先以目标图像中的左肩关节点作为基准位置,然后在标准图像中所有关节点保持相对位置不变的前提下,将其叠加到带有关节点信息的目标图像中,使得标准图像和目标图像的左肩关节点重合,实现第一次坐标修正,第一次坐标修正后关节点p;表示为

其中:i为图片编号,j为关节点编号,6为左肩关节点的编号。
接着,以所定义的静止关节点(左、右肩关节点和左、右髋关节点)的欧几里得距离分别作为人体肩宽和腾宽。用目标图像和标准图像的肩宽和胯宽之和的比例作为标准化依据,对目标图像中关节点间的连线做等比例放缩,并对相应关节点坐标进行修正,获得标准化处理的第二次坐标修正关键点pi '，表示为

其中:7、12、13号分别为右肩、左髋、右髋关节点的编号; f§表示与该关节点相连的关节点; d( pjl ,pjz )表示点p与点pe之间的欧几里得距离

偏移量计算

本文以舞蹈学习者的动作对比为研究对象,由于舞者动作姿态变化,舞蹈动作反映在二维图像上时,会出现四肢频繁摆动现象。当舞者肢体发生前后摆动时,会产生关节点之间距离的长短变化,因此为了精确地推理舞者动作姿态在三维空间中与标准动作的差异,本文依据舞者肢体角度变化和长度信息变化进行偏移量计算。
由于舞蹈动作主要依赖于舞者四肢动作的变化,所以本文仅考虑8个关节点的偏移量,分别为左、右肩关节、左、右肘关节,左、右髋关节,左、右膝关节,由1至8分别编号。
经过关节点标准化二次修正后,对上述的8个关节点进行偏移量对比计算。当肢体在空间中有前后偏移的时候,肢体在图片上的二维投影长度会发生变化,所以可以使用肢体的长度信息推导肢体在空间中的前后偏移角度da ,通过推导得出

其中:h一作用关节的位针旋转角度,世过然后,使用关节的位置信息推理关节点角度信
得出:

最后,依据公式(4)和(5)计算所得的两个角度信息,推理三维空间内关节的偏移角度,即

其中deg ∈ (o°,180°)。

学习者动作阶梯型相似度计算

计算出学习者舞蹈动作与标准动作各个关节点之间的偏移角度之后,设计动作相似度定量指标,计算学习者动作与标准动作各个关节点的相似度sk。在专业舞蹈老师的指导下,定义阶梯型动作相似度计算方法,当公式(6中偏移角≤5°时相似度si为1 ;偏移角为5～30°时,相似度sia从1至0.6线性下降;当偏移角大于30°时,相似度sk从0 .6至О线性下降,如公式(7)所示:

根据公式(7)计算所定义8个主要肢体关节点的相似度sk。根据各个关键点的相似度计算结果，获得整体舞蹈动作的总体相似度

当总体相似度为1时,认为学习者的动作是标准的;否则,依据相似度最低的关键点信息,给出最终的动作相似度。
在计算出学习者各个关节的相似度分数后,选取分数最低的关节,将标准动作图像中对应的关节位置信息再次进行坐标修正:

通过坐标变化,最终叠加到目标图像中,使学习者可以按照图像中标准动作修正自己的动作,提高舞蹈学习的效果。

9.训练结果分析

目前,对学习者舞蹈动作是否标准的判断没有科学统一的评估方法,依赖于主观视觉评价的人工评价方法是目前最主流的评估方法,但是人工评价结果很容易受主观影响,缺乏一个可量化的客观评价方式。因此,本文提出一种基于姿态估计的舞蹈动作对比算法,对舞蹈者的动作是否标准进行定量计算。为了验证所提出算法的有效性,本文采用专业舞者主观评价和定量客观评价方法对舞蹈动作是否标准进行评估。
专业舞蹈教师主观评价对学习者动作通过专业舞蹈教师进行标准与否评价。在此,选取277组舞蹈数据,分为专业舞者动作和学习者舞蹈动作,如图所示。图a为专业舞蹈者动作姿态图像,b为学习者根据专业舞者动作进行学习的舞蹈姿势,舞蹈者视角分为正视图、侧视图、背视图。专业舞蹈教师对学习者动作是否标准判断正确的有247组,总体正确率为89.17% ;正视图、背视图和侧视图的正确率分别为:90 .67%、88 .68%和78.13%。侧视图的正确率较低,这是因为教师在对侧视图中舞蹈者进行动作姿态标准判断时,无法依靠二维图像中因视角变化及角度遮挡情况下的舞蹈者姿态进行舞者肢体及关节点的准确定位。

10.系统整合

下图完整源码＆数据集＆环境部署视频教程＆自定义UI界面

参考博客《基于改进OpenPose的舞蹈动作规范度评判系统》

11.参考文献

[1]毕雪超.基于空间骨架时序图的舞蹈特定动作识别方法[J].信息技术.2019,(11).DOI:10.13274/j.cnki.hdzj.2019.11.004 .

[2]田堉橦.高校舞蹈教学方法的发展历程研究综述[J].辽宁高职学报.2018,(10).DOI:10.3969/j.issn.1009-7600.2018.10.019 .

[3]李红竹.舞蹈视频图像中动作识别方法研究[J].电视技术.2018,(7).DOI:10.16280/j.videoe.2018.07.008 .

[4]陈利峰.舞蹈视频图像中人体动作识别技术的研究[J].现代电子技术.2017,(3).DOI:10.16652/j.issn.1004-373x.2017.03.014 .

[5]章彭敏,俞培明,胡小岗.体育教学情境下的师生交流研究[J].陕西师范大学学报（自然科学版）.2008,(S1).

[6]谢志斌.对新时期高校体育课改革的分析与研究[J].陕西师范大学学报（自然科学版）.2008,(S1).

[7]王露晨.基于动作捕捉技术的舞蹈姿态分析与教学方法研究[J].辽宁师范大学.2016.

[8]郭辰琳.舞蹈教育数字化开发应用研究[D].2015.

[9]黄忠源.我国高校舞蹈教育的现状及发展[D].2013.

你可能感兴趣的:(前端,深度学习,opencv)

第N4周：NLP中的文本嵌入 OreoCC 自然语言处理人工智能
本人往期文章可查阅：深度学习总结词嵌入是一种用于自然语言处理（NLP）的技术，用于将单词表示为数字，以便计算机可以处理它们。通俗的讲就是，一种把文本转为数值输入到计算机中的方法。之前文章中提到的将文本转换为字典序列、one-hot编码就是最早期的词嵌入方法。Embedding和EmbeddingBag则是PyTorch中的用来处理文本数据中词嵌入（wordembedding）的工具，它们将离散的词
你好，我是冴羽，我写了一套《前端大佬成长之路》
你好，我是冴羽。这么正式的开头说明我有了一个大动作。是的，我创建了自己的知识星球：“冴羽·前端大佬成长之路”。重点一：新的一年，我会在知识星球更新一套“前端大佬成长之路”的课程。包含目标规划篇、学习方法篇、前端学习篇、个人管理篇、职场发展篇、面试技巧篇、健康养生篇共7大篇章、40节文章。总结了我近十年的工作生活经验，让大家少走一些弯路，节省一些时间。重点二：但是帮助你全面成长，一套课程是不够的，必
深度学习项目十一：mmdetection训练自己的数据集小啊磊_Vv 深度学习和视觉项目实战目标跟踪人工智能计算机视觉 python 深度学习
mmdetection训练自己的数据集这里写目录标题mmdetection训练自己的数据集一：环境搭建二：数据集格式转换(yolo转coco格式)yolo数据集格式coco数据集格式yolo转coco数据集格式yolo转coco数据集格式的代码三：训练dataset数据文件配置configs1.在configs/faster_rcnn/faster-rcnn_r101_fpn_1x_coco.py
【从0到1构建实时聊天系统：Spring Boot + Vue3 + WebSocket全栈实战】小怪兽9699 spring boot websocket 后端
一、项目架构技术栈清单：后端：SpringBoot3.0+WebSocket+STOMP前端：Vue3+Pinia+WebSocketClient部署：Nginx+DockerCompose二、核心功能实现1.WebSocket双向通信//后端配置类@Configuration@EnableWebSocketMessageBrokerpublicclassWebSocketConfigimplem
深度学习和机器学习的差异 The god of big data 教程深度学习机器学习人工智能
一、技术架构的本质差异传统机器学习（MachineLearning）建立在统计学和数学优化基础之上，其核心技术是通过人工设计的特征工程（FeatureEngineering）构建模型。以支持向量机（SVM）为例，算法通过核函数将数据映射到高维空间，但特征提取完全依赖工程师的领域知识。这种"人工特征+浅层模型"的结构在面对复杂非线性关系时容易遭遇性能瓶颈。深度学习（DeepLearning）作为机器
智能遥感新质生产力：ChatGPT、Python和OpenCV强强联合；空天地遥感数据分析的全流程；地面数据、无人机数据、卫星数据、多源数据等处理小艳加油 DeepSeek ChatGPT 遥感遥感新质生产力 ChatGPT OpenCV 遥感数据处理
通过系统化的模块设计和丰富的实战案例，深入理解和掌握遥感数据的处理与计算。不仅涵盖了从零基础入门Python编程、OpenCV视觉处理的基础知识，还将借助ChatGPT智能支持，引导您掌握遥感影像识别和分析的进阶技术。更为重要的是，通过15个经过精心设计的真实案例，深度参与地质监测、城市规划、农业分析、生态评估等不同场景下的遥感应用实践。层层递进、结构严谨，帮助您系统性掌握从数据预处理、图像增强、
opencv cuda例程 OpenCV和Cuda结合编程 weixin_44602056 opencv C++
本文转载自：https://www.fuwuqizhijia.com/linux/201704/70863.html此网页，仅保存下来供随时查看一、利用OpenCV中提供的GPU模块目前，OpenCV中已提供了许多GPU函数，直接使用OpenCV提供的GPU模块，可以完成大部分图像处理的加速操作。该方法的优点是使用简单，利用GpuMat管理CPU与GPU之间的数据传输，而且不需要关注内核函数调用参
OpenCV连续数字识别—可运行验证正冬升 OpenCV opencv 人工智能计算机视觉
前言文章开始，瞎说一点其他的东西，真的是很离谱，找了至少两三个小时，就一个简单的需求：1、利用OpenCV在Windows进行抓图2、利用OpenCV进行连续数字的检测。3、使用C++，Qt3、将检测的结果显示出来就这么简单的需求，结果网上找了各种版本硬是找不到,要是代码可能没啥问题，但是运行不了，你这运行不了，我怎么知道你到底能不能用，我代码调半天能用了，结果你跟我说最后效果不好，为啥呢？因为图
利用CUDA与OpenCV实现高效图像处理：全面指南快撑死的鱼 C++（C语言）算法大揭秘 opencv 图像处理人工智能
利用CUDA与OpenCV实现高效图像处理：全面指南前言在现代计算机视觉领域，图像处理的需求日益增加。无论是自动驾驶、安防监控，还是医疗影像分析，图像处理技术都扮演着至关重要的角色。然而，图像处理的计算量非常大，往往需要强大的计算能力来保证实时性和高效性。幸运的是，CUDA和OpenCV为我们提供了一种高效的图像处理解决方案。本篇文章将详细介绍如何结合CUDA与OpenCV，利用GPU的强大计算能
深度学习 PyTorch 中 18 种数据增强策略与实现 @Mr_LiuYang 计算机视觉基础数据增强深度学习 torchvision transforms
深度学习pytorch之简单方法自定义9类卷积即插即用数据增强通过对训练数据进行多种变换，增加数据的多样性，它帮助我们提高模型的鲁棒性，并减少过拟合的风险。PyTorch提供torchvision.transforms模块丰富的数据增强操作，我们可以通过组合多种策略来实现复杂的增强效果。本文将介绍18种常用的图像数据增强策略，并展示如何使用PyTorch中的torchvision.transfor
【无标题】东东就是我 opencv 计算机视觉人工智能
1.计算机视觉与图像处理计算机视觉技术涵盖从图像预处理到目标检测的全流程，是工业视觉系统的核心部分。知识点扩展OpenCV基础cv2.imread()、cv2.imshow()、cv2.imwrite()进行基本图像读取、显示、保存cv2.cvtColor()进行颜色空间转换（RGB↔GRAY，RGB↔HSV）cv2.resize()进行图像缩放cv2.flip()进行图像翻转（水平/垂直）imp
SpringBoot+Vue前后端分离项目的搭建及简单开发（这次保证看明白~） m0_67265464 前端 html javascript 开发语言 ecmascript
文章目录概述一、搭建SpringBoot后端1.sql脚本2.新建SpringBoot项目3.MP代码生成4.编写Controller二、搭建Vue前端1.IDEA安装Vue.js插件2.IDEA启动Vue项目3.编写Vue代码4.接收后端数据三、ElementUI使用1.简单的数据展示2.Element-ui更多…参看：https://www.bilibili.com/video/BV13741
linux 下 CUDA + Opencv 编程之 CMakeLists.txt maxruan 编程图像处理 CUDA opencv linux c++cuda
CMAKE_MINIMUM_REQUIRED(VERSION2.8)PROJECT(medianFilterGPU)#CUDApackageFIND_PACKAGE(CUDAREQUIRED)INCLUDE(FindCUDA)#CUDAincludedirectoriesINCLUDE_DIRECTORIES(/usr/local/cuda/include)#OpenCVpackageFIND_P
计算机学习的五大避坑指南新手必藏编程诗人华仔架构设计学习 java 软件工程 golang 开发语言 c语言 python
避坑一：盲目跟风学习编程语言技术性深化：在选择编程语言时，要考虑语言的特点、适用场景以及未来发展趋势。例如，Java适合企业级应用开发，Python在数据分析和人工智能领域有广泛应用，而JavaScript则是前端开发的基础。明确自己的职业发展方向，选择与之匹配的语言进行深入学习。避坑二：忽视基础知识的掌握技术性深化：深入理解算法如排序、搜索等，熟悉常见的数据结构如链表、栈、队列、树等，并掌握设计
Win11及CUDA 12.1环境下PyTorch安装及避坑指南：深度学习开发者的福音郁云爽
Win11及CUDA12.1环境下PyTorch安装及避坑指南：深度学习开发者的福音【下载地址】Win11及CUDA12.1环境下PyTorch安装及避坑指南本资源文件旨在为在Windows11操作系统及CUDA12.1环境下安装PyTorch的用户提供详细的安装步骤及常见问题解决方案。无论你是初学者还是有经验的开发者，这份指南都将帮助你顺利完成PyTorch的安装，并避免常见的坑项目地址:htt
从前端程序员到大模型工程师的转型攻略七七Seven～前端语言模型人工智能学习 chatgpt 算法
在科技日新月异的今天，人工智能（AI）特别是大规模预训练模型（大模型）的发展正引领着新一轮的技术革命。对于一位有志于从专注于用户界面设计和开发的前端程序员转向这个充满潜力领域的专业人士来说，这不仅是一次技术栈的转换，更是一个思维方式和个人职业发展的重大转变。本文将提供一个详尽的指南，帮助你顺利地完成这一过渡。第一阶段：打牢基础（第1-4周）深入了解AI与机器学习概念理解：阅读相关书籍、在线课程或观
CUDA编程之OpenCV与CUDA结合使用 byxdaz CUDA opencv 人工智能计算机视觉
OpenCV与CUDA的结合使用可显著提升图像处理性能。一、版本匹配与环境配置CUDA与OpenCV版本兼容性‌OpenCV各版本对CUDA的支持存在差异，例如OpenCV4.5.4需搭配CUDA10.0‌2，而较新的OpenCV4.8.0需使用更高版本CUDA‌。需注意部分模块（如级联检测器）可能因CUDA版本更新而不再支持‌。‌OpenCV版本CUDA版本4.5.x‌推荐CUDA11.x及以下
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
基于讯飞星火的语音问答哎呦☞ᨐ 语音识别人工智能语言模型文心一言 opencv
一.简介项目基于讯飞星火api作为核心能力并在其中搭载了WebSpeechAPI中的webkitSpeechRecognition对象来实现语音转文字的功能和TTS(Text-to-Speech)：通过调用百度TTSAPI将文本转换成语音，使机器人能够“说话”。实现了语音输入，语音输出的对话形式。实现方法：后端基于python的flask框架，前端使用了html+css并用AJAX通过XMLHtt
解析：婚恋交友系统APP源码开发攻略,语音视频聊天功能实现步骤核心功能前端后端小程序数据库程序员
系统功能特点1.自定义小程序管理：本系统提供完整的后台管理功能，开发者可以根据自己的需求进行定制和修改，包括但不限于论坛版块管理、帖子管理、用户管理等功能。后台管理界面简洁明了，操作方便，大大降低了开发门槛。2.完整的安装代码包：本系统提供完整的安装代码包，包括小程序前端代码、后端服务代码以及数据库结构等。开发者只需按照说明进行安装和配置，即可快速搭建起一个功能完备的社区论坛小程序。3.丰富的功能
深度学习在SSVEP信号分类中的应用分析自由的晚风深度学习分类人工智能
目录前言1.SSVEP信号分类的处理流程2.模型输入和数据预处理3.模型结构设计3.1卷积神经网络（CNN）3.2长短期记忆网络（LSTM）4.训练方法与激活函数5.性能评估与挑战6.未来方向前言随着脑机接口（BCI）技术的发展，SSVEP（稳态视觉诱发电位）因其高信息传输速率和短训练时间而成为最受欢迎的BCI范式之一。近年来，深度学习方法在SSVEP信号分类中取得了显著的成果。本文通过对31个深
用OpenCV写个视频播放器可还行？（C++版）程序员Linc OpenCV opencv 音视频 c++opencv 4.11
引言提到OpenCV，大家首先想到的可能是图像处理、目标检测，但你是否想过——用OpenCV实现一个带进度条、倍速播放、暂停功能的视频播放器？本文将通过一个实战项目，带你深入掌握OpenCV的视频处理能力，并解锁以下功能：基础播放/暂停动态倍速调节（0.5x~4x）交互式进度条实时时间戳显示文末提供完整代码，可直接运行！一、环境准备安装OpenCV请参考其他博客，C++版本的OpenCV安装，每个
PSPNet在图像超分辨率中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PSPNet在图像超分辨率中的应用1.背景介绍图像超分辨率(ImageSuper-Resolution,ISR)是计算机视觉领域的一个重要研究方向,旨在从低分辨率图像中重建高分辨率图像。传统的ISR方法主要基于插值算法,如双线性插值、双三次插值等,但这些方法往往无法恢复图像的高频细节信息。近年来,随着深度学习的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的
基于文本特征的微博谣言检测机器懒得学习人工智能大数据图像处理计算机视觉
随着社交媒体的普及，微博等平台成为了信息传播的重要渠道。然而，虚假信息和谣言的传播也带来了严重的社会问题。因此，自动化的谣言检测技术变得尤为重要。本文将介绍如何基于文本特征，使用深度学习模型（如LSTM、CNN）和传统机器学习模型（如SVM）来实现微博谣言检测，并对这些模型的性能进行比较。完整项目地址：基于文本特征的微博谣言检测1.项目概述本项目旨在通过分析微博文本内容，自动检测其中的谣言。系统通
基于深度学习的恶意软件检测系统：设计与实现机器懒得学习深度学习人工智能
引言随着信息技术的飞速发展，恶意软件（如病毒、木马、勒索软件等）对全球网络安全构成了严重威胁。传统的恶意软件检测方法（如特征码匹配、行为分析等）在面对新型恶意软件变种时往往力不从心。近年来，深度学习技术在模式识别和分类任务中取得了显著成效，为恶意软件检测领域带来了新的机遇。本文将详细介绍一个基于深度学习的恶意软件检测系统的开发过程，该系统利用长短期记忆网络（LSTM）对Windows可执行程序的A
前端学习——CSS+JS实现进度条动画 younger_LF 前端（HTML+CSS+JS）CSS JS 进度条动画
CSS+JS实现进度条动画之前学习了导航条，那现在就来学习一下进度条。本次的学习试着写了两种风格的进度条，一种是圆点，一种是传统的条状。如下图：简单介绍一下，点击按钮之后，圆点的效果是蓝色部分从零开始变大，到充满了整个父标签，从左向右进行；传统条状的效果就单纯的从左向右进行。由于有光晕的效果，父标签应该允许溢出部分显示。再次点击按钮就重置为原来的样子。话不多说，直接开始。HTML部分HTML部分很
前端学习——CSS3实现时钟效果 younger_LF 前端（HTML+CSS+JS）CSS动画时钟效果
CSS3实现时钟效果最近想开始认真学习，然后想把学习记录下来，就写在博客这里了。最先是用CSS实现的是一个时钟的效果，如下图：实现效果1.圆盘说到时钟，肯定最先想到的是一个圆，所以就从一个圆开始。先写一个div，然后给相关的样式.clock{position:absolute;width:250px;height:250px;left:50%;top:50%;transform:translate
前端学习——css照片墙野生小米椒三大基础语言
照片墙案例body{background-color:gray;/*背景色*/text-align:center;/*照片居中*/}img{width:12%;/*设置高度*/padding:10px;/*设置内边距*/background-color:white;/*设置照片背景色*/transform:rotate(-10deg);/*设置倾斜角度*/margin:20px;/*设置内边距*/
技术解析：格意互联商城系统（多端适配+开源二次开发西安漫格科技开源
一、系统概述格意互联商城系统由西安漫格网络科技有限公司独立研发，专注于商城线上销售场景，支持多端适配（APP、小程序、公众号、H5）及二次开发。系统基于JAVA技术栈构建，采用SpringBoot+JPA作为后端框架，前端用户端使用UniApp实现跨平台兼容，管理端基于Vue+ElementUI开发，具备高扩展性与灵活性111。二、技术架构核心技术栈后端服务：SpringBoot+JPA，支持高并
AI Agent: AI的下一个风口从图形用户界面到自然语言的进化 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口从图形用户界面到自然语言的进化文章目录AIAgent:AI的下一个风口从图形用户界面到自然语言的进化1.背景介绍1.1人机交互的演变历程1.1.1命令行界面时代1.1.2图形用户界面时代1.1.3自然语言交互的兴起1.2AI技术的发展现状1.2.1机器学习和深度学习的突破1.2.2自然语言处理技术的进步1.2.3知识图谱和语义理解的发展1.3AIAgent的概念与意
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin