PKing666666

基于YOLOv5的手势识别系统(含手势识别数据集+训练代码)

1. 前言

2. 手势识别的方法

（1）基于多目标检测的手势识别方法

（2）基于手部检测+手势分类识别方法

3. 手势识别数据集说明

（1）HaGRID手势识别数据集

（2）自定义数据集

4. 基于YOLOv5的手势识别训练

（1）YOLOv5说明

（2）准备Train和Test数据

（3）配置文件

（4）开始训练

（5）可视化训练过程

4. 手势识别测试效果

5.项目源码下载

1. 前言

手势作为一种肢体语言，在人类交流中的使用起着重要作用。一个简单的手势蕴涵着丰富的信息，正因为如此，人与人可以之间通过手势来传达大量的信息，实现高速的通信。将手势运用于计算机，能够很好地改善人机交互的效率。

人类的手势主要分为：

1）交互性手势与操作性手势：前者手的运动表示特定的信息（如乐队指挥），靠视觉来感知，后者不表达任何信息（如弹琴）。

2）自主性手势和非自主性手势：后者与语音配合用来加强或补充某些信息（如演讲者用手势描述动作、空间结构等信息）。

3）离心手势和向心手势：前者直接针对说话人，有明确的交流意图，后者只是反映说话人的情绪和内心的愿望。

手势识别（HGR）作为人机交互的一部分，在汽车领域、家庭自动化系统、各种视频/流媒体平台等领域具有广泛的实际应用。本篇博客，将基于YOLOv5搭建一个手势识别目标检测系统，支持one,two,ok等18种常见的通用手势动作识别，目前基于多目标检测的手势识别方法mAP_0.5=0.99569，mAP_0.5:0.95=0.87605，基本满足业务的性能需求。

先展示一下Demo视频效果：

【源码下载】基于YOLOv5的手势识别系统(含手势识别数据集+训练代码)

【尊重原创，转载请注明出处】

2. 手势识别的方法

（1）基于多目标检测的手势识别方法

基于多目标检测的手势识别方法，一步到位，把手势类别直接当成多个目标检测的类别进行训练。

该方案采用one-stage的方法，直接端到端训练，任务简单，速度较快；

当类别较多时，难以提高多目标检测的精度，难以轻量化（如果类别较少，轻量化后精度还是可以的）

需要均衡采集的不同手势类别的样本数

新增类别或者数据，需要人工拉框标注手势，成本较大

本篇博客就是基于多目标检测的手势识别方法，多目标检测的的方法较多，比如Faster-RCNN，YOLO系列，SSD等均可以采用，本博客采用YOLOv5进行多目标检测的手势识别训练。

（2）基于手部检测+手势分类识别方法

该方法，先训练一个通用的手部检测模型(不区分手势，只检测手部框)，然后裁剪手部区域，再训练一个手势分类器，完成对不同手势的分类识别。

该方案采用two-stage方法，可针对性分别提高检测模型和分类模型的性能

手部检测模型不区分手势，只检测手部框，检测精度较高，

手势分类模型可以做到很轻量

手势分类数据比较容易采集（你可以采集一个动手一个视频，这样经过手部检测裁剪下来的图片都是同一个类别的动作，减少人工拉框标注手势的成本）

适合在在端上部署

关于Android平台的手势识别Demo，有需求的网友，评论一下，我看需求排期开发一个

3. 手势识别数据集说明

（1）HaGRID手势识别数据集

原始的HaGRID数据集非常大，图片都是高分辨率（1920 × 1080）200W像素，完整下载HaGRID数据集，至少需要716GB的硬盘空间。另外，由于是外网链接，下载可能经常掉线。

考虑到这些问题，本人对HaGRID数据集进行精简和缩小分辨率，目前整个数据集已经压缩到18GB左右，可以满足手势识别分类和检测的任务需求，为了有别于原始数据集，该数据集称为Light-HaGRID数据集，即一个比较轻量的手势识别数据集。

提供手势动作识别数据集，共18个手势类别，每个类别约含有7000张图片，总共123731张图片(12W+)

提供所有图片的json标注格式文件，即原始HaGRID数据集的标注格式

提供所有图片的XML标注格式文件，即转换为VOC数据集的格式

提供所有手势区域的图片，每个标注框的手部区域都裁剪下来，并保存在Classification文件夹下

可用于手势目标检测模型训练

可用于手势分类识别模型训练

关于《HaGRID手势识别数据集使用说明和下载》，请参考鄙人另一篇博客，

https://panjinquan.blog.csdn.net/article/details/126725796

（2）自定义数据集

如果需要增/删类别数据进行训练，或者需要自定数据集进行训练，可参考如下步骤：

采集手势图片，建议不少于200张图片

使用Labelme等标注工具，对手势拉框标注：labelme工具：GitHub - wkentaro/labelme: Image Polygonal Annotation with Python (polygon, rectangle, circle, line, point and image-level flag annotation).

将标注格式转换为VOC数据格式，参考工具：labelme/labelme2voc.py at main · wkentaro/labelme · GitHub

生成训练集train.txt和验证集val.txt文件列表

修改engine/configs/voc_local.yaml的train和val的数据路径

重新开始训练

4. 基于YOLOv5的手势识别训练

（1）YOLOv5说明

训练Pipeline采用YOLOv5: https://github.com/ultralytics/yolov5 , 原始代码训练需要转换为YOLO的格式，不支持VOC的数据格式。为了适配VOC数据，本人新增了LoadVOCImagesAndLabels用于解析VOC数据集进行训练。另外，为了方便测试，还增加demo.py文件，可支持对图片和视频的测试。

Python依赖环境：


matplotlib>=3.2.2
numpy>=1.18.5
opencv-python>=4.1.2
Pillow
PyYAML>=5.3.1
scipy>=1.4.1
torch>=1.7.0
torchvision>=0.8.1
tqdm>=4.41.0
tensorboard>=2.4.1
seaborn>=0.11.0
pandas
thop  # FLOPs computation
pybaseutils

（2）准备Train和Test数据

下载HaGRID手势识别数据集，这个数据至少需要716GB的硬盘空间，超大哦；如果你想偷点懒，那就直接采用Light-HaGRID数据集下载，才18GB，数据格式都已经处理好，可以直接拿来使用。关于《HaGRID手势识别数据集使用说明和下载》，请参考鄙人另一篇博客：

HaGRID手势识别数据集使用说明和下载_PKing666666的博客-CSDN博客

（3）配置文件

修改训练和测试数据的路径：engine/configs/voc_local.yaml （一共有18个手势文件夹，全部加上）

# 数据路径
path: ""  # dataset root dir
train:
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/call/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/dislike/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/fist/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/four/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/like/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/mute/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/ok/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/one/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/palm/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/peace/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/peace_inverted/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/rock/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/stop/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/stop_inverted/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/three/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/three2/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/two_up/train.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/two_up_inverted/train.txt"

val:
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/call/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/dislike/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/fist/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/four/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/like/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/mute/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/ok/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/one/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/palm/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/peace/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/peace_inverted/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/rock/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/stop/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/stop_inverted/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/three/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/three2/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/two_up/val.txt"
  - "/home/pjq/dataset/csdn/gesture/Light-HaGRID/trainval/two_up_inverted/val.txt"

test:  # test images (optional)
data_type: voc

# Classes
nc: 19  # number of classes
names: { 'one': 0, 'two_up': 1, 'two_up_inverted': 2, 'three': 3, 'three2': 4,
         'four': 5, 'fist': 6, 'palm': 7, 'ok': 8, 'peace': 9,
         'peace_inverted': 10, 'like': 11, 'dislike': 12, 'stop': 13, 'stop_inverted': 14,
         'call': 15, 'mute': 16, 'rock': 17, 'no_gesture': 18 }

HaGRID手势识别数据集一共有18个手势，额外还有一个无手势的类别，即no_gesture；如果你想自定义手势类型，比如你希望只训练one,tow,three,four和no_gesture类别，请修改，请修改：
names: { 'one': 0, 'two_up': 1, 'three': 2, 'four': 3, 'no_gesture': 4 }

nc: 5

修改YOLOv5模型配置文件： models/yolov5s.yaml （使用原始的即可，一般不需要修改）
修改训练超参文件： data/hyps/hyp.scratch-v1.yaml （可以修改训练学习率，数据增强等方式，使用默认即可）

（4）开始训练

整套训练代码非常简单操作，用户只需要将相同类别的数据放在同一个目录下，并填写好对应的数据路径，即可开始训练了。

编辑train.sh脚本

#!/usr/bin/env bash
# 输出项目名称路径
project="runs/test"
# 训练和测试数据的路径
data=engine/configs/voc_local.yaml
# YOLOv5模型配置文件
cfg=yolov5s.yaml
# 训练超参数文件
hyp=data/hyps/hyp.scratch-v1.yaml
# 预训练文件
weights=engine/pretrained/yolov5s.pt
python train.py --data $data --cfg $cfg --hyp $hyp --weights $weights --batch-size 32 --project $project

开始训练： bash train.sh

训练完成，可以得到手势识别mAP指标：mAP_0.5=0.99569，mAP_0.5:0.95=0.87605

（5）可视化训练过程

训练过程可视化工具是使用Tensorboard，使用方法：

# 基本方法
tensorboard --logdir=path/to/log/
# 例如
tensorboard --logdir ./runs

当然，在输出目录，也保存很多性能指标的图片

这是训练epoch的可视化图，可以看到mAP随着Epoch训练，逐渐提高

这是每个类别的F1-Score分数

这是模型的PR曲线

这是混淆矩阵：

4. 手势识别测试效果

demo.py文件用于推理和测试模型的效果，填写好配置文件，模型文件以及测试图片即可运行测试了

测试图片

# 测试图片
image_dir='data/HaGRID-test' # 测试图片的目录
weights="runs/weights/best.pt" # 模型文件
out_dir="runs/HaGRID-result" # 保存检测结果
python demo.py --image_dir $image_dir --weights $weights --out_dir $out_dir

测试视频文件

# 测试视频文件
video_file='data/sample/VID_20220914_160939.mp4' # 测试图片的目录
weights="runs/weights/best.pt" # 模型文件
out_dir="runs/HaGRID-result" # 保存检测结果
python demo.py --video_file $video_file --weights $weights --out_dir $out_dir

测试Demo效果图：

如果想进一步提高模型的性能，可以尝试：

增加样本数据：原始数据集，基本上都是欧美白色人的图片数据，缺乏亚洲人脸数据集，建议根据自己的业务场景，采集相关数据，提高模型泛化能力

使用参数量更大的模型：本教程使用的YOLOv5s，其参数量才7.2M，而YOLOv5x的参数量有86.7M，理论上其精度更高，但推理速度也较慢。

尝试不同数据增强的组合进行训练

5.项目源码下载

整套项目源码内容包含Light-HaGRID数据集 + YOLOv5训练代码和测试代码

（1）Light-HaGRID数据集

提供手势动作识别数据集，共18个手势类别，每个类别约含有7000张图片，总共123731张图片(12W+)

提供所有图片的json标注格式文件，即原始HaGRID数据集的标注格式

提供所有图片的XML标注格式文件，即转换为VOC数据集的格式

提供所有手势区域的图片，每个标注框的手部区域都裁剪下来，并保存在Classification文件夹下

可用于手势目标检测模型训练

可用于手势分类识别模型训练

（2）YOLOv5训练代码和测试代码

整套YOLOv5项目工程的训练代码和测试代码

根据本篇博文说明，简单配置即可开始训练

【源码下载】基于YOLOv5的手势识别系统(含手势识别数据集+训练代码)

深度学习-服务器训练SparseDrive过程记录 weixin_40826634 深度学习服务器人工智能
1、cuda安装1.1卸载安装失败的cuda参考：https://blog.csdn.net/weixin_40826634/article/details/127493809注意：因为/usr/local/cuda-xx.x/bin/下没有卸载脚本，很可能是apt安装的，所以通过执行下面的命令删除：apt-get--purgeremove"cuda*"apt-getautoremove然后执行f
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
《探秘人工智能与鸿蒙系统集成开发的硬件基石》程序猿阿伟人工智能 harmonyos 华为
在科技飞速发展的当下，人工智能与鸿蒙系统的集成开发开辟了创新的前沿领域。这一融合不仅代表着技术的演进，更预示着智能设备生态的全新变革。而在这场技术盛宴的背后，坚实的硬件配置是确保开发顺利进行的关键，它就像一座大厦的基石，决定了上层建筑的高度和稳定性。处理器：运算核心的澎湃动力处理器作为硬件系统的核心，在人工智能与鸿蒙系统集成开发中扮演着至关重要的角色。对于模型训练任务，尤其是深度学习模型，其复杂的
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
数据标注工具及其对预训练模型性能的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1预训练模型的崛起近年来，预训练模型（Pre-trainedModels）在自然语言处理（NLP）领域取得了显著的成功。这些模型通过在大规模无标注文本数据集上进行预训练，学习到丰富的语言知识和语义表示，并在下游任务中展现出优异的性能。BERT、GPT-3等预训练模型的出现，标志着NLP领域进入了一个新的时代。1.2数据标注的重要性尽管预训练模型展现出强大的能力，但它们仍然需要针对特
Java Stream 流从零到一全指南秋‍. JAVA windows java 开发语言流 strem
1.什么是JavaStream？JavaStream是Java8引入的一种用于处理数据集合的API，提供了声明式的方式进行数据处理。它能够支持函数式编程风格，极大地简化了集合操作，提高了代码的可读性和可维护性。Stream的核心特性链式操作：流操作可以串联在一起，避免了传统迭代方式的冗余代码。惰性求值：只有在终端操作时，流的计算才会执行。内部迭代：相比于for循环的外部迭代，Stream采用内部迭
vue中el-tree的懒加载 zhz5214 vue vue.js elementui javascript 前端
el-tree是ElementUI中的一种树形控件，它可以在页面中显示树形数据结构，同时支持懒加载。懒加载是指在Vue组件渲染的过程中，只加载当前可见的部分数据，而不是一次性加载整个数据。这种方法可以显著提高页面的加载速度和响应性能，特别是在大型数据集上。要使用el-tree的懒加载功能，需要在树形控件组件中提供一个load方法。load方法会在展开一个父节点时触发，它的参数包含了父节点的数据和一
kettle数据同步 zhz5214 数据同步 java etl big data 数据仓库运维开发
Kettle是一个强大的数据集成工具，可以用来实现各种数据同步的需求。以下是一些常见的Kettle数据同步的实现方法：数据库之间的同步：使用Kettle中的数据库连接组件，可以连接多个不同的数据库，并通过数据抽取、转换和加载步骤实现数据同步。文件之间的同步：Kettle可以读取和写入各种类型的文件，包括CSV、Excel、JSON和XML等格式。因此，可以通过读取源文件、转换数据格式，并将其写入目
基于纯视觉的 GUI 代理的屏幕解析工具（OmniParser） deepdata_cn 应用软件 GUI
OmniParser是一款开源工具，可通过解析用户界面截图生成结构化数据，助力打造视觉驱动的GUI自动化代理，赋能跨平台交互。一、技术原理1.数据集构建：从流行网页和应用中提取数据，构建可交互图标检测数据集和图标描述数据集，为模型训练提供基础。2.检测模型：使用YOLOv8模型在可交互图标检测数据集上进行微调，能够识别和定位用户界面中的可交互区域，如按钮、图标等。3.描述模型：利用BLIP-v2模
GEE数据集——Harmonized Landsat Sentinel-2 (HLS) 卫星sentinel-2哨兵-2（HLS）此星光明 GEE数据集专栏 sentinel 遥感影像 gee 数据集 nasa HLS-2
简介统一大地遥感卫星哨兵-2（HLS）项目通过虚拟卫星传感器群提供一致的地表反射率（SR）和大气层顶部亮度（TOA）数据。陆地成像仪（OLI）安装在美国宇航局/美国地质调查局的联合陆地卫星8号和陆地卫星9号上，而多光谱仪（MSI）则安装在欧洲的哥白尼哨兵-2A号和哨兵-2B号卫星上。通过综合测量，可以每2到3天以30米的空间分辨率对陆地进行全球观测。HLS项目使用一套算法来获得OLI和MSI的无缝
Google Earth Engine——导入无云 Sentinel-2 图像和NDVI计算此星光明 GEE教程训练 sentinel 人工智能 gee ndvi 归一化植被指数波段运算遥感
目录搜索和导入无云Sentinel-2图像Sentinel-2的背景打开GEE界面定义您感兴趣的领域查询Sentinel-2图像的存档过滤图像集合将图像添加到地图视图定义真彩色可视化参数探索影像定义假色可视化参数从波段组合中导出指数NDVI锻炼本实验的目的是介绍GoogleEarthEngine处理环境。在本练习结束时，您将能够搜索、查找和可视化范围广泛的遥感数据集。在第一个练习中，我们将重点关注
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
RV1126笔记三十七：PaddleOCR检测模型训练殷忆枫 RV1126项目实战笔记
若该文为原创文章，转载请注明原文出处。PaddleOCR检测模型训练及验证测试1、准备数据集在PaddleOCR目录下新建文件夹：train_data,这个文件夹用于存放数据集的。使用的是网上大佬提供的车牌识别数据集，下载后，解压到train_data目录下。可以自己网上找，了可以找我要数据集，或自己标注数据集。2、配置文件在PaddleOCR主目录下：configs/det/ch_ppocr_v
大语言模型微调和大语言模型应用的区别？ AI Echoes 深度学习人工智能机器学习
1.基本概念微调（Fine-tuning）定义：微调是指在预训练大语言模型的基础上，通过在特定领域或任务的数据上进一步训练，从而使模型在该特定任务上表现更优。目的：适应具体的任务需求，比如法律文书写作、医疗问答、金融分析等，使得模型能更好地理解和生成符合领域要求的内容。过程：通常涉及准备领域特定的数据集、设计合适的损失函数、调整超参数（例如学习率、批量大小等），以及选择冻结或解冻部分参数来更新模型
大语言模型微调和大语言模型应用的区别？ AI Echoes 人工智能深度学习机器学习
大语言模型微调和大语言模型应用的区别？1.定义与目标微调（Fine-tuning）目标：调整预训练模型（如GPT、LLaMA、PaLM）的参数，使其适应特定任务或领域。核心：通过额外的训练（使用特定数据集）优化模型的性能，提升其在特定场景下的效果。例如：将通用模型微调为法律咨询、医疗诊断或金融分析的专业模型。应用（Application）目标：直接使用预训练或微调后的模型解决实际问题，无需修改模型
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
64.Harmonyos NEXT 图片预览组件之手势处理实现（二） harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyosNEXT图片预览组件之手势处理实现（二）效果预览一、双指旋转手势实现（续）在上一篇文章中，我们介绍了图片预览组件的单指拖动和双指缩放手势实现。本文将继续介绍双指旋转手势和双击缩放手势的实现细节。1.旋转手势处理逻辑双指旋转手势的核心逻辑包括：R
65.Harmonyos NEXT 图片预览组件之手势处理实现（三） harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyosNEXT图片预览组件之手势处理实现（三）效果预览一、双击缩放手势实现在前两篇文章中，我们介绍了图片预览组件的单指拖动、双指缩放和双指旋转手势实现。本文将继续介绍双击缩放手势的实现细节，以及手势之间的协同工作机制。1.双击缩放手势定义TapGes
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
多分类—微调DistilBERT对生物医学文本进行实验方法多分类：Automated Text Mining of Experimental Methodologies from Biomedical 小小帅AIGC information extraction 人工智能自然语言处理语言模型多分类学术领域生物医学
AutomatedTextMiningofExperimentalMethodologiesfromBiomedicalLiterature从生物医学文献中自动挖掘实验方法文本paper：https://arxiv.org/abs/2404.13779github：本文做的就是微调DistilBERT去做多分类任务，训练自己的数据集，分类每个句子对应的实验方法。没有什么讲的。文章目录～1.背景动机
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

基于YOLOv5的手势识别系统(含手势识别数据集+训练代码)

基于YOLOv5的手势识别系统(含手势识别数据集+训练代码)

1. 前言

2. 手势识别的方法

（1）基于多目标检测的手势识别方法

（2）基于手部检测+手势分类识别方法

3. 手势识别数据集说明

（1）HaGRID手势识别数据集

（2）自定义数据集

4. 基于YOLOv5的手势识别训练

（1）YOLOv5说明

（2）准备Train和Test数据

（3）配置文件

（4）开始训练

（5）可视化训练过程

4. 手势识别测试效果

5.项目源码下载

你可能感兴趣的:(深度学习,手势识别,动作识别,手势动作识别,手势识别数据集,yolov5)