sliv_ery

基于深度学习的动态手势数据集及论文整理

前言
数据集
- 动作识别数据集
- 动态手势数据集
论文
- 2021
- 2020
- 2019
- 2018
- 2017
- 2016
- 2015
- 2014
- 2013
结尾

前言

目前研究的课题是基于深度学习的手势识别，读了该领域的一些论文，也了解了一些关于动作识别和手势识别的数据集，现整理下来，希望可以帮助刚开始接触该方向的研究生，尽快了解前人所做的贡献。以下提到的论文不涉及姿态估计等领域，都是基于RGB图像、深度图像等模态进行手势等动作的识别。

数据集

包含了常用的动作识别数据集和手势识别数据集。

动作识别数据集

UCF101
从youtube收集而得，共包含101类动作。其中每类动作由25个人做动作，每人做4-7组，共13320个视频，分辨率为320*240，共6.5G。UCF101在动作的采集上具有非常大的多样性，包括相机运行、外观变化、姿态变化、物体比例变化、背景变化、光纤变化等。101类动作可以分为5类：人和物体交互,只有肢体动作，人与人交互，玩音乐器材，各类运动。
HMDB51
HMDB51包含51类动作，共有6849个视频，每个动作至少包含51个视频，分辨率320*240，来自于YouTube，google视频等，共2G。动作主要包括一般面部动作，面部操作与对象操作，一般的身体动作，与对象交互动作，人体动作。
Sport-1M
sports – 1M的数据集包含了100万个YouTube视频，其中标注了487个类。这些类按照手工管理的分类排列，其中包含动作大体分为水上运动、团队运动、冬季运动、球类、战斗运动、动物运动等。
Kinects
Kinetics数据集包含了400类人体行为，每一类至少有400个视频，这些视频全都来源于YouTube，每个视频时长大约为10s，一共有30多万个视频。视频中的行为可以被分为三类：单一的人体动作、人与人的交互、人与物的交互。这些行为都被分的非常细，有些需要通过时间推理来区分（例如不同类型的游泳），还有一些动作需要通过物体的视觉特征来区分（例如弹奏不同的乐器）。
ActivityNet
Google在2016年出品的数据集，数据的来源主要是Youtube，带有很强的深度学习背景，数据量很大，需要通过官方提供的程序自行下载，官网提供的数据仅为数据的Youtube地址。由于数据主要来源于Youtube，所以这个数据集相对更复杂，更适合目标检测。但是通过动作检测提取后的数据更适合动作识别数据集。
NTU-RGBD
总共大约有56000个视频，60类动作，50类是单人动作，10类是双人交互动作。每个人捕捉了25个关节点。数据集有两种分割方式，cross subject和cross view，这也是目前最大最全的一个数据集。很多动作识别论文都是以这个数据集作为检测标准。包含四种类型的数据：RGB videos、depth map sequences、3D skeletal data、infrared videos。
KTH
经典的动作识别数据集，也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据，其中包含6个动作（散步、慢跑、跑步、拳击、挥手、拍手），每个动作由25个人物在4个不同的场景下完成，因此一共有600个视频序列，每个视频又可以分割成4个子序列。KTH数据集的动作比较规范，同时采用固定镜头，数量对于目前的模型训练来说也比较丰富，所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。

动态手势数据集

ChaLearn Gesture Challenge_1：CGD
数据库的英文名称为ChaLearn Gesture Data，简称CGD，或者CGD2011，是ChaLearn Gesture Challenge挑战赛多用的一个数据库，数据库都是视频格式，分为深度图像视频和彩色图像视频，因为在录制视频的时候是用Kinect录制的。由此可见，这些手势识别既可以能有深度信息又可以利用色彩信息，共有30个左右的手势单词，也就是说有30个基本的手势动作。视频数据分为500个batch，每个batch含有94个视频，视频分为2种，每种各47个。
Chalearn LAP IsoGD
Chalearn LAP IsoGD数据集源自Chalearn手势数据集(CGD)。因为CGD数据集总共有超过54000个手势，这些手势被分成了子任务。为了重用CGD数据集，我们最终获得249个手势标签，并手动标记时间分割，从CGD数据集中获取连续视频中每个手势的开始帧和结束帧。这个数据库包括47933个RGB-D 手势视频(约9G)。每个RGB-D视频只代表一个手势，由21个不同人执行的249种手势。
Chalearn LAP ConGD
该数据集与ChaLearn LAP IsoGD数据集一样，都来源于CGD数据集，与IsoGD不同的是，该数据库包括22535 RGB-D手势视频(约4G)中的47933个RGB-D手势，每个RGB-D视频可能代表一个或多个手势，由21个不同人执行的249种手势。可用于时序分类任务。
Montalbano
ChaLearn Looking At People (LAP) 2014 Challeng包括三个部分:人体姿态估计、人体动作/交互识别和手势识别，其中手势识别挑战的数据集，称为Montalbano数据集。该数据集是多模态的，因为手势是用带有深度传感器的微软Kinect捕获的。每个数据文件包含一个RGB-Depth图像序列和一个由微软Kinect API提供的骨骼姿态流。手势词汇包含20个意大利文化/人类学符号。手势没有分段，这意味着序列通常包含几个手势。
EGO
EGO手势数据集是用于以第一视角采集的手势识别的多模态大规模数据集。该数据集不仅为分割数据中的手势分类提供了测试平台，而且还为连续数据中的手势检测提供了测试平台。数据集共包含83类静态或动态手势。
Cambridge hand gesture database
该数据集提供了9个手势类别的900个RGB图像序列，9类手势涵盖了3种手部形状和3种运动趋势。其中每一类包含5种不同的光照情况和10次的随意运动。数据集的目标任务是同时区分预定义的手部形状和不同的运动。
20BN-jester
20BN-JESTER数据集是大量带有密集标签的视频剪辑的集合，这些视频剪辑显示了人类在笔记本电脑摄像头或网络摄像头前执行预先定义的手势。该数据集由大量的人群工作者创建，它允许训练健壮的机器学习模型来识别人的手势。此视频数据是作为一个大型TGZ存档提供的，分为最大1GB的22个部分，总下载大小为22.8 GB。档案库包含目录，编号从1到148092。每个目录对应一个视频，并包含高度为100px和宽度可变的JPG图像，JPG图像以每秒12帧的速度从原始视频中提取。JPG的文件名始于00001.jpg。JPG的数量随原始视频的长度而变化。其中训练集为118562个视频，验证集为14787个视频，测试集为14743个视频，总共27类标签。
NVIDIA dynamic hand gesture
它应用的场景是车内手势检测，总共25类手势，每一种手势类型都用于人机界面，并由多个传感器和视点记录。在室内的汽车模拟器中，在明亮和昏暗的人工照明下，捕获了连续的数据流，共包含1532个动态手势，共有20名受试者参与了数据收集。
SHREC 2017
数据集包含14个手势序列，以两种方式执行:使用一个手指和整个手。每个手势由28个参与者以两种方式进行1到10次，总共2800个序列。包含深度图像和手部骨架。
DEVISIGN
该数据集是一种汉语手语数据库，涵盖了4414个标准汉语手语词汇，共包含30个个体(13男17女)的331,050个词汇数据。每个词汇数据由RGB、深度和骨架信息组成。整个数据集可以分为三个子集，第一个子集由26个字母和10个数字组成，第二个子集由500个日常使用的词汇表组组成，第三个子集是一个大型词汇集，该数据集包含2000个汉语SL词汇。

论文

在Supervised Sequence Labelling with Recurrent Neural Network论文中，将序列标记类任务划分为三类，分别是序列分类、片段分类、时序分类。对于动态手势识别任务，可以简单划分为离线手势识别和在线手势识别，前者更像是序列分类任务，对于给定的一段视频序列，该序列仅包含一个动作或者手势，然后通过算法得到该序列属于哪一种动作，这在序列标记任务中属于比较容易的，目前大多数视频理解类任务所用的数据都是预分割好的仅包含一种动作的视频片段，用于训练自己的模型。而在线手势识别属于时序分类任务，对于连续的视频流，可能包含多种动作或手势，并且动作或手势发生的时间位置不确定，可以利用的信息仅有过去和现在，这大大增加了识别的难度，目前对于此类任务还没有很好的解决方案。

2021

YouRefIt: Embodied Reference Understanding With Language and Gesture. Yixin Chen; Qing Li; Deqian Kong; Yik Lun Kei; Song-Chun Zhu; Tao Gao; Yixin Zhu; Siyuan Huang
SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition. Hezhen Hu; Weichao Zhao; Wengang Zhou; Yuechen Wang; Houqiang Li
Regional Attention with Architecture-Rebuilt 3D Network for RGB-D Gesture Recognition. Benjia Zhou, Yunan Li, Jun Wan
Spatial-Temporal Multi-Cue Network for Sign Language Recognition and Translation. Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li

2020

Boosting Continuous Sign Language Recognition via Cross Modality Augmentation. Pu, Junfu, Wengang Zhou, Hezhen Hu, and Houqiang Li
Feature Selection for Zero-Shot Gesture Recognition. Naveen Madapana, Juan Wachs
Towards Efficient Coarse-to-Fine Networks for Action and Gesture Recognition. Quader, Niamul, Juwei Lu, Peng Dai, and Wei Li
Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition. Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li
Temporal Action Detection with Structured Segment Networks. Yue Zhao, Yuanjun Xiong, Limin Wang
X3D: Expanding Architectures for Efficient Video Recognition. Feichtenhofer, Christoph

2019

Temporal Segment Networks for Action Recognition in Videos. Wang, L, et al
TSM: Temporal Shift Module for Efficient Video Understanding. Ji Lin, Chuang Gan and S. Han
SlowFast Networks for Video Recognition. Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He
Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks. Okan Kopuklu, Ahmet Gunduz, Neslihan Kose, Gerhard Rigoll
Fast and Robust Dynamic Hand Gesture Recognition via Key Frames Extraction and Feature Fusion. Hao Tang, Hong Liu, Wei Xiao, Nicu Sebe
Improving the Performance of Unimodal Dynamic Hand-Gesture Recognition With Multimodal Training. Mahdi Abavisani, Hamid Reza Vaezi Joze, Vishal M. Patel
Iterative Alignment Network for Continuous Sign Language Recognition. Junfu Pu, Wengang Zhou, Houqiang Li

2018

Convolutional Neural Networks and Long Short-Term Memory for skeleton-based human activity and hand gesture recognition. Nunez, J.C., et al
Long-Term Temporal Convolutions for Action Recognition. Varol, G., I. Laptev and C. Schmid
Large-Scale Gesture Recognition With a Fusion of RGB-D Data Based on Saliency Theory and C3D Model. Y., L., et al
Hidden Two-Stream Convolutional Networks for Action Recognition. Zhu, Y., et al
A Closer Look at Spatiotemporal Convolutions for Action Recognition. Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, Manohar Paluri
Gesture Recognition: Focus on the Hands. Pradyumna Narayana, Ross Beveridge, Bruce A. Draper
Making Convolutional Networks Recurrent for Visual Sequence Learning. Xiaodong Yang, Pavlo Molchanov, Jan Kautz
Deformable Pose Traversal Convolution for 3D Action and Gesture Recognition. Junwu Weng, Mengyuan Liu, Xudong Jiang, Junsong Yuan
HGR-Net: A Two-stage Convolutional Neural Network for Hand Gesture Segmentation and Recognition. Amirhossein Dadashzadeh, Alireza Tavakoli Targhi, Maryam Tahmasbi

2017

Temporal Action Detection with Structured Segment Networks. Zhao, Y., et al
Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM. Zhu, G., et al
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Carreira, J. and A. Zisserman
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. Qiu, Z., T. Yao and T. Mei
ConvNet Architecture Search for Spatiotemporal Feature Learning. Tran, D., et al
Long-Term Recurrent Convolutional Networks for Visual Recognition and Description. Donahue, J., et al
Large-Scale Multimodal Gesture Recognition Using Heterogeneous Networks. H., W., et al
Large-scale Continuous Gesture Recognition Using Convolutional Neural Networks. Wang, P., et al
Scene Flow to Action Map: A New Representation for RGB-D Based Action Recognition with Convolutional Neural Networks. P., W., et al
Online Real-time Multiple Spatiotemporal Action Localisation and Prediction. Gurkirt Singh, Suman Saha, Michael Sapienza, Philip Torr, Fabio Cuzzolin
Personalizing Gesture Recognition Using Hierarchical Bayesian Neural Networks. Ajjen Joshi, Soumya Ghosh, Margrit Betke, Stan Sclaroff, Hanspeter Pfister
Recurrent Convolutional Neural Networks for Continuous Sign Language Recognition by Staged Optimization. Runpeng Cui, Hu Liu, Changshui Zhang
Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks With Spatiotemporal Transformer Modules. Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng
SubUNets: End-To-End Hand Shape and Continuous Sign Language Recognition. Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Richard Bowden

2016

Online Detection and Classification of Dynamic Hand Gestures with Recurrent 3D Convolutional Neural Networks. P., M., et al
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. Wang, L., et al
Long-term Temporal Convolutions for Action Recognition. Varol, G., I. Laptev and C. Schmid
Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video. Pigou, L., et al
Action Recognition From Depth Maps Using Deep Convolutional Neural Networks. P., W., et al
Large-scale gesture recognition with a fusion of RGB-D data based on the C3D model. Yunan, L., et al
Convolutional Two-Stream Network Fusion for Video Action Recognition Feichtenhofer, C., A. Pinz and A. Zisserman
Online Human Action Detection using Joint Classification-Regression Recurrent Neural Networks. Yanghao Li, Cuiling Lan, Junliang Xing, Wenjun Zeng,Chunfeng Yuan, and Jiaying Liu
Online Action Detection. De Geest, R., et al
Deep Sign: Hybrid CNN-HMM for Continuous Sign Language Recognition. Oscar Koller,et al
Large-scale Continuous Gesture Recognition Using Convolutional Neural Networks. Pichao Wang, Wanqing Li, Song Liu, Yuyao Zhang, Zhimin Gao, Philip Ogunbona
Multi-Modality Fusion based on Consensus-Voting and 3D Convolution for Isolated Gesture Recognition. Jiali Duan, Shuai Zhou, Jun Wan, Xiaoyuan Guo, Stan Z. Li

2015

Learning Spatiotemporal Features with 3D Convolutional Networks. Du Tran, et al
Beyond Short Snippets: Deep Networks for Video Classification. Ng, J.Y., et al
Towards Good Practices for Very Deep Two-Stream ConvNets. Wang, L., et al
Real-Time System of Hand Detection And Gesture Recognition In Cyber Presence Interactive System For E-Learning. Bousaaid Mourad, Ayaou Tarik, Afdel Karim, Estraillier Pascal.

2014

Two-Stream Convolutional Networks for Action Recognition in Videos. Simonyan, K. and A. Zisserman
Large-Scale Video Classification with Convolutional Neural Networks. Karpathy, A., et al
Temporal Dropout of Changes Approach to Convolutional Learning of Spatio-Temporal Features. Dubravko, C. and S. Nicu
Real-Time and Robust Method for Hand Gesture Recognition System Based on Cross-Correlation Coefficient. Reza Azad, Babak Azad, Iman Tavakoli Kazerooni

2013

3D convolutional neural networks for human action recognition. Ji, S., M. Yang and K. Yu

结尾

以上内容并不可能涵盖动态手势识别领域所有的研究成果，若想了解基于骨架信息的姿态估计或者用其他方式进行手势识别的论文，还请读者自行查阅。
以上部分内容引用至ycmin95/awesome-Gesture-Sign-Language-Recognition。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
【零基础学AI】第36讲：GPT模型原理 1989 0基础学AI 人工智能 gpt lstm rnn YOLO 目标检测
本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch硬件：CPU即可运行（GPU可加速）前置知识了解基本的神经网络概念（第23讲内容）熟悉Python编程基础核心概念什么是GPT？GPT（GenerativePre-trainedTransform
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

基于深度学习的动态手势数据集及论文整理