gzj_1101

《Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM》译文

基于三维卷积神经网络和卷积LSTM的多模式手势识别

摘要

手势识别旨在识别有意义的人体运动，并且在智能人机/机器人交互中是至关重要的。在本文中，我们提出了一种基于三维卷积和卷积长短期记忆（LSTM）网络的多模式手势识别方法。该方法首先通过三维卷积神经网络学习手势的短时空特征，然后基于提取的短时空特征，通过卷积LSTM网络学习长时空特征。此外，多模式数据之间的微调进行了评估，我们发现当没有预训练模型时，它可以被认为是一种防止过拟合的可选技巧。我们对于所提出的方法在isoGD和SKIG数据集上进行验证。结果表明，我们提出的方法可以获得最先进的识别精度（IsoGD验证集为51.02％，SKIG为98.89％）。

关键字：三维卷积神经网络；卷积LSTM；多模式；手势识别

介绍

手势作为一种非言语身体语言，在人类日常生活中扮演着非常重要的角色。毫无疑问，它将在计算机视觉应用中具有重要意义，如人机交互[44]，手语识别和虚拟现实。手势识别旨在识别和理解人体的有意义的运动[5]。有效的手势识别仍然是一个非常具有挑战性的问题[6]，部分原因是文化差异，各种观察环境，噪声，图像中手指相对较小的尺寸，词汇外动作等。

在传统的手势识别中，主要使用手工特征和常规机器学习方法，例如，隐马尔可夫模型，粒子滤波，有限状态机和连接模型[5]。由于上述具有挑战性的因素，手工制作的特征不能完全满足实际手势识别系统的要求。随着深度学习理论的迅速发展[10]，数据驱动方法在图像分类[13]，图像分割[15]，物体检测[16]，场景识别[18]，人脸识别[19] ]，人类行为识别[20]和人类手势识别[21]。

与基于图像的应用程序不同，例如图像分类和场景标记，手势识别通常基于视频或骨架序列。只有一小部分手势可以从一张静态图像中识别出来。因此，时间信息在手势识别过程中起着关键作用。背景可能是场景识别或动作识别的有效提示。不幸的是，复杂的背景会给手势识别带来更多挑战，因为手势更多地集中在手和手臂的运动上。与整个场景相比，手和手臂的尺寸相对较小，因此手势的有效空间特征可能会在背景中被压倒。因此，时间信息比视频分类更能区分手势识别[20]。同时学习时空特征将为手势识别提供更多信息。

[22]中的双流卷积网络分别从RGB和叠加的光流图像中提取空间和时间特征。长期回归卷积网络（LRCN）[23]首先从每帧中学习空间特征，然后使用递归神经网络（RNN）基于空间特征序列学习时间特征。 VideoLSTM [24]使用卷积LSTM网络从先前提取的二维空间特征中学习时空特征。这三种代表性的方法分别或不同阶段地学习时空特征。在考虑各种背景的情况下，从视频同时学习时空特征对于手势识别将更加有效。例如，三维ConvNets [36]利用三维卷积神经网络（3-D CNN）直接学习时空特征。尽管如此，LSTM / RNN更适合于学习长期的时间信息。因此，针对长期依赖的应用，利用3D CNN学习短时空特征，通过RNN/LSTM学习长时空特征将会更加合理。完全连接的特征通常被用作LSTM [25]的输入，但是将空间相关性信息保持在LSTM过程中可以学习更多信息性的时空特征。所以，我们提出的方法中使用了卷积LSTM [26]。

本文提出了一种基于3D CNN和卷积LSTM的多模态手势识别方法，如图1所示。首先，利用3-D CNN从输入视频中提取短时空特征。然后利用卷积LSTM进一步学习长时空特征。最后，空间金字塔池（SPP）[40]被用来规范最终分类的时空特征。基于RGB和深度模态的网络分别被训练并且它们的预测被融合以获得最终的预测结果

这篇文章主要贡献如下：
1）针对孤立的手势识别，最早提出基于3D CNN和卷积LSTM的方法
2）对多模式数据之间的微调进行评估，并将其视为可选技巧，以防止在没有预先训练的模在时出现过拟合
3）IsoGD和SKIG数据集中展现较好的性能

本文的其余部分组织如下：第II部分回顾了手势识别的相关工作。第三部分给出了该方法的细节。第四部分介绍了实验和讨论。最后，第五节给出了结论和未来的工作。

所提出的方法

如图1和2所示。如图1和图2所示，所提出的深层架构由输入预处理，三维CNN，卷积LSTM，空间金字塔池和多模态融合五部分组成。

输入预处理

一般来说，手势包含三个时间重叠的阶段：准备，核心和撤回[38]。不同的人可能以不同的速度执行手势。这两个因素导致手势序列可能具有不同的长度。然而，几乎所有的手势识别神经网络都要求输入具有相同的大小。因此，输入的长度标准化是必要的。

一种方法是将每个手势序列分成具有固定长度的剪辑，但是一个剪辑不能表示整个手势。另一种方法是将每个手势序列下采样到固定长度L中。第二种方法在所提出的方法中使用。同时，采用时间抖动策略的均匀采样来增强数据集。具体来说，给定一个具有S个帧的手势序列，采样过程可以描述为：

I d x i = S L * (i + j i t / 2) (1)

其中Idxi是第i个采样帧的索引，jit是从-1和1之间的均匀分布采样的随机值。时间抖动可以增加数据集而不干扰每个采样帧的时序序列手势。采样结果可以表示为

U S = (i d x 1, i d x 2, i d x 3 . . . . . i d x L)

3D CNN

C3D [36]是一种用于人体动作识别的代表性三维卷积神经网络。所提出的深层架构中的3-D CNN组件是参照C3D模型设计的，如图3所示。Batch normalization [39]也用于加速深度网络训练。Batch normalization 使我们能够使用更高的学习速率，并且对初始化不太在意。在实验中这项研究还表明，使用Batch normalization时，训练将会有显着的加速。每个Conv3D层的内核大小为3×3×3，每个Conv3D层的步长和填充均为1×1×1的大小。四个Conv3D层的滤波器计数分别为64,128,256,256 。每个Conv3D图层（除conv3a外）后面都有一个Batch normalization和一个ReLU图层。 conv2之前的第一个汇聚层的内核大小为1×2×2，步长为1×2×2。这意味着在第一个Conv3D层上只执行空间汇聚。第二个池化层的内核大小为2×2×2，步长为2×2×2。这意味着时空池化在第二个Conv3D层上执行。这两个汇聚层使得3-D CNN组件的输出大小分别在空间大小和时间长度上缩小比例4和2。这意味着，如我们前面所述，三维CNN组件只能学习短时空特征。

Convolutional LSTM

传统的全连接方不需要考虑空间相关性。然而，卷积LSTM（convlstm）同时具有输入状态和状态转换的卷积结构，能够将时空观戏很好的建模[ 26 ]。
形式上，ConvLSTM的输入 X1,X2...Xt ，神经元状态 C1,C2,C3....Ct 和隐藏层状态 H1,H2,H3....Ht 都是三维张量，并且最后两维是空间维度。并且规定 o 为矩阵乘积，所以ConvLSTM可以表示为：

i t = σ (W x i * X t + W h i * H t - 1 + b i) (3)

f t = σ (W x f * X t + W h f * H t - 1 + b f) (4)

o t = σ (W x o * X t + W h o * H t - 1 + b o) (5)

C t = f t o C t - 1 + i t o t a n h (W x c * X t + W h c * H t - 1 + b c) (6)

h t = O t * t a n h (C t) (7)

其中σ是sigmod函数，Wx〜和Wh〜是二维卷积核。

如图2所示，在所提出的算法中部署了两级ConvLSTM。高级ConvLSTM层的最终输出被当做每个手势的最终长期时空特征。因此，最终时空特征的时间长度将为1.卷积核大小为3×3，步长为1×1。两级ConvLSTM层的卷积滤波器计数分别为256和384。在我们实现的ConvLSTM的卷积过程中执行’Same-Padding”，因此ConvLSTM不同阶段的时空特征具有相同的空间大小。具体而言，ConvLSTM的输出具有与所提出的深层架构中的3-D CNN的输出相同的空间大小。

Spatial Pyramid Pooling(空间金字塔池化)

由于3-D CNN仅在空间域上以小的4的比例缩小图像，并且ConvLSTM组件不改变特征图的空间大小，所以最终的长时空特征图具有相对高的空间大小（例如，由于3-D CNN的输入大小为112×112，因此在我们的实现中为28×28）。空间金字塔池[40]插入ConvLSTM和全连接（FC）层以降低维度; 这样最终的FC层可以拥有更少的参数。空间金字塔池化作为Bag-of-Words模型的扩展，是计算机视觉中最成功的方法之一。它可以汇集多层次的特征，并可以从任意大小的图像生成表示。

如图4所示，在所提出的深层架构中，对每个特征地图执行四级空间金字塔池化。 ConvLSTM的最终长时空特征地图的空间尺寸为28×28 =784，SPP层后各特征地图的尺寸为49 +16+4 +1=70.除了维数降低之外，SPP提取的多尺度特征也可以在一定程度上提高识别精度。

Multimodal Fusion(多模式融合)

多模态融合一般可以分为两类：早期多模态融合和晚期多模态融合[14]。早期多模态融合综合了多模式网络输入前的数据。这种方法可能存在问题，因为由于它们可能未经调整且不具有一致的特征，某些多模式数据不能直接融合。晚期多模式融合在网络晚期整合了多模态数据。这种方法可以分别根据数据的特征来训练不同的网络。在提出中方法，采用后期多模态融合，并通过平均值融合不同网络的预测得到最终的预测分数。

Experiment(实验)

在本节中，所提出的方法将在两个公共数据集上进行系统评估：ChaLearn LAP 的IsoGD[1]和Shefield Kinect手势数据集[2中进行。首先简要介绍这两个数据集。然后，将详细描述培训流程。最后，评估结果将分别报告

数据集介绍

略过，论文比较清楚

训练

提出的网络2是基于Tensorflow和Tensorlayer平台实现的。没有预先训练的模型与提出的深层架构兼容，因此网络从零开始进行培训。 Batch normalization使训练过程变得更加简单快捷。因此，使用更高的学习率并且需要更少的时间。我们首先从零开始对IsoGD数据集进行网络训练。初始学习率设置为0.1，并且每15,000次迭代降至1/10。重量衰减初始化为0.004，并在40,000次迭代后减小至0.00004。对于IsoGD的培训，最多需要60,000次迭代。然后，基于IsoGD的预训练模型，网络针对SKIG进行了微调。 SKIG的初始学习率为0.01，每5000次迭代降至1/10。在整个微调过程中，重量衰减设置为0.00004。 SKIG上的微调最多需要10,000次迭代。

对于IsoGD和SKIG，批量大小为13，每个剪辑的时间长度为32帧，每个图像的裁剪大小为112.一个NVIDIA TITAN X GPU用于训练每个网络。使用第III-A部分所述的具有时间抖动的均匀采样进行训练。只有统一的采样才能用于测试，以保持测试的准确性。基于RGB和深度模态的网络分别进行训练

由于在我们的训练中没有使用其他数据集的预训练模型，因此在实验中评估了IsoGD的跨模态微调策略。我们基于预先训练的深度模式模型对基于RGB的神经网络进行微调，反之亦然。在对IsoGD进行训练时，使用几种不同的训练策略来评估所提出的方法：

策略1：在3-D CNN组件的顶部添加一个额外的3-D池层（2×2×2核和2×2×2步），以评估影响 ConvLSTM的空间大小。在这种情况下，最终时空特征地图的空间大小是14×14，因此仅利用3级空间金字塔池（即，分箱的数量分别是1,4,16）

策略2：分别在IsoGD上从头开始基于RGB和深度图像进行训练。

策略3：基于针对IsoGD的深度模式的预先训练的模型微调基于RGB的神经网络，反之亦然。

Discussion(讨论)

一般来说，当对象可供性[42]不涉及手势时，背景对手势识别的信息量较小。在这种情况下，复杂的背景会对有效的手势识别带来负面影响。因此，学习时空特征同时成为有效手势识别方法的关键。三维卷积神经网络针对时空特征提取进行了很好的设计，而LSTM网络更适合于可变长度时间信息融合。因此，3-D CNN和卷积LSTM的集成可能是用于鲁棒手势识别的优秀框架。

对预先训练的模型进行微调是防止相对较小数据集过度拟合的一项重要技能，对预先训练的模型进行微调的本质是涉及更多的训练数据。手势的多模态数据被捕获不同的方式，从不同的角度表现不同的手势特征。因此，多模态也可以被看作是一种特殊的数据增强方法。跨模态微调也可以被认为是防止过度拟合的另一种实用技巧。

根据IsoGD的识别结果，对于所提出的方法，某些类型的手势很难识别。 1）所提出的方法不会将手的区域与整个场景分开，并且随机下采样策略在输入的长度标准化之后会丢失一些有效的快速和微小运动的运动信息，因此手部快速和微小运动的手势难以识别。 2）当大多数帧仅包含无意义的静态手势时，均匀下采样不能保留所有关键运动信息，因此这种手势也难以识别。 3）在实验中不能很好地识别具有可怕照明的手势序列。 4）非常类似的手势也很难区分。如果可以同时学习全局和局部特征，则多尺度特征可以提高手势的快速和微小移动的识别准确性。根据运动的有效性进行下采样或标准化可以是为手势识别保留有用的运动信息的可选技能。动态递归神经网络可能是学习有效的时空特征的更好选择，所述手势具有各种长度和随机执行时间和速度。

结论

在本文中，我们提出了一种基于三维卷积神经网络和卷积长短期记忆（LSTM）网络的多模式手势识别方法。评估结果表明，同时学习时空特征比连续或单独学习手势识别的空间和时间特征更合适。时空特征对于复杂的手势背景更加健壮。三维卷积神经网络是学习短时空特征的好选择，而卷积LSTM网络是长时空学习的较好选择。将来，我们将尝试通过用卷积网络替换所提出的深层架构的空间金字塔池层来学习每个手势的一个时空特征地图所表示的动态图像。手势总是有各种各样的长度，所以动态递归神经网络可用于我们未来作品中的连续手势识别。

参考文献

空间金字塔池化

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
el-dialog高度设置夏之小星星前端 vue.js elementui css
el-dialog高度设置::v-deep.el-dialog{height:78vh;overflow:auto;}
elementuiPlus取消el-input的边框 qq_39016177 elementui
elementuiPlus取消el-input的边框1.通常取消边框的方法设置border为none2.还有其他类似边框的例如outlinebox-shadow这两个属性都是会产生边框效果3.el-input需要更改的话–如下需要修改box-shadow为空即可上代码:deep(.el-input__wrapper){align-items:center;background-color:#F7F
【双语新闻】AGI安全与对齐，DeepMind近期工作曲奇人工智能安全 agi 安全 llama 人工智能
我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。byRohinShah,SebFarquhar,AncaDragan21stAug2024AIAlignmentForumWewantedtosharearecapofourrecentoutput
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
前端开发需要了解的算法知识史努比的大头算法前端
手写深拷贝functiondeepClone(obj){//处理基础数据类型和函数if(obj===null||typeofobj!=='object'){returnobj;}//处理数组if(Array.isArray(obj)){returnobj.map(item=>deepClone(item));}//处理对象constclonedObj={};for(constkeyinobj){i
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南汀、人工智能 LLM工业级落地实践人工智能自然语言处理 prompt Swifi DeepSpeed 通义千问 Qwen
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南阿里云于2023年8月3日开源通义千问70亿参数模型，包括通用模型Qwen-7B以及对话模型Qwen-7B-Chat，这也是国内首个开源自家大模型的大厂。在诸多权威大模型能力测评基准上，如MMLU、C-Eval、GSM8K、HumanEval、WMT22，通义千问7B均取得了同参数级别开源模型中的最好表现，
使用3DUNet训练自己的数据集（pytorch）— 医疗影像分割编程日记✧ 智能医疗 pytorch 人工智能 python 计算机视觉图像处理深度学习健康医疗
代码：lee-zq/3DUNet-Pytorch:3DUNetimplementedwithpytorch(github.com)文章<cicek16miccai.pdf(uni-freiburg.de)3DU-Net:LearningDenseVolumetricSegmentation
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C