小生凡一

你想知道的手势识别都在这里

基于YOLO+ResNet50的手势识别

（一）项目背景以及系统环境

本文所使用的深度学习框架为pytorch-gpu-1.7.1版本，python3.7版本，需要在特定的系统环境中运行。本文搭建实验所需要的系统环境如下所示。

1.1 项目背景

近年来，计算机视觉技术蓬勃发展，为生产和生活带来了巨大的变革。像是刷脸支付、无人驾驶等已经上市或即将走向成熟的技术，极大便利了我们的日常生活。但是我们观察到，目前市场上尚未出现一款完善的针对会议演示控制的计算机视觉产品。同时，由于新冠疫情的影响，加深了人们对于非接触式交互的需求，人们迫切需要一款非接触式的人机交互系统，来解决传统以键鼠为代表的接触式交互带来的卫生隐患。于是，为了填补这一大市场漏洞，我们团队研究并开发出了这一款基于手势识别的会议控制系统，借此提高会议的操作便利性和直观性。

1.2 硬件环境

系统最低配置要求：
GPU：GTX 550Ti(不支持A卡); CPU：i3三代及以上。
推荐配置：
GPU：GTX 1050Ti及以上(不支持A卡);CPU：i3五代及以上。

1.3 操作系统

实验平台所使用的操作系统为windows10。安装的支持库只要有python3.7，OpenCV-Python以Pytorch-gpu-1.7.1版本。

1.4 主要界面

1：程序调用默认摄像头。

2：确保开始时，用户手臂处于放松状态，程序将通过人物的位置自动确定基准参数，如：起始左右手锁定、人物起始位置、动作启动线等。

3：通过算法，程序实时追踪手的位置和特征状态并和对左右手的区分，并将结果实时反馈给预测对象。手离开动作起始线（即图中横线）后开始捕获动作轨迹，再次回到起始线下后输出预测结果到终端。

4：也可以设置控制模式，可以选择进行对PPT和图片管理器的操作（详情参考演示视频）。

1.5 开发工具

开发工具：

硬件信息表
硬件名称	规格	用途
摄像头	杂牌720P	获取视频流
影驰显卡	GTX1660 骁将	提供算力
CPU	I3-9100F	完成预测

软件信息表
软件名称	版本	说明
Python	3.7	主要运行环境
JDK	1.8	实现预测输出
Pytorch	1.7.1	算法使用框架
CUDA	11.0	提供GPU指令集架构

算法技术：

模型	作用
YoloV3	目标检测v1.0
YoloV5s	目标检测v2.0
MoblieNetV3_YoloV5s	目标检测v3.0
Resnet50	特征提取

（二）前期准备

2.1 前言

深度学习是一种通过大量数据不断的学习从而能够对未知数据进行检测识别的技术。因此为使手势识别模型能够自动及有效地对手势进行识别，需要先对手数据采取大量的高质量的数据，以便能够得到良好的识别模型。我们使用Yolo模型对目标进行检测，再从检测的结果的基础上使用ResNet50模型对手的二十一点进行特征的提取，再根据输出的二十一点的坐标进行手势的判断。

2.2 数据集准备

本项目所采集的手为会议场景下的基本手势。Yolo模型的数据集使用LabelImg工具进行标识图片。

Resnet模型的数据集使用开源项目的数据集https://codechina.csdn.net/EricLee/handpose_x进行训练。

2.3 Yolo数据集的标注

【数据标注】
本文采用的YoloV3算法是一种监督式学习方法，因此需要对输入到Yolo网络的图像数据进行标注即添上对应的标签，并且还需要满足该网络对图像数据格式的要求。本文使用LabelImg工具完成对手图像数据的标注工作，标注示意图如下图所示。

注意文件路径不要有中文！！

【标注文件】
在使用LabelImg工具对手进行图像数据进行标注时，会生成.xml文件。其内容如下所示。

<annotation>
	<folder>JPEGImagesfolder>
	<filename>0-19.jpgfilename>
	<path>D:\data\JPEGImages\0-19.jpgpath>
	<source>
		<database>Unknowndatabase>
	source>
	<size>
		<width>624width>
		<height>832height>
		<depth>3depth>
	size>
	<segmented>0segmented>

	<object>
		<name>Handname>
		<pose>Unspecifiedpose>
		<truncated>0truncated>
		<difficult>0difficult>
		<bndbox>
			<xmin>384xmin>
			<ymin>241ymin>
			<xmax>426xmax>
			<ymax>286ymax>
		bndbox>
	object>
annotation>

在使用LabelImg工具对手进行标注而生成的.xml文件中记录的内容如上所示。其中‘folder’标识所在文件夹的名称；‘filename’表示手图像的名称；‘path’表示手语图像数据存放的路径；‘size’表示图像的大小和深度；‘object’中的name为目标物体；最后的‘bndbox’存放的是边框坐标信息。示例中目标物体Hand的坐标信息为(384,241) (426,286)，其中前者表示边框的左上角坐标信息，后者代表边框的右下边的坐标信息。

2.4 ResNet50数据集

【数据标记】
本次手部关键点使用https://codechina.csdn.net/EricLee/handpose_x提供的数据集进行训练。
【标注文件】
{
“maker”: “Eric.Lee”,
“date”: “2021-02-01”,
“info”: [{“bbox”: [0.0,0.0,0.0,0.0],
“pts”: {
“0”: {“x”: 78,“y”: 95},“1”: {“x”: 72,“y”: 82},“2”: {“x”: 65,“y”: 72},
“3”: {“x”: 59,“y”: 69},“4”: {“x”: 55,“y”: 55},“5”: {“x”: 59,“y”: 65},
“6”: {“x”: 38,“y”: 69},“7”: {“x”: 36,“y”: 72},“8”: {“x”: 38,“y”: 72},
“9”: {“x”: 55,“y”: 72},“10”: {“x”: 36,“y”: 80},
“11”: {“x”: 38,“y”: 84},“12”: {“x”: 42,“y”: 91},
“13”: {“x”: 55,“y”: 82},“14”: {“x”: 36,“y”: 90},
“15”: {“x”: 40,“y”: 97},“16”: {“x”: 44,“y”: 99},
“17”: {“x”: 55,“y”: 93},“18”: {“x”: 40,“y”: 97},
“19”: {“x”: 42,“y”: 103},“20”: {“x”: 46,“y”: 103}}}]
}
首先非常感谢作者Eric.Lee辛苦做的训练集并开源分享出来，对此表示由衷的感谢。"maker"就是数据集的作者；"date"制作的日期；"info"中的"pts"里面的数据就是手部的二十一个关键点的坐标。

（三）Yolo V3

简介

Yolo (You Only Look Once)。
【Darknet-53】
Yolo V3 采用了 Darknet-53 的网络结构（含有 5 组残差模块）来提取特征。其网络结构采用了横纵交叉结构，并采用了连串的 3×3 和 1×1 卷积。其中， 3×3 的卷积增加通道数，而 1×1 的卷积在于压缩 3×3 卷积后的特征表示，同时 Darknet-53 为了防止池化带来的低级特征的丢失，采用了全卷积层，并且引入了 residual 结构。这意味着网络结构可以更好地利用 GPU，从而使其评估效率更高、速度更快。Darknet-53 作为特征提取层，最终每个预测任务得到的特征大小为 [3×(4+1+C)]。每个 grid cell 预测 3 个预测框，4 代表 4 是边界框中心坐标 bx，by，以及边界框 bw，bh，1 代表预测值，C 代表预测类别。最终 YoloV3 可以获取（16×10+32×20+64×40）个特征向量
【网络结构】
模型结构如下图：

3.1 模型训练

由于训练数据集仅有1000张左右，担心数据量较少不足以支撑模型的训练，因此通过对数据集进行左右与上下镜像处理来增强训练数据集，运行数据处理文件后，得到数据增强后的图片共4000张左右。
训练过程batch_size设置为8，初始learn_rate设置为1e-3。主干特征提取网络中，冻结训练可以加快训练速度，也可以在训练初期防止权重被破坏，所以我们的 Init_Epoch起始世代设置为0，Freeze_Epoch冻结训练世代设置为50。训练完一个Epoch之后，batch_size设置为4，将初始learn_rate设置为1e-4， Init_Epoch 起始世代设置为50，Freeze_Epoch冻结训练世代设置为100。
下图为三次训练后保存的模型文件，最终的Total_Loss在2.2左右。

从此可以看出loss收敛在2附近，考虑到继续训练可能会产生过拟合现象，训练完三次之后，停止训练。训练结束，得到最终的检测模型。

3.2 模型测试

通过测试集上测试模型的检测效果，如下图所示。

从上图可以看出检测效果非常好，训练好的模型可以准确识别出不同图片，不同形状的手。

选取了一些光线不足，噪点增加，目标被遮挡以及目标在复杂环境的图像进行测试，分析算法的环境适用性，如上图所示。在上图中，可以看出在灰暗环境，复杂背景的情况下，算法在不良条件环境下也可以做出正确的判断。

3.3 结果分析

【FPS】
在用摄像头进行测试中发现FPS在20-30之间。还是比较快的检测速度。

【mAP】
通常使用mAP来评估检测准确率，mAP的值越大，证明检测效果越好，在本次实验中，因为检测目标只有手这一类物体，因此在数值上，mAP的值等于AP值，AP值为召回率(ReCall)与准确率(Precision)所围成的R-P曲线面积；使用原YoloV3算法对同一数据集进行一次训练，对比三次检测检测的效果如下图所示。

由于在测试结果中，发现第三次的模型存在比较严重的过拟合现象，所以使用第二次训练的模型。

（四）ResNet50

在上述YoloV3完成手的检测后，需要对手进行单手二十一个特征点提取，即可对具体的手势进行判断，在实际会议中，并非每个人的手都在操作，即摄影设备的手势识别是一个开放集上的手势识别问题，其本质是度量学习。必须知道是哪一部分的人在进行手势操作。我们以ResNet50为基本框架对单手二十一点进行特征提取，采用Wing_Loss对训练过程进行监督，使得模型的识别具备较高类间可分性与类内紧凑性。
Wing loss的手部关键点检测算法，该方法利用级联回归方法以及转换机制，通过级联两个卷积神经网络，利用第一阶段产生的形状向平均形状转换得到的转换矩阵，进而将手部图片进行转换，第二阶段减小手部姿态对关键点检测的影响。为了能够利用全手的特征信息，同时平衡误差对关键点的影响提出了wing loss函数，兼顾大小误差对手部关键点准确性的影响。
Wingloss函数如下

4.1模型训练

【网络结构】

在神经网络中，残差网络可以在不影响网络性能的前提下解决梯度消失和梯度爆炸这两个问题。

残差网络通过加入ShortCutConnections，变得更易于优化。ResNet50是一个性能优良的残差网络模型，它包含49个卷积层和1个全连接层。
在ResNet50残差网络模型下，对比分析不同数量级的学习率对验证集正确率的影响，可以得到如下结论：

⑴ 学习率lr在过大的时候(lr=1e-2)，损失函数难以收敛，导致误差较大，验证集的准确率在80%附近剧烈波动。
⑵ 学习率lr在过小的时候(lr=1e-4)，损失函数在逐渐收敛，但是收敛速度太慢。
⑶ 当选择学习率lr=1e-3，则损失函数值收敛比较迅速。

通过以上分析我们最终选择学习率lr=1e-4。

4.2模型测试

在上述测试中我们可以看出，ResNet50对于手的特征提取还是十分有效的，只要能检测出目标，就能高效提取出手的特征。

4.3结果分析

下图为ResNet50训练的Loss结果。

我们可以发现最终的MeanLoss和BestLoss都在逐渐收敛于0.099左右。虽然可以不断迭代下取，使得模型对特征的提取效果更加显著，但考虑到GPU算力，时间以及其他问题，我们便到此停止训练ResNet50的模型。

（五）YoloV5

5.1简介

2020年4月23日YoloV4发布，2020年6月10日YoloV5发布。YoloV4对YoloV3的各个部分都进行了很多的整合创新，而YoloV5则是对YoloV4的细节进行优化。在本次实验中初始的目标检测模型是使用YoloV3，但由于YoloV3的检测效果的精度在复杂环境下稍有不足，例如当目标被遮挡时，虽然能检测出目标，当还是由于精度不高的问题，影响了后续手势的判断，以至我们的模型从YoloV3更改为YoloV5，并对YoloV5模型进行主干网络的换取，以便后续的ResNet50能更好提取特征。
【网络结构】
YoloV5的结构与YoloV4很相似，但是还有细节上的区别。

5.2 输入端

5.2.1 Mosaic数据增强。

V5的输入端沿用了V4的Mosaic数据增强的方式，通过随机缩放，随机剪裁，随机排布的方式进行拼接，对于小目标检测的效果有明显提高。

5.2.2 自适应锚框计算

在传统的Yolo算法中，针对不同的数据集，都会有初始设定的长宽的秒框，那么在网络训练中，网络在初始锚框的基础上输出预测框，进而与真实框进行对比，计算两者差距，再反向传播，迭代网络参数。V5对于V3、V4再这方面并不是固定的，而是将这个功能嵌入到了代码当中，每次训练中，都会自适应计算不同训练集中最佳的锚框值。

5.2.3 自适应图片缩放

在V5中对这方面进行了改进，首先是计算出缩放系数，原始图片的长宽都乘以最小的缩放系数，得到原本需要填充的高度。再对32(V5的网络经过5次下采样，而2的5次方=32。所以至少要去掉32的倍数)取余，得到像素点，再除以2，即得到图片高度两端需要填充的数值通过这种简单的改进，推理速度得到了37%的提升

5.3Backbone

5.3.1 Focus结构

V3、V4中并没有Focus结构，Focus结构是V5模型的一个创新点。其中关键点就是进行切片操作。比如下图的切片操作。

5.3.2 CSP结构

Yolov4网络结构中，借鉴了CSPNet的设计思路，在主干网络中设计了CSP结构。v5与v4不同点在于，v4中只有主干网络使用了CSP结构。而v5中设计了两种CSP结构，以Yolov5s网络为例，CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck中。

与yolov3的残差结构对比的话。
CSPnet结构并不算复杂，就是将原来的残差块的堆叠进行了一个拆分，拆成左右两部分：
主干部分继续进行原来的残差块的堆叠
另一部分则像一个残差边一样，经过少量处理直接连接到最后。(Part 2)
因此可以认为CSP中存在一个大的残差边。(Part1)

5.3.3Neck

Yolov5现在的Neck和Yolov4中一样，都采用FPN+PAN的结构，但在Yolov5刚出来时，只使用了FPN结构，后面才增加了PAN结构，此外网络中其他部分也进行了调整。

上图为原始的PANet的结构，可以看出来其具有一个非常重要的特点就是特征的反复提取，在（a）里面是传统的特征金字塔结构，在完成特征金字塔从下到上的特征提取后，还需要实现（b）中从上到下的特征提取。
Yolov4的Neck结构中，采用的都是普通的卷积操作。而Yolov5的Neck结构中，采用借鉴CSPnet设计的CSP2结构，加强网络特征融合的能力

5.4输出端

5.4.1 Bounding Box 损失函数

Yolov5中采用其中的GIOU_Loss做Bounding box的损失函数。

先计算两个框的最小闭包区域面积 (同时包含了预测框和真实框的最小框的面积)，再计算出IoU，再计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用IoU减去这个比重得到GIoU。
图片理解如下

两个框的最小闭包区域面积 = 红色矩形面积
IoU = 黄色框和蓝色框的交集 / 并集
闭包区域中不属于两个框的区域占闭包区域的比重 = 蓝色面积 / 红色矩阵面积
GIoU = IoU - 比重

5.4.2nms非极大值抑制

在目标检测的后处理过程中，针对很多目标框的筛选，通常需要nms操作。因为CIOU_Loss中包含影响因子v，涉及groudtruth的信息，而测试推理时，是没有groundtruth的。所以Yolov4在DIOU_Loss的基础上采用DIOU_nms的方式，而Yolov5中采用加权nms的方式。

5.5模型训练

5.5.1第一次训练情况

第一次训练结果

在上图中我们可以看出，上方的八个指标都在不断收敛于某一个值，但还是还没停止收敛，在测试集中的表现如下

左图为原始的标签文件的显示，右边为第一次的预测结果。可以看出虽然大部分的目标都已经检测出来了，但是精度还是不足。于是我们进行了第二次的训练。

5.5.2第二次训练情况

在上方的八张图，我们可以看出，在缩小范围的情况下，还是在波动，还没完全收敛，但是已经有了收敛迹象，在这里不得不提V5模型的数据增强

如下图所示。

通过数据增强，我们可以增加数据量，有益于防止过拟合现象。但是由于数据还没有完全收敛，所以我们就有了第三次的训练。

5.5.3第三次训练情况

第三次的训练结果，由于在训练到中途发现过拟合现象，并且马上停止训练。

由于中途停止并没有生成相关曲线，所以开启摄像头在明亮、灰暗、被遮掩的环境下进行测试，效果呈现不错。

测试的过程中，我们发现速度方面，V5s的检测速度十分优秀。

（六）YoloV5优化

6.1简介

6.1.1 模型假设

【模型优化】

介于YoloV5的轻便小巧的特点，我们的优化方案是将V5小巧的优点继续发扬，将原生V5中的网络结构替换成MoblieNetV3。在mobilenet中，会有深度可分离卷积(depthwise separable convolution)由depthwise(DW)和pointwise(PW)两个部分结合起来，用来提取特征feature map。相比常规的卷积操作，其参数数量和运算成本比较低。

【深度可分离卷积】
深度可分离卷积主要分为两个过程，分别为逐通道卷积（Depthwise Convolution）和逐点卷积（Pointwise Convolution）。

6.2 DC与PC

6.2.1逐通道卷积（Depthwise Convolution）

DC的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的feature map通道数和输入的通道数完全一样。一张5×5像素、三通道彩色输入图片（shape为5×5×3），DC首先经过第一次卷积运算，DW完全是在二维平面内进行。卷积核的数量与上一层的通道数相同（通道和卷积核一一对应）。所以一个三通道的图像经过运算后生成了3个Feature map。
DC完成后的Feature map数量与输入层的通道数相同，但无法扩展Feature map。而且这种运算对输入层的每个通道独立进行卷积运算，并没有有效的利用不同通道在相同空间位置上的feature信息。因此需要Pointwise Convolution来将这些Feature map进行组合生成新的Feature Map。

6.2.2逐点卷积（Pointwise Convolution）

PC的运算与常规卷积运算非常相似，它的卷积核的尺寸为 1×1×M，M为上一层的通道数。所以这里的卷积运算会将上一步的map在深度方向上进行加权组合，生成新的Feature map。有几个卷积核就有几个输出Feature map。经过PC之后，同样输出了4张Feature map，与常规卷积的输出维度相同。

6.3模型测试

【模型测试】
对改模型进行测试之后发现其检测模型非常轻量，只有不到5M的模型。我们从最初的四百兆到现在的不到五兆，我们通过对模型不断的压缩，以便后续的适配移动端设备。虽然模型的简化了，但是我们也发现精度没有之前的高效，所以也引发了我们的后续思考，有可能是新测试的数据的问题，也有可能是优化模型之后导致特征丢失的问题。我们将在后续不断进行完善，使得网络在轻量的情况下，精度也能跟上。

(七) 结语

这是我们团队的参加第十二届服务外包与创新创业大赛的题目（A12），然而并没有晋级，虽然很遗憾，但是这半年来，我们收获了很多，测试到凌晨四点，改网络，改文档改到头秃。

也感谢每一位团队小伙伴的辛苦付出。

现在是大二，虽然学长安慰我们说除了ACM其他都是水赛，但是我们还是很希望拿奖，也希望明年决赛答辩现场能有我们的位置。

从实验到文化 - “混沌日”与持续混沌 weixin_42587823 混沌数据库混沌
从实验到文化-“混沌日”与持续混沌第一部分：锻炼团队的“免疫系统”-混沌日(GameDay)什么是“混沌日”？混沌日是一场有计划、有组织的演习活动。在活动中，团队成员们齐聚一堂（无论是线上还是线下），在一个受控的环境中（理想情况是生产环境，但从预生产环境开始是更安全的选择），主动触发一次模拟的真实故障场景。它就像一次针对技术团队和系统的消防演习。它的价值何在？混沌实验不仅仅测试机器，它同样也测试人
2025 轻松部署 ERPNext linux
在数字化转型浪潮不断推进的2025年，企业对高效、灵活的企业资源计划（ERP）系统需求日益增长。作为一款开源且功能全面的ERP系统，ERPNext以其模块化、易用性和强大的自定义能力，受到越来越多中小企业的青睐。然而，部署ERPNext仍然是许多企业信息化过程中的一大挑战。本文将介绍如何借助云平台实现快速、轻松、安全地部署ERPNext系统。什么是ERPNext？ERPNext是一个开源的ERP系
Linux 定时任务
实现linux定时任务有:cron、anacron、at等，这里主要介绍cron服务。名词解释：cron是服务名称，crond是后台进程，crontab则是定制好的计划任务表。软件包安装：要使用cron服务，先要安装vixie-cron软件包和crontabs软件包，两个软件包作用如下：vixie-cron软件包是cron的主程序。crontabs软件包是用来安装、卸装、或列举用来驱动cron守护
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
标题：2025传统制造业护网实战指南：从合规防御到智能免疫的体系化进阶上海云盾商务经理杨杨网络
引言2025年，随着《工业互联网企业网络安全》三项国家标准全面实施，护网行动已从“合规检查”升级为“能力对抗”。传统制造业在数字化转型浪潮中，面临设备老旧、人才短缺、供应链风险激增等挑战，41.5%的企业计划年内增加安全预算。本文将结合新规要求与行业最佳实践，深度解析传统制造业如何构建“技术-管理-运营”三位一体的护网防御体系。一、传统制造业的护网困境：三大核心矛盾1.设备老旧化vs安全新标准历史
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
青少年编程与数学 02-022 专业应用软件简介 22 电子签名和合同管理平台：法大大明月看潮生编程与数学第02阶段青少年编程应用软件编程与数学电子签名合同管理
青少年编程与数学02-022专业应用软件简介22电子签名和合同管理平台：法大大引言一、法大大的背景与发展历程1.1公司概述1.2发展历程二、产品功能详解2.1核心功能介绍2.2特色功能展示三、应用场景案例分析3.1行业应用实例3.2成功案例分享四、技术安全保障措施4.1数据加密技术4.2风险控制体系4.3合规性审查五、市场地位与未来展望5.1市场份额与影响力5.2未来发展计划摘要：法大大是中国领先
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
rk3566开发之rknn npu 部署三十度角阳光的问候 rknn npu rk3566 目标检测
目录NPU使用RKNN模型非RKNN模型RKNN-Toolkit2工具RKNNNPU测试代码如下main.ccssd.cc调用ssd模型进行目标检测测试ssd.hqt中调用rknnnpu接口NPU使用RK3566内置NPU模块。使用该NPU需要下载RKNNSDK，RKNNSDK为带有NPU的RK3566/RK3568芯片平台提供编程接口，能够帮助用户部署使用RKNN-Toolkit2导出的RKNN
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
MySQL 统计信息详解：从原理到实践我科绝伦（Huanhuan Zhou） mysql mysql android 数据库
MySQL统计信息是数据库优化器生成查询执行计划的关键依据，记录了表和索引的基本特性，辅助优化器估算查询成本、选择最优执行路径。一、统计信息主要内容分为表级、索引级和列级三类。1.1表级统计信息描述表基本属性，如行数（TABLE_ROWS）、平均行长度（AVG_ROW_LENGTH）、数据大小（DATA_LENGTH）、索引大小（INDEX_LENGTH）、空闲空间（DATA_FREE）。获取方式
logback 入门教程系列-03-logback config 配置老马啸西风 logback
配置将日志请求插入应用程序代码需要相当多的计划和努力。观察表明，大约4％的代码专门用于记录。因此，即使是适度大小的应用程序也会在其代码中嵌入数千个日志记录语句。鉴于它们的数量，我们需要工具来管理这些日志语句。可以通过编程方式或使用以XML或Groovy格式表示的配置脚本来配置Logback。顺便说一句，现有的log4j用户可以使用我们的PropertiesTranslatorWeb应用程序将他们的
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
阿里开源WebSailor：超越闭源模型的网络智能体新星
WebSailor简介与开源背景在人工智能领域持续创新的浪潮中，阿里通义实验室于2025年7月正式开源了其突破性成果——WebSailor网络智能体。这一开源项目标志着中国企业在复杂推理与检索技术领域的重要突破，其设计初衷直指开源生态中长期存在的关键短板：面对超高不确定性任务时的系统性推理能力缺失。填补开源生态的关键空白WebSailor的诞生源于一个被长期忽视的技术鸿沟。根据斯坦福大学《2025
工程计划倒计时软件就这个最好用自定义日期+时间组合有效提醒进度
工程项目计划倒计时软件就这个最好用自定义日期+时间组合有效提醒进度在工程项目管理中，精准把控时间节点至关重要，一款好用的倒计时软件能让进度管理事半功倍。而“芝麻倒计时”就是这样一款专为时间管理设计的工具，尤其适合工程计划的进度跟踪，其自定义日期与时间组合的功能，能有效提醒每一个关键节点，让工程推进更有序。我们需要准备一个【芝麻倒计时】软件（https://countdown.zhimasoft.c
洛谷 P2107 小Z的AK计划 zhanghengjie20120214 算法 c++贪心算法
题目描述在小Z的家乡，有机房一条街，街上有很多机房。每个机房里都有一万个人在切题。小Z刚刷完CodeChef，准备出来逛逛。机房一条街有n个机房，第i个机房的坐标为xi，小Z的家坐标为0。小Z在街上移动的速度为1，即从x1到x2所耗费的时间为∣x1−x2∣。每个机房的学生数量不同，ACM题目水平也良莠不齐。小Z到达第i个机房后，可以花ti的时间想题，然后瞬间AK；当然，也可以过机房而不入。小Z现在
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
mongod源代码Find的QueryPlanner::plan评分最高计划put到cache流程分析 cookqq 算法 mongodb 数据库 nosql sql
db.user.find({age:28})命令QueryPlanner::plan()只会生成一个执行计划，_pickBestPlan直接选择这个计划。db.user.find({age:28}).sort({wages:1})命令QueryPlanner::plan()会生成两个执行计划，_pickBestPlan循环执行两个计划，根据返回结果等参数进行评分，选择评分高的计划执行。如果db.u
如何使用小红书矩阵系统：提升内容管理与发布的指南
小红书作为一个集社区分享与电商功能于一体的平台，吸引了大量的用户和创作者。随着内容创作和账号管理的复杂性增加，小红书矩阵系统成为了一个强大的工具，帮助用户提高效率和扩大影响力。本文将详细介绍如何使用小红书矩阵系统，以优化您的内容管理和发布策略。小红书矩阵系统简介小红书矩阵系统是一个集成解决方案，旨在帮助用户高效地管理多个账号、创作内容、安排发布计划，并通过智能工具提升用户体验。它通常包含以下核心功
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
MySQL数据库进阶(八)———查询优化与执行计划深度解析【本人】数据库数据库 mysql
前言在掌握了索引原理后，我们将深入MySQL最核心的性能优化领域——查询优化与执行计划分析。本文将从优化器工作原理到实战调优技巧，全方位提升你的SQL性能优化能力。一、查询优化的本质：从分钟级到毫秒级的蜕变查询优化是数据库系统的核心能力，MySQL通过优化器将SQL转换为高效执行计划。优化前后的性能差异可能达到千倍级：--优化前（执行时间12.8秒）SELECT*FROMordersoJOINus
Android补全计划 TextView添加删除线、下划线、更新字体等效果 Greenland_12 Android补全计划 android
1可在布局中直接更新可在布局中直接更新的：加粗、斜体、字体;其中字体文件需要放在res/font/your_font.ttf下2java动态设置需动态设置的:删除线、下划线，加粗和字体也可动态设置，且需要放于app/src/main/assets/fonts/xxx.ttf下java中txt1=((TextView)findViewById(R.id.txt1));txt2=((TextView)
CosyVoice2.0整合包：免费一键启动，释放语音克隆的创意潜能 VXHAruanjian888 人工智能
引言语音克隆技术正在重塑内容创作与技术开发的边界，而CosyVoice2.0整合包以其简单易用和强大功能，成为语音合成领域的耀眼新星。无论你是短视频制作者、程序员，还是对AI语音技术感兴趣的探索者，这款完全免费的整合包都能让你轻松上手，体验专业级语音克隆的无限魅力。本文将详细介绍CosyVoice2.0整合包的特色、使用方法以及如何通过超链接免费下载，助你快速开启语音克隆的创意之旅！立即点击以下链
Session：在多个请求之间跟踪用户状态
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录一、Session的基本概念1.SessionID2.Session数据
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓