机器视觉CV

人脸表情识别从 0 到部署，猜猜『轮到你了』的微笑狼人到底是谁！

更多内容请关注『机器视觉CV』公众号，提供免费GPU

本文实现了从项目调研、数据收集、数据预处理、深度卷积神经网络训练再到服务器部署，实现了一个人脸表情识别的小项目，非常适合一直在学习，但是找不到合适的练手项目的同学。

0 项目成果

先展示一下我的结果。我们测试的图片当然是当前最热的 nihongo 电视剧『轮到你了』的 CP 二阶堂和黑岛了

有兴趣的朋友可以扫码进行体验，会跳转到我的网站，选择图片文件上传，Upload 后就会返回预测结果，其中 smile 表示微笑，pout 表示嘟嘴，no-smile 表示中性表情。那么接下来就开始我们整个项目的讲解了

本项目整理完成后会上传所有代码到 Github 上，会有详细的代码注释，欢迎查阅！https://github.com/FLyingLSJ/Computer_Vision_Project

1 说在前面

作为一名机器学习的爱好者，提升自己的最好的方式就是参与一项项目，那么什么才能够称作项目呢？训练过 MNIST 数据集？做过 dogs VS. cats？想必这很难被称作一个项目，放在简历上，想必不能让 HR 看到闪光点，之前有幸阅读到陈老师的『接地气学堂』的文章《我没有项目经验，怎么办？》，里面很详细的介绍了什么项目的定义、个人在项目中的角色、以及判断项目的成败等等，非常具有启发性。简单总结如下：

项目定义：给定时间费用的限制，达成特定的目的的工作
个人在项目中的角色：参与（某个环节）、主导（负责人）、独立承担
判断项目成败：开头的目标是什么，达成了就算成功，没达成就算失败。就算没有参加整个项目的流程，也需要关注子项目（自己做的部分）的成败
项目的是否高级：在规定时间、费用范围内产出更大的、投入更少的，都是“高级”项目；产出率低，耗时耗力多的就是“低级”项目

我将其做成了思维导图，可以在后台回复 思维导图 获取

作为机器学习爱好者，并且以后想从事相关工作的我一直在思考如何创造出一个项目来，尽可能的去模拟企业开发产品的流程，让自己提前以实际开发者的心态来开发一款产品或者服务。于是我选择以人脸表情识别做为我的实战项目

2. 为什么是人脸表情分类

机器学习入门时我们一般是以现成的数据集，官方的 Demo 作为开始，一步步调节参数，达到我们所需要的精度。但是在实际的企业开发流程中，往往涉及到流程之多，工程问题的细节也非常多（虽然我现在也是学生，但是据我了解大致的流程应该也差不多）

老板/业务发起需求
确定业务组成
项目调研：市场调研、算法调研
确定算法及收集数据
确定框架、基准模型
服务端部署

人脸表情分类整个项目涉及到几个方面，如数据采集、数据预处理、人脸检测、人脸关键点检测、深度学习模型训练、模型在线部署等，不仅涉及到传统的机器学习，也与深度学习的相关知识紧密结合。故以人脸表情识别作为实战再合适不过了

3. 项目调研

开始一个项目之前，肯定是做调研啦，调研包括市场调研和算法调研

市场调研

市场调研需要了解市面上有没有相似的服务或者产品，如 APP、小程序、网页等；选中的方案是否有市场需求，是否有成熟的竞争对手和市场；看看我们所服务的内容的目标用户（年龄层次、地域分布）、市场份额以及潜在的竞争对手、是否已经达到落地水准。没有充分的调研，有可能你的产品做出来了，但是其实市场上已经有成熟的产品，那么前期投入的所有资源都白白浪费。所谓人无我有、人有我优、人优我廉、人廉我走 ，做到知根知底，不至于做出来时心里落差太大

当然，对于我们这个小型的项目可能并不需要有上面的整个流程，但是大致也相似，我们需要了解市场上相似的产品，这里当然就是市面上有没有人脸表情识别的软件、小程序、API 等等

在此之前，我们先简单介绍一下人脸表情识别的几个应用场景

微表情在情绪识别任务上的可靠度很高, 对表情情感识别任务有潜在的利用价值, 如婚姻关系预测、交流谈判、教学评估等.除了用于情感分析, 研究人员观察到了有意说谎时产生的微表情经过微表情识别训练, 普通人识别说谎的能力得到提高
在金融领域，有报道显示，将微表情结合知识图谱的指南回答引擎，可以识别银行客户是否有欺诈风险
智能家居：识别用户的行为，智能调节电器，更具智能化
自动驾驶：监测分析驾驶过程中出现的分心、疲劳以及相关负面情绪波动，结合驾驶辅助系统提升驾驶安全
教育领域：实时测量学习者对学习内容与学习过程中的情绪变化（如注意力集中、理解困惑、厌恶度等）

接下来就是现有产品的测试啦！

百度 AI 体验中心

在微信小程序搜索百度 AI 体验中心，可以体验人脸与人体识别、语音技术等功能

旷视人工智能平台

在旷视人工智能平台 https://www.faceplusplus.com.cn/emotion-recognition/ 申请表情识别的 API 进行测试，测试结果如下：在返回的结果中，微笑的程度是一个值为 [0,100] 的浮点数，小数点后 3 位有效数字。数值越大表示笑程度高。在程序处理中，我设定阈值为 60 ，即大于 60 就认为是微笑表情。

其他：面向企业的产品

希亚思（上海）信息技术有限公司：http://www.cacshanghai.com/www/index.php?m=page&f=view&pageID=124

平安云：https://yun.pingan.com/ssr/smart/WBQ

其中平安银行在微表情国际权威评测OMG微表情竞赛上获得第一名，可见平安银行在人脸表情识别上的技术突破。

以及最近很火的 ZAO ，也是和人脸识别有关的～

算法调研

完成市场调研，接下来就是算法调研了，所谓的算法调研就是我们现在做的项目所使用的算法是什么，所能达到的精度如何

主要从几个方面入手：Paper 看看别人的文章，在知网或者 Google 学术上都能找到相关的文章，找找有没有相关的竞赛或者数据集，行业媒体报道也是一种手段，比如虎嗅、36Kr 都会发布相关的行业深度文章。

人脸微表情识别综述：http://html.rhhz.net/ZDHXBZWB/html/20170302.htm
基于SIFT算法的多表情人脸识别：http://html.rhhz.net/YJYXS/html/yj20161209.htm

并且看一下 Github 上面上是否已经有相关的开源项目

4. 数据收集

巧妇难为无米之炊，没有数据集的支撑，那么再厉害的深度学习模型也寸步难行，在开始训练模型之前我们要收集数据，基本的思路是先看看是否有开源数据集、若没有开源数据集，那么考虑互联网这个大宝库进行爬虫采集

本项目主要识别三种表情，分别是微笑、嘟嘴、中性表情，故我们所需要的数据也是围绕这三个表情展开的

首先，我们查找开源的数据集，可以从各大竞赛平台开始，比如 Kaggle 本身就是一个数据大宝库，我们发现在 Kaggle 上有个 CelebFaces Attributes (CelebA) Dataset 竞赛，里面提供的数据包含 202599 张图片，每张图片共有 40 个属性，我们用到其中的 smiling 属性，每个类别选取 5-6k 图片，把图片拆分成微笑表情和中性表情两个文件夹

在采集到微笑和中性表情以后，接下来就是寻找有关嘟嘴的表情，笔者在网络上搜了一圈，找不到有关嘟嘴的表情，那么接下来考虑爬虫采集了。若你没有爬虫相关的知识，那么要在这一步就停滞不前了吗？不！Github 总有你要的资源～

本项目使用的以下开源的图片爬虫项目：关键词 “嘟嘴 pout”

https://github.com/sczhengyabin/Image-Downloader

下载下来为一个 exe 文件，运行并设置关键的参数，就可以从三大搜索引擎中爬取相关的图片

https://github.com/kong36088/BaiduImageSpider：该项目只要下载下来，修改你要下载图片的关键词就能从百度上下载图片

通过以上方法，我从互联网上爬取了 1200+ 图片作为“嘟嘴”表情的训练集

5. 数据预处理

上一步中，我们从不同渠道获取到了训练集，那么在训练模型之前要对数据集进行清洗与整理，大致包括以下几个方面（详细可以参见下面的思维导图，注：思维导图中的内容整理自《深度学习之图像识别–核心技术与案例实战》作者：言有三）

数据规范化处理
数据整理分类
数据去噪
数据去重
数据存储与备份

数据处理在整个项目中占比的时间也非常多、处理起来比较繁琐但是却是关键的一环，笔者在这个步骤花费了不少时间。

最终获取到的图像如下所示，那是不是意味着我们就可以马上开始搞模型，就开始训练了，事实上并非如此。如果有对微表情有了解的同学应该知道，人脸的表情是由面部结构决定的，如嘴巴、眉毛、眼睛、鼻子都会影响表情的表达，在本项目中，我们想实现的是嘴巴区域对表情的决定性，故我们可以将问题进行简化，我们只关注嘴巴的区域，这一区域影响了我们表情的表达。

对此，我们可以对采集下来的图像进行进一步的处理，把嘴巴区域给裁剪出来，作为我们模型的输入，一般裁剪下来的图片在 60-70 分辨率左右，对比把原图送进模型训练，这样子做大大降低了我们模型的训练时间。现在有很多人脸检测算法已经相当成熟，我们使用的是 OpenCV＋dlib 这两个图片处理的库。在开始之前，我们需要安装他们，对于 OpenCV 安装比较简单，而对于 dlib 的安装，我们给出 Windows 和 Linux 下的安装方法，安装之前需要去 https://pypi.org/simple/dlib/ 下载与设备向匹配的 whl 文件，通过 whl 的方法进行安装

# Windoes 和 Linux 下安装 OpenCV
pip install opencv-python 
# 若出现：libXrender.so.1: cannot open shared object file: No such file or directory
# 考虑安装下面的包
apt-get install libsm6
apt-get install libxrender1
apt-get install libxext-dev

# Windows 下安装 dlib 
pip install *.whl   # * 是下载下来的 whl 文件的名字，安装过程比较缓慢，请耐心等待

# Linux 下安装 dlib
sudo apt-get install build-essential cmake
sudo apt-get install libgtk-3-dev
sudo apt-get install libboost-all-dev
pip install dlib

经过关键点检测后，得到的效果如下所示，在本文中，我们使用的是 68 关键点检测，故只要提取出标号 48-67 的点周围的区域（嘴巴区域）即可

最终得到的结果如下所示：数据集大小是：微笑和中性表情各 1000 张，嘟嘴表情经过处理以后最终剩下 761 张

我们对数据集进行 9:1 的比例进行拆分，拆分成训练集和测试集

6. 选择框架基准模型

得到我们目标的数据集，那么下一步就是着手开始训练了，我们选择 Pytorch 这个深度学习框架，之后我们需要确定一个基准模型，由于我们的数据数量上并不是很多。若想要将深度学习应用于小型图像数据集，一种常用且非常高效的方法是使用预训练网络。预训练网络（pretrained network）是一个保存好的网络，之前已在大型数据集（通常是大规模图像分类任务）上训练好。如果这个原始数据集足够大且足够通用，那么预训练网络学到的特征的空间层次结构可以有效地作为视觉世界的通用模型，因此这些特征可用于各种不同的计算机视觉问题，即使这些新问题涉及的类别和原始任务完全不同。举个例子，你在 ImageNet 上训练了一个网络（其类别主要是动物和日常用品），然后将这个训练好的网络应用于某个不相干的任务，比如在图像中识别家具。这种学到的特征在不同问题之间的可移植性，是深度学习与许多早期浅层学习方法相比的重要优势，它使得深度学习对小数据问题非常有效

一句话总结上面这一段就是，使用别人在大规模数据上训练的模型好参数，我们只修改最后的分类参数，然后应用到我们的数据集上，通常效果并不差，但是，由于我们的输入数据较小（只包含嘴巴区域，图像的像素在 50×50 左右，经典的神经网络的输入是 224×244 ），不能符合大部分基准模型的输入要求，故自行设计了一个简单的卷积神经网络，Pytorch 框架的代码如下：

class simpleconv3(nn.Module):
    def __init__(self):
        super(simpleconv3,self).__init__()
        self.conv1 = nn.Conv2d(3, 12, 3, 2)
        self.bn1 = nn.BatchNorm2d(12)
        self.conv2 = nn.Conv2d(12, 24, 3, 2)
        self.bn2 = nn.BatchNorm2d(24)
        self.conv3 = nn.Conv2d(24, 48, 3, 2)
        self.bn3 = nn.BatchNorm2d(48)
        self.fc1 = nn.Linear(48 * 5 * 5 , 1200)
        self.fc2 = nn.Linear(1200 , 128)
        self.fc3 = nn.Linear(128 , 3)

    def forward(self , x):
        x = F.relu(self.bn1(self.conv1(x)))
        #print "bn1 shape",x.shape
        x = F.relu(self.bn2(self.conv2(x)))
        x = F.relu(self.bn3(self.conv3(x)))
        x = x.view(-1 , 48 * 5 * 5) 
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

7. 模型训练

由 ResNet18 作为基准模型，冻结所有的卷积层，只更改最后的分类器，以 Adam 优化器训练 500 个轮次得到如下结果，精度在 90% 左右，由于使用的是其他深度学习平台的算力，平台暂时无法下载训练结果的图片，所以截图了模型的训练精度及验证精度如下，总共 500 个轮次，可以看出在 260batch 左右网络就已经收敛了

模型训练精度曲线

模型验证精度曲线

8. 服务器部署

前端

模型训练完成以后，我们得到了一个以 .ckpt 为后缀的模型文件，我们将这个模型放到服务器，为了得到友好的交互，我们需要编写前端和后端处理的程序，前端我们使用的是 Flask 框架，根据官方的教程 https://dormousehole.readthedocs.io/en/latest/ 结合 html 的模板，我们很快就能搭建出一个简单的 web 界面，包括一个上传文件按钮和图片显示页面以及文字描述等，整体效果如下：

from flask import Flask, request
from flask import render_template
import time
from expression_demo import expression_predict  # 表情预测项目

system_path = "./"
app = Flask(__name__)  # 创建一个 Flask 实例，使用单一模块，应该使用 __name__

@app.route('/')
def hello(imgPath=None):
    return render_template('index.html', imgPath=system_path+"static/image/logo.jpg")

@app.route('/upload', methods=['POST'])
def upload(imgPath=None, result="None"):
    file = request.files['file']
    fileName = file.filename
    filePath = system_path+"static/image/"+fileName    # 图片路径
    if file:
        file.save(filePath)
        result = expression_predict(filePath)
        if result is None:
            result = "could not found your beauty face"
        return render_template('index.html', imgPath=system_path+"static/image/"+fileName, result=result)
    else:
        return render_template('index.html', imgPath=system_path+"static/image/logo.jpg")

if __name__ == '__main__':
    app.run(host="0.0.0.0") #

后端处理

后端处理就是对用户上传的图片进行处理，包括我们前期所作的一些工作，如：读取用户上传的图片、进行人脸检测、人脸关键点检测、图片裁剪以及预测返回等操作，我们将预测功能封装成一个函数，然后在主函数中直接调用即可，以后的每一个项目都封装成单独的一个函数，直接做调用就能实现相关的功能

from expression_demo import expression_predict  # 表情预测项目，将所有处理的函数写在一个 py 文件中，在主函数中进行导入

代码上传服务器

将部署的代码上传至服务器，并将主代码运行至后台，这样，服务器就能一直工作了，将代码运行至后台的代码如下，其中 main.py 就是你的主要函数啦！

至此，所有的步骤都已完成！

9. 总结与思考

在本项目中，我们从 0 开始实现了一个人脸表情识别的项目，从项目调研、数据收集、数据预处理、人脸检测、深度学习模型的训练再到前端编写、服务器部署等，基本上走过了一款小产品开发的所有流程。

在公司里面，可能一个项目有不同方向的员工参与，如前端工程师、后端工程师、算法工程师等，但是自己做项目的话，整个流程都需要你自己做，相当于全栈工程师的工作量，是对个人能力很好的锻炼，整个流程做下来，多多少少都会遇见不少的坑，但是只要耐心去解决，都是很好的成长机会，就像笔者对前端和服务端的知识并不熟悉，在其中遇到了非常多的坑。在往下思考，其实本项目还是有很多需要思考的地方

这些都是实实在在的痛点所在，如下：

光照角度、侧脸等都会影响到人脸的检测，从而影响后续的预测结果
如何继续提高模型的精度
服务端遇到大的请求如何处理
WEB 端的一些请求的逻辑处理等等

由于个人知识水平有限，欢迎提出意见～

参考：

《深度学习之图像识别–核心技术与案例实战》作者：言有三
https://github.com/tinypumpkin/face_process
https://github.com/foamliu/Facial-Expression-Prediction
http://www.cvmart.net/community/article/detail/211
https://www.thoughtworks.com/insights/blog/emopy-machine-learning-toolkit-emotional-expression
https://www.digitalocean.com/community/tutorials/how-to-serve-flask-applications-with-uswgi-and-nginx-on-ubuntu-18-04
https://www.digitalocean.com/community/tutorials/how-to-install-nginx-on-ubuntu-18-04#step-4-–-managing-the-nginx-process

欢迎关注：机器视觉CV 公众号

智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &