背包_十年

[调研报告]人脸识别

一、前述

1. 发展

以往的人脸识别主要是包括人脸图像采集、人脸识别预处理、身份确认、身份查找等技术和系统。现在人脸识别已经慢慢延伸到了ADAS中的驾驶员检测、行人跟踪、甚至到了动态物体的跟踪。由此可以看出，人脸识别系统已经由简单的图像处理发展到了视频实时处理。而且算法已经由以前的Adaboots、PCA等传统的统计学方法转变为CNN、RCNN等深度学习及其变形的方法。现在也有相当一部分人开始研究3维人脸识别识别，这种项目目前也受到了学术界、工业界和国家的支持。

之后的内容主要参考了下面的链接，这个链接详细总结了人脸识别算法的发展。

face recognition home page。
人脸识别经典论文

2. 现状

2.1 研究现状

首先看看现在的研究现状。如上的发展趋势可以知道，现在的主要研究方向是利用深度学习的方法解决视频人脸识别。

主要的研究人员：
如下：中科院计算所的山世光教授、中科院生物识别研究所的李子青教授、清华大学的苏光大教授、香港中文大学的汤晓鸥教授、Ross B. Girshick等等。下面有一个连接主要是汇总了当前计算机视觉方向的牛人和实验室：计算机视觉研究人员汇总。

主要开源项目：

SeetaFace人脸识别引擎。该引擎由中科院计算所山世光研究员带领的人脸识别研究组研发。代码基于C++实现，且不依赖于任何第三方的库函数，开源协议为BSD-2，可供学术界和工业界免费使用。github链接：github链接，seetaface开源系统的介绍如下：seetaface介绍。

主要软件API/SDK:

face++。Face++.com 是一个提供免费人脸检测、人脸识别、人脸属性分析等服务的云端服务平台。Face++是北京旷视科技有限公司旗下的全新人脸技术云平台，在黑马大赛中，Face++获得年度总冠军，已获得联想之星投资。
skybiometry.。主要包含了face detection、face recognition、face grouping。

主要的人脸识别图像库：
目前公开的比较好的人脸图像库有LFW（Labelled Faces in the Wild）和YFW（Youtube Faces in the Wild）。现在的实验数据集基本上是来源于LFW，而且目前的图像人脸识别的精度已经达到99%，基本上现有的图像数据库已经被刷爆。下面是现有人脸图像数据库的总结：

2.2 应用现状

现在在中国做人脸识别的公司已经越来越多，应用也非常的广泛。其中市场占有率最高的是汉王科技。主要公司的研究方向和现状如下：

汉王科技：汉王科技主要是做人脸识别的身份验证，主要用在门禁系统、考勤系统等等。
科大讯飞：科大讯飞在香港中文大学汤晓鸥教授团队支持下，开发出了一个基于高斯过程的人脸识别技术–Gussian face，该技术在LFW上的识别率为98.52%，目前该公司的DEEPID2在LFW上的识别率已经达到了99.4%。汤晓鸥老师实验室链接。
川大智胜：目前该公司的研究亮点是三维人脸识别，并拓展到3维全脸照相机产业化等等。
商汤科技：主要是一家致力于引领人工智能核心“深度学习”技术突破，构建人工智能、大数据分析行业解决方案的公司，目前在人脸识别、文字识别、人体识别、车辆识别、物体识别、图像处理等方向有很强的竞争力。在人脸识别中有106个人脸关键点的识别。

二、简述

这一部分将简述人脸识别中主要用到的技术。包含人脸识别的过程、人脸识别分类以及人脸识别算法发展。我将先简单的从图像人脸识别过程开始阐述，最后重点将放在人脸跟踪。

1. 人脸识别的过程

人脸识别主要分为四大块：人脸定位（face detection）、人脸校准（face alignment）、人脸确认（face verification）、人脸鉴别（face identification）。下面的概念主要参考自：deep face recognition。

人脸定位（face detection）：
对图像中的人脸进行检测，并将结果用矩形框框出来。在openCV中有直接能拿出来用的Harr分类器。

人脸校准（face alignment）：
对检测到的人脸进行姿态的校正，使其人脸尽可能的”正”，通过校正可以提高人脸识别的精度。校正的方法有2D校正、3D校正的方法，3D校正的方法可以使侧脸得到较好的识别。在进行人脸校正的时候，会有检测特征点的位置这一步，这些特征点位置主要是诸如鼻子左侧，鼻孔下侧，瞳孔位置，上嘴唇下侧等等位置，知道了这些特征点的位置后，做一下位置驱动的变形，脸即可被校”正”了。如下图所示：

这里介绍一种MSRA在14年的技术：Joint Cascade Face Detection and Alignment（ECCV14)。这篇文章直接在30ms的时间里把detection和alignment都给做了。

人脸确认（face verification）：

Face verification，人脸校验是基于pair matching的方式，所以它得到的答案是“是”或者“不是”。在具体操作的时候，给定一张测试图片，然后挨个进行pair matching，matching上了则说明测试图像与该张匹配上的人脸为同一个人的人脸。一般在小型办公室人脸刷脸打卡系统中采用的（应该）是这种方法，具体操作方法大致是这样一个流程：离线逐个录入员工的人脸照片（一个员工录入的人脸一般不止一张），员工在刷脸打卡的时候相机捕获到图像后，通过前面所讲的先进行人脸检测，然后进行人脸校正，再进行人脸校验，一旦match结果为“是”，说明该名刷脸的人员是属于本办公室的，人脸校验到这一步就完成了。在离线录入员工人脸的时候，我们可以将人脸与人名对应，这样一旦在人脸校验成功后，就可以知道这个人是谁了。上面所说的这样一种系统优点是开发费用低廉，适合小型办公场所，缺点是在捕获时不能有遮挡，而且还要求人脸姿态比较正（这种系统我们所有，不过没体验过）。下图给出了示意说明：

人脸识别（face identification/recognition）：
Face identification或Face recognition，人脸识别正如下图所示的，它要回答的是“我是谁？”，相比于人脸校验采用的pair matching，它在识别阶段更多的是采用分类的手段。它实际上是对进行了前面两步即人脸检测、人脸校正后做的图像（人脸）分类。

根据上面四个概念的介绍，我们可以了解到人脸识别主要包括三个大的、独立性强的模块：

我们将上面的步骤进行详细的拆分，得到下面的过程图：

2. 人脸识别分类

现在随着人脸识别技术的发展，人脸识别技术主要分为了三类：一是基于图像的识别方法、二是基于视频的识别方法、三是三维人脸识别方法。

基于图像的识别方法：
这个过程是一个静态的图像识别过程，主要利用图像处理。主要的算法有PCA、EP、kernel method、 Bayesian Framwork、SVM 、HMM、Adaboot等等算法。但在2014年，人脸识别利用Deep learning 技术取得了重大突破，为代表的有deepface的97.25%、face++的97.27%，但是deep face的训练集是400w集的，而同时香港中文大学汤晓鸥的Gussian face的训练集为2w。

基于视频的实时识别方法：
这个过程可以看出人脸识别的追踪过程，不仅仅要求在视频中找到人脸的位置和大小，还需要确定帧间不同人脸的对应关系。

3. 总结思路

我们先从DeepFace谈起,DeepFace有一个系列从DeepFace 到 DeepId系列，然后最终回到人脸跟踪（face tracking）。

三、DeepFace

参考论文(资料)：
1. DeepFace论文。DeepFace：Closing the Gap to Human-level Performance in Face Verificaion
2. 卷积神经网络了解博客。http://blog.csdn.net/zouxy09/article/details/8781543
3. 卷积神经网络的推导博客。http://blog.csdn.net/zouxy09/article/details/9993371/
4. Note on convolution Neural Network.
5. Neural Network for Recognition of Handwritten Digits
6. DeepFace博文：http://blog.csdn.net/Hao_Zhang_Vision/article/details/52831399?locationNum=2&fps=1

DeepFace是FaceBook提出来的，后续有DeepID和FaceNet出现。而且在DeepID和FaceNet中都能体现DeepFace的身影，所以DeepFace可以谓之CNN在人脸识别的奠基之作，目前深度学习在人脸识别中也取得了非常好的效果。所以这里我们先从DeepFace开始学习。

在DeepFace的学习过程中，不仅将DeepFace所用的方法进行介绍，也会介绍当前该步骤的其它主要算法，对现有的图像人脸识别技术做一个简单、全面的叙述。

1.DeepFace的基本框架

1.1 人脸识别的基本流程

face detection -> face alignment -> face verification -> face identification

1.2 人脸检测（face detection）

1.2.1 现有技术：

haar分类器：
人脸检测（detection）在opencv中早就有直接能拿来用的haar分类器，基于Viola-Jones算法。

Adaboost算法(级联分类器)：
1.参考论文： Robust Real-Time face detection 。
2. 参考中文博客：http://blog.csdn.net/cyh_24/article/details/39755661
3. 博客：http://blog.sina.com.cn/s/blog_7769660f01019ep0.html

1.2.2 文章中所用方法

本文中采用了基于检测点的人脸检测方法（fiducial Point Detector）。

先选择6个基准点，2只眼睛中心、 1个鼻子点、3个嘴上的点。
通过LBP特征用SVR来学习得到基准点。LBP算子。论文：Face description with local binary pattern.

效果如下：

1.3 人脸校准（face alignment）

1.3.1 现有技术：

cascade pose regression：

论文： Cascade Pos Regression (CVPR10)

1.3.2 文章中方法

2D alignment：

对Detection后的图片进行二维裁剪， scale, rotate and translate the image into six anchor locations。将人脸部分裁剪出来。

3D alignment：

找到一个3D 模型，用这个3D模型把二维人脸crop成3D人脸。67个基点，然后Delaunay三角化，在轮廓处添加三角形来避免不连续。
将三角化后的人脸转换成3D形状
三角化后的人脸变为有深度的3D三角网
将三角网做偏转，使人脸的正面朝前
最后放正的人脸

效果如下：

上面的2D alignment对应(b)图，3D alignment依次对应(c) ~ (h)。

1.4 人脸表示（face verification）

1.4.1 现有技术

LBP && joint Beyesian：
通过高维LBP跟Joint Bayesian这两个方法结合。

论文： Bayesian Face Revisited: A Joint Formulation

DeepID系列：
将七个联合贝叶斯模型使用SVM进行融合，精度达到99.15%

论文： Deep Learning Face Representation by Joint Identification-Verification

1.4.2 文章中的方法

论文中通过一个多类人脸识别任务来训练深度神经网络（DNN）。网络结构如上图所示。

结构参数：
经过3D对齐以后，形成的图像都是152×152的图像，输入到上述网络结构中，该结构的参数如下：

Conv：32个11×11×3的卷积核
max-pooling: 3×3， stride=2
Conv: 16个9×9的卷积核
Local-Conv: 16个9×9的卷积核，Local的意思是卷积核的参数不共享
Local-Conv: 16个7×7的卷积核，参数不共享
Local-Conv: 16个5×5的卷积核，参数不共享
Fully-connected: 4096维
Softmax: 4030维

提取低水平特征：
过程如下所示：

预处理阶段：输入3通道的人脸，并进行3D校正，再归一化到152*152像素大小——152*152*3.
通过卷积层C1：C1包含32个11*11*3的滤波器（即卷积核），得到32张特征图——32*142*142*3。
通过max-polling层M2：M2的滑窗大小为3*3，滑动步长为2，3个通道上分别独立polling。
通过另一个卷积层C3：C3包含16个9*9*16的3维卷积核。

上述3层网络是为了提取到低水平的特征，如简单的边缘特征和纹理特征。Max-polling层使得卷积网络对局部的变换更加鲁棒。如果输入是校正后的人脸，就能使网络对小的标记误差更加鲁棒。然而这样的polling层会使网络在面部的细节结构和微小纹理的精准位置上丢失一些信息。因此，文中只在第一个卷积层后面接了Max-polling层。这些前面的层称之为前端自适应的预处理层级。然而对于许多计算来讲，这是很必要的，这些层的参数其实很少。它们仅仅是把输入图像扩充成一个简单的局部特征集。

后续层：
L4,L5,L6都是局部连接层，就像卷积层使用滤波器一样，在特征图像的每一个位置都训练学习一组不同的滤波器。由于校正后不同区域的有不同的统计特性，卷积网络在空间上的稳定性的假设不能成立。比如说，相比于鼻子和嘴巴之间的区域，眼睛和眉毛之间的区域展现出非常不同的表观并且有很高的区分度。换句话说，通过利用输入的校正后的图像，定制了DNN的结构。

使用局部连接层并没有影响特征提取时的运算负担，但是影响了训练的参数数量。仅仅是由于有如此大的标记人脸库，我们可以承受三个大型的局部连接层。局部连接层的输出单元受到一个大型的输入图块的影响，可以据此调整局部连接层的使用（参数）（不共享权重）

比如说，L6层的输出受到一个74*74*3的输入图块的影响，在校正后的人脸中，这种大的图块之间很难有任何统计上的参数共享。

顶层：
最后，网络顶端的两层（F7，F8）是全连接的：每一个输出单元都连接到所有的输入。这两层可以捕捉到人脸图像中距离较远的区域的特征之间的关联性。比如，眼睛的位置和形状，与嘴巴的位置和形状之间的关联性（这部分也含有信息）可以由这两层得到。第一个全连接层F7的输出就是我们原始的人脸特征表达向量。

在特征表达方面，这个特征向量与传统的基于LBP的特征描述有很大区别。传统方法通常使用局部的特征描述(计算直方图)并用作分类器的输入。

最后一个全连接层F8的输出进入了一个K-way的softmax（K是类别个数）,即可产生类别标号的概率分布。用Ok表示一个输入图像经过网络后的第k个输出，即可用下式表达输出类标号k的概率：

训练的目标是最大化正确输出类别（face 的id）的概率。通过最小化每个训练样本的叉熵损失实现这一点。用k表示给定输入的正确类别的标号，则叉熵损失是：

通过计算叉熵损失L对参数的梯度以及使用随机梯度递减的方法来最小化叉熵损失。

梯度是通过误差的标准反向传播来计算的。非常有趣的是，本网络产生的特征非常稀疏。超过75%的顶层特征元素是0。这主要是由于使用了ReLU激活函数导致的。这种软阈值非线性函数在所有的卷积层，局部连接层和全连接层（除了最后一层F8）都使用了，从而导致整体级联之后产生高度非线性和稀疏的特征。稀疏性也与使用使用dropout正则化有关，即在训练中将随机的特征元素设置为0。我们只在F7全连接层使用了dropout.由于训练集合很大，在训练过程中我们没有发现重大的过拟合。

给出图像I,则其特征表达G(I)通过前馈网络计算出来，每一个L层的前馈网络，可以看作是一系列函数：

归一化：
在最后一级，我们把特征的元素归一化成0到1，以此降低特征对光照变化的敏感度。特征向量中的每一个元素都被训练集中对应的最大值除。然后进行L2归一化。由于我们采用了ReLU激活函数，我们的系统对图像的尺度不变性减弱。

对于输出的4096-d向量：

先每一维进行归一化，即对于结果向量中的每一维，都要除以该维度在整个训练集上的最大值。
每个向量进行L2归一化。

2. 验证

2.1 卡方距离

该系统中，归一化后的DeepFace特征向量与传统的基于直方图的特征（如LBP）有一下相同之处：

所有值均为负
非常稀疏
特征元素的值都在区间 [0, 1]之间

卡方距离计算公式如下：

2.2 Siamese network

文章中也提到了端到端的度量学习方法，一旦学习（训练）完成，人脸识别网络（截止到F7）在输入的两张图片上重复使用，将得到的2个特征向量直接用来预测判断这两个输入图片是否属于同一个人。这分为以下步骤：
a. 计算两个特征之间的绝对差别；
b,一个全连接层，映射到一个单个的逻辑单元（输出相同/不同）。

3. 实验评估

3.1 数据集

Social Face Classification Dataset(SFC): 4.4M张人脸/4030人
LFW: 13323张人脸/5749人
- restricted: 只有是/不是的标记
- unrestricted：其他的训练对也可以拿到
- unsupervised：不在LFW上训练
Youtube Face(YTF): 3425videos/1595人

result on LFW：

result on YTF：

4. 总结

DeepFace与之后的方法的最大的不同点在于，DeepFace在训练神经网络前，使用了对齐方法。论文认为神经网络能够work的原因在于一旦人脸经过对齐后，人脸区域的特征就固定在某些像素上了，此时，可以用卷积神经网络来学习特征。

人脸跟踪（face tracking）

1. 前述

定义：
人脸跟踪是要准确的定位人脸、并跟踪人脸。

现有产品：
这里介绍微软开发一款face tracking 产品 - kinect，但这个方法必须使用Kinect硬件（比较昂贵）。想要详细了解，可以看Kinect SDK 1.5 Face Tracking。中文资料可以参考参考这篇博文：http://brightguo.com/kinect-face-tracking/

2. 现状

现在直接做人脸跟踪的人还很少，大部分都是在做目标跟踪（object tracking）。所以这里先谈现在object tracking的算法。这里我们直接以算法为线索，谈论该算法的产生、特点、现有的开源代码。

2.1 TLD

产生：

TLD算法全称Tracking Learning Detection。它是英国萨里大学的一个捷克籍博士生Zdenek Kalal在其攻读博士学位期间提出的一种新的单目标长时间（long term tracking）跟踪算法。

特点：

该算法将传统的跟踪算法和传统的检测算法相结合起来解决被跟踪目标在被跟踪过程中发生的形变、部分遮挡等问题。
通过一种改进的在线学习机制不断更新跟踪模块的“显著特征点”和检测模块的目标模型及相关参数，从而使得跟踪效果更加稳定、鲁棒、可靠。

资料：

源码： http://gnebehay.github.com/OpenTLD/
博客： http://blog.csdn.net/yang_xian521/article/details/6952870

<个人网页blog已经上线，一大波干货即将来袭：https://faiculty.com/>

Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
人脸识别【java-基于OpenCV】思维导图-java架构用心去追梦 java opencv 架构
为了创建一个关于基于OpenCV的Java人脸识别项目的思维导图，可以围绕项目的主要组成部分进行组织：环境搭建、数据准备、人脸检测、特征提取、模型训练、识别与验证、以及优化和部署。以下是一个结构化的建议框架，你可以根据这个框架使用任何思维导图软件来创建具体的图形化版本。Java+OpenCV人脸识别项目-思维导图1.环境搭建安装依赖安装Java开发工具包（JDK）。下载并配置OpenCV库及其Ja
Python基于OpenCV和PyQt5的人脸识别上课签到系统【附源码】 Java老徐 Python 毕业设计 python opencv 人脸识别上课签到系统人脸识别上课签到上课签到系统 PyQt5
博主介绍：✌Java老徐、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2024-2025年Java毕业设计选题推荐Python基于Django的微博热搜、微博舆论可视化系统，附源码基于PythonDjango的北极星招聘数据可视化系统感兴趣的可以先收藏起
机器视觉在医疗影像分析中的应用：助力放射科医生精准诊断人工智能专属驿站大数据人工智能计算机视觉
在现代医疗领域，影像学检查如X光、CT扫描和MRI等是诊断疾病的重要手段。随着技术的不断发展，机器视觉算法在医疗影像分析中的应用日益广泛，为放射科医生提供了强大的辅助工具，极大地提高了诊断的准确性和效率。本文将探讨机器视觉在医疗影像分析中的具体应用及其对医疗诊断带来的变革。一、机器视觉算法简介机器视觉是一种模拟人类视觉的科学技术，通过图像处理、模式识别和计算机视觉等技术，使计算机能够“看”懂图像中
【计算机视觉】人脸识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
一、简介人脸识别是将图像或者视频帧中的人脸与数据库中的人脸进行对比，判断输入人脸是否与数据库中的某一张人脸匹配，即判断输入人脸是谁或者判断输入人脸是否是数据库中的某个人。人脸识别属于1：N的比对，输入人脸身份是1，数据库人脸身份数量为N，一般应用在办公室门禁，疑犯追踪；人脸验证属于1:1的比对，输入人脸身份为1，数据库中为同一人的数据，在安全领域应用比较多。一个完整的人脸识别流程主要包括人脸检测、
快速上手：C OpenCvSharp Yolov8 人脸关键点检测工具卢枫岱
快速上手：C#OpenCvSharpYolov8人脸关键点检测工具COpenCvSharpYolov8FaceLandmarks.rar项目地址:https://gitcode.com/open-source-toolkit/4d2a0项目介绍在当今的数字化时代，人脸识别和关键点检测技术已经成为许多应用的核心组成部分。无论是安防监控、人机交互还是虚拟现实，准确且高效的人脸关键点检测都是不可或缺的。
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
ai照片放大python源码_AI新时代-大牛教你使用python+Opencv完成人脸解锁（附源码）... weixin_39639505 ai照片放大python源码
好吧，伙计们，我回来了。说我拖更不写文章的可以过来用你的小拳拳狠命地捶我胸口....那么今天我们来讲关于使用python+opencv+face++来实现人脸验证及人脸解锁。代码量同样不多，你可以将这些代码运用在其它一些智能领域，如智能家居，进门的时候判断你是谁，也可以加入机器学习判断来的人是客人还是熟人。在讲之前我们会先适当的拓扑一下关于人脸识别的知识点。OK废话少说下面开始正是话题。解锁原理：
【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
使用Llama 3.2-Vision多模态LLM与您的图像聊天 AI程序猿人 llama transformer pytorch 深度学习大模型应用人工智能大模型
介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推理
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
3d系统误差分析 Ai智享结构光 3d 数码相机计算机视觉
系统标定重投影误差预估在计算机视觉和三维重建领域中，评估一个相机系统标定精度的重要指标。通过比较真实的三维点在图像中的投影位置与标定模型计算出的投影位置之间的差异，来衡量标定的准确性。以下是对这一概念的详细解析：什么是系统标定？系统标定(SystemCalibration)是指对一个视觉系统（例如单目相机、双目相机系统或结构光系统）进行参数标定的过程，包括：内参标定：相机的内部参数（如焦距、光心、
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
OpenCV计算机视觉 08 图像的旋转伊一大数据&人工智能学习日志 OpenCV 计算机视觉人工智能计算机视觉 opencv
图像的旋转下面是一张小猪佩奇的照片，请进行顺时针90度，逆时针90度，180度旋转方法一：使用了NumPy库的np.rot90()函数来实现图像的旋转np.rot90(img,k=-1)表示将输入的图像img顺时针旋转90度，np.rot90(img,k=1)表示将图像逆时针旋转90度。importcv2importnumpyasnp#导入原图img=cv2.imread('小猪佩奇.png')
详解AI大模型的主要指标与国内常见大模型对比分析 wit_@ 人工智能 AIGC 语言模型 ai 大数据服务器
AI大模型的主要指标与国内常见大模型对比分析随着人工智能技术的快速发展，大模型（LargeAIModels）在自然语言处理、计算机视觉和多模态任务中取得了突破性进展。对于选择和评价AI大模型，不仅需要关注其功能，还要理解其关键指标和性能表现。本文将详细分析AI大模型的主要评价指标，并对国内常见大模型进行具体对比，提供实际数值和深度解析。一、AI大模型的主要指标AI大模型的性能和实用性通常通过以下指
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
人工智能OpenCV计算机视觉技术 yzx991013 OpenCV基础全集 opencv 计算机视觉人工智能
5.3cand可调节边缘检测完整代码：importcv2importnumpyasnp#载入图像，并处理可能的读取错误img_original=cv2.imread('./image/lena.jpg')ifimg_originalisNone:print("无法读取图像文件")raiseSystemExit#创建可调整大小的窗口cv2.namedWindow('Canny',cv2.WINDOW
K210视觉识别模块 LS_learner 嵌入式嵌入式硬件
K210视觉识别模块是一款功能强大的AI视觉模块，以下是对其的详细介绍：一、核心特性强大的视觉识别功能：K210视觉识别模块支持多种视觉功能，包括但不限于人脸识别、口罩识别、条形码和二维码识别、特征检测、数字识别、颜色识别、路标识别和视觉巡线等。这些功能使得K210视觉识别模块在多个领域都有广泛的应用潜力。高性能的硬件支持：K210视觉识别模块基于RISC-V精简指令集的K210芯片设计，该芯片内
从点云中剔除遮挡点 AuSwift 点云
在三维计算机视觉和点云处理中，点云是由大量的三维点组成的数据集。然而，有时候点云中的某些点可能会被其他物体所遮挡，这可能会对进一步的分析和处理造成困扰。本文将介绍如何使用MATLAB从点云中移除这些遮挡点。在开始之前，请确保你已经安装了MATLAB和PointCloudProcessingToolbox。接下来，我们将按照以下步骤进行操作。步骤1：加载点云数据首先，我们需要加载点云数据。假设我们的
【cs.CV】25.1.14 arxiv更新速递 hinmer CV每日更新 arxiv chatgpt gpt 人工智能自然语言处理自动驾驶计算机视觉 ai
【cs.CV】25.1.14arxiv更新110篇—第1篇----=====Omni-RGPT:UnifyingImageandVideoRegion-levelUnderstandingviaTokenMarks关键词:计算机视觉,多模态大语言模型,区域级理解,TokenMark,视频理解链接1摘要:我们提出了Omni-RGPT，这是一种多模态大型语言模型，旨在促进图像和视频的区域级理解。为了在
PCL 点云高程渲染：实现点云高程信息的颜色渲染技术征服冒险 PCL
PCL点云高程渲染：实现点云高程信息的颜色渲染点云渲染在计算机视觉和图形学中具有重要的应用价值。在处理点云数据时，一种常见的需求是通过将高程信息映射到颜色空间，以实现对点云的可视化。本文将介绍如何使用PCL（PointCloudLibrary）库实现点云的高程渲染，并提供相应的源代码。引言在开始之前，我们首先需要了解点云的基本概念。点云是由大量的三维点组成的数据集合，每个点都具有X、Y和Z坐标。点
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
YOLOv8重磅升级：引入DenseOne密集网络革新主干设计，重塑YOLO目标检测性能新高度程序员杨弋 YOLO 目标检测人工智能
随着深度学习技术的不断进步，目标检测作为计算机视觉领域的重要任务之一，其性能和应用范围也在不断扩大。作为目标检测领域的佼佼者，YOLO（YouOnlyLookOnce）系列算法以其出色的性能和实时性受到了广泛关注。而最近提出的YOLOv8更是在前代版本的基础上进行了多项优化，进一步提升了检测精度和速度。然而，尽管YOLOv8已经取得了显著的进步，但在处理复杂场景和遮挡问题时，仍然存在一定的挑战。为
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

[调研报告]人脸识别

一、前述

1. 发展

2. 现状

2.1 研究现状

2.2 应用现状

二、简述

1. 人脸识别的过程

2. 人脸识别分类

3. 总结思路

三、DeepFace

1.DeepFace的基本框架

1.1 人脸识别的基本流程

1.2 人脸检测（face detection）

1.2.1 现有技术：

1.2.2 文章中所用方法

1.3 人脸校准（face alignment）

1.3.1 现有技术：

1.3.2 文章中方法

1.4 人脸表示（face verification）

1.4.1 现有技术

1.4.2 文章中的方法

2. 验证

2.1 卡方距离

2.2 Siamese network

3. 实验评估

3.1 数据集

4. 总结

人脸跟踪（face tracking）

1. 前述

2. 现状

2.1 TLD

你可能感兴趣的:(人脸识别,faicutly,计算机视觉)