喜欢打酱油的老鸟

一文读懂人脸识别技术

2019-08-27 17:06:26

本文内容涵盖人脸识别发展历程、市场研究、核心技术、商业应用以及产业落地、个人看法等干货研究。注意，本文干货满满，约有2万7千字，强烈建议大家先收藏后学习！

01 发展史

1. 人脸识别的理解

人脸识别(Face Recognition)是一种依据人的面部特征(如统计或几何特征等)，自动进行身份识别的一种生物识别技术，又称为面像识别、人像识别、相貌识别、面孔识别、面部识别等。通常我们所说的人脸识别是基于光学人脸图像的身份识别与验证的简称。

人脸识别利用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸图像进行一系列的相关应用操作。技术上包括图像采集、特征定位、身份的确认和查找等等。简单来说，就是从照片中提取人脸中的特征，比如眉毛高度、嘴角等等，再通过特征的对比输出结果。

2. 人脸识别的发展简史

第一阶段（1950s—1980s）初级阶段

人脸识别被当作一个一般性的模式识别问题，主流技术基于人脸的几何结构特征。这集中体现在人们对于剪影（Profile）的研究上，人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事 AFR 研究的研究人员除了布莱索（Bledsoe）外还有戈登斯泰因（Goldstein）、哈蒙（Harmon）以及金出武雄(Kanade Takeo)等。总体而言，这一阶段是人脸识别研究的初级阶段，非常重要的成果不是很多，也基本没有获得实际应用。

第二阶段（1990s）高潮阶段

这一阶段尽管时间相对短暂，但人脸识别却发展迅速，不但出现了很多经典的方法，例如Eigen Face, Fisher Face和弹性图匹配；并出现了若干商业化运作的人脸识别系统，比如最为著名的 Visionics（现为 Identix）的 FaceIt 系统。从技术方案上看， 2D人脸图像线性子空间判别分析、统计表观模型、统计模式识别方法是这一阶段内的主流技术。

第三阶段（1990s末~现在）

人脸识别的研究不断深入，研究者开始关注面向真实条件的人脸识别问题，主要包括以下四个方面的研究：1）提出不同的人脸空间模型，包括以线性判别分析为代表的线性建模方法，以Kernel方法为代表的非线性建模方法和基于3D信息的3D人脸识别方法。2）深入分析和研究影响人脸识别的因素，包括光照不变人脸识别、姿态不变人脸识别和表情不变人脸识别等。3）利用新的特征表示，包括局部描述子（Gabor Face, LBP Face等）和深度学习方法。4）利用新的数据源，例如基于视频的人脸识别和基于素描、近红外图像的人脸识别。

02 市场研究

1. 全球人脸识别市场

前瞻根据人脸识别行业发展现状；到2016年，全球生物识别市场规模在127.13亿美元左右，其中人脸识别规模约26.53亿美元，占比在20%左右。预计到2021年，全球人脸识别市场预计将达到63.7亿美元，按预计期间的复合增长率达17.83％。

2. 中国人脸识别市场

前瞻根据人脸识别行业发展现状，估算我国人脸识别市场规模约占全球市场的10%左右。2010-2016年，我国人脸识别市场规模逐年增长，年均复合增长率达27%。2016年，我国人脸识别行业市场规模约为17.25亿元，同比增长27.97%，增速较上年上升4.64个百分点。

3. 国内主要玩家分布

3.1 中国部分人脸识别公司（排名不分先后）

3.2 四大独角兽介绍及对比细分领域

（1）旷视科技：

2014年，获阿里巴巴旗下蚂蚁金服投资，主攻金融和监控两大行业，有子公司旷视智安；团队成员除了几名来自清华校友外，还有来自美国哥伦比亚大学、英国牛津大学和美国南加州大学的科研及开发人员，截至目前员工仅有100余人。

在金融、安防、零售领域分别开始了商业化探索成功发育出Face++Financial，Face++Security，Face++BI等垂直人脸验证解决方案，主要将人脸识别应用在互联网产品上，自己做研发，在美图秀秀、淘宝等互联网领域得到良好的应用，在金融领域的市场一直占据沙发前排阵营；2016年获得上亿元C轮融资，最后选择通过计算机视觉技术与NLP技术的结合，制造出能“识别万物”的智能机器人，提供硬件模组，里面内置他们家的算法。目前正在准备启动IPO的步伐，VIE架构让他们得以绕过A股，不用达到连续三年盈利的标准实现快速上市。

（2）商汤科技：

SenseTime（商汤科技），获IDG资本投资，主攻金融、移动互联网、安防监控三大行业；由香港中文大学的汤晓欧创建，“商汤”中的汤指的就是汤晓欧本人，汤晓鸥及其研究团队所开发的DeepID算法率先将深度学习应用到人脸识别上，在技术指标上实现了新的突破。主要案例是围绕各个美化软件与直播平台制作人脸贴图，重点强化了人脸识别的关键点检测及跟踪技术。

团队有300多号，也从当初toC转向toB领域；成立于2014年的商汤科技选择另辟蹊径，选择用“四大美女”这个话题让人们躁动起来，到最后四大美女走了三个；商汤的网络都是自己设计的，这样对于深度学习网络的掌控力就会更强，提供SaaS服务的同时，可以通过SaaS把背后的数据拿到，再进行更多更细致的分析再次提升服务质量。

（3）云从科技

2015年4月，周曦拿到战略投资成立云从科技，同年针对金融和银行业推出了40多种解决方案，包含从算法、产品、销售、售后的全产业链打造，针对农行、建行、交行、中行及多地公安提供定制化服务。团队成员除了来自中科大的校友外，还来自中国科学院各大研究所、UIUC、IBM、NEC、MicroSoft等全球顶尖学府及研究机构。

截止2016年11月，成立一年半，研发团队扩展为200余名，核心产品是人脸识别系统及IBIS集成生物识别平台，还具备3D模型、红外活体、静默活体等技术，可根据场景需求自由调节。选择连接硬件、开发与技术，属于全产业链模式，因为人脸识别系统多数情况下需要深度定制，只有这样，才能在客户提出需求的情况下迅速反馈，修改，统一用户体验。

（4）依图科技：

2012 年九月，朱珑与他的好友林晨曦在创立依图科技，这家从事人工智能创新性研究的创企从图像识别入手，首先与全国省市级公安系统合作，对车辆品牌、型号等进行精准识别，随后扩展到人像识别，通过静态人像比对技术和动态人像比对技术，协助公安系统进行人员身份核查、追逃、监控、关系挖掘等。

发展近6年，依图科技的产品已经应用到全国二十多个省市地区的安防领域，安防领域之外，依图也进入智慧城市领域和健康医疗领域，它要协助政府构建"城市大脑"，也希望将医疗领域的巨大知识鸿沟缩小，改善医患体验。

（5）细分领域对比表

（6）主要客户对比

4. 商业模式

4.1 人脸识别商业模式设计步骤

4.2 人脸识别盈利模式

03 人脸识别的流程及主要技术

1. 人脸识别系统组成

2. 人脸识别的一般流程

2.1 人脸采集

（1）简介

不同的人脸图像通过摄像镜头采集得到，比如静态图像、动态图像、不同的位置、不同表情等，当采集对象在设备的拍摄范围内时，采集设备会自动搜索并拍摄人脸图像。

（2）人脸采集的主要影响因素

图像大小：人脸图像过小会影响识别效果，人脸图像过大会影响识别速度。非专业人脸识别摄像头常见规定的最小识别人脸像素为60*60或100*100以上。在规定的图像大小内，算法更容易提升准确率和召回率。图像大小反映在实际应用场景就是人脸离摄像头的距离。
图像分辨率：越低的图像分辨率越难识别。图像大小综合图像分辨率，直接影响摄像头识别距离。现4K摄像头看清人脸的最远距离是10米，7K摄像头是20米。
光照环境：过曝或过暗的光照环境都会影响人脸识别效果。可以从摄像头自带的功能补光或滤光平衡光照影响，也可以利用算法模型优化图像光线。
模糊程度：实际场景主要着力解决运动模糊，人脸相对于摄像头的移动经常会产生运动模糊。部分摄像头有抗模糊的功能，而在成本有限的情况下，考虑通过算法模型优化此问题。
遮挡程度：五官无遮挡、脸部边缘清晰的图像为最佳。而在实际场景中，很多人脸都会被帽子、眼镜、口罩等遮挡物遮挡，这部分数据需要根据算法要求决定是否留用训练。
采集角度：人脸相对于摄像头角度为正脸最佳。但实际场景中往往很难抓拍正脸。因此算法模型需训练包含左右侧人脸、上下侧人脸的数据。工业施工上摄像头安置的角度，需满足人脸与摄像头构成的角度在算法识别范围内的要求。

2.2 人脸检测

（1）简介

在图像中准确标定出人脸的位置和大小，并把其中有用的信息挑出来（如直方图特征、颜色特征、模板特征、结构特征及Haar特征等），然后利用信息来达到人脸检测的目的。

（2）人脸关键点检测（人脸对齐）

自动估计人脸图片上脸部特征点的坐标。

（3）主流方法

基于检测出的特征采用Adaboost学习算法（一种用来分类的方法，它把一些比较弱的分类方法合在一起，组合出新的很强的分类方法）挑选出一些最能代表人脸的矩形特征（弱分类器），按照加权投票的方式将弱分类器构造为一个强分类器，再将训练得到的若干强分类器串联组成一个级联结构的层叠分类器，有效地提高分类器的检测速度。

最近人脸检测算法模型的流派包括三类及其之间的组合：viola-jones框架（性能一般速度尚可，适合移动端、嵌入式上使用），dpm（速度较慢），cnn（性能不错）。

2.3 人脸图像预处理

（1）简介

基于人脸检测结果，对图像进行处理并最终服务于特征提取的过程。

（2）原因

系统获取的原始图像由于受到各种条件的限制和随机干扰，往往不能直接使用，必须在图像处理的早期阶段对它进行灰度矫正、噪声过滤等图像预处理。

（3）主要预处理过程

人脸对准（得到人脸位置端正的图像），人脸图像的光线补偿，灰度变换、直方图均衡化、归一化（取得尺寸一致，灰度取值范围相同的标准化人脸图像），几何校正、中值滤波（图片的平滑操作以消除噪声）以及锐化等。

2.4 人脸特征提取

（1）简介

人脸识别系统可使用的特征通常分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。人脸特征提取就是针对人脸的某些特征进行的，也称人脸表征，它是对人脸进行特征建模的过程

（2）人脸特征提取的方法

基于知识的表征方法（主要包括基于几何特征法和模板匹配法）：根据人脸器官的形状描述以及它们之间的距离特性来获得有助于人脸分类的特征数据，其特征分量通常包括特征点间的欧氏距离、曲率、和角度等。人脸由眼睛、鼻子、嘴、下巴等局部构成，对这些局部和他们之间结构关系的几何描述，可作为识别人脸的重要特征，这些特征被称为几何特征。
基于代数特征或统计学习的表征方法：基于代数特征方法的基本思想是将人脸在空域内的高维描述转化为频域或者其他空间内的低维描述，其表征方法为线性投影表征方法和非线性投影表征方法。基于线性投影的方法主要有主成分分析法或称K-L变化、独立成分分析法和Fisher线性判别分析法。非线性特征提取方法有两个重要的分支：基于核的特征提取技术和以流形学习为主导的特征提取技术。

2.5 匹配与识别

提取的人脸特征值数据与数据库中存贮的特征模板进行搜索匹配，通过设定一个阈值，将相似度与这一阈值进行比较，来对人脸的身份信息进行判断。

3. 人脸识别的主要方法

3.1 Eigen Face（特征脸）

MIT实验室的特克（Turk）和潘特（Pentland）提出的“特征脸”方法无疑是这一时期内最负盛名的人脸识别方法。其后的很多人脸识别技术都或多或少与特征脸有关系，现在特征脸已经与归一化的协相关量(Normalized Correlation)方法一道成为人脸识别的性能测试基准算法。

人脸识别特征脸算法文档：

https://blog.csdn.net/zizi7/article/details/52757300

3.2 Fisher Face（渔夫脸）

贝尔胡米尔（Belhumeur）等提出的 Fisherface 人脸识别方法是这一时期的另一重要成果。该方法首先采用主成分分析（PCA）对图像表观特征进行降维。在此基础上，采用线性判别分析（LDA）的方法变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该方法目前仍然是主流的人脸识别方法之一，产生了很多不同的变种，比如零空间法、子空间判别模型、增强判别模型、直接的LDA 判别方法以及近期的一些基于核学习的改进策略。

Fisher Face算法文档：

https://blog.csdn.net/zizi7/article/details/52999432

3.3 EGM（弹性图匹配）

其基本思想是用一个属性图来描述人脸：属性图的顶点代表面部关键特征点，其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换12特征，称为Jet；边的属性则为不同特征点之间的几何关系。对任意输入人脸图像，弹性图匹配通过一种优化搜索策略来定位预先定义的若干面部关键特征点，同时提取它们的Jet特征，得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该方法的优点是既保留了面部的全局结构特征，也对人脸的关键局部特征进行了建模。

弹性图匹配算法文档：

https://blog.csdn.net/real_myth/article/details/44828219

3.4 基于几何特征的方法

几何特征可以是眼、鼻、嘴等的形状和它们之间的几何关系（如相互之间的距离）。这些算法识别速度快，需要的内存小，但识别率较低。

3.5 基于神经网络的方法

神经网络的输入可以是降低分辨率的人脸图像、局部区域的自相关函数、局部纹理的二阶矩等。这类方法同样需要较多的样本进行训练，而在许多应用中，样本数量是很有限的。

3.6 基于线段Hausdorff 距离(LHD) 的方法

心理学的研究表明，人类在识别轮廓图（比如漫画）的速度和准确度上丝毫不比识别灰度图差。LHD是基于从人脸灰度图像中提取出来的线段图的，它定义的是两个线段集之间的距离，与众不同的是，LHD并不建立不同线段集之间线段的一一对应关系，因此它更能适应线段图之间的微小变化。实验结果表明，LHD在不同光照条件下和不同姿态情况下都有非常出色的表现，但是它在大表情的情况下识别效果不好。

3.7 基于支持向量机(SVM) 的方法

近年来，支持向量机是统计模式识别领域的一个新的热点，它试图使得学习机在经验风险和泛化能力上达到一种妥协，从而提高学习机的性能。支持向量机主要解决的是一个2分类问题，它的基本思想是试图把一个低维的线性不可分的问题转化成一个高维的线性可分的问题。通常的实验结果表明SVM有较好的识别率，但是它需要大量的训练样本（每类300个），这在实际应用中往往是不现实的。而且支持向量机训练时间长，方法实现复杂，该函数的取法没有统一的理论。

4. 技术发展方向

结合三维信息：二维和三维信息融合使特征更加鲁棒
多特征融合：单一特征难以应对复杂的光照和姿态变化
大规模人脸比对：面向海量数据的人脸比对与搜索
深度学习：在大数据条件下充分发挥深度神经网络强大的学习能力

5. 人脸识别数据库

Yale人脸数据库
ORL人脸数据库
CMU PIE人脸数据库
FERET人脸数据库
MIT数据库
BANCA人脸数据库
CAS-PEAL人脸数据库
JAFE表情数据库
Cohn-Kanade表情数据库
MMI表情数据库

6. 技术指标

6.1 人脸检测中的关键指标

例子：在摄像头某张抓拍图像中，一共有100张人脸，算法检测出80张人脸，其中75张是真实人脸，5 张是把路标误识为人脸。

检测率：识别正确的人脸/图中所有的人脸。检测率越高，代表检测模型效果越好。
误检率：识别错误的人脸/识别出来的人脸。误检率越低，代表检测模型效果越好。
漏检率：未识别出来的人脸/图中所有的人脸。漏检率越低，代表检测模型效果越好。
速度：从采集图像完成到人脸检测完成的时间。时间约短，检测模型效果越好。

在这个实际案例中：检测率=75/100误检率=5/80漏检率=（100-75）/100

6.2 人脸识别中的关键指标

1000张样本图片里，共600张正样本。相似度为0.9的图片一共100张，其中正样本为99张。虽然0.9阈值的正确率很高，为99/100；但是0.9阈值正确输出的数量确很少，只有99/600。这样很容易发生漏识的情况。

检测率：识别正确的人脸/图中所有的人脸。检测率越高，代表检测模型效果越好。
误检率：识别错误的人脸/识别出来的人脸。误检率越低，代表检测模型效果越好。
漏检率：未识别出来的人脸/图中所有的人脸。漏检率越低，代表检测模型效果越好。
速度：从采集图像完成到人脸检测完成的时间。时间约短，检测模型效果越好。

在这个实际案例中：检测率=75/100 误检率=5/80 漏检率=（100-75）/100

6.3 人脸识别中的关键指标

精确率（precision）：识别为正确的样本数/识别出来的样本数=99/100

召回率（recall）：识别为正确的样本数/所有样本中正确的数=99/600

错误接受率/认假率/误识率（FARFalse Accept Rate）：

定义：指将身份不同的两张照片，判别为相同身份，越低越好
FAR = NFA / NIRA
式中 NIRA 代表的是类间测试次数，既不同类别间的测试次数，打比方如果有1000个识别模型，有1000个人要识别，而且每人只提供一个待识别的素材，那 NIRA=1000*(1000-1) 。NFA是错误接受次数。
FAR决定了系统的安全性，FRR决定了系统的易用程度，在实际中，FAR对应的风险远远高于FRR，因此，生物识别系统中，会将FAR设置为一个非常低的范围，如万分之一甚至百万分之一，在FAR固定的条件下，FRR低于5%，这样的系统才有实用价值。

错误拒绝率/拒真率/拒识率（FRR False Reject Rate）：

定义：指将身份相同的两张照片，判别为不同身份，越低越好
FRR = NFR / NGRA
上式中NFR是类内测试次数，既同类别内的测试次数，打比方如果有1000个识别模型，有1000个人要识别，而且每人只提供一个待识别的素材，那 NIRA=1000，如果每个人提供N张图片，那么 NIRA=N*1000 。NFR是错误拒绝次数。

需要在精确率（识别为正确的样本数/识别出来的样本数）和召回率（识别为正确的样本数/所有样本中正确的数）中达到某一个平衡。

测试同事需要关注特定领域内每个类别的指标，比如针对识别人脸的表情，里面有喜怒哀乐等分类，每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善地反馈给算法同事，算法同事才能找准模型效果欠缺的原因。同时，测试同事将本次模型的指标结果反馈给产品，由产品评估是否满足上线需求。

（1）测试环境说明

例如：

CPU：Intel(R) Core(TM) i7-4790 CPU @ 3.60 GHz
内存：8GB
系统：Ubuntu 14.04 x86_64/Windows 7 SP1 64bit
GCC版本：4.8.2

（2）测试集和测试需求说明

比如“图片包含人脸大小应超过96*96像素，测试结果达到XX程度满足需求。

经典人脸身份识别测试集LFW，共包含13233 张图片 5749 种不同身份；世界记录99.7%。
CK+ （一个人脸表情数据集），包含固定表情和自发表情，包含123个人的593个表情序列。每个序列的目标表情被FACS编码，同时添加了已验证的情感标签（生气、厌恶、害怕、快乐、悲伤、惊讶）。

（3）需要说明“有效距离，左右角度，上下角度，速度”等参数值（范围）

注：这和“部署的灵活性”相关——由于不同客户不同场景的需求不同，所以技术方的人脸检测模块，一般可以通过调整参数得到N种亚型，以适应不同应用场景(光照、角度、有效距离、速度) 下对运算量和有效检测距离的需求。

（4）测试结果——欠拟合

定义：模型没有很好地捕捉到数据特征，不能够很好地拟合数据

左图表示size与prize关系的数据，中间的图就是出现欠拟合的模型，不能够很好地拟合数据，如果在中间的图的模型后面再加一个二次项，就可以很好地拟合图中的数据了，如右面的图所示。

解决方法

添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。
添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。例如上面的图片的例子。
减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。
尝试非线性模型，比如核SVM 、决策树、DNN等模型。

（5）测试结果——过拟合

定义：模型把数据学习的太彻底，以至于把噪声数据的特征也学习到了，这样就会导致在后期测试的时候不能够很好地识别数据，即不能正确的分类，模型泛化能力太差。例如下面的例子。

上面左图表示size和prize的关系，我们学习到的模型曲线如右图所示，虽然在训练的时候模型可以很好地匹配数据，但是很显然过度扭曲了曲线，不是真实的size与prize曲线。

解决方法

从产品角度：

重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，噪音太多影响到模型效果，如果出现了过拟合就需要我们重新清洗数据。
增大数据的训练量，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小。

从算法角度：

交叉检验，通过交叉检验得到较优的模型参数;
特征选择，减少特征数或使用较少的特征组合，对于按区间离散化的特征，增大划分的区间;
正则化，常用的有 L1、L2 正则。而且 L1正则还可以自动进行特征选择;
如果有正则项则可以考虑增大正则项参数 lambda;
增加训练数据可以有限的避免过拟合;
Bagging ,将多个弱学习器Bagging 一下效果会好很多，比如随机森林等.

4.5 标注流程中遇到的问题

（1）项目过程中的不确定性

a. 出现原因：

一般情况下，只要数据标注的规范清晰，对规则的界定从一而终，标注工作的流程还是比较简单的。

数据标注规范可能会在测试后根据结果情况进行调整，那么，规则修改前后“数据标注的一致性”就出现了问题，会导致多次返工，在时间和人工成本上颇有影响。

b. 解决方法：

1）如是分类性质的解析工作，建议标注规则先从非常肯定的非黑即白开始；规则设定由简到繁，带有疑虑数据再另外作记号。随着规则一步步深入，可能会出现交叉影响，此时就需要放弃一些低频问题的规则，余下的未标注的数据就根据新的规则标注。
2）如是多类规则同时进行的标注工作，需要把每类规则定得足够细致。
3）实例：

如询问机器人会干什么的语料中出现，“你说你会干什么？”可以理解为询问，也可能是嫌弃，这两类应对的策略不同，有歧义，所以不能把它归纳如询问类，需要把它从训练集里剔除。
如人脸情绪识别中，一个人在流眼泪，有时可以理解为伤心落泪，有时可以理解为喜极而泣，还有时可以理解为激动落泪，甚至是感动落泪等，所以在看到此类照片时，不能简单的凭借惯性化思维将其归纳到悲伤一类中，当人眼都很难判别清楚时，需要把它从训练集里剔除。

5. 实际案例分析

5.1 某领域的人脸识别监测与身份确认

（1）案例问题

光照影响：过暗或过亮等非正常光照环境，会对模型的效果产生很大干扰。

（2）解决方案

a. 从产品角度控制

在用户可以更换环境的前提下（比如银行刷脸取钱等），可语音/界面提示用户目前环境不理想（头歪、头发、眼镜等），建议进行正确的正脸取照。
在用户不能控制更换环境的情况下（比如人脸识别、车辆识别等摄像头固定的场景），只能通过调试硬件设施弥补这个问题。
晚上：由于摄像头在晚上会自动切换到黑夜场景（从图片上看就是从彩色切换为黑白），因此在晚上强光下（例如路灯照射）人脸就会过曝，这时，我们可以通过强制设置摄像头环境为白天（图像为彩色）来避免。而过暗的情况，从节省成本角度看，可以在摄像头旁边增加一个光线发散、功率不高的灯来弥补。当然这两个问题也可以通过购买高质量的摄像头解决，但这样做也意味着更高的成本。
白天：白天也会出现光线过亮的情况，这种情况可以考虑用滤光片等等。

b. 从算法角度控制

用算法将图片进行处理，可以将图片恢复得让人眼看清的程度。

5.2 某款人脸年龄识别产品

（1）案例问题

一款识别人脸年龄的产品对女性某个年龄阶段（25—35）的判断，误差较大，经过发现，是因为该年龄阶段有以下特点：

女性在这个年龄阶段面貌变化不是很大，有时人眼给出的判断误差都很离谱。
在这个年龄层次的女性注重打扮，化妆品很大程度上掩盖了其真实年龄，有时30多的跟20岁没多大差别；C. 精装打扮的和素颜的差别不是很大。

（2）解决方案

补充数据：针对该年龄层次的人脸图片数据做补充。不仅补充正例（“XXX”应为多少岁），还应补充负例（“XXX”不应为多少岁）。
优化数据：修改大批以往的错误标注。
数据总结：对化妆和不化妆的人脸图片进行分析，以便调整算法参数。

（3）需求研究

自拍：如女性群体一般都希望自拍时，年龄的判别在心里预期中能越小越好，当在和一群人自拍中可以适当的将主人公的年龄判别结果调低至达到用户心理满足感。此时可适当降低算法的参照度。
婚恋交友：在婚恋网站交友过程中，双方都希望知道彼此的真实年龄信息，此时运用人脸年龄识别可以分析双方的年龄、皮肤等物理信息为彼此提供参考。此时的信息就不能以达到心理满足感为主了，应当追求准确度。

5.3 某款AR美颜相机

（1）无法定位出人脸

在背景出现多人或宠物时，相机有时并未能精确定位出目标用户，而定位到背景图片中的人、宠物、身旁的其他人；有时屏幕一片漆黑；有时显示未检测出人脸。

从产品角度：界面提醒用户远离复杂背景，或美颜时最好屏幕中只出现一人，或给出方框图让用户自己手动选择主要定位区域进行AR美颜；屏幕一片漆黑时可提醒用户是否是光线太暗，或是摄像头被障碍物遮挡等；
从算法角度：可对人脸关键点进行定位，计算目标用户与摄像头的距离或计算人脸在频幕的区域占比来确定目标用户（一般几何距离近的、频幕区域占比较大的为美颜目标），结合活体检测来排除背景图片人物的干扰等。

（2）图像模糊昏暗

光线太暗、运动、对焦等造成模糊（摄像头距离因素，造成图像低频存在，高频流失等）

从产品角度：可提醒用户在光线较温和的区域进行美颜操作；或是擦除前置摄像头的障碍物；或文字提示动作太快；或是更换高清前置摄像头；或提示对焦失败，给与对焦框图让用户手动对焦等。
从算法角度：在美颜前可在后台中调取手机亮度调节功能，用算法调节光线的亮暗程度以适应美颜所需的物理条件；用算法设法补齐高频部分从，而减少对照片的干扰。

（3）人脸关键动作抓捕太慢

在进行AR美颜搞怪时（如张嘴动作，屏幕出现音符、唾沫星子等）对动作抓捕太慢（半天才抓捕到张嘴动作）。

从产品角度：文字提示不支持快速移动或提示缓慢移动（如，亲！您的动作太快了，奴家还未反应过来等）
从算法角度：人脸姿态估计、关键点定位来捕捉人脸动作。

（4）关键位置添加虚拟物品失败（如在嘴上叼烟、耳朵吊耳环、眼镜戴墨镜、脸显红晕）

从产品角度：文字/图片提醒用户摆正人脸位置。
从算法角度：可利用算法对人脸关键区域进行分割并定位，来达到人脸精准定位添加虚拟物品

5.4 人脸开门和人脸检索

（1）人脸开门等跨网方案需要关注的因素

远程算法更新：远程算法更新必然会造成本地局域网功能暂时性无法使用。因此远程算法更新的频率、时间、更新效果都需要产品在更新前精确评估。
增删改人脸数据与本地数据的同步：本地局域网和互联网是无法直接交互的，因此用户在互联网一旦对人脸数据库进行增删改的操作，下发程序的稳定性和及时性都需要重点关注。
硬件环境：本地存储空间的大小和GPU直接影响到本地识别的速度。服务器的稳定性影响到功能地正常使用。
守护程序：断电等外置情况意外情况发生又被处理完善后，程序能自动恢复正常。

（2）人脸检索等某一局域网方案需要关注的因素

速度：除了算法识别需要消耗一定时间外，该局域网下的网速会影响到识别结果输出的速度。
数据库架构：通过检索结果关联结构化数据。
阈值的可配置性：在界面设置阈值功能，从产品层面输入阈值后，改变相对应的结果输出。
输出结果排序：根据相似度排序或结构化数据排序内容地抉择
云服务的稳定性。

5.5 旷视科技官网产品体验（多图预警）

（1）年龄略有差距，自我估计+-5，性别基本无误，头部状态略有误差，人种误差在30-40%（样本量10，白种人和黄种人误差明显），情绪基本无误，眼镜种类识别有误差（商品识别的范畴），强光状态下表现不佳。

（2）逻辑错误：左眼（睁眼、普通眼镜）、右眼（墨镜）；相似度大（下图为张一山和夏雨）的较难区分（双胞胎估计很难区分）

（3）远距离检测较难：左图检测出一张，右图检测出两张（估计10米开外检测不到）

（4）能够识别蜡像、海报等非真人场景，因此在一些场合可欺骗摄像头，如在金融领域里的身份识别，海关检查等关键性应用中，将会有风险。

（5）佩戴的口罩无法检测出人脸

（6）公司体验对比结果

6. 项目虚拟实战（以AR美颜APP为例，过程为理论经验推理所得，自己并未实习）

人脸检测系统下，有很多FR相关的应用，比如人脸属性识别（年龄、表情、性别、种族等）、人脸美颜/美妆、人脸聚类等等。我们从AR美颜/美妆这一个例子着手，探索项目的具体流程。

6.1 项目前期准备

（1）需求调研

场景及痛点：现在大多数美颜相机拍照后，都只有添加各种滤镜、加几个字、变白一点，早已经不能满足广大女性群体对于美颜的需求；加上如今年轻女性和男性的审美标准和猎奇心理都在发生改变，社交方式的趣味性也变得不同，比如原来大家可能在空间、朋友圈、直播上看到美女帅哥都会觉得很吸睛，点赞粉丝直奔而来，但随着快手和抖音的出现，可以发现不仅仅是俊男靓女的照片和视频能引起围观，同样的各种普通群众的搞怪合成视频或合成照片（虚拟的AR特效带来的各种浮夸造型）同样能吸引无数粉丝的追捧，让普通人也能享受被人膜拜的满足感，而这些都需要用到人脸识别的相关技术。

（2）目标用户画像分析

了解目标用户的主流群体：学生（大学生、高中生、初中生）群体对月美颜美妆的心理需求、时尚人士的美妆需求、长相普通的人和长相突出的人对于美颜的心理需求等。
了解用户的年龄组成、地域分布对应美妆的特点。
不同收入群体（白领、金领、蓝领等）的美颜美妆需求关注点。

（3）市场分析

美颜美妆的市场规模，产业链，潜在的边际效应利益等。

6.2 文档准备

（1）需求文档

详细的分析目前的用户需求，针对不同群体，设计不同的产品解决方案，包括市场的需求文档。

（2）数据文档

前期的人脸图片收集、分发、标注总结文档（确定什么样的图片能要，什么样的不能要），各种脸型（长的、宽的、圆的、前额凸出的、眼睛深陷的等等）的分类，多少人完成眼睛美颜图片的分类等。

（3）产品文档

场景落地文档：如听歌时头上戴虚拟耳机，叹气时嘴上叼烟，说话时唾沫星子等针对不同的人脸姿态场景研究可能的落地产品形式。
产品的设计文档：如美颜APP的页面交互设计、导航设计、视觉呈现设计等；直播APP中的弹幕呈现设计、点赞分享按钮设计等。
产品开发流程文档：如PM先提交需求、可行性分析、立项、设计流程、开发流程，算法搭建、模型训练、测试训练等一系列流程的步骤及跟进。
模型训练及测试文档：数据标注好后，喂给算法，搭建人脸识别美颜的模型框架，如前期用成千上万的照片训练机器的人脸关键点定位，让机器找准鼻子、眼睛、耳朵、嘴等位置等。

6.3 数据标注

（1）数据图片的采集

在文档的指引下，从公开网站上爬取收集符合模型训练的人脸图片、或是运用公司的数据图片等

（2）数据图片的标注

在标注规范文档的指引下，将图片分发给标注团队进行数据的标注，对一些模棱两可的图片，如图片中的人脸较模糊，此时该照片是要还是不要，期间应与算法同事保持沟通，有时暗的图片在算法的优化中能准确识别，这样增加实际情况的容错率（实际中较暗的人脸图像也能定位出关键部位），那么这张图片则视为有效数据；有时较暗的图片经过算法之后并不能达到要求（及无法定位出人脸关键点），此时这照片则视为无效数据，直接剔除；但是标注团队并不知道这张图片是有效还是无效，所以标注过程中，算法同事也需间接参与进来。

（3）数据的反馈

在部分图片标注过程后，交于算法同事训练模型调节参数，期间将测试后的数据（精确率和召回率的计算，来反映数据的标注结果）反馈给还在标注的人员，有时可能造成过拟合有时可能造成欠拟合等方便对数据进行重新操作。

6.4 项目流程跟踪

（1）产品立项后，每天的任务管理，流程进度跟踪，产出时间管理，开会反馈工作成果等。

（2）软硬件端：在开发流程文档的指引下，按照常规的软硬件跟踪开发。

（3）算法流程：人脸采集、人脸检测、图像的预处理（模糊的则用算法去模糊等）、人脸特征提取、图像的匹配识别、AR虚拟等。

6.5 项目测试

手机摄像头测试
平台后台程序测序
算法与平台后台测试
模型识别时间、准确率、召回率测试
服务器稳定性测试
网络带宽限制测试
其他平台、硬件产品常规测试
目标用户使用测试

6.6 项目优化

经过各种测试之后，针对反馈回来的数据进行产品的优化。

如一张嘴就给你来根烟，结果烟插到鼻子上了，这就明显是没有定位到人脸关键点，是数据的原因还是算法的原因，这些都要经过优化处理；经过种子用户测试后，反馈得知这个点赞按钮操作起来有点别扭，应该怎样怎样，这时可能要与设计的同学讨论一下，该怎样优化产品的设计和体验。

6.7 项目验收上线

产品按照流程功能进行验收后上线。

06 FR的个人看法

1. 人脸识别的现状

1.1 实验室效果和现实效果对比，差距巨大

现如今的人脸识别技术在金融、安防等领域的应用实际上的效果要比实验室里的差很多，前阵子西安的某高校引入人脸识别晨读打卡，由于反应速度太慢，到中午还排着很长的队。可见实际生活中，由于各种物理因素（光照、角度、对焦、人鱼摄像头的距离等）导致抓拍的图片质量比较差，又经过网络传输到局域网/互联网进行对比（网络差的过程中，反应很慢），使得实际效果大打折扣。大多数情况下，实际抓拍图像质量远低于训练图像质量。

1.2 训练时的标准和实际应用的标准

大多数情况下，实际应用的标准会远高于训练标准。例如，人脸识别实验室的标准是通过正脸数据训练出模型，能识别正确人脸就可以。而实际情况可能没有正脸数据，对训练提出了更高的要求。

1.3 训练效果和现实效果

大多数情况下，实际效果会远低于训练效果。现在市面上CV公司都是说自己的训练效果在99%以上（无限接近于100%），但这不等于实际应用的效果就是99%。工业上场景复杂的人脸应用（类似识别黑名单这种1:N的人脸比对）正确率在90%以上就已经是表现得很好的算法模型。

2. 未来发展趋势的思考

随着人工智能的火热和发展，在全球信息化、云计算、大数据的背景下，生物识别技术的应用面会越来越大，由以人脸识别为其中代表。以下几个发展趋势呈现：

网络化趋势：人脸识别解决了日常生活中一个基本的身份识别问题，今后，这总身份认证的结果会越来越多的和各行各业应用结合起来，并通过互联网和物联网得以信息共享，简单来说就是“身份识别+物联网”的发展趋势未来将十分普遍。
多生物识别模式融合趋势：人脸识别技术现如今的还达不到人类的预期体验，对于一些安全性要求高的特殊行业应用，如金融行业，人脸识别很容易被不法分子攻破漏洞进行身份造假，因此需要多种生物特征识别技术的融合应用（如活体检测、虹膜识别等）以进一步提高身份识别的整体安全性。
云技术：未来的云技术也将大大给人脸识别的应用提供数据和计算力支持，基于云技术的门禁控制可以同时管理成百上千的通道，加上物联网的普及，用户对任何地方的门禁进行远程控制和管理，准确识别本人，将广泛应用到企业、学校、培训机构、大型商业场合、办公大楼的门禁解决方案。

3. 盈利模式的思考

（1）单一盈利模式

现如今的人脸识别技术服务商，都以将技术接入第三方应用软件，或是搭载在智能终端上，通过收取一定技术服务费来获取盈利。目前国内的第一梯队创业公司都在技术和数据上沉淀，而是否盈利，盈利多少都还尚不明确。

如在金融领域，人脸识别用于身份确认，然而身份确认之后，就没你什么事，你跟用户的关系只在于，打开某款APP或某个终端场景（闸机）的钥匙，打开之后，用户的所有行为都沉浸在APP中，并没有给FR技术服务商带来其他的使用数据及用户行为信息；从根本上来看，用户只是用钥匙开了门，而往往是门里面的东西（用户数据）才能带来商业价值。

（2）对比互联网和移动互联网

互联网时代早期有很多功能性的产品。如早年间的QQ只有聊天的功能；360用户只是用它来给电脑杀杀毒；百度就是个即问即答的老师；搜狐、新浪也就是用来看看新闻而已。
移动互联网时代也有很多这样的产品。滴滴帮用户叫个车；高德也就差不多是古代的指南针。
案例分析：众所周知，上面举的例子不是互联网时代的高市值企业，就是移动互联网时代高融资率的企业。
QQ后来用户数越来越多，QQ号成网络身份的一个必不可少的身份属性之一，用户大量的数据沉淀在其中，通过用户的使用行为信息，小马哥知道了这么多人都用我的QQ，那赶紧搞个什么娱乐活动，让有QQ号的人都来玩，于是就有了庞大的游戏帝国产业，游戏里面又加上各种钻（什么粉钻、绿钻、紫钻、黑钻）对应的各种会员机制，QQ号又以其他的方式来获取用户的行为信息如，QQ音乐（下歌要钱、换皮肤要钱）、腾讯视频（各种广告收入、会员充钱等）、QQ邮箱（会员高级功能）等，让人们越加沉浸在QQ帝国的生态圈中，莫名其妙的就被吸走了很多钱。可能你会说我还可以用其他的呀，但是好烦啊，这个也要注册，那个也要注册，明明一个QQ号可以玩转所有，没办法我就是这么懒，所以说懒人创造了这个世界的绝大多数科技产品。
滴滴现如今估值几百亿美刀，投资人为何给一个只帮你叫车的公司如此高的估值，我们知道滴滴打车比一般的直接叫车要便宜一点点（专车除外），那它的盈利点从而来，投资人有看中了它的哪一点。其实不难理解，滴滴之所以有如今的估值，正因为其几乎垄断了国内的打车市场，大量的用户使用它，必然就会有用户的使用数据，而这些数据便是变现的好东西，一旦整个生态搭建完毕，未来滴滴就将这些数据用无人驾驶方面，一旦抢占了市场的制高点，未来在行业链上就有绝对的议价能力。比如现在人们已经习惯了去一个陌生地方，就来一个滴滴打车，若滴滴突然涨价，一公里涨几毛或一元，你用它还是不用；心理学表明，人养成一个习惯之后，就会有惯性，对于没有超出心理承受预期的东西（不是涨价涨得特别离谱），人们会一直保持这个习惯中的一些行为，而不愿做出改变（也就是常说的人有一种惰性）。因此我想大多数人都会去接受，因为可能你花时间自己打车也是需要很多成本的；用户基数比较大，那这个涨了几毛的就会带来不少的盈利空间（中国十几亿人口，一人给我一毛钱，我都能成为亿万富翁了，但对别人而言，一毛钱可能连袋辣条都买不到），这还只是一方面。

d. 人脸识别作为一种技术，并没有实际的产品承载点。以上分析中的种种产品，你都能叫出来名字，是因为这些功能或是技术都有一个实际的产品承载点，比如QQ用了即时通讯技术，头条背后的智能推荐用了机器学习相关技术，但在我们心目中它不是以一种技术停留在我们的心智空间里，它是一款实实在在的产品，我们可以操作它，使用它。无论是QQ还是滴滴、高德、今热头条、新浪等等，这些产品我们都能实实在在的接触到，并且后续行为都在这个技术的承载点里（如即时通讯技术的产品承载点是QQ，机器学习技术的产品承载点是头条），那么用户的数据自然也就在产品承载点之中，这样我们才能应用数据来创造价值，从而实现盈利。

e. 人脸识别目前的阶段停留在大众视野里只是一种技术，人们的潜意识里并没有建立起一个概念，那就是这个人脸识别到底是个什么东西，我能操作它吗？它能给我带来什么呢？而一旦人脸识别有一个产品承载点，让用户能实实在在的进行操作，并有数据积累，才会有盈利的可能。而人脸识别的产品承载点是什么，目前还都没有出现，未来肯定会有，这也是未来的一大机会，无论是什么，这个产品必然都能被用户实实在在的接触到，并且后续也都将在其中产生行为，后者是必要条件。

4. 信息安全的思考

一旦前面提到的产品承载点出现，FR技术必将大行其道，随之而来的可能是信息安全问题。

物联网时代之下，万物互联，万物智能，FR技术也必将融入到物联网之中，人们可能都不需要身份类的实物证件。回家开门扫脸，外出开车门扫脸，进公司扫脸，出去吃饭付钱扫脸。当人脸成为你的虚拟证件时，一旦又不法公司、团体、个人泄露或是破解了你的人脸虚拟证件，那么你的一切信息可能都暴露在他人面前，财产、房子、车子可能都有风险，还有可能因为丢失人脸证件，将无法证明你自己的身份，就像你丢了身份证一样。可想而知信息安全的重要性，未来估计会诞生一个虚拟身份信息系统，里面有每一个人的身份信息，当第三方需要身份认证时，可接入系统等。前阵子脸书因为社交信息泄露而惹上众怒引起公关麻烦。我想未来如果有一个公司专门负责用户信息数据的监管，我也不会觉得很奇怪的。

5. 产品形式的思考

可接触性：无论FR技术最终是以硬件还是软件方式出现在用户面前，前提是用户能够实际的接触到，而不是仿佛在云端不可触摸，只有用户接触了，才能在心里产生出它是一款产品，而不是一项技术的概念。如AR美颜就是实实在在可操作的产品。
连续使用性（高频性）：产品必须是用户能连续使用的，也就是所谓的高频性，只有这样才能产生可利用的信息数据来变现。
功能承载性：产品要能以一种功能的方式为用户解决生活中的某一类问题。人脸除了身份认证（金融行业、安防门禁）、视觉欣赏（美颜美妆、整容）、社交评判依据（婚恋网站）还能用来干什么呢？
To C or To B：结合互联网时代的发展，我个人始终认为一款产品只有围绕用户提供服务，才有可能成就明星产品。从历史的角度来看，每一个王朝的兴衰更替都是以老百姓的意愿为转移，有道是“水能载舟亦能覆舟”。产品亦是如此，产品概念诞生到现在，每一款产品的兴衰也都是建立在用户的基础之上。任何一款产品抛开用户之后都只能死亡，尽管目前FR大层面上应用在B端，但是未来成功的FR应用产品必然是诞生在C端。

下面附上总结这篇系列文章的思路导图：

大图地址：

https://upload-images.jianshu.io/upload_images/8484039-397ceeedb8b3d438.png

你可能感兴趣的:(人工智能)

DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
【财经信息差】2024年12月27日最新财经资讯一览每日财经热点一网打尽代码简单说 AI观财经:财经信息差 AI观财经财经信息差今日财经资讯财经热点今日资讯
大家好，欢迎来到财经信息差！每天，我们将带你直击全球财经动态，精选最新的市场变化、政策动向与产业趋势，让你在最短的时间内，轻松掌握最关键的财经资讯。随着人工智能技术的迅猛发展，我们将用AI的视角为你解析财经热点、企业动向及全球经济变化，让复杂的信息变得简单易懂，帮助你做出更明智的投资决策。财经领域股票市场美股三大指数集体低开，大型科技股多数下跌，纳斯达克金龙指数跌1.07%。小鹏汽车跌3.32%，
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
探索“AI知识库”的未来：重塑信息获取与教育的新篇章知识库知识库管理
在数字化时代，信息的爆炸性增长既为人类带来了前所未有的知识盛宴，也带来了信息筛选与理解的巨大挑战。在此背景下，“AI知识库”作为人工智能技术与知识管理深度融合的产物，正逐步成为解决这一难题的关键。本文旨在探讨“AI知识库”的核心价值、技术进展、应用领域以及对未来教育与社会信息获取方式的深远影响，并在此基础上展望其发展前景。一、AI知识库的定义与核心价值定义：AI知识库，简而言之，是利用人工智能技术
人工智能之数学基础:基变换和坐标变换的区别每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能机器学习算法基变换坐标变换线性变换
本文重点基变换和坐标变换是线性代数中的两个重要概念，它们描述了向量在不同基底或坐标系下的表示和转换关系。矩阵矩阵不仅可以作为线性变换的描述，而且可以作为一组基地描述。而作为变换的矩阵，不但可以把线性空间中的一个点给变换到另一个点去，而且也能够把线性空间中的一个坐标系（基）表换到另一个坐标系（基）去，这就是基变换和坐标变换。定义与本质基变换：定义：基变换是指向量在不同基底下表示的关系的数学描述。它涉
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者! V__17671155793 智能电视
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者!随着人工智能（AI）技术的飞速发展，直播行业正经历着前所未有的变革。2025年，被誉为“AI直播元年”，这一年见证了众多创新AI直播工具的涌现，它们不仅提升了直播的智能化水平，更在效率、互动性和观赏性上实现了质的飞跃。以下，我们将盘点2025年经典实用的十款AI直播工具，尤其聚焦于第一款，带您领略AI如何重塑直播行业。一、智享A
【SoC基础】第2节：CPU简介望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录CPU结构设计CPU生产厂商CPU工作原理CPU的组成CPU的类型CPU内核与CPU的关系CPU内核种类参考CPU结构设计结构类型结构特点优点
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
【SoC基础】单片机之RCC模块望闻问嵌 #SoC 单片机
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处RCC模块简介RCC（ResetandClockControl）即复位和时钟控制模块，其基本功能总结如下：时钟源管理多源选择：支持多种时钟源，包含内部
北约人工智能战略举措与影响分析岛屿旅人网络安全人工智能行业分析人工智能网络网络安全 web安全安全
文章目录前言一、顶层规划，明确发展方向（一）发布《人工智能战略》，明确AI发展方向和行动指南（二）适应当前需求，适时更新《人工智能战略》（三）制定《数据利用框架政策》，提供政策指导和基础支持二、政策配套，推动细化落实（一）成立北约数据和审查委员会，推动人工智能转化应用（二）成立新兴和颠覆技术咨询小组，指导创新与成果转化（三）成立北约创新委员会，引领前沿技术研究三、加强投资，促进生态布局（一）启动北
DeepSeek高能低耗AI创作突破智能计算研究中心其他
内容概要随着人工智能技术向垂直领域加速渗透，生成式模型的应用边界正经历革命性拓展。DeepSeek系列产品通过670亿参数混合专家架构，构建起覆盖学术研究、内容创作与编程开发的多模态解决方案。该架构融合视觉语言理解与多语言处理能力，在保持高响应速度的同时，显著降低算力消耗，其单位计算成本仅为同类产品的三分之一。值得关注的是，系统搭载的DeepSeekProver学术引擎可自动生成文献综述框架，而D
未来5年AI人工智能与信息技术领域发展趋势海宁不掉头发人工智能软件工程人工智能人工智能软件工程笔记 chatgpt
未来五年人工智能与信息技术领域发展趋势深度解析一、人工智能与神经网络技术的突破路径（一）算法架构的范式革新深度神经网络正经历从量变到质变的演进。以Transformer为核心的序列建模技术持续迭代，字节跳动云雀模型通过动态结构优化，在保持语言理解能力的同时将参数量压缩至GPT-4的1/10，推理速度提升3倍。更值得关注的是类脑计算的突破，中国科学院自动化研究所提出"基于内生复杂性"的类脑神经元模型
如何利用AI制作PPT，轻松实现高效演示 HUIPPT剑盾ai 人工智能 powerpoint 学习软件科技
如何利用AI制作PPT，轻松实现高效演示！在这个信息爆炸的时代，PPT已经成为了日常工作和学习中不可或缺的工具。每当我们需要汇报、展示或总结时，PPT几乎成了“必杀技”。然而制作一份精彩的PPT往往需要花费大量的时间和精力。随着人工智能技术的发展，AI做PPT变得越来越简单，不仅节省了我们的时间，还能提升演示的质量。AI生成PPT的最大优势之一就是高效性。过去我们需要一张一张地调整幻灯片，插入图片
Spring Boot Starter 设计原理与实战：打造企业级自定义启动器 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBootStarter设计原理与实战：打造企业级自定义启动器一、引言在当今的企业级Ja
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL