人工智能在图像识别和生成方面的技术与应用--文献信息检索

摘要

       随着人工智能技术的不断发展,人工智能技术在图像识别和生成方面不断进步,应用也越来越广泛。本文介绍并梳理了人工智能在图像识别和生成方面的多种技术,盘点了当前人工智能图像识别和生成方面在各种领域的应用。

关键词

人工智能,图像识别,图像生成,深度学习

一、背景

随着人类在计算能力、数据积累、数学工具等方面取得了巨大进步,人工智能(AI)应运而生。其中的人工智能算法的图像识别与生成技术也在随着人类技术的发展在不断的前进。人工智能中的图像识别与生成技术的发展,主要以新技术的互相融合作为融合的发展目标。按照预期设定的方法与模式,在特定的一个环境里可以进行自主运行。人工智能算法对图像识别与生成的运用,主要采用的是无需人为的管理方式,这个可以让其技术在要求上达到工作中需要的目标。基于对人工智能算法的图像识别与生成分析的认识,本文主要对人工智能算法的图像识别与生成的相关技术和应用方面等内容进行全面的阐述与运用。

二、相关技术

(一)人工智能识别技术

1.PCA 降维技术

PCA 降维技术(principal components analysis)主要体现在:对主要成分进行成分的对比分析与处理,也就是对主分量进行全面的分析与运用。一般情况下,该技术利用降维思想进行相关分析,进行多指标的相关转化,变成少数综合指标的运用。上述的运用技术,针对数据库的平均脸的识别图像进行对比、分析和处理,通过 PCA 技术来处理人脸识别图像的降维,经过对降低维度进行改变,同时,对降低维度后保留的数据进行分析并记录其产生的影响[2]。

1.1平均脸识别技术

对于人工智能算法的图像识别与生成技术中,处理平均脸识别技术,主要的在于:把数据库中的 500张人脸图像按行存储到一个矩阵中,进行其行为的分析与对比,然后对人脸的参数特征进行计算。也就是对每个维度取平均,对得到的新的行向量,进行分析其人脸的平均脸的特点运用。其中,要用平均值对人脸的轮廊进行分析与识别运用,这种技术是没有办法对人脸的局部细节进行识别的[3]。

1.2降低至不同维度时还原脸的技术

基于对平均脸进行的技术分析,现在对不同维度的降低情况,再对还原脸技术进行分析。针对上述的数据与抽取的相关案例,对相关的图像进行综合分析,选择同一张脸降低至 10,30,50,100,200,250,300,350,500 的图像。从上述的案例中可以分析出:如果保留下来的维数越来越多,那么图像的清晰度也会越来越高,通过对照原图进行差异性技术分析,这个差距是越来越小的[4]。

1.3 提取单一维度的特征做还原技术

为了还原人脸特征,需要对单一维度的相关特征进行分析与运用,主要体现在针对不同维度分析出不同的人脸特征的运用。该技术主要是利用PCA技术对每一个特征进行综合分析,同时,对每一个特征向量进行单独抽取,然后对相关的人脸进行还原与识别,最主要的是平均脸不参与还原的过程,并研究出直方图均衡化的相关问题[5]。

针对PCA技术的相关结果与研究内容,进行分析与运用做出如下结论:对其特征进行累积处理,在生成的图表中,用保留的图像特征值除以所有的特征值,得到的比例形成了纵坐标。例如,保留了k维信息,用这k个特征值的和除以500个特征值的和,计算出来的结果就形成了纵坐标的值。提取单一维度的特征做还原技术与运用分析,得出如下结论:如果保留了100维数时,人脸的92%左右的特征都能被清晰地保留下来,如果增加保留的维数,那么这个比例的变化将越来越不明显。

2.SVM技术

2.1SVM对人脸分类技术概况

支持向量机(SVM技术),主要的研究运用最初是由国外提出与运用的,在1995年由 Corinna Cortes和Vapnik等人进行研究与开发提出来的。针对机器学习的运用,本技术利用相关的学习算法进行相关的监督学习模型,并且在研究过程中支持向量机,然后分析出相关的数据与相关的信息内容,并对模式进行识别操作,主要是用于回归分析与分类分析等内容[6]。

2.2制作多分类器

通过PCA技术应用在人脸降维方法之后,再运用SVM图像处理技术对上述的进行人脸识别分类的研究。按照该原理,将每个人的前五张照片图像进行合并,生成训练集,然后将每个人的后五张照片图像进行合并,生成测试集。注意,在制造多分类器之前,需要对PCA 技术分析出的数据进行归纳运用,并将图像矩阵中的每个元素采用映射的方法调到(-1,1)之间。

2.3数据与信息的参数选择及程序结果分析

第一,从上述2.2节中,可以采取分类数据的方法进行差距分析。训练集存储的是每个人的前 5 张照片,测试集存储的是每个人的后 5 张照片,其中自己的人脸图像是不加入的。SVM参数设定:k=75(PCA 降至 5维);Sigma=30;c=15;预测精确率:

Accuracy=0.8950。

第二,每人取出前五张用做训练,最后五张用做测试(加入自己的人脸)。SVM 参数设定:k=75(PCA 降至 75 维);Sigma=30;c=15;预测精确率:Accuracy=0.8585。

根据上述结果,可以得出相关的分析结论:当加入自己的人脸图像后,预测精确度下降,很可能是拍照时的光线,角度等原因造成的。

3.ANN技术

3.1 ANN对人脸分类技术的概述

人工神经网络(ANNs)简称为神经网络(NNs),或称为连接模型(Connection Model)。是关于一种模仿动物的神经系统与网络的行为特点,对信息进行分布式和处理而采用的一种算法数学模型。该网络利用系统的复杂程度,为了实现处理相关信息的目标,把内部很多节点相互之间的联系进行局部调整。针对SVM 技术方便、快捷的运用,我们分析出上述的结果内容,与ANN技术当中的测试集与训练集进行对比分析发现,结果是相同的,这是在不需要加入自己的人脸的基础上进行分析得出来的结论。

较运用 [7]。

(二)人工智能生成技术

1.GAN技术

1.1 GAN生成手写数字技术的概述

GAN即生成对抗网络是一种深度学习模型。在原始的GAN理论与技术中,并不一定选择神经网络作为G和D模型,只是要求将相应的生成函数与判别函数进行融合运算。一般在实际运用过程中,选择深度神经网络作为G和D模型[8]。

2.DCGAN技术

2.1利用DCGAN扩充数据集

GAN避免了反复应用马尔可夫链学习机制,无需变分下限或近似推断,极大的提高了应用效率,但难以保证G网络模型和D网络模型在对抗过程中保持平衡。而深度卷积生成对抗网络[9](DCGAN)将GAN与CNN相结合,提高了原始GAN训练的稳定性和生成图片的质量。DCGAN是GAN中一个代表性模型,在朴素GAN的基础上,引入卷积神经网络,替换原先的生成器和判别器结构,从而有效的提高网络的稳定性[9]。DCGAN的生成器和判别器均舍弃了CNN的池化层,其中,判别器使用卷积结构,生成器使用反卷积结构。DCGAN在生成器和判别器后的每一层加了BN层(Batch Normalization),加快训练速度,提高稳定性。移除完全连接的隐藏层,以实现更深层次的体系结构。此外,在生成器中,除输入层使用Tanh激活函数,其余层全部使用ReLU激活函数;在判别器中,所有层都使用LeakyReLU激活函数。

3.卷积神经网络技术

3.1卷积神经网络的基础

卷积神经网络CNN(Convolutional Neural Networks)是一种由多层感知机演变而来的网络模型,主要通过构建非线性多层神经网络提取出深层次的特征。该网络的特征之一是可以直接将图像作为输入,使用卷积神经网络可以自行抽取图像的特征,能有效避免在传统图像处理中进行特征处理的复杂情形。另外,随着大规模数据的采集,为深度学习提供了很好的训练资源,特别是GPU和TPU各种算力的出现,使得训练大规模数据成为了可能。

3.2卷积神经网络的特点

卷积神经网络可以通过采用梯度下降的方法最小化损失函数,并对网络中的权重参数进行反向传播,通过不断训练,提高网络的精确度。卷积神经网络的浅层部分是由卷积层和池化层交替组成的,深层部分则是全连接层。一般来说神经网络主要是用于图像特征的处理。最后一层是输出层,输出层一般是一个分类器,基于二分类就采用逻辑回归,如果是多分类就采用 softmax。卷积神经网络的核心思想是局部感受野、权值共享和pooling 层,也就是池化层,通过上述方法来达到简化网络参数的目的,并使得网络有一定程度上的位移、尺度、缩放以及形变稳定性。局部感受野中的神经元只需要感受局部特征即可,不需要对所有的图像特征进行感受,然后在深层网络中为了得到图像的全局信息只需要将图像的局部信息进行结合即可。共享权值的目的是为了减少参数的计算。通过对图像用相同的卷积核进行卷积操作,使得位于第一个隐藏层中的全部神经元能检测到图像中各个部分的特征。通过共享权值参数,卷积神经网络能获得较好的平移不变性。

3.3卷积神经网络训练步骤

(1)选定训练集:从样本集中任意选择N个样本作为训练集;

(2)初始化参数和学习率,并通过设定随机种子的方法将各权值、阈值,设置成接近0 值;

(3)通过各参数,使用前向传播方法得到卷积神经网络的输出值;

(4)将得到的值与目标值进行比较,利用损失函数计算目标值与估计值之间的误差;

(5)通过最小化误差,使用反向传播算法更新权值w和偏置b;

(6)不断迭代,判断指标是否满足精度要求,如果不满足,则返回(3),继续迭代;如果满足就进入下一步;

(7)训练结束后,将权值和阈值保存在ckpt文件中。再一次训练时,直接利用文件中的权值和阈值进行训练,而不需要从头开始训练,大大减少了时间成本[10]。

三、相关应用

(一)人工智能识别应用

1.精准招聘

针对企业“招人难,留人难”的现实困境,结合人岗匹配理论,梳理了人工智能识别技术的作用原理,剖析精准招聘的逻辑。提高企业招聘效率,精准匹配企业岗位需求与应聘者,降低招聘成本,缓解企业人力资源部门招聘工作负荷过高的现状,从而帮助企业思考和解决招聘难题。以期构建实现企业“精准招聘”的智能识别平台同时,借助企业用户画像构建可视化模型,再将其应用为企业建立人才数据库,从而达到精准招聘目的[11]。

2.牙-颌-面特征识别

随着数字化正畸时代的来临,通过人工智能识别牙-颌-面特征所体现出的技术优势越趋显著。在口腔正畸诊疗中,X线头颅侧位片、锥形束CT、牙颌模型及软组织面像是临床诊断与治疗的重要资料,应用人工智能识别技术给口腔正畸专科诊疗带来了新一轮的技术革新。在主流二维图像的特征识别技术已臻成熟和三维特征识别技术也随着计算机性能和数据采集设备的发展而发生了质的飞跃的情况下,人工智能技术也广泛应用于牙-颌-面特征识别临床应用中[12]。

3.茶树病虫害

传统茶树病虫害的识别主要依靠专业植保人员的现场诊断,难以满足现阶段茶园大规模种植发展的需求。随着计算机应用技术和人工智能领域的发展,人工智能识别技术因其鉴别速度快、稳定性好、准确度高等特点,能够实现提高识别效率、节省劳动力、迎合产业发展需求的效果。移动智能设备的快速普及,也为病虫害识别的发展提供了一个可行的方向。基于移动端开发的病虫害识别程序已经在储粮病虫害、果蔬病虫害等方面得到了应用[13]。

4.鸟类全景观测

随着数字化基础设施建设的推进,采用人工智能技术对鸟类观测影像进行实时识别,以期为湿地监控与生物多样性保护提供新的手段.2020年,在长兴仙山湖国家湿地公园,根据鸟类监测、识别场景的特点,利用级联分类器和卷积神经网络人工智能识别技术对鸟类进行监测、识别.结果表明,该鸟类检测和分类模型在验证集中分类精度达到87.75%以上.该分类检测方法适用于广角、远景监测下的鸟类观测识别,可以在实际的鸟类观测中达到自动化监测目标鸟类、人工智能辅助发现未知鸟类的效果,未来随着数据的积累,可以持续优化模型并提高检测精度[14]。

(二)人工智能生成应用

1.绘画

随着人工智能技术的发展,机器也可以像人类画家一样绘画,他们可以使用少量笔触,创作出精彩的画作。通过使用神经渲染器在基于模型的深度强化学习(DRL) 中,在代理学习确定每个笔画的位置和颜色,并制定长期计划将纹理丰富的图像分解为笔触。机器通过使用数百笔触可以实现出色的视觉效果,培训过程不需要人类画家的经验跟踪数据[15]。

2.智慧微课

微课是一种以微视频为核心的教育资源,它具有灵活简便、容量小、针对性强等特点,基本满足了“互联网+”时代的学习需求。传统的微课制作方式以人工为主,主要依靠制作人员的个人经验,虽然其制作质量有所保障,但是制作过程复杂,甚至需要建立专门的制作场所(如录播教室),故费时费力,且成本偏高,影响了微课资源开发的效率。2018 年,教育部印发的《教育信息化 2.0 行动计划》提出了“教育大资源开发利用机制全面形成”的新要求,传统的人工制作微课的方式显然已经不能适应新时代“教育大资源”建设的趋势,因此有必要寻求微课制作方式的新突破——人工智能和微课制作的结合,便是一种可能的发展方向[16]。

四、总结

本文介绍了人工智能算法的图像识别技术,有PCA 降维技术,SVM技术,ANN技术等技术。在人工智能生成技术方面详细总结了卷积神经网络技术。同时梳理了人工智能算法在这两个方面的应用,在识别方面的应用有招聘方面的精准招聘,医学领域的牙-颌-面特征识别,农业领域的茶树病虫害,生物领域的鸟类全景观测等。在图像生成的应用有艺术领域的绘画,还有教育领域的智能微课。

参考文献

[1]齐燕.基于人工智能算法的图像识别与生成研究.江苏 昆山:苏州托普信息职业技术学院, 2020:1-13.

[2]张野.信息管理中计算机数据库技术的应用[J].电子元器件与信息技术 ,2017,(01):65-67.

[3]刘小菊,周磊,颜意娜.基于 BP 神经网络的学生运动处方管理系统[J].浙江体育科学 ,2015,37(5):79-84.

[4]王英合.基于 WEB 的学生信息管理系统设计与实现 [D].中国海洋大学,2006.

[5]蓝坤,张跃.Android在远程医疗信息系统中的应用[J].计算机应用,2013,33(06):1790-1792.

[6]王震.基于深度学习的快速目标检测技术研究[D].天津:天津理工大学,2017.

[7]盛晟.基于稀疏表示和机器学习的人脸识别系统研究[D].浙江工业大学,2016.

[8]杨维姝,伊军英,孟雪,邱佳祺,冯庆军.基于DCGAN的金相图片生成方法及其应用研究. 江苏 张家港:江苏科技大学冶金与材料工程学院,2021:8-19

[9]李灵巧,李彦晖,殷琳琳.基于DCGAN的拉曼光谱样本扩充及应用研究[J].光谱学与光谱分析,2021,41(02):400-407.

[10]刘鸣凤.基于生成式对抗网络图片生成文字的研究.电子科技大学,2020:5-27

[11]郭钟泽,唐子婷,杨雯佳,何庆瑶.基于人工智能识别的"精准招聘"平台设计.北京:北京信息科技大学,2022:8-09

[12]陈欢欢,许天民.人工智能识别牙-颌-面特征的研究进展.北京:北京大学口腔医学院, 2022:10-25

[13]杨奉水,王志博,汪为通,张欣欣,孙亮,肖强.人工智能识别茶树病虫害的应用与展望.

浙江 杭州:中国农业科学院茶叶研究所,2022:6-29

[14]蒋敏,田元,吴伟志,朱力力,刘妙燕.鸟类全景观测系统中的人工智能识别技术.浙江 长兴:浙江省长兴县自然资源和规划局.浙江 杭州:浙江省森林资源监测中心,2021:8-23

[15]Zhewei Huang, Wen Heng, Shuchang Zhou. Learning to Paint With Model-based Deep Reinforcement Learning.Peking University,2019.  

[16]乐会进,贺胜,王丽红,刘俊生. 智慧微课:基于人工智能的微课自动生成系统.安徽 合肥: 中国科学技术大学 现代教育技术中心. 江西 南昌:南昌大学, 2018:12-24

你可能感兴趣的:(文献信息检索,人工智能,图像识别,人工智能,图像处理)