读《基于深度学习的以图搜图技术在照片档案管理中的应用研究_赵学敏》

论文名称:《基于深度学习的以图搜图技术在照片档案管理中的应用研究_赵学敏》

发表时间:2020年4月

发表期刊:档案学研究(北大核心、CSSCI)

发表单位:云南大学档案馆


愚见

  • 是一个叙述性的论文,没有太大的技术含量。
  • 介绍了一点以图搜图方向的知识点+系统部署流程,不多但还是写得不错。

有意思的词

“读图时代”、“有图无真相”

为了保证照片档案内容的明确性和准确性,照片必须编写文字说明,文字说明可以确保照片档案内容真实有效,是便于档案管理和检索利
用的必须著录字段,文字说明主要说明数码照片的“时间、地点、人物、事件、背景、摄影者”等六要素

两类图像检索方式

  1. 1992年,KatoT提出了基于内容的图像检索(Content-Based Image Retrieval,CBIR)概念,提出提取图像的颜色、形状等特征构建数据库用于图像检索,也就是“以图搜图”

    • 通过深度学习模型对照片档案中的人物进行人脸识别,辨认出照片中的专家学者、重要领导和某个需特定搜索的人物,
    • 通过场景识别自动辨认出照片中出现的建筑和会议场所等,
    • 通过学生入学录取时的单张照片信息,自动识别出毕业合影等照片中每一个学生并自动著录其姓名。
  2. Google于2001年首次推出了基于文本信息的图像搜索服务,它把网页中的图片名称、路径、Alt标签和图片周围的说明文字作为索引关键词,并于2011年推出了基于内容的图像搜索功能。

关键

以图搜图的关键在于找出图像中的相似内容,指定一张图像,需要对其内容进行识别,提取图像的关键特征值与待检索图像库中的所有图像的特征值库对比,找出特征值相似的图像,返回与待检索图像内容相关的图像。

过程

为提供检索准确率和效率,需要对每一张档案照片和待检索匹配图片进行图像特征提取,本文使用VGGNet深度学习模型来对档案照片和待检索匹配图片进行特征提取,为每一幅图像提取到特征值组合转换为特征向量,代表每一副图像的内容特征,把所有特征向量构建图像特征索引库如图1所示。(特征提取时,都将待处理图像的尺寸大小先缩放到224×224)

再进行以图搜图检索时,使用局部敏感哈希算法(Locality Sensitive Hashing,LSH)把待检索匹配图片的特征值和图像索引库中的特征值进行一一对比,相似度越大表示两幅图像越相似,再把相似度较高的档案照片作为以图搜图的检索结果。

读《基于深度学习的以图搜图技术在照片档案管理中的应用研究_赵学敏》_第1张图片

关键技术

  • 深度学习框架:Keras
  • 图像特征提取:VGGNet
  • 构造图像特征索引库
  • 检索算法:局部敏感哈希算法 LSH
  • 部署 Apache Tomcat 作为以图搜图Web搜索应用

计算机可以提取统计图像中各种颜色分布的颜色直方图、颜色分布矩阵、颜色聚合向量、纹理特征、轮廓区域形状特征等全局特征综合运用来提高图像检索和匹配的精确度。

常见的关键点局部特征

  • SIFT David Lowe提出一种用于从图像中提取关键点的尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)的方法,关键点的SIFT特征是图像的稳定局部特征,不受图像尺寸放大缩小和角度旋转变化限制,在计算机图像分类和识别领域得到了广泛的应用。

  • HOG Navneet Dalal提出通过计算和统计目标图像局部区域的外观和形状的特征梯度方向直方图(Histogram of Oriented Gradient,HOG)来构成图像特征,在计算机视觉和图像处理中用来进行人体检测和识别。

图像特征索引数据库

使用了Keras提供的图像数据增强工具Image Data Generator对每一张图片进行了缩放和裁剪,让每一张图片变成多张224×224尺寸大小的图片,再使用Keras通过加载预训练的VGG16模型,提取每幅图像在全连接层上的特征信息,每幅图像的特征信息经过提取后表征为一个向量,对每一张图片对应多幅图片的图像特征聚合组成一个向量集,这些向量集的集合就生成了档案照片图像特征索引数据库

你可能感兴趣的:(论文阅读,图搜索,人工智能)