写论文神器APEX-NET:自动重新绘制图像

点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达



小白导读论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

写论文神器APEX-NET:自动重新绘制图像_第1张图片

摘要

从二维线图图像中自动提取原始数据是一个非常重要的问题,有许多实际应用。已经提出了几种算法来解决这个问题。然而,这些算法涉及大量的人工干预。为了减少这种干扰,作者提出了APEX-Net,一个基于深度学习的框架,使用新的损失函数来解决图的提取问题。作者引入了一个新的大型数据集APEX-1M,它包含了绘图图像和原始数据。作者在APEX-1M测试集中演示了APEX-Net的性能,并表明它获得了令人印象深刻的精度。作者还展示了作者的网络对看不见的plot图像的可视化结果,表明该网络在很大程度上提取了plot的形状。最后,作者开发了一个基于图形用户界面的绘图软件,它可以使整个社区受益。数据集和代码将向公众开放。

论文创新点

从目标检测算法中汲取灵感,并认识到它们之间的差异,作者开发了一个名为APEX-Net的深度学习框架,解决了自动绘图的问题。据作者所知,这是深度学习框架中解决这一问题的第一个工作。作者的主要贡献如下:

  • 介绍APEX-1M大规模图数据集获取大的变化绘制图像的性质,作者提出APEX-Net

  • 一个深度学习框架,从情节图像提取原始数据大大减少了人工干预

  • 作者设计新颖的损失函数专门针对情节提取任务。

框架结构

写论文神器APEX-NET:自动重新绘制图像_第2张图片

APEX-Net的网络结构。输入的plot图像经过几个卷积层,得到预测的plot Y及其置信度S

给定I,作者有两个目标要完成:预测图像中包含的图的数量,并估计每个图的Y值。作者使用一个统一的框架——APEX-Net,同时实现了这两个目标。作者首先假设图像中所包含的最大图数,并用K^表示。作者选择K^ = 10,因为大多数现实世界的多图图像通常包含少于10个图。然而,这只是为作者的网络选择的一个设计参数,并不是作者框架的限制。为了容纳更多的图,K^可以增加。在作者的统一框架中,给定一个图像I,作者的网络产生两个输出Y和S,其中,Y = (Y1;Y2;···;YK^)和S = (s1;s2;···;sK ^)。其中,Yi和si分别表示第i幅预测图的估计y坐标和置信值。confidence score si是0到1之间的真实值,表示第i幅预测的图实际出现在图像中的概率。在推断过程中,作者只选择那些得分大于0:5的情节,放弃其他情节。

给定一个大小为m×n的输入图像I,作者首先将图像的大小调整为固定的512×512。然后,作者通过上图所示的一系列块传递图像。每个块由卷积层、批处理标准化层和激活函数组成。最后一个块使用sigmoid激活函数将值缩放到0到1之间。除此之外,所有其他块都使用ReLU(矫正线性单元)作为激活函数。大多数块包含一个最大池层,这有助于逐步减少特征映射的大小。网络输出Y和S,分别为10×1024和10×1的张量。

损失函数

写论文神器APEX-NET:自动重新绘制图像_第3张图片

写论文神器APEX-NET:自动重新绘制图像_第4张图片

结果

写论文神器APEX-NET:自动重新绘制图像_第5张图片

APEX-Net对来自APEX-1M测试数据集的一个示例的结果(如(a)所示),以及对不可见的示例的结果(如(b)和(c)所示)。在(a)、(b)和(c)中,左边的大图为输入图像,右边的小图为预测绘图数据的可视化。(d)描述作者GUI工具的主屏幕,(e)描述GUI的运行。

写论文神器APEX-NET:自动重新绘制图像_第6张图片

APEX-Net在APEX-1M测试中的性能

结论

作者提出了APEX-1M数据集——一个大规模的带注释的图数据集,它使作者能够训练APEX-Net——一个用于自动图提取的深度学习框架。作者证明了APEX- net在APEX- 1M数据集上取得了显著的性能。可视化演示表明,作者的网络即使在看不见的数据上也表现良好。据作者所知,这项工作是第一次尝试在深度学习设置中解决图提取问题。作为作者的主要目标,作者已经能够在很大程度上减少人为干预。作者相信,未来在这个方向上的工作将有助于完全消除在循环中人工的需求,过程将真正实现自动化。顶点网的一个限制是它认为绘图轴与图像边界对齐。然而,作者的方法可能在存在仿射或投射畸变时失败。这些局限性将在作者未来的工作中得到解决。

论文链接:https://arxiv.org/pdf/2101.06217.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目31讲

在「小白学视觉」公众号后台回复:Python视觉实战项目31讲即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

下载4:leetcode算法开源书

在「小白学视觉」公众号后台回复:leetcode即可下载。每题都 runtime beats 100% 的开源好书,你值得拥有!


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

你可能感兴趣的:(论文解读,算法,编程语言,python,计算机视觉,神经网络)