2019-07-06 Stacked Capsule Autoencoders 自我笔记记录(欢迎留言讨论)

  • 用的 SVHN 与 MNIST 数据集,差评
  • 怀疑假设的合理性与有效性

Abstract

核心是开头两句:

An object can be seen as a geometrically organized set of interrelated parts. A system that makes explicit use of these geometric relationships to recognize objects should be naturally robust to changes in viewpoint, because the intrinsic geometric relationships are viewpoint-invariant.

  • 一些物体,类似车、人这种,基本是符合的
  • 一些物体,类似水、雾、云这种,并没有比较确定的模式
  • 艺术性的描绘,类似简单线条勾画出的形状,比如 ^_^ ,若要与真实人脸匹配,则需语义与拓扑的网络(见图1, 图2)



    图1. 截图来自《Cognitive neuroscience--Fourth edition》 Banich, Marie T. & Compton, Rebecca J.

    图2. 原图来自《Principles of neural science--Fifth edition》

1 Introduction

CNN 在不同的位置,利用学习到的关键特征进行物体识别。
但是,CNN 试图学习到不同尺度、不同朝向的关键特征,这造成了高层特征图的臃肿。(为什么会造成臃肿?)

图3. SCAE

你可能感兴趣的:(2019-07-06 Stacked Capsule Autoencoders 自我笔记记录(欢迎留言讨论))