《图像理解理论与方法》(1)

1)图像理解的研究内容主要包括:场景中目标的识别;场景描述与理解。目标识别是为了场景的描述,是场景描述与理解的基础,具有主动性;场景描述与理解又反过来为目标识别提供先验信息,指导目标识别,是一个融合和反馈的过程。若将语义分析和关系描述融入图像理解中,则图像理解细分为:场景中目标的识别,场景中目标间的关系,场景描述与理解,图像语义描述与推理。

2)场景中目标的识别

区别于传统计算机视觉领域的目标识别,它需要场景描述的先验知识作为指导,强调在场景中进行识别,具有主动性。(有更多的条件或约束,能更好的识别。)

另外场景中的目标识别与人类视觉注意机制也有很密切的关系。注意对应“where”通道,而识别对应"what"通道。注意相当于一个过滤器,只留下”感兴趣“和”有意义“的目标进入高层视觉处理,也就类似于一个定位的过程或者实现复杂场景中目标和背景之间的分离。为了识别复杂场景中的目标,首先要实现感兴趣区域/物体的定位和提取,及目标/背景分离,从而减小搜索空间的大小,然后要能对选择出的感兴趣区域/物体进行有效识别。

场景中目标识别完成之后,对识别结果需要定量评价。主要包括:分类评价(ROC receiver operating characteristic curve)和检测评价(RPC recall precision curve)【看不明白】

3)场景中目标之间的关系或关联

主要有视觉关联(低层,客观)和语义关联(高层,主观)。根据Biederman的观点,将目标之间,目标与场景之间的关系分为:插入(目标受场景的影响);支撑(目标依赖表面的支持);概率(目标倾向于再某些语境中出现,在另外一些语境中不出现);位置关系相对大小关系。

视觉关联包括目标内部关系(图像基元之间和目标部分之间)和外部关系(目标之间)。有形状上下文和外观上下文。如两种形状的匹配过程就是找出一个形状与另一个形状上每个取样点最相似的形状上下文,即两个相似形状的对应点应具有相似的形状上下文。【具体真没理解这里的上下文究竟是什么意思?难道是轮廓线(形状)由很多 ”取样“点构成,用形状进行匹配,相似形状的曲线每个点的下/上一个点的位置应该有某种关系(相似的形状上下文)】。外观包括亮度、边缘相应、颜色直方图、纹理等。这里的上下文又是什么含义呢?

语义关联可细分为空间上下文体现了位置关系类型。场景中目标间的空间位置关系(电脑常位于桌上),共生关系(若地板出现的概率较高,则马路出现的概率就会很低))和场景上下文(如深度是场景中重要的上下文信息,可利用遮挡关系获取一部分深度信息)。

4)场景描述与理解

目前的研究内容:视觉心理学和生理学研究,研究快速场景感知的心理和生理机理;研究场景分类的计算模型

场景感知:Gestalt心理学认为视觉会尽量以简单有意义的方式把外界离散的信息有选择的组织成为整体;生物学家认为场景的语义理解发生在目标识别之前

场景分类:图像中场景的类别不仅包含人们对图像的总体认识,而且还提供了图像中目标之间的上下文关系。与目标识别联系紧密但又有区别。

5)图像语义描述推理

对场景中相应目标和区域的语义化描述也称为语义标记。标记之前首先要获取语义。除了图像本身提供的信息外,还需要人类和专家的知识和经验

6图像理解的研究方法中句法语义分析方法可以解决只基于数据驱动的视觉处理的局限性。主要通过设计上下文信息描述并强调语义概念,实现数据和知识的融合。【但如何获得这些知识呢?】

你可能感兴趣的:(方法)