关于多模态融合

源自论文《基于GCN的手指生物特征识别方法研究》
——————————
主要分为四个层次,像素层、特征层、匹配层、决策层

像素层

研究原始数据,例如对图像数据是基于像素矩阵。
当像素矩阵维度差异较大时,需要舍弃图片维度较大的模态的部分特征,或者对维度较小的特征进行维度扩大,这会降低识别率和识别效率;
同时,图像本身冗余噪声多也不利

特征层

研究提取出的各模态特征,这时可以用典型相关分析、主成分分析等
依然需要克服模态间维度不统一以及融合后维度爆炸等问题,特征相差较大的模态有时还需要各自不同千差万别的特征表达方式。
不同模态间的特征融合也叫做异质特征融合,需要克服的问题有很多,比如不同模态特征维度空间差异(体现在特征向量上的数据值维度的差距),融合后导致不能发挥单模态各自的优势;融合后特征维度爆炸,冗余信息过多,计算复杂度很高,尤其是堆叠为统一模态特征空间差异而采取的归一化方法后
而考虑表达成图结构数据,图块划分成节点,可以说对原图像进行了降维,这里原文提出的融合策略是将多模态图节点建模在一个graph中,根据节点特征计算欧氏距离链接出边,从而实现融合
个人理解这算是先融合后识别,把各个模态的数据杂糅成一体后再进行识别分类,虽然比较难联想类比到其他场景,但这样好歹强调了融合。
只是这样具体如何融合,如何适配各模态甚至说模态内各样本的差异(比如顺序、规模等)就是很大的问题,本身归一化所有样本规模就有系统误差,接下来一方面如何保证模态数据能够对齐,另一方面如何说明融合的结果没有给元数据造成破坏
原文的实验是同时采用两种图表达方式得到的图结构,也即n个模态共2^n个融合后的图(但是关于如何对齐之类的问题并没有探究,拿实验结果说话效果好就完事了)

(匹配层和决策层融合不太受限于模态维度和特征的差异,更易实现)

匹配层

按照有利的运算规则,融合各模态特征的分值,然后得出融合后的总分。还可以给不同模态赋予权值,提高多模态中优势模态的分数占比,从而起到提高识别率的作用。

决策层

基于权重、乘积以及求和等预设策略,可以实现对每个模态的特征信息都保留完整。但传统的决策层融合方法又存在新的问题,受不同模态间匹配方法差异影响较大,以及匹配的结果意义不同也使得决策层融合难以实现
个人理解传统决策层融合就是先识别后融合,各个分类识别完之后,将识别结果融合,(和匹配层的描述看起来差异不大啊,都是打分融合)这样灵活容错,也可以联想类比到现实里各种打分机制,合常理好理解。
但是这样融合本身的意义就有些弱化吧,直接给用户看分别的各项指标,融合结果就只是个给想省事的用户做个参考,纯粹有点为数据分析了
决策层融合的主要方法包括:与或法、加权多数表决法、贝叶斯决策融合法以及行为知识空间法等。其中加权多数表决法就是很像打分的一种,优势模态权重最大
另外原文的实验结果是逊于特征层的,分析原因是新的图结构数据对全体数据统一学习

你可能感兴趣的:(论文,小白,机器学习,深度学习,神经网络)