跨模态基本概念整理

这些是在我在入门跨模态所整理的基本概念,如有冒犯原作者,望海涵

一、入门概念学习

1.什么是跨模态检索?

模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的。而我们在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来丰富我们对同一事物或事件的认知,此时就需要跨模态检索来实现不同模态数据之间的检索。

2.什么是子空间学习(Subspace learning methods)以及其用途?

子空间学习大意是指通过投影,实现高维特征向低维空间的映射,是一种经典的降维思想。例如人脸图像,如果每幅图像提取出来的特征是1000维,则每幅图像对应着1000维空间中的一个点。维数太高给计算带来很多问题,且很多人认为真实有效的人脸图像特征并没有那么高维,可能只有100维,即每幅人脸只是100维空间中的一个点。将特征从1000维压缩到100维,就是子空间学习问题。在模式识别中,可能绝大多数的维数约简(降维,投影)算法都算是子空间学习,如PCA, LDA, LPP, LLE等等。子空间学习的主要问题,就是如何将特征从高维空间压缩到低维空间,需要保留什么样的信息,设定什么样的准则,低维空间的特征具有哪些特征等问题。

3.前期数据处理:中心化,标准化。

中心化:将原始数据减去平均数
标准化:将原始数据减去平均数然后再除以标准差,得到的数据范围是0~1。
标准化目的是消除不同变量间量纲差异,自身变异,数值大小带来的影响。

4.主成分分析(PCA)与典型相关分析(CCA)的异同点。

二者在对特征空间降维,映射至子特征空间的计算方法相同,但其对应的解释不同,二者均是通过构造原变量的适当线性组合提取不同信息,主成分分析着眼于考虑变量的“分散性”信息,而典型相关分析则立足于识别和量化二组变量的统计相关性,是两个随机变量之间的相关性在两组变量之下的推广。

5.典型相关性分析(CCA)的计算思想。

典型相关分析最朴素的思想:首先分别在每组变量中找出第一对典型变量,使其具有最大相关性,然后在每组变量中找出第二对典型变量,使其分别与本组内的第一对典型变量不相关,第二对本身具有次大的相关性。如此下去,直到进行到R步,两组变量的相关系被提取完为止,可以得到R组变量。关于典型相关分析的具体数学推导,我将以附录形式给出。

6. 机器学习性能评估指标

混淆矩阵

True Positive(真正, TP):将正类预测为正类数.
True Negative(真负,TN):将负类预测为负类数.
False Positive(假正, FP):将负类预测为正类数 误报(Type I error).
False Negative(假负,FN):将正类预测为负类数 漏报(Type II error).
跨模态基本概念整理_第1张图片

精确率(precision)定义为: P=TPTP+FP

需要注意的是精确率(precision)准确率(accuracy)是不一样的
ACC=TP+TNTP+TN+FP+FN
在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。
召回率(recall,sensitivity,true positive rate)定义为: R=TPTP+FN

通俗理解精确率和召回率:

精确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。
而召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。

跨模态基本概念整理_第2张图片 跨模态基本概念整理_第3张图片

在信息检索领域,精确率和召回率又被称为查准率查全率
=
=

平均正确率(Average Precision, AP):对不同召回率点上的正确率进行平均。

(1)未插值的AP: 某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6
(2)插值的AP:在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均,等价于11点平均
(3)只对返回的相关文档进行计算的AP, AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果的系统,没有考虑召回率。

不考虑召回率情况下,单个查询评价指标还有:
(1)Precision@N:在第N个位置上的正确率,对于搜索引擎,考虑到大部分作者 只关注前 一、两页的结果,P@10, P@20对大规模搜索引擎非常有效。

Mean Average Precision(MAP)

即对所有查询的平均正确率(Average Precision, AP)求宏平均。具体而言,单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。

你可能感兴趣的:(跨模态)