Multi-view Learning 多视角学习入门


  • Xu C, Tao D, Xu C. A Survey on Multi-view Learning[J]. Computer Science, 2013.
  • Sun S. A survey of multi-view machine learning[J]. Neural Computing & Applications, 2013, 23(7-8):2031-2038.


Multi-view learning: introduces one function to model a particular view and jointly optimizes all the functions to exploit the redundant views of the same input data and improve the learning performance.



(1) multiple sources (2) different feature subsets;

(1) 多个源:比如人物识别可以用脸、指纹等作为不同源的输入。
(2) 多个特征子集:比如图像表示可以用颜色、文字等作为不同特征表述。


  • co-training 协同训练
    trains alternately to maximize the mutual agreement on two distinct views of the unlabeled data.
  • multi-kernel learning 多核学习
    exploits kernels that naturally correspond to different views and combine kernels either linearly or non-linearly to improve learning performance.
  • subspace learning 子空间学习
    obtains a latent subspace shared by multiple views by assuming that the input views are generated from this latent subspace.


为了确保 redundant views 可以被有效充分地利用,建立以下 Principles:

  1. consensus principle (共识准则)
    尽量保证两个 Hypothesis 一致,其不一致的概率作为右边式子的上界。右式为单独每个假设下的错误率,下式保证了该值最小化。
    P(f1f2)max{Perr(f1),Perr(f2)} P ( f 1 ≠ f 2 ) ≥ m a x { P e r r ( f 1 ) , P e r r ( f 2 ) }
    利用该原则的有 co-training,co-regularization,SVM-2K.
  2. complementary principle (互补准则)


  • Active Learning
    主动学习:减少 labeled data 的数量: Muslea et al.
  • Ensemble Learning
    协同学习:employ multiple learners and combine their predictions.
    • bagging algorithm:用不同 judgements 生成不同模型
    • AdaBoots:train a new model to compensate for the errors made by earlier models. 训练出新模型来弥补先前的不足
  • Domain Adaption
    域适应:source domain (different data) 训练出 prediction1, prediction2




  1. 元数据随机生成多视角。
    The random subspace method (RSM) (Ho, 1998)
    随机选取一个特征空间的若干维作为备用数据,为选取的维度数据置 0。不同的选取形成不同的视角,总共可以有 2n 2 n 种选法。
  2. reshape, decompose 原单视角。
    x=[a,b,c,d,e,f]T x = [ a , b , c , d , e , f ] T (abcdef) ( a c e b d f ) (adbecf)T ( a b c d e f ) T
  3. perform feature set partitioning automatically 自动执行功能集分区。
    如 PMC(伪多视角 co-training)



  1. In co-training
    Yan and Naphade (2005):在 co-training 的学习中,如果 unlabelled data 噪音太大,就将 classifiers 的组合权重置零。
    Christoudias et al. (2008) :提出了条件视角熵 H(xi|xj) H ( x i | x j )
    Yu et al. (2011):将概率统计的方法用到了 co-training 上结合起来,即 Bayesian co-training

  2. In MKL
    当 kernel 之间不相关或有噪音时,优化 kernel weights,Christoudias 利用了 GP 来学习每个视角的 weights。Liu and Yuen (2011) 提出了 inter-view confidence of X , Cinter(X)=1I(Xi,Xj) C i n t e r ( X ) = ∑ ∑ 1 I ( X i , X j ) ,以及视角的 sufficiency。

  3. In subspace learning
    CCA 可以用来形容两个视角的线性关系,KCCA( kernel canonical correlation analysis )形容两个视角的非线性相关映射。两者都用到了相关系数 ρ ρ 并使之最大。



  1. In co-training
    在无监督学习中,将一个视角的在 验证集 上的结果放入另一个视角的 训练集 中,不同视角在 迭代 过程中达到最优。
    在监督学习中,Yu et al. (2011) 提出 latent function 作为 隐式的验证集 来连接多视角。
    其组合的时机在训练后,因此是 a late combination of multiple views.
  2. In MKL
    use a set and allow an algorithm to choose suitable kernels and the kernel combination.
    kernel 组合可以选择 线性组合方法 或者 非线性组合方法
    由于是在训练之前或中途进行组合,因此是 an intermediate combination of multiple views.
  3. In subspace learning
    认为多视角来源于同一个潜空间, Canonical correlation analysis (CCA) can be viewed as the multi-view version of principal component analysis (PCA) ,CCA被认为是多视角的PCA方法,避免了“维维度灾难”但因为产生子空间是线性的,因此不能直接应用于非线性模型。
    由于多视角利用共享空间直接结合在一起, 因此是 the prior combination of multiple views.
