Orthogonal Nonnegative Matrix Tri-factorizations for Clustering

文章对:Orthogonal NMF(正交非负矩阵分解)与kernel K-means之间的关系进行了分析,并证明两者有内在联系:

 

定理一:

 

Orthogonal NMF:min(F>=0,G>=0)||X-FGT||2,s.t. GTG=I

与K-means聚类是相等同的。

 

该证明可以查看:

 

 C. Ding, X. He, and H.D. Simon. On the equivalence of nonnegative matrix factorization and spectral clustering. Proc. SIAM Data Mining Conf, 2005.

 

 

定理三

 

令G为一个X的列K-means聚类的聚类指示符矩阵(cluster indicator matrix),F为X的行K-means聚类的聚类指示符矩阵。那么同步的行/列聚类可以用以下优化方法获得:

这说明3-factor的NMF与K-means聚类之间的关系。3个factor时,是在行和列上面同时进行了k-means聚类。

 

Orthogonal Nonnegative Matrix Tri-factorizations for Clustering_第1张图片

 

定理四

 

在二正定三因素NMF(bi-Orthogonal 3-factor NMF)中,G给出了对X的列使用W=XTFFTX核函数进行k-means聚类的解决方案(X通过F跨越到的子空间的投影内积(inner product of the projection of X into the subspace spanned by F))。同样的,F给出了对X的列使用W=XGGTXT核函数进行k-means聚类的解决方案(X通过G跨越到的子空间的投影内积)。

 

文章中还提到了uni-orthogonal NMF的计算方法

 

一种是

min(F>=0,G>=0)||X-FGT||2,s.t. FTF=I.更新GF的情况。

另一种是

min(F>=0,G>=0)||X-FGT||2,s.t. GTG=I.更新GF的情况。

 

之后讲到:bi-orthogonal NMF的计算方法

 

考虑无限制的(unconstrained) 3-factor NMF

 

min(F>=0,G>=0,S>=0)||X-FSGT||2,在这种情况下,我们可以认为FS是2-factor NMF中的F。因此对于3-factor,只有当他不能被转化成2-factor NMF问题时才有讨论的意义。因此需要对3-factor增加一些约束。然而不是所有被约束的3-factor问题都有讨论的意义。

如:

min(F>=0,G>=0,S>=0)||X-FSGT||2,FTF=I

他和uni-orthogonal中的第一种情况是一样的。

 

再来看这种情况:

min(F>=0,G>=0,S>=0)||X-FSGT||2,FTF=IGTG=I

该种情况将不能使用一个2-factor来代替,我们称这种情况为: bi-orthogonal tri-factorization。这种情况即是本文的重点。
文章中给出了这种情况的计算 G,F,S的方法。
对称3-factor NMF: W= HSHT
3-factor的一个特殊的例子为:
X是对称矩阵的时候, X=XT=W。这种情况下我们设, F= G= H,需要优化对称NMF:
min( H>=0, S>=0)|| X- HSHT|| 2, s.t. HTH= I.
文中亦给出了该种情况的计算 H的方法。
之后,文章在第九部分EXPERIMENTS中,将bi-orthogonal 3-factor NMF(BiOR-NM3F)聚类方法应用到文档聚类上。并且和其他方法进行比较。
在本文中,使用Binary vector-空间来表示文档,每一个文档是一个在词空间中的二进制的向量。
数据集:
CSTR,WebKB4,Reuters-top 10,Web Ace,Newsgroups.
Datasets # documents # class
CSTR 476 4
WebKB4 4199 4
Reuters-top 10 2,900 10
WebAce 2,340 20
Newsgroups           20,000 20
评价指标:
purity,Adjusted Rand Index(ARI)
聚类的纯度(Purity):
S i是一个n i大小的聚类,n i j表示j类被分到i聚类中的数目。K是聚类总数,n为点的总数。纯度越高,聚类算法越好。
还可以使用entropy measures。
m为源标签的数量,K是聚类的数量。熵越小,聚类算法越好。
ARI可以参考”A study of the comparability of external criteria for hierarchical cluster analysis“
本文使用3-factor NMF聚类与K-means进行比较。
软聚类评价
F的第i行表示词i属于每个K词类的后验概率。设该行为(p1,p2,...,p k),pk的连加为1。
假设某个词的后验概率为
(0.96,0,0.04,。。。,0);
很明显这个词将被分到一个聚类里面。那么这个词为1-peak分布。
(0.48,0.48,0.04,。。。,0)为2-peak分布。
大体上,我们希望每个词被分配到1-peak,2-peak。。。。中的一个。
对于K个词的聚类。我们设置原型分布为
(1,0,0...,0),(1/2,1/2,...,0),(1/K,...,1/K)。
对于每个词,我们将他分配到Euclidean距离最接近的原型分布中。
例如:(1,0,...,0)和(0,1,...,0)是相同的
我们首先将行进行从大到小排序。
之后将其映射到接近的原型分布中。

你可能感兴趣的:(研究)