非负矩阵分解(non-negative matrix factorization),或非负矩阵近似(non-negative matrix approximation),是多变量分析和线性代数的算法。给定非负矩阵 V ,求两个非负矩阵 W 和 H ,使得 V=WH 。
著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想——非负矩阵分解(Non-negative Matrix Factorization,NMF)算法,即NMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。
这些方法的共同特点是, W 和 H 中的元素可为正或负,即使输入的初始矩阵元素是全正的,传统的秩削减算法也不能保证原始数据的非负性。
在VQ分解中,每一列的 H 被约束为一个一元矢量。其中只有一个元素为1,其他元素为0。若 H 的第一列中,第 r1 个元素为1,那么 V 中第一列的脸,就完全由基图像中的第 r1 列数据表示。此时得到的基图像称为原型基图像,这些原型图像表示一张原型脸(whole-face prototypes)。
在PCA分解中, W 的各列之间相互正交, H 各行之间相互正交。这个约束比VQ的松弛很多,也就是, H 中的元素可为正也可为负。 V 中每一张脸的每一个像素点都是 W 中各列对应的像素点的一个加权和。由于权重矩阵 H 中元素符号的任意性,所以基矩阵 W 表示出来并不像VQ中原型脸那样的直观可解释。此时将W的列数据画出来并不一定能直接看到一张“脸”。但是在统计上可以解释为最大方差方向,我们把这些“脸”称为“特征脸”(distorted versions of whole faces)。
在NMF中,由于加了非负约束。与VQ的单一元素不为0不同,NMF允许基图像H间的加权结合来表示脸部图像V;与PCA不同,NMF的加权系数H中的元素都为非负的。前两者得到的都是一个完整的脸部特征基图像,而NMF得到的是脸部 子特征(localized features)。
图1 第一列为矩阵 W 组成的图像。其中每一个小格为 W 的一列的 19∗19 个元素重构而成的 19∗19 的矩阵图像。第二列为矩阵 H ,其中红色表示负数,灰黑表示正数, 颜色程度表示大小。右边的图像只是 V 矩阵的一列的 19∗19 个元素组成的一张原始脸。
有很多方法可以求 W 和 H ,其中Lee和Seung的倍增更新法则因为实现简单,是最流行的方法。
一些成功的算法是基于交替非负最小二乘法:在每一步中,首先固定 H 并通过非负最小二乘法求解法得到 W ,然后固定 W 同理求出 H 。求解 W 或 H 的方法可以相同或不同,因为可以对 W 或 H 进行规范化(以防止过拟合)。具体求解方法包括the projected gradient descent methods(投影梯度下降方法),the active set method 和 the block principal pivoting method。
给定矩阵 A∈Rn×m 和整数 k ,返回分解的非负矩阵 W∈Rn×k,H∈Rk×m 。还可以返回均方根残差 D=norm(A−W∗H,′fro′)/sqrt(N∗M)
[W,H] = nnmf(A,k)
[W,H] = nnmf(A,k,param1,val1,param2,val2,...)
[W,H,D] = nnmf(...)
# NMF by alternative non-negative least squares using projected gradients
# Author: Chih-Jen Lin, National Taiwan University
# Python/numpy translation: Anthony Di Franco
from numpy import *
from numpy.linalg import norm
from time import time
from sys import stdout
def nmf(V,Winit,Hinit,tol,timelimit,maxiter):
(W,H) = nmf(V,Winit,Hinit,tol,timelimit,maxiter)
W,H: output solution
Winit,Hinit: initial solution
tol: tolerance for a relative stopping condition
timelimit, maxiter: limit of time and iterations
W = Winit; H = Hinit; initt = time();
gradW = dot(W, dot(H, H.T)) - dot(V, H.T)
gradH = dot(dot(W.T, W), H) - dot(W.T, V)
initgrad = norm(r_[gradW, gradH.T])
print 'Init gradient norm %f' % initgrad
tolW = max(0.001,tol)*initgrad
tolH = tolW
for iter in xrange(1,maxiter):
# stopping condition
projnorm = norm(r_[gradW[logical_or(gradW<0, W>0)],
gradH[logical_or(gradH<0, H>0)]])
if projnorm < tol*initgrad or time() - initt > timelimit: break
(W, gradW, iterW) = nlssubprob(V.T,H.T,W.T,tolW,1000)
W = W.T
gradW = gradW.T
if iterW==1: tolW = 0.1 * tolW
(H,gradH,iterH) = nlssubprob(V,W,H,tolH,1000)
if iterH==1: tolH = 0.1 * tolH
if iter % 10 == 0: stdout.write('.')
print '\nIter = %d Final proj-grad norm %f' % (iter, projnorm)
return (W,H)
def nlssubprob(V,W,Hinit,tol,maxiter):
H, grad: output solution and gradient
iter: #iterations used
V, W: constant matrices
Hinit: initial solution
tol: stopping tolerance
maxiter: limit of iterations
H = Hinit
WtV = dot(W.T, V)
WtW = dot(W.T, W)
alpha = 1; beta = 0.1;
for iter in xrange(1, maxiter):
grad = dot(WtW, H) - WtV
projgrad = norm(grad[logical_or(grad < 0, H >0)])
if projgrad < tol: break
# search step size
for inner_iter in xrange(1,20):
Hn = H - alpha*grad
Hn = where(Hn > 0, Hn, 0)
d = Hn-H
gradd = sum(grad * d)
dQd = sum(dot(WtW,d) * d)
suff_decr = 0.99*gradd + 0.5*dQd < 0;
if inner_iter == 1:
decr_alpha = not suff_decr; Hp = H;
if decr_alpha:
if suff_decr:
H = Hn; break;
alpha = alpha * beta;
if not suff_decr or (Hp == Hn).all():
H = Hp; break;
alpha = alpha/beta; Hp = Hn;
if iter == maxiter:
print 'Max iter in nlssubprob'
return (H, grad, iter)
import numpy, nmf
w1 = array([[1,2,3],[4,5,6]])
h1 = array([[1,2],[3,4],[5,6]])
w2 = array([[1,1,3],[4,5,6]])
h2 = array([[1,1],[3,4],[5,6]])
v = dot(w1,h1)
(wo,ho) = nmf(v, w2, h2, 0.001, 10, 10)
print wo
print ho
