Sparse regularization of tensor decompositions

H. -J. Kim, E. Ollila and V. Koivunen, "Sparse regularization of tensor decompositions," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 2013, pp. 3836-3840, doi: 10.1109/ICASSP.2013.6638376.

摘要:

利用张量分解的多线性技术为高维数据分析提供了一个统一的框架。张量分解中的稀疏性明显地改进了多维数据的分析和推理。除了非负张量因式分解,利用稀疏性估计张量的文献是有限的。在本文中,我们引入了张量分解的稀疏正则化方法,这些方法在降维、特征选择和信号恢复方面都很有用。大多数张量分解算法的一个主要挑战是它们严重依赖于良好的初始化。为了缓解这一关键问题,我们提出了一种基于岭回归的可靠方法,利用稀疏性提供良好的初始值。结合这些初始化,我们的稀疏正则化方法在演示的仿真研究中显示出了比传统方法更高的性能。

背景介绍:

   随着计算机存储和信息管理的进步,多维数据正变得越来越普遍和普遍。容纳多路数组等数据的张量增加了人们对大数据的兴趣,并将我们的注意力从熟悉的矩阵分解(如奇异值分解(SVD)和主成分分析(PCA))转移到基于张量的科学计算上。多线性模型的张量分解,如CANDECOMP/PARAFAC (CP)[4,9]或Tucker模型[20],用简化的符号和代数[12]为多维数据分析提供了统一的框架。大量的数据往往导致分析的局限性和挑战,张量分解中的稀疏性明显地改善了多维数据的分析和推理。例如,稀疏性可以用于精确的信号恢复。或消除许多现代数据集(如金融和消费者数据、DNA微阵列、互联网网络流量、功能性核磁共振)中不必要的冗余特征(维度),允许对数据进行简单的可视化和探索[1]。

  我们首先讨论稀疏性的两个不同概念。稀疏性的第一个概念是指相当数量的数据元素在相对大小[13]上为零或接近零的情况。第二个概念出现在正则化方法中,如岭回归和LASSO(最小绝对收缩和选择算子),其中估计的回归参数要么缩小到零,要么通过增加模型复杂性的惩罚[18]驱动到零。尽管在不同的情况下使用了两种稀疏性的概念,但它们在张量数据的上下文中都有一定程度的关联。张量数据的基本稀疏性自然意味着分解张量的因子矩阵也是稀疏的。因此,当张量数据本身是稀疏的,或者高维张量数据的主要特征和方面涉及到某种稀疏结构时,正则化方法成功地估计了CP分解的张量因子,而不是通常的最小二乘估计。

  除了[16,15,6]中的非负张量分解外,我们注意到[10,5,17,2]中已经考虑了使用稀疏性的张量分解。在本文中,我们首先用流行的CP模型提出了张量因子分解的正则化方法。大多数张量分解算法的一个主要挑战是它们严重依赖良好的初始化[14]。为了解决这一关键问题,我们提出了一种基于岭回归的可靠方法,利用稀疏性提供良好的初始值。结合这些初始化,我们的稀疏正则化方法与仿真研究中说明的传统分解算法相比,表现出了极大的性能改进。

   与先前工作的关系:我们注意到,非负CP分解中的Lasso正则化被提出用于[8]中的聚类目的。最近,使用Lasso和ALS的具有稀疏因子的CP分解,称为稀疏CPALS方法,也在[2]中得到了解决(但不推荐)。虽然ALS算法中求解正则化准则(8)的想法与我们的一致,但[2]中缺少该方法实现的细节。此外,[2,表I]中描述的结果(使用基本相同的模拟设置)与我们的模拟结果不一致,这意味着在实现和初始化方面存在显著差异。

   Sparse regularization of tensor decompositions_第1张图片

 

你可能感兴趣的:(NTF,文档资料)