matlab 主曲线,基于粒计算的复杂数据多粒度主曲线提取算法

引言

主曲线是第一主成分的非线性推广[,第一主成分是对数据集的一维线性最优描述。主曲线通过将高维数据映射到嵌入在高维空间中的低维流形,以一种新的方式表示数据,使数据分析任务更容易、更准确。由主曲线定义可知:与传统方法相比,用主曲线来分析高维的、高度非线性化、非结构化和高度相关性等特点的数据能取得较好的效果。自20世纪年代以来在国外取得了较快的发展。在数据主曲线提取方面,Trevor Hastie于1989年首次提出了HS主曲线算法[,除了可以较好地描述非线性数据外,该主曲线另具有自相合以及无参数性等优点,但其仍存在收敛性、估计偏差和模型偏差等问题;为了改善上述问题,1992年Banfield和Raftery提出了BR主曲线算法[,解决了HS主曲线算法在闭主曲线下曲率过大的问题;Tibshirani针对圆形和椭圆形分布数据的模型偏差问题引入半参数方法[,重新定义了基于混合模型的主曲线;2000年,Kegl提出PL主曲线算法,引入了有长度约束的主曲线概念[。

2002年,Verbeek提出K段主曲线算法,该算法采用逐渐合并局部第一主成分线来构成主曲线[。随着主曲线的不断发展与深入应用,学者们发现现有的主曲线算法因为其以第一主成分线作为初始值,已无法处理具有环形分布特征、自相交和分叉等特征的复杂数据。针对此问题,2001年,Delicado提出通过有序连接定向点来估算主曲线,称之为D主曲线算法[;同年,Verbeek对K段主曲线算法中定义的参数进行了大量改进,提出了软K段主曲线算法[;2005年,张红云提出将主曲线运用于字符与指纹识别[;同年,Jochen等提出局部主曲线算法,将数据局部特征引入主曲线的提取中[。以上算法的提出较好地解决了对以上数据类型的主曲线提取问题。近些年,主曲线的发展更是如火如荼。2009年,张军平等为解决稀疏和不均匀分布数据的主曲线提取问题提出了自适应约束K段主曲线算法[,随之又针对具有非恒定分布特征的数据,提出了将数据的黎曼距离与数据的分布密度相结合的主曲线算法[;同年,Ozertem与Erdogmus从一个新的角度介绍了主曲线和曲面,根据梯度和概率密度估计的海森矩阵重新定义主曲线和曲面(Ozertem and Erdogmus principal curve,OEPC),OEPC算法通过使用基于核密度估计和高斯混合模型的子空间约束均值漂移(Subspace constrained mean shift, SCMS)生成主曲线和主曲面[;2013年,张红云等提出了基于全局结构的主曲线算法来解决自相交和高度分散数据的主曲线提取问题[,随之2014年,为了解决大规模复杂形态数据的主曲线提取问题,他们将主曲线推广到粒主曲线[;2015年,文献[

随着高速计算机和互联网商业化的飞速发展,存储在数据库中的海量数据的分布形式越来越多样,这导致用传统的主曲线分析算法来处理这些数据不能给出理想的结果。针对海量复杂数据,2017年胡作梁和张红云提出了基于MapReduce框架的分布式软K段主曲线算法(Distributed soft K-segments principal curve, DisSKPC)[,大大提升了主曲线对复杂数据的处理速度。但对于不同类别的数据类簇相互包含的复杂数据,现有的软K段主曲线算法仍无法较好地处理,因此迫切需要新理论、新方法来解决该类复杂数据的主曲线学习问题,而粒计算是研究如何模拟人类思维,采用多层次、多粒度的思维方式、问题求解方法来解决复杂问题的有效工具。因此,本文研究将粒计算引入复杂数据的主曲线学习中,探索多粒度主曲线学习方法。

本文针对传统主曲线学习在处理复杂性数据中存在的问题和困难,探索采用粒计算的粒化策略,根据数据相似性、近似性和功能性来实现对数据的粒化拆分和数据转换,形成数据片段(即局部数据);基于主曲线理论和方法,对每类局部数据提取主曲线;采用从局部到全局的,自底向上的策略进行多粒度主曲线提取,最终形成数据完整的主曲线分布。

1 相关工作

1.1 主曲线定义

主曲线是第一主成分的非线性推广,在1988年由Trevor Hastie首次提出,他将主曲线定义成一条通过数据云或者分布“中间”且满足自相合的光滑曲线。

HSPC定义 如果光滑曲线f(λ)满足:

(1) f(λ)不自相交;

(2) 在任何有界Rd子集内;f(λ)是有限长度的;

(3) f(λ)是自相合的,即f(λ)=E(X|λf(x)=λ), 则称f(λ)为X的一条主曲线。其中λf(x)为数据点x投影到曲线f(λ)上λ点的值,即

$

{\lambda _f}(\boldsymbol{x}) =

你可能感兴趣的:(matlab,主曲线)