高维数据的分析

随着科学技术的发展,人们在实际应用过程中经常会碰到各种类型的海量数据,如证券市场交易数据、多媒体图形图像视频数据、航天航空采集数据、生物特征数据等,这些数据在统计处理中通常称为高维数据。

在分析高维数据过程中碰到最大的问题就是维数的膨胀,也就是通常所说的“维数灾难”问题。研究表明,当维数越来越多时,分析和处理多维数据的复杂度和成本成指数级增长。在分析高维数据时,所需的空间样本数会随维数的增加而呈指数增长。传统的多元统计分析方法在处理实际数据时会碰到数据不符合正态分布或对数据没有多少先验信息的情况,所以,处理时只能用非参数的方法去解决。处理这类问题的非参数方法主要依赖大样本理论,但高维数据在空间中通常是非常稀疏的,与空间的维数相比样本量总是显得非常少,因此,大样本理论处理高维数据不适用。另外,许多经典的低维数据处理方法,如回归分析、主成分分析、聚类算法中的划分方法和层次方法等,在处理高维数据时存在着难以解决的困难,例如,维数的增加会导致数据的计算量迅速上升;高维导致空间的样本数变少,使得某些统计上的渐近性难以实现;传统的数据处理方法在处理高维数据时不能满足稳健性要求等。上述问题给高维数据处理中的模式识别带来了极大的困难,同样,这种维数的膨胀,给数学和数据分析带来了重大的挑战。



转自:点击打开链接  Live_on_the_Horizion


你可能感兴趣的:(高维数据的分析)