摘要:该文研究波动数据的处理与分析方法。波动性数据在各个行业的应用实践中,经常出现,对该类数据的处理方法的研究,具有重要的理论与实用价值。波动数据有的很有周期规律性,例如复合周期函数型的电子信号;有的波动数据没有明显的周期特性,例如直线轴上不定时波动的数据叠加白噪声的数据模式。
关键词:数据;时间序列;分析;处理
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)09-2090-02
Time Series Analysis of Wave data
YEXiao-ying, ZHENG Xue-yu, CHEN Feng, HAN Fei
(Neusoft Institute of Information Technology,Foshan 528225,China)
Abstract: In this paper, we discuss the analysis and process methods of time series data. Time series come from a lot of industrial data procession. The Analysis of time series is important. Some time series data are periodical, such as complex periodical functions of electrical signal. Others are aperiodicity, such as a signal with stochastic processes.
Key words: data; time series; analysis; process
在实践应用的很多领域,都有对波动数据的分析与处理。从最简单形式的周期性物理波形,到复杂一些的声波等复合波动的时域频域分析,模式识别领域的处理与应用方法,经济金融领域的非周期复杂波动数据的特性研究。虽然问题产生的各自领域有很大的跨度,从方法论的角度来看,认识与解决问题的时候,常常有穿越领域的应用。而一些最常用的处理方法基本上成为所有领域内分析理论的基础。例如使用更简单的多个函数来拟合复杂函数、微分分段考察问题特性、积分近似实际情形、使用随机统计分析方法等等。
波动数据有的具有规律的周期性,更普遍的波动数据没有规律的周期性。
1时域与频域的分析
周期性出现的波动数据时间序列,在知识领域内通常可以称为周期信号或简称信号,可以通过考察其时域与频域特性来分析。时域与频域作为周期信号的基本性质,是观察信号的不同角度,两者可以通过傅里叶变换来互相转换。信号的上升时间与下降时间,是判断信号是否高速的依据。信号的频宽表示的是信号所含的高频分量。信号的上升与下降时间决定了信号的高频分量。
波动数据的时间序列信号唯一存在于时域中(张贤达,2002),这是我们可以真实观察并感受到波动数据的域。时域中信号的可见波形,可以简单直观表达信号的存在以及变化趋势。当以波形描述一个信号时,应注意在波形图上可见的该信号关键值,关键值包括有信号的不连续点、零点、最大值点和最小值点等。许多问题的求解都可以通过分析信号波形而得到简化。
包含随机因素的数据,处理起来需要加入更复杂的模型,或需要引入数理统计模型。不包含随机因素的信号是确定性信号。对于不包含随机信号的确定性信号,一般分为连续信号与离散信号。通过数据抽样,可以把连续信号转化为离散信号。时域中的任何波形,都可以用频域中的正弦波来合成,并且可以得到唯一的描述。
时域与频域是从不同的域来观察同一件事物。时域是从现实中观察动态的信号。频域是在另一个空间以频率为坐标轴来观察动态信号(奥本海姆,2010)。在很多时候,这种观察空间的转换,能够更加容易看出信号的特性,而频域分析也具有更为简练的描述形式。
傅里叶变换可以将时域的信号变换到频域。傅里叶变换有三种类型:傅里叶积分(FI)、离散傅里叶变换(DFT)、快速傅里叶变换(FFT)。在频域中,对波形的描述变为不同正弦波的集合。每个频率分量都有各自的幅度与相位。对于时域中非周期的信号可以进行以信号存在时间为周期的周期拓延,从而变为周期信号来进行分析。
在频域中,第一个正弦波频率称为一次谐波,第二个正弦波频率称为二次谐波,依次类推。每个谐波都有不同的幅度和相位。所有谐波及其幅度的集合称为频谱。频域中的频谱表示的是时域波形包含的所有正弦波频率的幅度。在知道频谱的情况下,要观察它的时域波形,只需将每个频率分量变换成它的时域正弦波,再将其全部叠加即可。这个过程称为傅里叶逆变换。不同的数学变换,变换对原始数据观察的角度与空间,或许能使得内在规律性变得更加清晰。
图1时域与频域变换示意图
2有限元方法
在结构分析领域中,关于静力结构、结构震动、弹塑性材料等研究中,为了得到尽可能精确的数学物理数据,常采用有限元分析方法来进行波动与震动的描述。有限元分析的目的:针对具有任意复杂几何形状变形体,完整获取在复杂外力作用下它内部的准确力学信息,即求取该变形体的三类力学信息(位移、应变、应力)。
有限元方法使用基于“离散逼近(discretized approximation)”的基本策略,可以采用较多数量的简单函数的组合来“近似”代替非常复杂的原函数。例如(廖振鹏等,1992)所进行的对波动有限元模拟的研究。时域有限元法不但可以用于研究复杂线弹性介质中的波动问题,而且利用计算机图形仿真技术还可以把波动过程动态地显示出来,直观地揭示与波动源和传播路径等有关的各种物理因素和波动特征之间的关系.因此,这一方法是研究工程科学中一系列重要波动问题的有力工具。
有限元方法对波动时间序列传播的物理介质媒体建立结构震动的三大类方程(平衡方程、几何方程、物理方程等)以及边界与初始条件,来进行波动时间序列的研究(来翔,2007)。这一类波动数据的时间序列,其物理特征是完全依赖于传播的媒介。在时域频域分析中,具有一定带宽的信号,其在一定媒介中传播的过程,也是需要考虑信号衰减的。在这一点上,与有限元方法的情况类似。
3模式识别与神经网络方法
时间序列数据或信号在更复杂的分析处理情形下,就不仅仅停留在信号本身的物理特性上。对信号携载的语法以及语义的判断分析是更重要的目的。线性神经网络可以应用于系统辨识、信号辨识、自适应滤波和控制等方面。目前在神经网络的多数应用中,采用BP神经网络,其具有广泛的适应性与有效性,主要应用于模式识别与分类。
在BP神经网络的应用中(孙虎儿,2009),增加网络层数可以提高网络识别性能,提高精度,但同时使得网络结构复杂,增加训练时间。因此首先考虑增加隐含层的神经元数,而不是增加网络层数来提高网络性能。隐含层数、隐含层的神经元数的适当数量,需要通过具体的试验来大概确定。
在使用BP神经网络进行字母表的图像识别中(朱凯,2010),设计并训练一个BP网络,完成26个英文字母的5X7像素二值数字图像的识别。取得了较好的噪声样本训练下的一定容错性。
4经济与金融领域的复杂数据模式的波动性研究
在经济与金融领域里,对时间序列数据的研究,具有非常重要的理论与实践应用意义。在时间序列中,按照所得到的数据的连续性分为离散时间序列与连续时间序列。按照是否存在一定的趋势,分为平稳时间序列与非平稳时间序列。平稳时间序列的观测值基本上在一定的范围之内,不会有增长或者减少的趋势,也不会有超出范围的波动。在现有的平稳时间序列处理中,往往把波动看作是随机的。非平稳时间序列包含趋势性,或有季节性、周期性,也可能是趋势性与季节与周期性的复合序列。
在时间序列分析的过程中(王燕,2008),首先对取得的数据进行相关分析。在有趋势拐点的时候,使用不同的模型分段拟合前后时间序列。然后判断恰当的随机模型来拟合时间序列的观测数据。对于简单的时间序列,可以用趋势模型和季节模型来拟合。对于平稳时间序列,可用ARMA模型来拟合。对于非平稳时间序列要将其转化为平稳时间序列来分析。
在更加复杂的情况下,可以考虑数据的Markov特性,使用Markov链的运用。有时一个时间序列中仅仅部分数据体现出Markov性,而其他部分的则是无规律的。
5结论
该文从波动数据的时间序列的最简单的形式出发,论述在数据不同领域以及不同复杂度之下的分析处理方法。很多处理方法是跨领域的,例如时域频域分析方法就从数学这样的纯理论研究领域出发,应用在电子、通讯、计算机、机械、农林、地质、经济、金融等几乎所有的学科中。波动数据如果不借助领域内知识,很难建立有效的分析判断模型。在诸多波动数据的时间序列处理中,依然没有有效的方法。例如外汇市场价格的高频数据分析于处理,迄今没有很好的方法。对波动数据时间序列的研究在可见的未来一直具有理论与实用意义。
参考文献:
[1]张贤达.现代信号处理[M].2版.北京:清华大学出版社,2002.
[2](美)奥本海姆.信号与系统[M].西安:西安交通大学出版社,2010.
[3]廖振鹏,刘晶波.波动有限元模拟的基本问题[J].中国科学B辑,1992(8).
[4]来翔.几类双曲型方程交替方向有限元分析[D].山东大学,博士学位论文,2007.
[5]孙虎儿.基于神经网络的优化设计及应用[M].北京:国防工业出版社,2009:36-53
[6]朱凯,王正林.精通MATLAB神经网络[M].北京:电子工业出版社,2010:220-224.
[7]王燕.应用实践序列分析[M].2版.北京:中国人民大学出版社,2008:121-148.
[8]郭昊坤,吴军基,应展烽,陆娴.一类特殊随机序列的改进马尔科夫链建模[D].第十六届全国青年通信学术会议论文集(上),2011.