python中如何实现两个时间序列的日期对齐

       在处理两个时间序列数据时,常常会需要把两个时间序列放在一个DataFrame中,但是两个时间序列的日期并不一定是一致的,这时候就需要对两个时间序列进行日期对齐。在pandas中,有一个很方便的merge()函数可以帮我们实现这个目的。

       如图一,我们只看data_sp500和data_HSI两个对象,其都是DataFrame,内容是2005年到2018年间的标普500指数和香港恒生指数的日收盘价,我们先把这两个对象中的字符串日期转换为datetime对象,以方便格式统一便与后续操作。现在我们要把这两个DataFrame以Date列横向连接在一起,则可以利用pandas的merge()函数实现。

python中如何实现两个时间序列的日期对齐_第1张图片(图一)

       在merge时,其中参数on指定两个DataFrame中共同的列作为连接的键,how指定相应的连接方式,默认为‘inner’,表示最后取的数据是两个Date列的交集;但是这里我们选择的是‘outer’,表示最后取的是两个Date列的并集,这样子显然就会有空缺值。连接后的data_1对象如图二所示,我们只展示了最后10行的内容。

python中如何实现两个时间序列的日期对齐_第2张图片(图二)

       从图二的结果中可以看到,这里最后显示的并不是按照时间顺序排序的。原因是,merge()函数默认先按照左边DataFrame的Date列连接并排序,最后左边对象的Date列中没有的日期再在连接后的DataFrame对象中的末尾按缺失顺序排列显示,由于最后显示的是左边Date列缺失的内容,所以在图二的结果中左边的最后的值都是空缺的。为了使得日期按照日期顺序排列,我们可直接对日期进行排序,这就是Timestamp对象的好处,可以直接按照日期进行排序,排序之后,我们得到的就是两个时间序列日期对齐后的DataFrame对象,如图三所示。

python中如何实现两个时间序列的日期对齐_第3张图片(图三)

你可能感兴趣的:(数据分析)