pandas忽略行列索引,纵向拼接多个dataframe

从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表

 

它的思路是:生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引。

使用方法见代码的最后一行,传入一个dataframe的list就可以了。

import pandas as pd
from random import Random


# 随机生成一堆单词作为公共的列名
def random_list(random_str_count, randomlength=6):
    result_list = []
    random = Random()
    chars = "qwertyuiopasdfghjklzxcvbnm"
    for str_count in range(random_str_count):
        ranstr = ""
        length = len(chars) - 1
        for str_length in range(randomlength):
            ranstr += chars[random.randint(0, length)]
        result_list.append(ranstr)
    return result_list


def combine_as_data_location(pd_list, columns=''):
    if not pd_list:
        return None
    old_columns = pd_list[0].columns
    if columns:
        new_columns = columns
    else:
        new_columns = random_list(pd_list[0].shape[1])
    for data_df in pd_list:
        # data is pandas Dataframe
        data_df.columns = new_columns
    result_df = pd.concat(pd_list, ignore_index=True)
    if columns:
        return result_df
    else:
        result_df.columns = old_columns
    return result_df



result_df = combine_as_data_location([df1,df2,df3])

 

你可能感兴趣的:(python,pandas)