python对DataFrame自定义描述性统计

在对数据进行分析之前,首先需要对数据的分布状况有一个大致的了解,这为后续的数据预处理工作提供一定的方向。 即将过年啦,现在把我之前在工作写下的小函数总结如下,一来我可以方便后续的时候,二来若能为同行业的人士提供方便,那也是很棒的喔!

## 数据的描述性统计
def dataDescription(data_df):
    from collections import OrderedDict
    dict_result = OrderedDict()
    ## 最小值
    dict_result['Min.']= data_df.min() 
    ## 下四分位数
    dict_result['1st Qu.']= data_df.quantile(q = 0.25)
    ## 中位数
    dict_result['Median']= data_df.median() 
    ## 均值
    dict_result['Mean']= data_df.mean()
    ## 上四分位数
    dict_result['3rd Qu.']= data_df.quantile(q = 0.75)
    ## 最大值
    dict_result['Max.']= data_df.max() 
    ## 缺失值的个数
    dict_result['NA counts']= data_df.isnull().sum()
    return  pd.DataFrame(dict_result).T
if __name__ == '__main__':
    import pandas as pd
    import numpy as np
    data = pd.read_csv('data/cs-training.csv')
    ## 调用描述性统计函数,描述数据各个指标
    describe_data = dataDescription(data)

你可能感兴趣的:(work)