pandas进行数据分析

常用的数据分析函数

#统计每列所有属性的个数
df.value_counts(ascending  = True/False,bins = 1)
"""
ascending为False从大到小
bins 对于很多离散的数据而,可以设置区间

"""

#连续属性离散化分箱函数pd.cut()
ages = [1,2,3,4]
bins = [1,1,1]
ages_bin = pd.cut(ages,bins)

#pivot数据透视表
example_p = df.pivot(index='',columns='',values='Amount').sum(axis=1)
new_example_p = df.pivot(index = '',columns='',values='',aggfunc='max')
"""
aggfunc:表示将数据进行处理,max/count/mean/sum
"""
example_pivot = df.pivot_table(columns='地区',values='评分人数',aggfunc='sum')
example_pivot
地区    东区    中西区    九龙城    其他地区    南区    屯门    沙田    油尖旺    湾仔    离岛    荃湾    葵青    观塘
评分人数    23102    19075    11047    5774    9573    6326    25006    258848    58144    52307    19427    598    5008
#groupby
#将评分人数按照地区进行分组
 exam _groupby = df['评分人数'].groupby([df['地区']]).sum()
Out[143]:
地区
东区       23102
中西区      19075
九龙城      11047
其他地区      5774
南区        9573
屯门        6326
沙田       25006
油尖旺     258848
湾仔       58144
离岛       52307
荃湾       19427
葵青         598
观塘        5008
Name: 评分人数, dtype: int64
"""
数据分析中很常见,里面设计很多参数,最基本的必须了解
"""
 

 

你可能感兴趣的:(pandas进行数据分析)