Day33 - 2018-05-07

使用pandas的groupby()能够对数据进行分组并聚合信息聚合,或分组进行数据转换,相关文档,类似数据库的groupby

使用pd的cut()可以切分将数据切分为组,可以将某一列按照一定的区间去切分,相关文档
可以使用query()来筛选需要的数据相关文档,下面是一个例子

# selecting malignant records in cancer data
df_m = df[df['diagnosis'] == 'M']
df_m = df.query('diagnosis == "M"')

# selecting records of people making over $50K
df_a = df[df['income'] == ' >50K']
df_a = df.query('income == " >50K"')

统计分析用到的函数

d1.count()          #非空元素计算
d1.min()            #最小值
d1.max()            #最大值
d1.idxmin()         #最小值的位置,类似于R中的which.min函数
d1.idxmax()         #最大值的位置,类似于R中的which.max函数
d1.quantile(0.1)    #10%分位数
d1.sum()            #求和
d1.mean()           #均值
d1.median()         #中位数
d1.mode()           #众数
d1.var()            #方差
d1.std()            #标准差
d1.mad()            #平均绝对偏差
d1.skew()           #偏度
d1.kurt()           #峰度
d1.describe()       #一次性输出多个描述性统计指标

可以使用 seaborn 做出美观的数据可视化图表。这里有一些很棒的示例
一些图表样式pandas无法实现,可以引入matplotlib的pyplot来辅助
标准导入方式import matplotlib.pyplot as plt

你可能感兴趣的:(Day33 - 2018-05-07)