Python数据处理案例

关于数据处理案例有两个,第一个案例是我整理到有道云上的,就直接剪切下来了,下面直接进入正题~

案例1:快餐数据

Python数据处理案例_第1张图片

Python数据处理案例_第2张图片

Python数据处理案例_第3张图片

Python数据处理案例_第4张图片

Python数据处理案例_第5张图片

Python数据处理案例_第6张图片

Python数据处理案例_第7张图片

案例2:欧洲杯数据

Python数据处理案例_第8张图片

先进行数据探索 

data.info()


data.describe()

查看数据集是否有缺失值且哪个字段存在缺失值?可以用下面的代码,也可以用前面案例1缺失值那里提到的前两种方法

for i in range(data.shape[1]):
    if data.iloc[:,i].notnull().sum() != data.shape[0]:
         print('第%d列:字段%s 存在缺失值'%(i+1,data.columns[i]))

代码运行结果是

对Clearances off line进行缺失值处理

首先查看Clearances off line字段

Python数据处理案例_第9张图片

统计其数字组成

data['Clearances off line'].value_counts()

从统计结果可以看到,在Clearances off line这个字段中有11个值为0,3个值为1,1个值为2,故考虑采用众数(mode)填充缺失值

mode=data['Clearances off line'].mode()
data['Clearances off line']=data['Clearances off line'].fillna(mode)

描述性统计

统计有多少球队参加了欧洲杯?

data.Team.count()

将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框

discipline=data[['Team','Yellow Cards','Red Cards']]

按照先Red Cards再Yellow Cards进行降序排序

discipline.sort_values(by=['Red Cards','Yellow Cards'])

计算每个球队拿到黄牌的平均值

data['Yellow Cards'].mean()

找出进球数大于6个的球队的数据

data[data['Goals']>6]

对比英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)

data['Shooting Accuracy'].[data.Team.isin(['England','ltaly','Russia'])]

 

你可能感兴趣的:(Python数据处理案例)