pandas 数据处理练习题

pandas 数据处理练习题_第1张图片
pandas 数据处理练习题_第2张图片

import numpy as np
import pandas as pd
pd.set_option("max_columns",None) #显示所有列
# pd.set_option("max_rows",None) #显示所有行
df=pd.read_csv("nobel.csv")
print(df)
print(df.info())
#找出诺贝尔得奖者做多的国家
print(df.groupby("birth_country")["year"].count().sort_values(ascending=False))
print(df["birth_country"].value_counts().head(20))
#诺贝尔奖得奖者获得最多的国家哪一年的奖项最多
print(df[df["birth_country"] == "United States of America"]["year"].value_counts().head(10))
#诺贝尔奖得奖者获得最多的国家哪个年代的奖项最多
df["年代"]=df["year"]//10*10
print(df[df["birth_country"] == "United States of America"]["年代"].value_counts())
#诺贝尔奖获得者获得最多的国家什么奖项最多
print(df[df["birth_country"] == "United States of America"]["prize"].value_counts())
#查找中国获得哪些奖项,降序排列
print(df[df["birth_country"] == "China"]["prize"].value_counts())
import numpy as np
import pandas as pd
pd.set_option("max_columns",None) #显示所有列
# pd.set_option("max_rows",None) #显示所有行
df=pd.read_csv("nobel.csv")
print(df)
print(df.info())
#找出诺贝尔奖中女性的比例
print(df["sex"].value_counts()["Female"] / df["year"].count())
#找出不同奖项的平均获奖年龄
print(df.groupby("category")["age"].mean().astype(int))
#统计不同世纪不同国家得奖者的数量
df["世纪"]=df["year"]//100+1
print(df.groupby(["世纪", "death_country"])["year"].count())
#统计中国获奖者的平均年龄
df["birth_date"]=pd.to_datetime(df["birth_date"])
df["death_date"]=pd.to_datetime(df["death_date"])
df["年龄"]=df["death_date"].dt.year-df["birth_date"].dt.year
print(df["年龄"])
print(df[df["birth_country"] == "China"]["年龄"].mean().astype(int))

你可能感兴趣的:(项目,笔记,python,数据挖掘,机器学习)