2020-08-23

数据分析第三课
折线图:适合可视化某个属性值随时间变化的走势
柱状图:适合数值大小的比较
散点图:适合分散的数值,看数值集中的位置
箱线图:适合较为集中的数据展示
热力图:适合相关系数的展示
sex = text.groupby(‘Sex’)[‘Survived’].sum()
sex.plot.bar()
plt.title(‘survived_count’)
plt.show()

计算不同票价中生存与死亡人数 1表示生存,0表示死亡

排序后绘折线图

fare_sur = text.groupby([‘Fare’])[‘Survived’].value_counts().sort_values(ascending=False)
fare_sur

绘图

fig = plt.figure(figsize=(20, 18))
fare_sur1.plot(grid=True)
plt.legend()
plt.show()
text.groupby([‘Sex’,‘Survived’])[‘Survived’].count().unstack().plot(kind=‘bar’,stacked=‘True’)
plt.title(‘survived_count’)
plt.ylabel(‘count’)

查看某一列的所有项目
df[‘Cabin’].head(3)
or
df.Cabin.head(3)
对比两个数据集,并删除多出来的列;
test_1 = pd.read_csv(‘test_1.csv’)
test_1.head(3)

删除多余的列

del test_1[‘a’]
test_1.head(3)
隐藏某些列元素
df.drop([‘PassengerId’,‘Name’,‘Age’,‘Ticket’],axis=1).head(3)

你可能感兴趣的:(笔记)