python_数据分析_pandas_2

本节代码用到的编译环境为python3.7,pandas版本为Anaconda3.7自带版本
代码演示和具体讲解
(columns、index、head、tail、loc、value_counts、mean、describe、get_group、groupby、unstack)

import pandas as pd
data = pd.read_csv("governors_county_candidate.csv",encoding='gb18030')
data.columns#查看第一行数据
data.index#查看第一列数据
data.head()#查看前五行数据
data.tail()#查看最后五行数据
data['票数'].head()#查看前五行的票数一栏
data[['党','票数']].head()#查看前五行党和票数一栏
data['票数的二倍'] = 2*data['票数']#新填一列为票数的二倍
del data['票数的二倍']#删除票数的二倍一列
data['城市'][5:10]#对数据的城市一列进行切片

A = [15,456,12,48]
data.loc[A]#选择A中的行数据查看

data.loc[15,'票数']#查看15行的票数
data['党'].value_counts()#党中每个数据出现的次数
data['党'].value_counts(normalize=True)#当中各项的占比
data['党'].value_counts(normalize=True)['DEM']#党中DEM对应的占比
data['票数'].mean()#票数的平均值
data['票数'].describe()#显示所有的数据关系
data['票数'].sort_values(ascending=False)[:5]#打印票数最多的前五行
data['票数'].sort_values(ascending=False)[:5].index#打印票数最多的前五行行数的列表形式

subset_of_interest = data.loc[(data['党']=="DEM") | (data['党']== "REP") | (data['党']== "IND") |(data['党']== "LIB")]
dang = subset_of_interest.groupby('党')#将当中的DEM、REP、IND、LIB和他们对应的行数生成字典类型
dang.get_group('DEM').head()#DEM对应的前五个数据

'''显示各个党的情况的三个方式'''
dang['城市'].describe()
dang['城市'].describe().unstack()
dang['城市'].describe().unstack()['mean'].plot(kind='bar')

遇到的问题:1、运用pandas处理数据时,发现版本号不匹配,此时可以降低版本或者卸载重新安装。

你可能感兴趣的:(python,python,数据分析,可视化,pandas)