上篇博文已经介绍了如何创建DataFrame,这篇博文主要来介绍如何访问DataFrame中的行和列以及增、删的相关操作。
访问列的时候,不可以通过位置进行访问。
data = {"province":pd.Series(["Henan","Hubei","Hunan","Guangdong","Sichuan"]),
"year":pd.Series([2000,2020,2030,2040,2050]),
"city":pd.Series(["Nanyang","Wuhan","Changsha","Zhuhai","Yaan"])
}
frame = pd.DataFrame(data)
frame.index=["first", "second", "third", "forth", "fifth"]
frame
frame["province"]
frame[["province","city"]]
不包括结束行数据
frame[0:1]
包括结束行数据
frame["first":"second"]
frame[[True,False,False,False,False]]
frame.query("year > 2030")
frame.query("year > 2030 and year < 2050")
head(n) 返回前n行,n默认为5
tail(n) 返回后n行,n默认为5
frame.head(3)
frame.tail(2)
#n可以是单个行标签、多行标签数组(或列表)、行标签切片、布尔数组
#m可以是单个列标签、多列标签数组(或列表)、列标签切片、布尔数组
loc[n, m]
#n可以是单个行位置、多行位置数组(或列表)、行位置切片、布尔数组
#m可以是单个列位置、多列位置数组(或列表)、列位置切片、布尔数组
iloc[n, m]
frame.loc["first",["province","year"]]
frame.iloc[0,[0,1]]
frame.loc["first","province":"year"]
frame.iloc[0,0:1]
存取器at[]和iat[]可以访问数据框中的单个数据。
#n是行标签
#m是列标签
at[n, m]
#idx_n是行位置
#idx_m是列位置
iat[idx_n, idx_m]
frame.at["second","city"]
frame.iat[1,2]
在对行进行增删的时候,不会改变原有的数据框,
在对列进行增删的时候,会改变原有的数据框。
frame1 = pd.DataFrame({"province":["Shanxi"],"year":[1900],"city":["xian"]})
frame.append(frame1)
frame2 = frame.drop("fifth")
frame2
使用下面这种方法增加列时,只适用于没有index的数据框。否则,新增加的一列数据值为NaN
L = [["Henan","2000","Nanyang"],
["Hubei","2020","Wuhan"],
["Hunan","2030","Changsha"],
["Guangzhou","2040","Zhuhai"],
["Sichuan","2050","Yaan"]]
frame3 = pd.DataFrame(L,
columns=["province","year","city"])
frame3
frame3["number"] = pd.Series([0,1,2,3,4])
frame3
1.del语句
2.pop方法,删除选择的列,并且返回该列。
del frame3["city"]
frame3
frame3.pop("province")
frame3.rename(columns={"year":"年份"})
frame3.rename({0:"one"})