移除重复数据:
DataFrame中常常出现重复行。比如下面这里例子:
DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行.
这里还有一个与此相关的drop_duplicates方法,它用于返回一个移除了重复行的DataFrame:
DataFrame的drop_duplicates方法会判断全部列,你也可以指定部分列进行重复性判断:
print data['Date'] print data.iloc[2] #按行号取第三行 print data.iloc[:, [1]] #按列号取第二列 print data.ix[100] #按行号取第101行 print data.ix['abc'] #取行名为abc的行 print data['Cost'] #取列名为Cost的列
data = [[1, 2, 3], [4, 5, 6]] index = ['d', 'e'] columns = ['a', 'b', 'c'] df = pd.DataFrame(data=data, index=index, columns=columns) print df print df.loc['e', :'a'] print df.iloc[:1, :2] #第一行的第一二列 print df.iloc[1, [1, 2]] #第一行的第二三列 print df.iloc[1] print df.iloc[:, 2] #取第三列 print df.loc['e', :] #取行名为e的一整列
iloc是用行列号取数据,loc是用行列索引名字取数据