11.pandas里面的一些常用方法

1.更改列名

data.rename(columns={'old1':'aaa','old2':'dat'},inplace=True)

inplace是是否替换原数据

2.去重
DataFrame的duplicated()函数返回一个布尔型Series,表示各行是否重复行。
而 drop_duplicates()函数,它用于返回一个移除了重复行的DataFrame

PS:这两个方法会判断全部列,你也可以指定部分列进行重复项判段。
例如,希望对名字为k2的列进行去重:

data.drop_duplicates(['k2'])

3.DataFrame转list

list_data = df.values.tolist()

4.DataFrame入库

sql_data = df.values.tolist()    # 转列表
sql_data = [tuple(item) for item in sql_data] # 元素转Tuple
sql_data = str(sql_data).strip('[]')   # 转字符串,去中括号
cur_w.execute("insert into id_card(card_num, card_name) values{}".format(sql_data))

5.对dataframe的行和列进行遍历和修改


df.ix[df.A>1,'B']=-1
df
   A  B  C
0  1  5  1
1  2 -1  1
2  3 -1  1
3  4 -1  1
iterrows()函数。这个函数一般跟index和row一起使用,应为他会返回两个值,一个就是index,一个是行
for index,row in df.iterrows():
    if row['A']>1:
        row['B']=-1
   A  B  C
0  1  5  1
1  2 -1  1
2  3 -1  1
3  4 -1  1

遍历列 iloc函数

or i in range(0, len(df)):
    print (df.iloc[i]['A'], df.iloc[i]['B'])
     1 5
     2 6
     3 7
     4 8

你可能感兴趣的:(11.pandas里面的一些常用方法)