参数含义:
subset:即表示要去重指定参考的列
keep : {‘first’, ‘last’, False}, default ‘first’
inplace:boolean, default False, 直接在原来的数据上修改还是保留副本
data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})
#第一个参数传入需要比对的列,在"id"列有相同的id,则进行去重
data.drop_duplicates(['id'],keep='last',inplace=True)
#我想比较"id"、"value"两列的值全部相同时则去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)
#如果想直接比较数据中的全部列都相同时才能去除,则可以按照如下方法.keep默认的是保留第一个
data.drop_duplicates()
首先关于连接,从SQL中的可以得知,连接主要分为外连接和内连接:
内连接是指在两个数据表中,根据其指定合并的列,找到其交集,也就是既在df1中出现,也在df2中出现的数据
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不写how也没关系,因为merge默认的就是内连接
假设如果在df1和df2中的指定要合并的列的列名不一致的话,则需要显式指定根据哪一列进行合并
df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 该结果比上面的on='key'的结果多一列相同的列,但是两个的本质是一样的,都是内连接
外连接可以分为三种,全外连接、左连接和右连接。
全外连接就是保留两个表中指定合并的列关键字的并集,然后在左右两个表中找到相对应的数据进行填充,没有的用NAN代替
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='outer')
右连接是保留右表中指定列的所有关键字,然后去左表中找到指定列对应的数据进行补充,没有的就NAN代替
df = pd.merge(df1,df2,on='key',how='right')
左连接是保留左表中指定列的所有关键字,然后去右表中找到指定列对应的数据进行补充,没有的就NAN代替
df = pd.merge(df1,df2,on='key',how='left')