^(.*\r?\n)\1+
;替换为: 空,不填写内容import pandas as pd
# 读取CSV文件
df = pd.read_csv('your_file.csv')
# 删除重复行
df = df.drop_duplicates()
# 将处理后的数据保存回CSV文件
df.to_csv('your_output_file.csv', index=False)
subset: 指定要考虑的列(或列的组合),即基于哪些列判断是否为重复行。默认为所有列。
df.drop_duplicates(subset=['column1', 'column2'])
keep: 控制保留哪个重复行。可选值有:
‘first’(默认值): 保留第一次出现的重复行。
‘last’: 保留最后一次出现的重复行。
False: 删除所有重复行。
df.drop_duplicates(keep='last')
ignore_index: 重置索引,以便新的DataFrame具有默认的整数索引。
df.drop_duplicates(ignore_index=True)
inplace: 是否在原地修改DataFrame,而不是返回一个新的DataFrame。
df.drop_duplicates(inplace=True)
my_list = [1, 2, 2, 3, 4, 4, 5]
unique_list = list(set(my_list))
print(unique_list)