notepad++去除重复行 python去除重复数据

去除重复行,去除csv重复数据,去除列表重复项

  • 1. notepad++ 去除重复行
  • 2. pandas 删除csv中重复行
    • 1) 代码
    • 2) drop_duplicates()方法参数介绍
  • 3. list 删除列表中重复元素

1. notepad++ 去除重复行

  1. 编辑->行操作
  2. 升序排列文本行
  3. 第一种(从重复行中保留一行):删除重复行
    第二种(删除重复行,包含本身):1. 替换;2. 查找目标:^(.*\r?\n)\1+;替换为: 空,不填写内容

2. pandas 删除csv中重复行

1) 代码

import pandas as pd

# 读取CSV文件
df = pd.read_csv('your_file.csv')

# 删除重复行
df = df.drop_duplicates()

# 将处理后的数据保存回CSV文件
df.to_csv('your_output_file.csv', index=False)

2) drop_duplicates()方法参数介绍

subset: 指定要考虑的列(或列的组合),即基于哪些列判断是否为重复行。默认为所有列。

df.drop_duplicates(subset=['column1', 'column2'])

keep: 控制保留哪个重复行。可选值有:
‘first’(默认值): 保留第一次出现的重复行。
‘last’: 保留最后一次出现的重复行。
False: 删除所有重复行。

df.drop_duplicates(keep='last')

ignore_index: 重置索引,以便新的DataFrame具有默认的整数索引。

df.drop_duplicates(ignore_index=True)

inplace: 是否在原地修改DataFrame,而不是返回一个新的DataFrame。

df.drop_duplicates(inplace=True)

3. list 删除列表中重复元素

my_list = [1, 2, 2, 3, 4, 4, 5]
unique_list = list(set(my_list))
print(unique_list)

你可能感兴趣的:(科研/开发工具,python,开发语言)