在处理csv数据的过程中可能会遇到统计重复数据的情况,笔者以自己遇到的问题为例,给出一个可以解决此问题的方法。
进行操作的csv文件中含有1700多条数据,其中局部如下图所示:
目的是计算其中每条数据出现的次数,代码如下:
import pandas as pd
csv = pd.read_csv('../data/all_CE.csv')
counted = csv.groupby(['causes', 'effects']).size()
counted.to_csv("../data/test.csv") #存入目的地址文件
首先读取csv文件,再对读取数据使用pandas中的数据内部分组函数groupby(),参数为列名或列名的组合,最后通过size()函数得到结果。如果读者有更好的方法,希望可以与笔者进行交流。