重复源的筛选

在天文学中有一些数据中是有很多重复源的,例如LAMOST,大约有20%的重复观测,实际使用中,我们应当去掉重复源,否则在数据拟合或者进行机器学习的时候,会导致部分源的权重偏大,导致模型拟合的不好

对于重复源,一般是两种做法,如果数据中有信噪比,那么我们肯定是选择重复源中信噪比最大的一个数据,如果没有信噪比,那么我们就应该对重复源求一个平均值或者中位数,

假设我们有一组数据,他们的ID代表一颗星的名字,那么有信噪比的代码如下:

import pandas as pd

data = pd.rea_csv('你的数据名.csv')
# 假设信噪比列名为snrg
idx = data.groupby('ID')['snrg'].idxmax()
df_max_snr = data.loc[idx]
#根据ID确定重复源并对重复值保留最大信噪比的数据 

无信噪比的时候取平均数:

import pandas as pd

data = pd.rea_csv('你的数据名.csv')
no_duplicat_data_mean = data.groupby('ID').mean()
#根据ID确定重复源并对重复值保留平均值

使用groupby求平均的时候,只会对数值列求平均,str列会被直接丢掉,对此,我们进行如下操作:

import pandas as pd

data = pd.rea_csv('你的数据名.csv')

cols_to_mean = list(data.columns.drop('TYPE'))

# 以 ID列分组,保留TYPE列,并对其他列求平均值
result = df.groupby(['ID']).agg({'TYPE':'first',cols_to_mean: 'mean'})

如果要保留的str列有很多,也可以把他们的列名写成一个列表取代'TYPE'。

注意:此篇文章曾经发布过两个非常复杂的去重复源做法,旧的方法都被我删除了,现在的做法更加简洁易懂,并且快非常多,有信噪比的情况下,几百万数据会在几分钟搞定,没有信噪比的情况下,几百万数据会在几秒钟搞定。

你可能感兴趣的:(pandas使用,python,pandas)