R-数据分析系列-数据去重

在进行数据分析的过程中,我们常常会根据不同变量做去重处理,有单一变量和多变量处理两种情况


单一变量去重

result <-rawdata[!duplicated(rawdata$Topic),]

result <-rawdata[unique(rawdata$Topic),]

使用这两种方法,获得的结果是一样的,其中rawdata[XXXXX,]的作用是提取选中的行数据,同理,rawdata[,XXXXX]则是提取选中的列数据

unique() 和 !duplicated() 是提取去重后的所在行的相关变量


多变量去重

按照Topic以及Sentiment进行去重,方法如下,该方法适用于>=2以上的参数进行去重

result<-rawdata[!duplicated(rawdata[,c('Topic','Sentiment')]),]

你可能感兴趣的:(R-数据分析系列-数据去重)