C# 大数据量List<T>去重复方法效率比较

    大数据量List中的数据根据多个属性进行去重有多种方法,在数据量达到10万以上时,各种方法效率有明显的区别,这里只列举两种方式:
    这里以类Model为例创建List
    public class Model
    {
        public string Id { get; set; }
        public string Name { get; set; }
        public int Style { get; set; } 
    }
  1. 创建比较类(实现IEqualityComparer接口),重写Equals方法
public class ModelComparer : IEqualityComparer<Model>
 {
     public bool Equals(Model x, Model y)
     {
         if (x.Id == y.Id && x.Name == y.Name)       
             return true;         
         else           
             return false;           
     }
 
     public int GetHashCode(Model obj)
     {
         return 0;
     }
 }

使用时直接使用Distinct方法:

var lstTemp = lstOrigin.Distinct(new ModelComparer());

但是这种方式去重效率非常慢,20万条数据能达到15-20分钟,如果数据量较大又对效率有要求,那么可以尝试下面一种方法:

  1. 博客鹤冲天的改进办法(以下均转自这个博客)
    public class CommonEqualityComparer<T, V> : IEqualityComparer<T>
    {
        private Func<T, V> keySelector;

        public CommonEqualityComparer(Func<T, V> keySelector)
        {
            this.keySelector = keySelector;
        }

        public bool Equals(T x, T y)
        {
            return EqualityComparer<V>.Default.Equals(keySelector(x), keySelector(y));
        }

        public int GetHashCode(T obj)
        {
            return EqualityComparer<V>.Default.GetHashCode(keySelector(obj));
        }
    }

    public static class DistinctExtensions
    {
        public static IEnumerable<T> Distinct<T, V>(this IEnumerable<T> source, Func<T, V> keySelector)
        {
            return source.Distinct(new CommonEqualityComparer<T, V>(keySelector));
        }
    }

使用时:

var lstTemp = lstOrigin.Distinct(p => (p.Id + p.Name)).ToList();

这种方法能将效率从15~20分钟提高到5秒以内,虽然这种将两个字段字符串相加作为比较参数的比较方法有些局限,但是相比于前一种方式方式可以极大地提高效率。另也测试过在新建List后,在循环添加数据时通过list.Contains()的方法和通过Linq的方法去重效率都比较低,都与第一种方法时间相近,网上相关文章比较多这里就不列举了。

你可能感兴趣的:(c#)