Java中Set的深入研究

Set和数学中的集合是同一个概念,就是没有重复元素的集合。

这篇文章主要论述了Set是如何实现"没有重复元素"(no duplicate elements)的,以及阐述了什么是“重复”(duplicate),是相同的地址空间?是equals的返回值为true?是compareTo的返回值为0 ?还是有相同的hashCode?本文还给出了在什么情况下使用什么样的Set的建议。

注:本文不涉及范型。

1、树形结构: 

ExpandedBlockStart.gif public   interface  Set   extends  Collection   {}
ExpandedBlockStart.gif 
public   abstract   class  AbstractSet   extends  AbstractCollection    implements  Set  {}
ExpandedBlockStart.gif 
public   class  CopyOnWriteArraySet   extends  AbstractSet   implements  Serializable {}
ExpandedBlockStart.gif 
public   abstract   class  EnumSet    extends  Enum   extends  AbstractSet   implements  Cloneable, Serializable {}
ExpandedBlockStart.gif 
public   class  HashSet   extends  AbstractSet   implements  Set , Cloneable, Serializable {}
ExpandedBlockStart.gif 
public   final   class  JobStateReasons   extends  HashSet < JobStateReason > implements  PrintJobAttribute {}
ExpandedBlockStart.gif 
public   class  LinkedHashSet   extends  HashSet   implements  Set , Cloneable, Serializable {}
ExpandedBlockStart.gif 
public   class  TreeSet   extends  AbstractSet   implements  SortedSet , Cloneable, Serializable {}

   可以看出,可以实例化的类为:CopyOnWriteArraySet,HashSet,LinkedHashSet,TreeSet。
2、Set是如何实现元素唯一性的
   javadoc中对Set的描述第一段如下:“A collection that contains no duplicate elements. More formally, sets contain no pair of elements e1 
   and e2 such that e1.equals(e2), and at most one null element. As implied by its name, this interface models the mathematical set abstraction.”
   这段话是对是错,请看下面分析。
   要进行下面的论述,我们先了解一下Map。Map中的元素是“键-值”对,其中“键”必须是唯一的。TreeSet和HashSet就是利用这个特性实现“no duplicate    elements”。它把set中的元素作为Map中的“键”,从而保持元素的唯一性。这些键在Map中又是如何区分的呢?不同的Map有不同的做法,而且区别很大。
   下面我们分别就TreeSet、HashSet和CopyOnWriteArraySet进行论述:
2.1、TreeSet部分:
   以下以TreeSet为例进行分析。
   请看TreeSet的部分实体:

None.gif public   class  TreeSet   extends  AbstractSet    implements  SortedSet, Cloneable, java.io.Serializable
ExpandedBlockStart.gif 
{
InBlock.gif  
// The backing Map
InBlock.gif
      private transient SortedMap ,Object m; 
InBlock.gif      
// The keySet view of the backing Map
InBlock.gif
      private transient Set  keySet; 
InBlock.gif      
// Dummy value to associate with an Object in the backing Map
InBlock.gif      
//这是每个键所指的对像
InBlock.gif
      private static final Object PRESENT = new Object();
InBlock.gif      
//constructor
ExpandedSubBlockStart.gif
      private TreeSet(SortedMap ,Object  m) {
InBlock.gif          
this.m = m;
InBlock.gif           keySet 
= m.keySet();
ExpandedSubBlockEnd.gif      }

ExpandedSubBlockStart.gif      
public TreeSet() {
InBlock.gif         
this(new TreeMap ,Object());
ExpandedSubBlockEnd.gif      }

InBlock.gif      
//以下省略dot.gifdot.gifdot.gif.
ExpandedBlockEnd.gif
 }

    可以看到TreeSet使用了SortedMap作为其Map保存“键-值”对,而这个SortedMap的真正实体是TreeMap。
    
    请看示例程序1: 

None.gif import  java.util. * ;
None.gif 
public   class  SetTest1
ExpandedBlockStart.gif 
{
InBlock.gif         
public static void main(String[] args)
ExpandedSubBlockStart.gif        
{
InBlock.gif           Set set 
= new TreeSet();
InBlock.gif           set.add(
new SetElement1("aa"));
InBlock.gif           set.add(
new SetElement1("bb"));
ExpandedSubBlockEnd.gif         }

InBlock.gif      
static class SetElement1
ExpandedSubBlockStart.gif      
{
InBlock.gif           String s;
InBlock.gif           
public SetElement1(String s)
ExpandedSubBlockStart.gif            
{
InBlock.gif                
this.s =  s;
ExpandedSubBlockEnd.gif            }

InBlock.gif             
public String toString()
ExpandedSubBlockStart.gif             
{
InBlock.gif                    
return s;
ExpandedSubBlockEnd.gif             }

InBlock.gif           
public boolean equals(Object obj) 
ExpandedSubBlockStart.gif            
{
InBlock.gif                
return s.equals(((SetElement1)obj).s);
ExpandedSubBlockEnd.gif           }

ExpandedSubBlockEnd.gif     }

ExpandedBlockEnd.gif }

    该程序能够正常编译,但是运行时会抛出异常java.lang.ClassCastException。为什么?
    
    请看示例程序2:

None.gif import  java.util. * ;
None.gif 
public   class  SetTest2
ExpandedBlockStart.gif
{
InBlock.gif          
public static void main(String[] args)
ExpandedSubBlockStart.gif          
{
InBlock.gif               Set set 
= new TreeSet();
InBlock.gif               set.add(
new SetElement2("aa"));
InBlock.gif               set.add(
new SetElement2("aa"));
InBlock.gif               set.add(
new SetElement2("bb"));
InBlock.gif               System.out.println(set);
ExpandedSubBlockEnd.gif          }

InBlock.gif      
static class SetElement2 implements Comparable
ExpandedSubBlockStart.gif      
{
InBlock.gif               String s;
ExpandedSubBlockStart.gif               
public SetElement2(String s){
InBlock.gif                
this.s =  s;
ExpandedSubBlockEnd.gif                  }

ExpandedSubBlockStart.gif                   
public String toString(){
InBlock.gif                    
return s;
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockStart.gif                   
public int compareTo(Object o){
InBlock.gif                    
return s.compareTo(((SetElement2)o).s);
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockStart.gif                   
public boolean equals(Object obj) {
InBlock.gif                    
return s.equals(((SetElement2)obj).s);
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockEnd.gif          }

ExpandedBlockEnd.gif }


   运行结果:
   [aa, bb]
   这正是我们所期望的结果。那“示例程序1”和“示例程序2”有什么区别?
   是因为SetElement2实现了Comparable接口,而SetElement1没有。SetElement2实现Comparable接口有什么用呢?因为在TreeSet的add方法中需要比较两个 元素的“值”。请看TreeMap中的compare方法: 

ExpandedBlockStart.gif    private   int  compare(K k1, K k2)  {
InBlock.gif        
return (comparator==null ? ((Comparable<K>)k1).compareTo(k2)
InBlock.gif                                 : comparator.compare((K)k1, (K)k2));
ExpandedBlockEnd.gif   }

   可见这个方法先把要比较的元素down cast成Comparable类型。这里就可以解释“示例程序1”中为什么会抛出异常java.lang.ClassCastException,因SetElement1没有实现Comparable接口,当然就不能down cast成Comparable。可见,要用TreeSet来做为你的Set,那么Set中所装的元素都必须实现了Comparable接口。
   说到这里,你是不是想到了TreeSet中是采用Comparable接口中的compareTo方法来判断元素是否相同(duplicate),而不是采用其他类似equals之类的东东来判断。
   
   请看示例程序3:
   

None.gif   import  java.util.Set;
None.gif 
import  java.util. * ;
None.gif 
public   class  SetTest3 
ExpandedBlockStart.gif
{
InBlock.gif      
public static void main(String[] args)
ExpandedSubBlockStart.gif     
{
InBlock.gif           Set set 
= new HashSet();
InBlock.gif           set.add(
new SetElement3("aa"));
InBlock.gif           set.add(
new SetElement3("aa"));
InBlock.gif           set.add(
new SetElement3("bb"));
InBlock.gif           System.out.println(set);
ExpandedSubBlockEnd.gif      }

InBlock.gif      
static class SetElement3 implements Comparable
ExpandedSubBlockStart.gif      
{
InBlock.gif           String s;
ExpandedSubBlockStart.gif           
public SetElement3(String s){
InBlock.gif            
this.s =  s;
ExpandedSubBlockEnd.gif           }

ExpandedSubBlockStart.gif           
public String toString(){
InBlock.gif            
return s;
ExpandedSubBlockEnd.gif           }

ExpandedSubBlockStart.gif           
public int compareTo(Object o){
InBlock.gif            
//return s.compareTo(((SetElement3)o).s);
InBlock.gif
            return -1;
ExpandedSubBlockEnd.gif           }

ExpandedSubBlockStart.gif           
public boolean equals(Object obj) {
InBlock.gif            
return s.equals(((SetElement3)obj).s);
ExpandedSubBlockEnd.gif           }

ExpandedSubBlockEnd.gif    }

ExpandedBlockEnd.gif }

   运行结果:
   [bb, aa, aa]
   看到没有,有两个“aa”!!这是因为compareTo返回值始终是"-1",也就是说“把任何元素都看成不同”。
   
   综上所述,你是否对javadoc中对Set功能的描述有了怀疑?!

2.2、HashSet部分:
   以下以HashSet为例进行分析。
   从Hashset类的主体部分:
 
None.gif public   class  HashSet   extends  AbstractSet   implements  Set , Cloneable, java.io.Serializable
ExpandedBlockStart.gif 
{
InBlock.gif      
static final long serialVersionUID = -5024744406713321676L;
InBlock.gif      
private transient HashMap  Object map;
InBlock.gif      
// Dummy value to associate with an Object in the backing Map
InBlock.gif      
//这是每个键所指的对像
InBlock.gif
       private static final Object PRESENT = new Object();  
InBlock.gif
InBlock.gif     
public HashSet() 
ExpandedSubBlockStart.gif     
{
InBlock.gif         map 
= new HashMap  Object();
ExpandedSubBlockEnd.gif      }

InBlock.gif     
public boolean add(E o)
ExpandedSubBlockStart.gif     
{
InBlock.gif         
return map.put(o, PRESENT)==null;
ExpandedSubBlockEnd.gif      }

InBlock.gif    
//以下省略dot.gifdot.gifdot.gif.
ExpandedBlockEnd.gif
    }
 
None.gif
ExpandedBlockStart.gif        
public  HashSet() 
InBlock.gif          map 
= new HashMap  Object();
InBlock.gif    
ExpandedBlockEnd.gif     }

None.gif
   可以看到HashSet使用了HashMap作为其Map保存“键-值”对。
   
   请看示例程序4:
None.gif   import  java.util. * ;
ExpandedBlockStart.gif 
public   class  SetTest4  {
ExpandedSubBlockStart.gif         
public static void main(String[] args){
InBlock.gif              Set set 
= new HashSet();
InBlock.gif              set.add(
new SetElement4("aa"));
InBlock.gif              set.add(
new SetElement4("aa"));
InBlock.gif              set.add(
new SetElement4("bb"));
InBlock.gif              System.out.println(set);
ExpandedSubBlockEnd.gif         }

ExpandedSubBlockStart.gif         
static class SetElement4{
InBlock.gif                  String s;
ExpandedSubBlockStart.gif                  
public SetElement4(String s){
InBlock.gif                   
this.s =  s;
ExpandedSubBlockEnd.gif                  }

ExpandedSubBlockStart.gif                  
public String toString(){
InBlock.gif                   
return s;
ExpandedSubBlockEnd.gif                  }

ExpandedSubBlockStart.gif                  
public boolean equals(Object obj) {
InBlock.gif                   
return s.equals(((SetElement4)obj).s);
ExpandedSubBlockEnd.gif                  }

ExpandedSubBlockEnd.gif         }

ExpandedBlockEnd.gif}

None.gif

   运行结果:
   [bb, aa, aa]
   没有“示例程序1”中的java.lang.ClassCastException,但是运行结果似乎不对,因为有两个“aa”。
   
   请看示例程序5:

None.gif   import  java.util. * ;
ExpandedBlockStart.gif 
public   class  SetTest5  {
ExpandedSubBlockStart.gif          
public static void main(String[] args){
InBlock.gif           Set set 
= new HashSet();
InBlock.gif           set.add(
new SetElement5("aa"));
InBlock.gif           set.add(
new SetElement5("aa"));
InBlock.gif           set.add(
new SetElement5("bb"));
InBlock.gif           System.out.println(set);
ExpandedSubBlockEnd.gif          }

ExpandedSubBlockStart.gif          
static class SetElement5{
InBlock.gif                   String s;
ExpandedSubBlockStart.gif                   
public SetElement5(String s){
InBlock.gif                    
this.s =  s;
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockStart.gif                   
public String toString(){
InBlock.gif                    
return s;
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockStart.gif                   
public boolean equals(Object obj) {
InBlock.gif                    
return s.equals(((SetElement5)obj).s);
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockStart.gif                   
public int hashCode() {
InBlock.gif                    
//return super.hashCode();
InBlock.gif
                    return s.hashCode();
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockEnd.gif          }

ExpandedBlockEnd.gif }

    运行结果:
    [bb, aa]
    这就对了。“示例程序4”和“示例程序5”有什么区别?是SetElement5重写了hashCode方法。
    
    可见HashSet中是采用了比较元素hashCode的方法来判断元素是否相同(duplicate),而不是采用其他类似equals之类的东东来判断。
    
    说了这么多,那java类库中到底有没有根据equals来判断元素是否相同(duplicate)的Set呢?请看下文。
2.2、CopyOnWriteArraySet部分:
   类CopyOnWriteArraySet是java.util.concurrent包中的一个类,所以它是线程安全的。
   CopyOnWriteArraySet是使用CopyOnWriteArrayList作为其盛放元素的容器。当往CopyOnWriteArrayList添加新元素,它都要遍历整个List,并且用equals来    比较两个元素是否相同。

   请看示例程序6:

None.gif   import  java.util. * ;
None.gif 
import  java.util.concurrent. * ;
ExpandedBlockStart.gif 
public   class  SetTest6  {
ExpandedSubBlockStart.gif          
public static void main(String[] args){
InBlock.gif                   Set set 
= new CopyOnWriteArraySet();
InBlock.gif                   set.add(
new SetElement6("aa"));
InBlock.gif                   set.add(
new SetElement6("aa"));
InBlock.gif                   set.add(
new SetElement6("bb"));
InBlock.gif                   System.out.println(set);
ExpandedSubBlockEnd.gif          }

ExpandedSubBlockStart.gif          
static class SetElement6{
InBlock.gif                   String s;
ExpandedSubBlockStart.gif                   
public SetElement6(String s){
InBlock.gif                        
this.s =  s;
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockStart.gif                   
public String toString(){
InBlock.gif                        
return s;
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockStart.gif                   
public boolean equals(Object obj) {
InBlock.gif                        
return s.equals(((SetElement6)obj).s);
ExpandedSubBlockEnd.gif                   }

ExpandedSubBlockEnd.gif          }

ExpandedBlockEnd.gif }

   运行结果:
   [aa, bb]
   好了,一切搞定!!

3、总结:
   Javadoc中的一些描述可能是不准确的,大家要当心了!
   
   Set中实现元素互异的各种方法差异很大,大致可以分为三种:使用equals,使用hashCode,使用compareTo。但是我还没有发现采用“判断地址空间是否相同”来判断元素是否相同的类,当然我们可以用现有的三种方法来实现“判断地址空间是否相同”。
   
   综上所述,我们可以总结出使用Set的三种不同的情形:(以下假设元素类为Element)
   A、如果想使用Element的equals方法来判断元素是否相同,那么可以使用CopyOnWriteArraySet来构造类的实体。
   B、如果Element实现了Comparable接口,而且想使用compareTo方法来判断元素是否相同,那么可以使用TreeSet来构造类的实体。
   C、如果想使用判断hashCode是否相同的方法来判断元素是否相同,那么可以使用HashSet来构造类的实体。

你可能感兴趣的:(JAVA,java,equals,javadoc,string,hashmap,object)