容易忽略的ConcurrentHashMap 线程不安全行为

  • 线程安全的基础知识

首先解释什么是线程安全:在多线程中对一种数据类型的参数进行共享时,各个线程可以正确的执行,不会出现数据错误的情况就是线程安全。 
接下来我们看一段常见的线程代码:

public class ThreadTest {
public static int index=0;
public static String str="0";
public static void main(String[] args) {
    ExecutorService pool1 = Executors.newFixedThreadPool(10);
    for (int i = 0; i < 10; i++) {
        pool1.execute(new Runnable() {
            @Override
            public void run() {
                index++;
                str="1";
                System.out.println(index);
                System.out.println(str);
            }
        });
    }
}

在上述代码中整型index是非线程安全的,index++不是一个原子操作,它的操作主要分为三步:

  1. 读取index 值0 到寄存器
  2. 将 index 的值加 1
  3. 把 1 赋值给 index

在多线程的环境中,有可能线程 t1 将 0 读到本地内存中 ,但 index 的值已经累加到很大了。 
String类的参数str是线程安全的,因为String是final修饰的。 
说到线程安全总离不开一个词:原子操作,原子操作是指:对于访问同一个状态的所有操作(包括该操作本身)来说,这个操作是一个以原子方式执行的操作。通俗点讲,所谓的原子也就是不可分割的例如ConcurrentHashMap 做containsKey操作时,又有其他的线程在进行 put 对象的操作,这样ConcurrentHashMap 的内部对象得到了增加,它的状态就发生了改变,这是一个非原子的操作。index=0 ,这就是一个原子操作,最小化到jvm的每一个指令去。 
常见的三种同步机制:

  1. volatile 修饰成员变量 , volatile 是一种轻量的同步机制,每个线程都有其独立内存而互相是不可见的,volatile 其中一个作用是保证共享变量对所有线程的可见性,另一个作用是禁止指令重排序。
  2. synchronized 修饰方法或同步代码片段,synchronized 底层是采用监视器monitor 的形式来控制线程安全,当一个线程进入时,会有一个monitor enter指令,线程退出时会触发指令 monitor exit ,下一个线程才可以进来
  3. ReentrantLock 的lock和unlock方法,ReentrantLock 将加锁和解锁进行了拆分,使其用起来可以更加灵活,它的底层采用的是AbstractQueuedSynchronizer 并发器控制线程的并发和安全

  • 线程安全需要避开的坑

在线程安全中常见的坑是:

  1. 线程内部尽量使用局部变量
  2. 线程内部需要使用try catch捕获异常, 若使用了 CountDownLatch 做阻塞,需要在 finally 中 写 countDown 方法 
    否则只要抛出异常就会导致程序一直阻塞,无法往下进行
  3. 使用线程池时不要设置过多的线程的数量,一般为CPU核数的2倍,否则会导致项目假死
  4. 线程内部的集合不要在遍历时进行插入、删除的操作
  5. 多线程内部共享的数据类型,若不是线程安全的,则需要在外部使用时进行加锁同步,如ArrayList,HashMap等。若是线程安全的,则需要注意在线程内部是否有复合操作

  • ConcurrentHashMap 会出现线程不安全的行为

接下来着重说上述坑中的第5点,今天的主题ConcurrentHashMap 的线程不安全行为,为什么在线程安全的ConcurrentHashMap 中会出现线程不安全的行为,直接上代码:

public class ThreadSafeTest {
public static Map map=new ConcurrentHashMap<>();
public static void main(String[] args) {
    ExecutorService pool1 = Executors.newFixedThreadPool(10);
    for (int i = 0; i < 10; i++) {
        pool1.execute(new Runnable() {
            @Override
            public void run() {
                Random random=new Random();
                int randomNum=random.nextInt(10);
                if(map.containsKey(randomNum)){
                    map.put(randomNum,map.get(randomNum)+1);
                }else{
                    map.put(randomNum,1);
                }
            }
        });
    }
}
}

这段代码是用10个线程测试10以内各个整型随机数出现的次数,表面上看采用ConcurrentHashMap进行contain和put操作没有任何问题。但是仔细想下,尽管 containsKey和 put 两个方法都是原子的,但在jvm中并不是将这段代码做为单条指令来执行的,例如:假设连续生成2个随机数1,map的 containsKey 和 put 方法由线程A和B 同时执行 ,那么有可能会出现A线程还没有把 1 put进去时,B线程已经在进行if 的条件判断了,也就是如下的执行顺序:

A:  map 正在放置随机数 1 进去 
A 被挂起
B:  执行 map.containsKey(1) 返回false
B:  将随机数 1 放进 map
A:  将随机数 1 放进 map
map 中key 为1 的value值 还是为 1

这样会导致虽然生成了2次随机数 1 ,它的value值还是1,我们期望的结果应该是2,这并不是我们想要的结果。概括的说就是两个线程同时竞争map, 但他们对map访问顺序必须是先 containsKey 然后再 put 对象进去,即产生了竞态条件。解决方法当然就是同步了,现在我们将代码改成如下:

public class ThreadSafeTest {
public static Map map=new ConcurrentHashMap<>();
public static void main(String[] args) {
    ExecutorService pool1 = Executors.newFixedThreadPool(10);
    for (int i = 0; i < 10; i++) {
        pool1.execute(new Runnable() {
            @Override
            public void run() {
                Random random=new Random();
                int randomNum=random.nextInt(10);
               countRandom(randomNum);
            }
        });
    }
}
public static synchronized void countRandom(int randomNum){
    if(map.containsKey(randomNum)){
        map.put(randomNum,map.get(randomNum)+1);
    }else{
        map.put(randomNum,1);
    }
}
}

上述代码在当前类中没有线程安全的问题,但依然有线程安全的危险,成员变量map依然有可能会在其他地方被更改,在java并发中属于无效的同步锁,将countRandom修改成如下即可:

 public static  void countRandom(int randomNum){
    synchronized(map){
        if(map.containsKey(randomNum)){
            map.put(randomNum,map.get(randomNum)+1);
        }else{
            map.put(randomNum,1);
        }
    }
}

在上述代码中由于同步的原因,ConcurrentHashMap 即使换成HashMap 也可以,只要保证map的各个操作都是线程安全的即可。 
写这篇文章也是我工作中经历的一个bug, 我目前是在从事酒店行业的房间预订工作,由于每一个房型会有多个不同的产品进行售卖,在通过接口获取数据时,需要将名称相同的房型合并成为一个产品进行展示售卖,例如以下数据:

    {
        "roomId": 1,
        "roomName": "大床房",
        "price": 1805

    }, {

        "roomId": 2,
        "roomName": "大床房",
        "price": 1705

    }, {

        "roomId": 3,
        "roomName": "大床房",
        "price": 1605
    }

由于是面向C端用户需要实时展示各个房型产品的价格,所以采用了多线程并使用 ConcurrentHashMap ,其中key为房型名称roomName,value为3个房型产品的数据,所以我就在线程内部使用了如下代码:

       if(map.containsKey(roomName)){
            map.put(roomName, map.get(roomName)+roomData2);
        }else{
            map.put(roomName,roomData);
        }

由于公司代码不便贴出来,用以上代码展示。逻辑就是若map中包含名称相同的产品则将其取出来放到一个 List中再 put 进去。结果就是当数据量大的时候,大床房的部分价格会被覆盖没有展示出来,导致我们的产品体验很差。最后的解决办法就是上面的采用 synchronized 关键字对map做同步,这样大床房的每一个价格都会展示出来,bug解决。

 


2019-04-02 更新

评论区中有人提到 可以使用 ConcurrentHashMap 的 putIfAbsent 方法 ,我们看下这个方法:

 public V putIfAbsent(K key, V value) {
        return putVal(key, value, true);
    }
/** Implementation for put and putIfAbsent */
    final V putVal(K key, V value, boolean onlyIfAbsent) {
        if (key == null || value == null) throw new NullPointerException();
        int hash = spread(key.hashCode());
        int binCount = 0;
        for (Node[] tab = table;;) {
            Node f; int n, i, fh;
            if (tab == null || (n = tab.length) == 0)
                tab = initTable();
            else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
                if (casTabAt(tab, i, null,
                             new Node(hash, key, value, null)))
                    break;                   // no lock when adding to empty bin
            }
            else if ((fh = f.hash) == MOVED)
                tab = helpTransfer(tab, f);
            else {
                V oldVal = null;
                synchronized (f) {
                    if (tabAt(tab, i) == f) {
                        if (fh >= 0) {
                            binCount = 1;
                            for (Node e = f;; ++binCount) {
                                K ek;
                                if (e.hash == hash &&
                                    ((ek = e.key) == key ||
                                     (ek != null && key.equals(ek)))) {
                                    oldVal = e.val;
                                    if (!onlyIfAbsent)
                                        e.val = value;
                                    break;
                                }
                                Node pred = e;
                                if ((e = e.next) == null) {
                                    pred.next = new Node(hash, key,
                                                              value, null);
                                    break;
                                }
                            }
                        }
                        else if (f instanceof TreeBin) {
                            Node p;
                            binCount = 2;
                            if ((p = ((TreeBin)f).putTreeVal(hash, key,
                                                           value)) != null) {
                                oldVal = p.val;
                                if (!onlyIfAbsent)
                                    p.val = value;
                            }
                        }
                    }
                }
                if (binCount != 0) {
                    if (binCount >= TREEIFY_THRESHOLD)
                        treeifyBin(tab, i);
                    if (oldVal != null)
                        return oldVal;
                    break;
                }
            }
        }
        addCount(1L, binCount);
        return null;
    }

方法中 我们可以看到  

 if (oldVal != null)
      return oldVal; 

在并发 插入的时候若原来的值存在则直接返回,否则返回 null . 这个在某些场景下是合适的 ,但在我上面提到的场景是不合适的


  • 线程安全的扩展与发散

    现在我们发散一下,上面只是讲了 ConcurrentHashMap 的线程不安全行为,但是任何线程安全的数据类型都有可能出现2个线程安全的方法放在一起使用导致线程不安全的行为,如List同步器 Vector 的contains 和 add行为 、线程安全的整型计数器 AtomicInteger 的 get 和 incrementAndGet 行为等等。

  • 归纳与总结

    最后的归纳总结,我们在多线程中使用线程安全类时也需要注意是否用到了2个及以上的同步方法,若用到了则需要将这多个方法使用同步变成原子操作,所谓的原子操作一定细化到jvm内部的指令,而不能单纯的以为一行代码就是原子操作。千万不要以为只要使用线程安全数据类型就万事大吉。

你可能感兴趣的:(线程安全)