首先解释什么是线程安全:在多线程中对一种数据类型的参数进行共享时,各个线程可以正确的执行,不会出现数据错误的情况就是线程安全。
接下来我们看一段常见的线程代码:
public class ThreadTest {
public static int index=0;
public static String str="0";
public static void main(String[] args) {
ExecutorService pool1 = Executors.newFixedThreadPool(10);
for (int i = 0; i < 10; i++) {
pool1.execute(new Runnable() {
@Override
public void run() {
index++;
str="1";
System.out.println(index);
System.out.println(str);
}
});
}
}
在上述代码中整型index是非线程安全的,index++不是一个原子操作,它的操作主要分为三步:
在多线程的环境中,有可能线程 t1 将 0 读到本地内存中 ,但 index 的值已经累加到很大了。
String类的参数str是线程安全的,因为String是final修饰的。
说到线程安全总离不开一个词:原子操作,原子操作是指:对于访问同一个状态的所有操作(包括该操作本身)来说,这个操作是一个以原子方式执行的操作。通俗点讲,所谓的原子也就是不可分割的例如ConcurrentHashMap 做containsKey操作时,又有其他的线程在进行 put 对象的操作,这样ConcurrentHashMap 的内部对象得到了增加,它的状态就发生了改变,这是一个非原子的操作。index=0 ,这就是一个原子操作,最小化到jvm的每一个指令去。
常见的三种同步机制:
ReentrantLock 的lock和unlock方法,ReentrantLock 将加锁和解锁进行了拆分,使其用起来可以更加灵活,它的底层采用的是AbstractQueuedSynchronizer 并发器控制线程的并发和安全
在线程安全中常见的坑是:
多线程内部共享的数据类型,若不是线程安全的,则需要在外部使用时进行加锁同步,如ArrayList,HashMap等。若是线程安全的,则需要注意在线程内部是否有复合操作。
接下来着重说上述坑中的第5点,今天的主题ConcurrentHashMap 的线程不安全行为,为什么在线程安全的ConcurrentHashMap 中会出现线程不安全的行为,直接上代码:
public class ThreadSafeTest {
public static Map map=new ConcurrentHashMap<>();
public static void main(String[] args) {
ExecutorService pool1 = Executors.newFixedThreadPool(10);
for (int i = 0; i < 10; i++) {
pool1.execute(new Runnable() {
@Override
public void run() {
Random random=new Random();
int randomNum=random.nextInt(10);
if(map.containsKey(randomNum)){
map.put(randomNum,map.get(randomNum)+1);
}else{
map.put(randomNum,1);
}
}
});
}
}
}
这段代码是用10个线程测试10以内各个整型随机数出现的次数,表面上看采用ConcurrentHashMap进行contain和put操作没有任何问题。但是仔细想下,尽管 containsKey和 put 两个方法都是原子的,但在jvm中并不是将这段代码做为单条指令来执行的,例如:假设连续生成2个随机数1,map的 containsKey 和 put 方法由线程A和B 同时执行 ,那么有可能会出现A线程还没有把 1 put进去时,B线程已经在进行if 的条件判断了,也就是如下的执行顺序:
A: map 正在放置随机数 1 进去
A 被挂起
B: 执行 map.containsKey(1) 返回false
B: 将随机数 1 放进 map
A: 将随机数 1 放进 map
map 中key 为1 的value值 还是为 1
这样会导致虽然生成了2次随机数 1 ,它的value值还是1,我们期望的结果应该是2,这并不是我们想要的结果。概括的说就是两个线程同时竞争map, 但他们对map访问顺序必须是先 containsKey 然后再 put 对象进去,即产生了竞态条件。解决方法当然就是同步了,现在我们将代码改成如下:
public class ThreadSafeTest {
public static Map map=new ConcurrentHashMap<>();
public static void main(String[] args) {
ExecutorService pool1 = Executors.newFixedThreadPool(10);
for (int i = 0; i < 10; i++) {
pool1.execute(new Runnable() {
@Override
public void run() {
Random random=new Random();
int randomNum=random.nextInt(10);
countRandom(randomNum);
}
});
}
}
public static synchronized void countRandom(int randomNum){
if(map.containsKey(randomNum)){
map.put(randomNum,map.get(randomNum)+1);
}else{
map.put(randomNum,1);
}
}
}
上述代码在当前类中没有线程安全的问题,但依然有线程安全的危险,成员变量map依然有可能会在其他地方被更改,在java并发中属于无效的同步锁,将countRandom修改成如下即可:
public static void countRandom(int randomNum){
synchronized(map){
if(map.containsKey(randomNum)){
map.put(randomNum,map.get(randomNum)+1);
}else{
map.put(randomNum,1);
}
}
}
在上述代码中由于同步的原因,ConcurrentHashMap 即使换成HashMap 也可以,只要保证map的各个操作都是线程安全的即可。
写这篇文章也是我工作中经历的一个bug, 我目前是在从事酒店行业的房间预订工作,由于每一个房型会有多个不同的产品进行售卖,在通过接口获取数据时,需要将名称相同的房型合并成为一个产品进行展示售卖,例如以下数据:
{
"roomId": 1,
"roomName": "大床房",
"price": 1805
}, {
"roomId": 2,
"roomName": "大床房",
"price": 1705
}, {
"roomId": 3,
"roomName": "大床房",
"price": 1605
}
由于是面向C端用户需要实时展示各个房型产品的价格,所以采用了多线程并使用 ConcurrentHashMap ,其中key为房型名称roomName,value为3个房型产品的数据,所以我就在线程内部使用了如下代码:
if(map.containsKey(roomName)){
map.put(roomName, map.get(roomName)+roomData2);
}else{
map.put(roomName,roomData);
}
由于公司代码不便贴出来,用以上代码展示。逻辑就是若map中包含名称相同的产品则将其取出来放到一个 List中再 put 进去。结果就是当数据量大的时候,大床房的部分价格会被覆盖没有展示出来,导致我们的产品体验很差。最后的解决办法就是上面的采用 synchronized 关键字对map做同步,这样大床房的每一个价格都会展示出来,bug解决。
2019-04-02 更新
评论区中有人提到 可以使用 ConcurrentHashMap 的 putIfAbsent 方法 ,我们看下这个方法:
public V putIfAbsent(K key, V value) {
return putVal(key, value, true);
}
/** Implementation for put and putIfAbsent */
final V putVal(K key, V value, boolean onlyIfAbsent) {
if (key == null || value == null) throw new NullPointerException();
int hash = spread(key.hashCode());
int binCount = 0;
for (Node[] tab = table;;) {
Node f; int n, i, fh;
if (tab == null || (n = tab.length) == 0)
tab = initTable();
else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
if (casTabAt(tab, i, null,
new Node(hash, key, value, null)))
break; // no lock when adding to empty bin
}
else if ((fh = f.hash) == MOVED)
tab = helpTransfer(tab, f);
else {
V oldVal = null;
synchronized (f) {
if (tabAt(tab, i) == f) {
if (fh >= 0) {
binCount = 1;
for (Node e = f;; ++binCount) {
K ek;
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
if (!onlyIfAbsent)
e.val = value;
break;
}
Node pred = e;
if ((e = e.next) == null) {
pred.next = new Node(hash, key,
value, null);
break;
}
}
}
else if (f instanceof TreeBin) {
Node p;
binCount = 2;
if ((p = ((TreeBin)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
if (!onlyIfAbsent)
p.val = value;
}
}
}
}
if (binCount != 0) {
if (binCount >= TREEIFY_THRESHOLD)
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
}
addCount(1L, binCount);
return null;
}
方法中 我们可以看到
if (oldVal != null)
return oldVal;
在并发 插入的时候若原来的值存在则直接返回,否则返回 null . 这个在某些场景下是合适的 ,但在我上面提到的场景是不合适的
线程安全的扩展与发散
现在我们发散一下,上面只是讲了 ConcurrentHashMap 的线程不安全行为,但是任何线程安全的数据类型都有可能出现2个线程安全的方法放在一起使用导致线程不安全的行为,如List同步器 Vector 的contains 和 add行为 、线程安全的整型计数器 AtomicInteger 的 get 和 incrementAndGet 行为等等。
归纳与总结
最后的归纳总结,我们在多线程中使用线程安全类时也需要注意是否用到了2个及以上的同步方法,若用到了则需要将这多个方法使用同步变成原子操作,所谓的原子操作一定细化到jvm内部的指令,而不能单纯的以为一行代码就是原子操作。千万不要以为只要使用线程安全数据类型就万事大吉。