Scala ArrayBuffer/ListBuffer vs Java ArrayList

在我们编写Scala代码的时候，由于ListBuffer方便的特性，所以经常会使用ListBuffer。过去也一直没有什么问题。

但是呢，最近在我们的项目中，出现了一个非常严重的性能问题。通过JProfiler分析，发现是调用ListBuffer的获取数据的方法时，太慢导致的。

差距有多大呢？以前需要运行12个小时，改成了Java的List以后，直接缩短了四个小时。

这篇文章中，我不会具体分析ArrayBuffer/ScalaBuffer等的代码，只会给出测试的结果。

Scala ArrayBuffer

package com.hyper

import scala.collection.JavaConverters._
import scala.collection.mutable.ArrayBuffer

object TestScalaList {

    def main(args: Array[String]): Unit = {

        val scalaListBuffer: ArrayBuffer[String] = ArrayBuffer[String]()
        val itemNumber = 100000

        for (i <- 0 until itemNumber) {
            scalaListBuffer += i.toString
        }

        IterateList.iterate(scalaListBuffer.toList.asJava)
    }

}

IterateList的代码如下:

package com.hyper;

import com.google.common.base.Stopwatch;

import java.util.List;
import java.util.concurrent.TimeUnit;

public class IterateList {

    public static void iterate(List list) {
        int listLength = list.size();

        System.out.println("List length: " + listLength);

        Stopwatch stopwatch = new Stopwatch();
        stopwatch.start();

        System.out.println("List class: " + list.getClass());
        for (int i = 0; i < listLength; i++) {
            list.get(i);
        }

        long elapse = stopwatch.elapsed(TimeUnit.SECONDS);
        System.out.println("elapse: " + elapse);
    }

}

运行上面的代码，我们可以看到如下结果:

运行了15s。时间不短。它的底层还是数组实现的呢。

Java ArrayList

那我们再来看下Java ArrayList的性能。

package com.hyper;

import java.util.ArrayList;
import java.util.List;

public class TestJavaList {

    public static void main(String[] args) {
        List list = new ArrayList<>();

        int itemNumber = 100000;

        for (int i = 0; i < itemNumber; i++) {
            list.add(String.valueOf(i));
        }

        IterateList.iterate(list);
    }

}

结果如下:

仅仅用了0s，1s都不到。

都是用数组实现的，差距咋这么大呢？

我没有仔细探究，猜测一个是因为SeqWrapper这东西，增加了调用栈的深度，进一步增加了运行时间，但是这个应该不会导致这么大的差距。所以更可能的原因是，Scala实现的这个ArrayBuffer就有问题。

有时间仔细研究一下源码和字节码，补充上来。

Scala ListBuffer

这个是我们Scala中最常用的数据结构，Spark代码中也有意无意的总用到这个数据结构。

我们都知道，Java中ArrayList和LinkedList这两种数据结构，各有各的优缺点，各有各的应用场景。在Scala中，ArrayBuffer就是ArrayList的另一个版本，而ListBuffer就是LinkedList的另一个版本。所以，拿ListBuffer那两个数据结构对比，有点不公平。毕竟ListBuffer不适合随机读取。

但是既然做了，这里还是贴上来。

package com.hyper

import scala.collection.JavaConverters._
import scala.collection.mutable.ListBuffer

object TestScalaList {

    def main(args: Array[String]): Unit = {

        val scalaListBuffer: ListBuffer[String] = ListBuffer[String]()
        val itemNumber = 100000

        for (i <- 0 until itemNumber) {
            scalaListBuffer += i.toString
        }

        IterateList.iterate(scalaListBuffer.toList.asJava)
    }

}

结果如下:

Oh My God，竟然运行了45s。

总结

从测试结果中，我们可以看到，Scala代码，性能跟Java代码还是有一定差距的。

所以能用Java还是尽量用Java为好。

Scala ArrayBuffer/ListBuffer vs Java ArrayList

Scala ArrayBuffer

Java ArrayList

Scala ListBuffer

总结

你可能感兴趣的:(Scala ArrayBuffer/ListBuffer vs Java ArrayList)