Java菜谱(四)——怎么将10万条数据导出到excel?

今天的菜品是这样的:

怎么将10万条数据导出到excel?

太长不看版

  • xls格式最多可以存65536行数据,而xlsx格式最多可以存1048576行数据
  • 用SXSSFWorkbook代替XSSFWorkbook,即可避免大量数据导出到excel导致的内存溢出问题(OOM)

下面是正文:

起因

有同事在做导出excel功能时,在数据量达到10万左右的时候,遇到了OOM(OutOfMemory,内存溢出)的问题,经分析是对象占用内存过大导致了堆内存空间不足。

进一步分析问题

那么究竟什么对象占用的内存过大呢?

是在List中存储的10万个对象么?为了搞清楚这个问题,我们需要知道在Java中一个对象大致占用多大的内存。这个问题相对来讲比较复杂,有不少文章都讨论了这一问题,我们在这里略过细节,只说一个比较粗糙的结论:一个不太复杂的对象在内存中占用的空间大概是100B~1KB之间。那么也就是说10万个对象的内存消耗大约是10MB~100MB。这点内存对于现代计算机来说可以说是洒洒水。也就是说,并非10万个对象本身导致了OOM的发生。

接下来我们就应该考虑是Excel导出过程中发生了OOM。通过查阅资料,我们了解到Excel是一种基于xml的文档结构,poi在处理excel文档(xlsx格式)时,其内存模型决定了其对于excel的大多数关键组件(行、单元格、样式等等),都需要有一个对应的xssf对象以及一个辅助的xmlbeans对象。所有的XSSF类的读写都是通过读写底层的xmlbeans对象来实现的。因此,在使用poi进行excel读写的过程中,会产生大量的xmlbeans对象。这可能才是导致OOM的真凶。

接下来我们希望借助工具来验证上面的假设。这里我们采用visual vm组件来实时观察应用运行过程中的内存占用情况。在JDK8版本之前,visual vm随JDK包一起发布,在JDK8之后,需要单独进行下载。在应用执行过程中,我们通过采样器对内存进行采样,结果如下:

采样结果

通过采样结果,我们可以看到:
org.apache.xmlbeans.impl.store.XobjAttrXobj对象占用的内存最多,分别占用了1.2G和0.9G多的内存,它们都是poi在进行excel读写过程中产生的对象,存活对象的数量为上千万个。由于采样时间是发生在OOM之前,这里内存占用还没有达到很夸张的级别,但是这两个对象的数量和内存占用的确在迅猛的上涨。由此可以断定,OOM是poi处理大量excel数据写入的过程中发生的。

问题解决

定位到了问题,其实解决问题特别容易。通过查阅poi的文档,我们了解到poi专门创建了一个用于大数据量读写的流式版本的XSSFWorkbook,称之为SXSSFWorkbook。它的原理也很简单,以硬盘空间换内存,只在内存中保留一小部分数据,其余数据都写入硬盘文件中。但是对于合并单元格、注释等信息,仍然存放在内存中。

代码层面修改更简单了,只要创建Workbook时把实现类由XSSFWorkbook替换为SXSSFWorkbook即可。示例代码如下:

Instant start = Instant.now();

        List students = new ArrayList<>();
        Random random = new Random();
        for (int i = 0; i < 1000_000; i++) {
            final Student student = Student.builder()
                    .id(String.valueOf(i))
                    .name("stu" + i)
                    .age(random.nextInt(5) + 20)
                    .gender(random.nextInt(2))
                    .score((double) (50 + random.nextInt(50)))
                    .classNumber(random.nextInt(10) + 1)
                    .build();
            students.add(student);
        }
        System.out.println("当前耗时:" + Duration.between(start, Instant.now()).toMillis() + "ms");
        System.out.println(students.size());

        Workbook workbook = new SXSSFWorkbook();
        final Sheet sheet = workbook.createSheet("students");

        Row row = sheet.createRow(0);
        Cell cell = row.createCell(0);
        cell.setCellValue("ID");

        cell = row.createCell(1);
        cell.setCellValue("姓名");

        cell = row.createCell(2);
        cell.setCellValue("年龄");

        cell = row.createCell(3);
        cell.setCellValue("性别");

        cell = row.createCell(4);
        cell.setCellValue("成绩");

        cell = row.createCell(5);
        cell.setCellValue("班级");

        for (int i = 0; i < students.size(); i++) {
            row = sheet.createRow(i + 1);
            cell = row.createCell(0);
            cell.setCellValue(students.get(i).getId());

            cell = row.createCell(1);
            cell.setCellValue(students.get(i).getName());

            cell = row.createCell(2);
            cell.setCellValue(students.get(i).getAge());

            cell = row.createCell(3);
            cell.setCellValue(students.get(i).getGender());

            cell = row.createCell(4);
            cell.setCellValue(students.get(i).getScore());

            cell = row.createCell(5);
            cell.setCellValue(students.get(i).getClassNumber());
        }

        System.out.println("当前耗时:" + Duration.between(start, Instant.now()).toMillis() + "ms");

        workbook.write(Files.newOutputStream(Paths.get("src", "main", "resources", "students.xlsx")));
        System.out.println("当前耗时:" + Duration.between(start, Instant.now()).toMillis() + "ms");

最后说明几点

  • xls格式(poi中对应HSSF实现)最多支持65536行数据,xlsx格式(poi中对应XSSF实现)最多支持1048576行数据。如果不是有特殊要求,建议无脑选择xlsx格式。
  • 使用poi处理excel时,一个好的习惯是只有构造Workbook的时候使用实现类的构造器,其余一律使用接口,因为poi会自动为我们匹配对应版本的实现类,这样后续代码修改更加方便。
  • 虽然List等数据结构中可以存放下10万条甚至100万条数据,但是大多数情况下不推荐这样做,因为被List引用的数据都没有办法被GC回收掉。像导出excel这类的需求,使用到较大数据量时,我们可以根据实际情况考虑分多次完成。

你可能感兴趣的:(Java菜谱(四)——怎么将10万条数据导出到excel?)