SXSSFWorkbook-MinIo-大数据-流式导出

文章目录

  • 前言
  • 业务现状
  • 架构思路
  • 技术细节
    • 生成摘要ID
    • SXSSFWorkbook
    • MinIo
    • mybatis 流查询
    • PipedInputStream 保存到minio
  • 总结


前言

由于业务涉及到数据比较大,用户对导出功能使用频繁,每次导出数据两10万以上。
为了减少数据库压力,及应用服务器性能压力。
在此记录一下大数据导出解决方案。


业务现状

数据周期: 一天内数据不变,即:数据一天首次更新后,要到第二天才会变动。

架构思路

摘要ID: 如果ID相同,说明是相同的导出任务,可以重用,没必要开启新的导出任务。
SXSSFWorkbook-MinIo-大数据-流式导出_第1张图片

技术细节

生成摘要ID

message: URI + 关键参数字符串 + 当天时间
SXSSFWorkbook-MinIo-大数据-流式导出_第2张图片

SXSSFWorkbook

针对大数据导出,大家都说好。此次省略好多字

MinIo

附件存贮服务。
各有喜好,我就用了这个。
相关桶主备功能可以参阅我的另一篇文章:Minio桶复制(Bucket Replication)

mybatis 流查询

主要功能:数据以流的方式有结果,一条一条的处理。
以前是先查询所有数据,再封装到 SXSSFWorkbook, 现在改成每来一条就添加一条到SXSSFWorkbook,所以SXSSFWorkbook需要做好封装。
关键代码:
SXSSFWorkbook-MinIo-大数据-流式导出_第3张图片
在这里插入图片描述

SXSSFWorkbook-MinIo-大数据-流式导出_第4张图片

PipedInputStream 保存到minio

优化前

// 问题:
//  1. XSSFWorkbook  不适合大数据导出
//  2. bos.toByteArray()  会造成内存溢出

		XSSFWorkbook xwb = new XSSFWorkbook();
		...........
		......
        ByteArrayOutputStream bos = new ByteArrayOutputStream();
        wb.write(bos);
        byte[] bytes = bos.toByteArray();
        ........
        // 使用 bytes 上传到 minio

优化后:
使用 PipedInputStream 直接上传到 minio
这里注意:
1.

// 一定要有
// 新手包括我自己,平时写代码没有关闭连接的习惯,很多连接不关闭短时间是没有问题的
// 但是!在这里必须有,不然PipedInputStream 会一直堵塞,minio 上传无法完成。

out.close();

executor: 线程池
PipedInputStream , PipedOutputStream 两者不能在同一线程里, 大家都这么说。

SXSSFWorkbook wb = new SXSSFWorkbook();
.............

SXSSFWorkbook-MinIo-大数据-流式导出_第5张图片

总结

需要根据自己的业务情况考虑。
改造 SXSSFWorkbook 需要做好封装。
对 PipedInputStream ,PipedOutputStream 需要有一定了解,起初没有正确关闭流,导致bug调试很久。

你可能感兴趣的:(java,大数据,minio,SXSSFWorkbook,管道流)