百万数据的excel文件读取解析

最近业务需要读取百万数据的excel文件,并且解析之后存入redis。

对于excel文件的操作 使用poi和jxl(没用过这个)就可以。其中poi对于导出百万数据提供的workbook是sxss。并不适用百万数据的读取。因为对于百万数据的读取,会将每一行数据都作为对象封装起来存储在内存里。并且该对象还包括了表格样式等信息。因此将非常占用内存。

poi对于大量数据的读取并没有封装的好的类或者方法去操作excel文件,网上很多实现方式是 通过重写poi内部的parse等方法来进行操作。

我尝试用内存隐射的方式操作excle文件。最终没能解析到文件的二进制数据。。。

最后再git上找到的解决办法:https://github.com/monitorjbl/excel-streaming-reader

这个封装的类,功能就是读取excel的时候避免了内存溢出的问题。具体实现类似poi的sxss类。读一部分丢一部分,不会将整个文件实例化对象到内存中。

使用上也很简单。

public void fun(){

File file = new File("data100w.xlsx");
FileInputStream is = new FileInputStream(file);
Workbook workbook = StreamingReader.builder().rowCacheSize(200).bufferSize(1024).open(is);

for (Sheet sheet : workbook) {
            System.out.println(sheet.getSheetName()+"=====");
            for (Row row : sheet) {
                System.out.println(row.getRowNum()+">>>>>");
                Cell cell0 = row.getCell(0);
                Cell cell1 = row.getCell(1);
                String key   = cell0.getStringCellValue();
                String value = cell1.getStringCellValue();
               }
        }

}

因为我的excel文件只有两列,所以就没对cell进行遍历。

 

你可能感兴趣的:(POIExcel,JAVA)