java读写orc文件_使用JAVA API 解析ORC File

使用JAVA API 解析ORC File

orc File 的解析过程中,使用FileInputFormat的getSplits(conf, 1)函数,

然后使用 RecordReaderreader = in.getRecordReader(splits[0], conf, Reporter.NULL);

解析ORCfile, 发现当ORC 文件的比较大的时候,超过256M时,不能读取所有的数据。

比如一个ORC 文件有300M,共有180万的条数据,使用上面的方法只能读取出110万的数据,剩下70万的数据读取不出。

使用的读取示例源码如下:

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hive.ql.io.orc.*;

import org.apache.hadoop.hive.ql.io.orc.RecordReader;

import org.apache.hadoop.hive.serde2.SerDeException;

import org.apache.hadoop.hive.serde2.objectinspector.StructField;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import org.apache.hadoop.mapred.*;

import org.apache.orc.TypeDescription;

你可能感兴趣的:(java读写orc文件)