DataX抽取oracle数据到hive,数据量变多

现象

数据抽取工具DataX
数据源oracle 数据量 4184500
目标表hive 数据量 4184555
抽取后多了55条数据

原因

目标表存储格式为textfile,textfile默认列分隔符为\001,默认行分隔符为\n
在oracle源数据中本身带有textfile行分隔符\n,所以在遇到源数据中的\n时,就会提前换行,导致字段错位,数据量增加

解决方案

使用列式存储orc存储格式,无需行分隔符,列分隔符指定为\001,经过测试可以解决此问题

你可能感兴趣的:(hive,大数据,hadoop)