Sqoop导入文件格式对比Text、Parquet、Avro、Sequence

一、速度

Text

19/09/05 16:47:35 INFO mapreduce.ImportJobBase: Transferred 242.2289 MB in 21.3893 seconds (11.3248 MB/sec)

Parquet

19/09/05 16:53:09 INFO mapreduce.ImportJobBase: Transferred 77.1938 MB in 30.8534 seconds (2.502 MB/sec)

Avro

19/09/05 16:55:04 INFO mapreduce.ImportJobBase: Transferred 227.6715 MB in 40.9449 seconds (5.5604 MB/sec)

Sequence

19/09/05 16:56:21 INFO mapreduce.ImportJobBase: Transferred 473.2176 MB in 25.9053 seconds (18.2672 MB/sec)

二、大小

原始MySQL表大小:数据大小272.91MB,索引大小137.71MB
在这里插入图片描述
Text

242.2 M  726.7 M  /usr/hdfs/0/part-m-00000

Parquet

77.2 M  231.6 M  /usr/hdfs/1/511863ba-5721-440f-9bcd-58f174e28aaf.parquet

Avro

227.7 M  683.0 M  /usr/hdfs/2/part-m-00000.avro

Sequence

473.2 M  1.4 G  /usr/hdfs/3/part-m-00000

三、内容

Text

[root@worker ~]# sudo -u hdfs hadoop dfs -cat  /usr/hdfs/0/part-m-00000|head -n  20
1	甲		子鼠			18		0
2	乙		丑牛			null	1
3	丙		寅虎			64		0
4	丁		卯兔			49		0
5	戊		辰龙			null	0
6	己		巳蛇			66		0
7	庚		午马			49		1
8	辛		未羊			14		1
9	壬		申猴			45		0
10	癸		酉鸡			88		1
11			戌狗			24		0
12			亥猪			78		0
13						31		1
14	llkkb	llkkbd		30		0
15	llkk	llkk		54		0
16	llkkb	llkkbd		13		1
17	llkk	llkk		7		1
18	llkk	llkk		12		0
19	llkkc	llkkc		84		1
20	llkkf	llkkf		47		1
cat: Unable to write to output stream.

Parquet

二进制文件无法读取

Avro

二进制文件无法读取

Sequence

二进制文件无法读取

总结

大数据业界推荐使用Parquet格式存储,MR、Spark、Hive、Pig、Impala等都支持该格式。减少存储空间的同时提高性能。

你可能感兴趣的:(Sqoop)