在Hive中‘InputFormat,OutputFormat‘和‘Stored as‘之间有什么区别?

Hive有很多关于如何存储数据的选项。您可以使用外部存储,其中Hive只是从其他地方包装一些数据,或者您可以从hive仓库中的start开始创建独立表。输入和输出格式允许您指定这两种类型的表的原始数据结构或如何物理存储数据。从客户端开始,您将使用sql继续使用表,但在低级别,它可以是文本文件或序列文件或hbase表或其他一些数据结构。

InputFormat和OutputFormat - 允许您描述原始数据结构,以便Hive可以正确地将其映射到表视图

SerDe - 表示从表视图到低级输入输出格式结构执行实际数据转换的类,并且相反

通常你的过程是这样的:HDFS文件 - > InputFileFormat - >反序列化器 - >行对象 - >串行器 - > OutputFileFormat - > HDFS文件

存储为 - 指定此类存储格式,其中包括Hive中新表的输入和输出格式

这些属性可以真正影响性能,整体大小,数据模式演变支持或启用ACID等功能。您可以按照本文中描述的步骤查看事情是否在低级别工作,并获取有关最常用格式的一般信息 -

你可能感兴趣的:(hive,big,data)