数仓和数据湖的区别

1、数据仓库是存储结构化的数据,而数据湖是什么数据都能存(非结构化的数据也能存)。结构化数据可以理解为我们的二维表JSON数据,非结构化的数据可以理解为图像文件之类的。

数据仓库在写入的时候,就要定义好schema了,而数据湖在写入的时候不需要定schema,可以等用到的时候再查出来。强调这点,说明数据湖对数据的schema约束更加灵活。

2、数据仓库和数据湖并不是替代关系。数据是先进数据湖,将数据加工(ETL)之后,一部分数据会到数据仓库中。

3、现有的数据仓库一般基于Hadoop体系的HDFS分布式文件系统去搭建的,而数据湖存储数据一般也是依赖HDFS。

4、开源的数据湖技术比较出名的有hudiicebergDelta Lake

你可能感兴趣的:(数据仓库,大数据,hadoop,hbase)