3.完成ODS层数据采集操作

将原始数据导入mysql

1 选中mysql 运行脚本

3.完成ODS层数据采集操作_第1张图片

3.完成ODS层数据采集操作_第2张图片 

2 验证结果

3.完成ODS层数据采集操作_第3张图片

数据存储格式和压缩方案 

存储格式

分类

1.行式存储(textFile)

缺点:可读性较好  执行 select  * 效率比较高

缺点:耗费磁盘资源  执行 select 字段 效率比较低

2.列式存储(orc)

优点:节省磁盘空间. 执行 select 字段 效率比较高

缺点:执行 select * 效率比较低 , 可读性不是特别好

orc的本质

ORC是兼具行式存储优势又具有列式存储优势, 数据按行分块, 每块中按列存储数据, 同时在每个块内部, 对数据构建索引, 提升查询的效率。

你可能感兴趣的:(大数据项目总结,数据库,大数据,数据仓库,hadoop,hive)