大数据-架构分析

大数据基准测试工具 HiBench
开源的大数据调度系统 Oozie

数据采集

数据库同步通常用 Sqoop,

sqoop import --connect jdbc:mysql://localhost/db --username foo --password --table TEST

Canal 是阿里巴巴开源的一个 MySQL binlog 获取工具,binlog 是 MySQL 的事务日志,可用于 MySQL 数据库主从复制,Canal 将自己伪装成 MySQL 从库,从 MySQL 获取 binlog。
日志同步可以选择 Flume,
前端埋点采集
爬虫系统

数据处理

数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等计算任务读取 HDFS 上的数据进行计算,再将计算结果写入 HDFS。
离线计算
实时流式计算

数据输出和展示

大数据计算产生的数据还是写入到 HDFS 中,但应用程序不可能到 HDFS 中读取数据,所以必须要将 HDFS 中的数据导出到数据库中。数据同步导出相对比较容易,计算产生的数据都比较规范,稍作处理就可以用 Sqoop 之类的系统导出到数据库。应用程序就可以直接访问数据库中的数据,实时展示给用户,比如展示给用户关联推荐的商品。

下图是一个典型的互联网大数据平台的架构


大数据-架构分析_第1张图片
image.png

你可能感兴趣的:(大数据-架构分析)