大数据平台技术栈——技术全貌(一)

大数据平台技术栈——技术全貌(一)

  • 一、采集层&传输层
    • 1. Sqoop
    • 2. Flume
    • 3. Canal
    • 4. Logstash
    • 5. Kafka
    • 6. RocketMQ
  • 二、存储层
    • 1. HBase
    • 2. Alluxio/Redis/Ignite
    • 3. Redis
    • 4. Ignit

大数据平台技术栈——技术全貌(一)_第1张图片

一、采集层&传输层

1. Sqoop

在hadoop和关系型数据库间转换数据

2. Flume

  • 分布式的高可用的数据收集、聚集和移动的工具
  • 从其他系统搜集数据(web服务器产生的日志,通过Flume将日志写入到HDFS)

3. Canal

  • 阿里的开源项目
  • 从外部系统(RDBMS/日志服务器)抽取数据到数据仓库,即canal用于数据抽取
  • 与其他基于SQL查询的抽取软件(Apache Sqoop)最大的不同,可支持实时的数据抽取
  • (mysql binlog是一种实时数据流,用于主从节点间的数据复制,利用binlog canal可进行实时数据抽取)

4. Logstash

  • 开源的服务器端数据处理管道,
  • 能够同时从多个来源采集数据,转换数据,然后将数据发送到目的存储库

5. Kafka

  • 消息队列,一个分布式流平台

6. RocketMQ

  • 阿里开源的消息队列

二、存储层

1. HBase

  • HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。

2. Alluxio/Redis/Ignite

  • Alluxio:以内存为中心分布式存储系统,两大功能:
  • 提供一个文件系统层的抽象,统一文件系统接口,桥接储存系统和计算框架
  • 通过内存实现对远程数据的加速访问

3. Redis

  • 开源的内存键值数据库
  • 支持丰富的数据结构

4. Ignit

  • 以内存为中心的分布式数据库
  • 缓存和处理平台
  • 用于事务、分析和流式工作负载
    添加链接描述

你可能感兴趣的:(大数据)