大数据基础架构方案

大数据架构方案,主要包括整个大数据的软件栈,主要功能包括:数据抽取,数据存储,数据分析,数据挖掘

下面是整个架构设计图:
大数据基础架构方案_第1张图片

  1. 数据抽取
    关系型数据库,通过sqoop导入
    日志文件通过flume导入

  2. 数据存储
    采用hdfs,hbase等为数据存储的主体
    对于文本检索则采用es/solr等搜索技术
    分析后的结果数据可以采用关系型数据库存储

  3. 数据分析
    采用spark,mapreduce,storm等计算框架分析
    批处理:spark,mapreduce
    流式处理:spark,storm

  4. 数据挖掘
    采用 spark MLIB,mathout等进行数据建模分析

  5. 数据查询
    利用hive元数据来建立数据仓库视图,通过hive thirft,impala, spark SQL等提供JDBC/ODBC接口供报表展示工具查询

通过以上架构,实现大数据应用的落地,大数据的目标还是为了提高业务能力,通过大数据架构带来的技术变革,提升数据价值,改革业务模式,才是大数据的红利

你可能感兴趣的:(spark,大数据)