《大数据架构详解》读后感

《大数据架构详解》 —— 读后感

作者:朱洁 罗华霖
出版商:中国工信出版社 电子工业出版社
版次:2016年10月第1版
印数:7001 ~ 12000册
定价:69.00元


本书花了大量笔墨讲了通信运营商的大数据应用案例及其使用的架构,这也不奇怪,因为作者是为通信运营商做大数据解决方案的。作者服务的运营商大数据平台架构,从上到下依次为———
应用层
    SQM、CSE、MSS、DMP,这些都是运营商特有的应用
组件层
    数据获取(日志数据获取、消息分发中间件)
    数据处理(实时处理、批处理)
    分析数据(交互式查询,机器学习,数据挖掘)
    数据分析结果的展现
资源管理和分配
    涉及集群、数据中心的级别的资源统一管理和分配
    提了几款Hadoop生态圈的资源调度框架及其调度算法
存储层
    RAID
    存储加速技术
大数据部署
    云化部署
    物理机部署

这本书讲到的大数据框架,是偏原理的多,有些框架也给出了java代码示例。有些大数据框架没讲到,例如在讲大数据存储方案的时候也没有涉及HBase. 章节内容是东拼西凑的多,所以对大数据架构有兴趣的同学,建议直接去大数据生态圈内各组件的官方网站查看(例如hadoop官网、spark官网、hbase官网等等),或者看一些国外作者写的书,或者看一些翻译成中文的国外作者的书也可以。这本书大概讲了几大块———
  1,大数据是什么
  2,大数据当前面临的挑战
  3,运营商大数据架构和业务
  4,数据获取
  5,数据流处理
  6,交互式分析
  7,批处理技术
  8,机器学习和数据挖掘
  9,资源管理
  10,存储
  11,大数据云化

书中的架构适合运营商的业务需求,但是放到我们小组的业务(推荐系统)来就不是很适合了。
但是也有一些有价值的看法,例如对未来大数据技术的技术方向的思考。他的一些观点和想法还是很有启发性的,整理如下:

1,大数据的本质———

    大数据是问题的解决方案、一系列技术的集合

2,大数据面临的实时性挑战———
    2.1 时间越久的数据,价值越低
    2.2 趋势是使用流系统的比例越来越高,流处理(流分析)应用将会成为默认应用
3,批处理是追求吞吐量的,流处理是追求实时性的。趋势是将批处理和流处理技术做融合(统一),流行的批处理框架有3个———
    3.1 Google开源的Dataflow
    3.2 德国的Flink
    3.3 Spark 2.X版的spark streaming
4,资源管理和调度———
    4.1 目前流行的资源调度框架是yarn,他的RM直接将资源分配给某个Task,这是任务级别的调度(也就是小颗粒调度)
    4.2 未来会聚焦于应用本身的特点来做资源的智能管理和分配,以实现资源利用的高效率
5,大数据作为云服务的两种模式———
    5.1 集群模式:直接使用集群、简化运维(购买的集群已预装客户所需的组件,例如hadoop,hive,spark,hbase,zookeeper等等)。目前我们的AI部门购买的是这一类大数据云服务(金山云KMR)

    5.2 服务模式:用户无需关心集群创建和运维,用户只需提交应用到集群上,按照任务消耗的计算时间付费,例如AWS开源的Lambada就是一种服务模式的大数据云服务

你可能感兴趣的:(大数据)