3、大数据技术架构:核心原理与应用实践(下)

     书接上回最近为了全面系统的了解大数据全部技术栈,看完了一本《大数据技术架构:核心原理与应用实践》,从该本书中得以管中窥豹,入门大数据,读完后主要有以下几点收获。

4、大数据的开发实践
这一章节,主要是描述了大数据开发的几个场景和优化的技巧。


图1:大数据引擎Panthera

如图1所示,为大数据引擎Panthera,他主要是用于将传统的SQL中的一些语句(如嵌套子查询)转化成能直接执行的分布式查询语句。
其次是书中的一个Spark优化案例。


图2:优化案例

如图所示,CPU在调度任务起来的时候,突然有一段异常占用,导致调度任务启动时间较慢,遇到该问题主要从资源上分析问题,比如资源占用较大,带宽占用时间过长等,然后再从源代码、硬件、资源分配方面找原因进行优化工作。上图的问题主要是因为网卡是千兆网卡,导致整个集群的信息传输效率变得很低下,优化手段就是简单粗暴的升级网卡即可,使用万兆网卡就能达到提升网络传输速率,提升系统性能的效果。
最后是大数据平台的性能测试,在结合公司的实际业务搭建号大数据平台后,需要对性能进行实际测试,这时候就需要用到专业的测试工具。
如下图所示:
图三:大数据基准测试HiBench

HiBench是Intel开发的大数据测试工具,用于搭建好的大数据平台进行测试,可以快速生成海量数据,可以对平台的吞吐量,查询量等性能进行评估。除此之外,还可以使用测试工具Dew来寻找大数据架构中可以优化的点,如图4所示:


图四:大数据测试工具Dew

他的原理在于,可以将服务部署在集群中每个服务器上,采集服务器上的作业日志,检测每个节点的资源使用情况,任务完成时间等,从而找到大数据架构中可以优化的点。
5、大数据平台与系统集成
这一部分主要是介绍怎么把之前出现的组件组装成一个完备功能的大数据平台,从而匹配到业务。
图五:大数据平台架构

上图是一个典型的大数据平台架构,它是将外部的应用系统和大数据组件进行集成后构成一个完整的平台,红色的是外部的应用系统,蓝色的是大数据架构的组件。总共分为三层,分别为数据采集层,数据处理层和数据输出与展示层。
在搭建好大数据平台后,需要了解到数据平台中的数据是从哪儿来的,具体来说,大数据都是从外部的应用系统导入到内部中来的。如图六所示,
图六:淘宝大数据平台

通常有几种方法导入,Sqoop是直接从sql数据库中导入,但是由于需要写sql语句,会使sql系统资源被专用,canal则是伪装成sql中的从服务器,利用sql的主从备份的方式来获取日志,转化为相应的数据。
为此,文中举出了几个一线大厂的大数据平台的架构,如淘宝、美团。
图七:淘宝大数据平台

淘宝的早期大数据平台也是分三部分,头部是数据源部分,中间是数据处理部分,最后是大数据应用部分。
图八:美团大数据平台

美团的大数据平台依然可以分为三部分,左上部分是数据的导入,中间部分是数据的处理,右边是数据的展示和输出。
对于中小企业来说,自建大数据平台成本较高,因此可以考虑商业大数据平台这种解决方案,即由供应商建立后由企业直接使用,比较出门的商业大数据平台有CDH、星环、阿里云、Saas云等。
6、大数据应用(运营和分析)
大数据的很重要的一个使用场景就是大数据的分析与运营,多事构建多个与业务相关的指标,然后借用大数据进行分析各个指标。


图九:互联网运营指标分析案例

你可能感兴趣的:(3、大数据技术架构:核心原理与应用实践(下))