大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点, 随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实际使用中的真正价值。
一般来说,大多数公司都希望有几个大数据项目,公司的主要目标是增强客户体验,但其他目标包括降低成本,更有针对性地进行营销,并使现有流程更有效率。
那么,如何对一个行业制定大数据应用架构呢?
在制定大数据应用架构之前,要先明确该企业面临的问题,业务需求场景以及用户的需求。
在现有企业的数据化情况之下,虽然业务系统、ERP、供应链系统已经上线,但对于集团管理层与业务层,仍面临着以下问题:
1.数据分散,存放于多个业务系统中,形成了一个一个的“数据孤岛",没有办法将这些数据打通,从多个角度对数据进行深度分析。
2.各业务部门迫切地希望通过数据解决一些管理、业务发展的问题,但是现有的报表展现形式不能满足分析需求。
3.依托IT取数的配合方式,传递效能低,易造成重复劳动,而且数据时效性也不能保证,往往从数据产生,到流入业务部门需要经过一周以上,风险并不能被及时暴露。
4.随着公司的发展,数据的安全和保密日趋重要,特别是一些公司财务信息、客户信息等,需要有权限的管理来对数据进行保护和管理。
接着再通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。
大数据平台的整体架构可以由以下几个部分组成:
一、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,通过网页、App就可以收集到数据,比如很多银行现在都有自己的App。
更深层次的还能收集到用户的行为数据,可以切分出来很多维度,做很细的分析。但是对于涉及到线下的行业,数据采集就需要借助各类的业务系统去完成。
二、数据集成:指的其实是ETL,指的是用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。而这里的Kettle只是ETL的其中一种。
三、数据存储:指的就是数据仓库的建设了,简单来说可以分为业务数据层(DW)、指标层、维度层、汇总层(DWA)。
四、数据共享层:表示在数据仓库与业务系统间提供数据共享服务。Web Service和Web API ,代表的是一种数据间的连接方式,还有一些其他连接方式,可以按照自己的情况来确定。
五、数据分析层:分析函数就相对比较容易理解了,就是各种数学函数,比如K均值分析、聚类、RMF模型等等。
列存储让磁盘中的各个Page仅存储单列的值,并非整行的值。这样压缩算法会更加高效。进一步说,这样能够减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效地利用。而分布式计算能够把一个需要非常大的算力才能解决的问题分成很多小部分,接着把这些部分给到许多计算机同时处理,然后把这些计算结果综合起来,得到最终的结果。
综合这两种技术,就能够大幅度提高分析环节的效率。Yonghong MPP可以说是目前在这两方面做得最出色的了。
六、数据展现:结果以什么样的形式呈现,其实就是数据可视化。对于处理得到的数据可以对接主流的BI系统,比如国外的Tableau、Qlikview、PowrerBI等,国内的Smartbi思迈特软件等,将结果进行可视化,用于决策分析;或者回流到线上,支持线上业务的发展。
七、数据访问:这个就比较简单了,看你是通过什么样的方式去查看这些数据,图中示例的是因为B/S架构,最终的可视化结果是通过浏览器访问的。
但制定大数据应用架构不是一件简单的事情,本身就是一项复杂的工作,在这过程中需要考虑的因素有很多,比如:
稳定性:可以通过多台机器做数据和程序运行的备份,但服务器的质量和预算成本相应的会限制平台的稳定性;
可扩展性:大数据平台部署在多台机器上,如何在其基础上扩充新的机器是实际应用中经常会遇到的问题;
安全性:保障数据安全是搭建大数据应用架构不可忽视的问题,在海量数据的处理过程中,如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。
Smartbi思迈特软件是国内领先的BI厂商,产品定位于一站式大数据服务平台,满足各种数据分析应用需求,如大数据分析、自助探索分析、地图可视化、 移动管理驾驶舱 、指挥大屏幕、企业报表平台、数据挖掘等。Smartbi产品功能设计全面,企业单位只需要安装部署一次,就可以实现中国式复杂报表、自助BI、以及数据挖掘产品的使用,产品性能、易用性和安全性都不错,广泛应用于金融、政府、电信、企事业单位等领域。