企业大数据治理做得不成功会存在那些问题

企业大数据处理需要注意的几个问题

存储技术必须跟得上

随着大数据处理应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟大数据处理这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,就这个例子来说,我们很明显的看到大数据处理分析应用需求正在影响着数据存储基础设施的发展。

从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里,我们会讨论哪些与大数据存储基础设施相关的属性,看看它们如何迎接大数据处理的挑战。

容量问题

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。基于这样的需求,客户现在越来越青睐Scale-out架构的存储。Scale-

out集群结构的特点是每个节点除了具有一定的存储容量之外,内部还具备数据处理能力以及互联设备,与传统存储系统的烟囱式架构完全不同,Scale-

out架构可以实现无缝平滑的扩展,避免存储孤岛。

“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。

延迟问题

大数据处理应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说,网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析,并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每一个节点都具有处理和互联组件,在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流,从而进一步提高数据吞吐量。

有很多大数据处理应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。

并发访问一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。

安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。

成本问题

“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的

“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。

当今,数字化转型正在各行业快速发展,以数据、流量、知识为主的的数字经济时代到来,数据在其中的重要性不言而喻。然而企业面对每时每刻产生着大量的且格式多样化的数据,企业管理者对数据的困惑也与日俱增,这些数据从哪里来?我们能相信这些数据吗?数据之间有什么样的关系?谁能理解这些数据?

这一系列问题是都是由于数据零散化存放造成的。因为基于数据作分析,首先需要数据的聚合,但由于生产系统和数据的离散化,造成了数据标准、数据模型不统一,因而企业最需要做的就是对数据整合和标准化。因此大数据治理就成了数据问题的解决之道。

大数据治理是指对数据资产的管理活动行使权力和控制的活动集合。起着指导其他数据管理职能如何执行的作用,它通过制定正确的政策、操作规程,确保以正确的方式对数据和信息进行管理。以下是大数据治理的四个核心要素。

明确数据治理责任,建立组织

数据出了问题,到底是谁的责任?因为数据主要是IT系统产生的,所以一直以来,解决数据问题都被认为是IT部门的职责。而IT部门也饱受其苦,数据定义和业务规则,业务部门最清楚;数据录入,业务人员负责;数据使用,业务人员是用户;数据考核,业务部门有权力……但实际上,要切实解决数据问题,开展数据治理工作,就必须先清楚一点:数据治理,是业务部门和IT部门共同的职责。数据治理/管理领导小组设在信息化领导小组之下,可以单设,也可以是信息化领导小组的一个职责,数据治理部门可能是实体部门,也可能是由牵头业务部门和IT部门联合组成的虚拟团队。

管理出成效,制度是保障

大数据治理需要管理和制度的有力支撑,可结合企业的现状,制定相应的管理办法、管理流程、认责体系、人员角色和岗位职责等,颁布相关的数据治理的企业规章制度等。

数据规范:没有规矩,不成方圆

数据规范是指对企业核心数据进行有关存在性、完整性、质量及归档的测量标准,为评估企业数据质量,并且为手动录入、设计数据加载程序、更新信息以及开发应用软件提供的约束性规则,数据规范一般包括数据标准、数据模型、业务规则、元数据、主数据和参考数据。

选择合适的大数据治理工具

工欲善其事必先利其器,大数据治理的落地开展离不开工具的支撑。大数据治理工具一般分为两类:一类是单个工具,另一类是集成平台,用于不同的阶段、场景和客户。其中,单独工具有:元数据、数据质量、主数据等,集成平台包括数据资产管理、数据治理平台、自助服务平台等。

利用数据治理软件主要解决企业不同来源数据集成过程中遇到的问题,需要数据治理软件能够为企业提供统一的元数据集成、数据标准管理、数据模型设计、数据质量稽核、数据资产目录、数据分析服务等能力。

做大数据治理 企业面临的最大问题

真正的问题是,大家做大数据发现,今天你有需求,明天我有需求,而这个数据没人管,数据质量也存在很多问题。耗费极大心血做一个数据平台,发现结果分析不对。

在国内,数据治理近几年开始兴起,受到越来越多企业的关注。虽然一些大型企业在信息化和自动化方面做得很好,但是在数据治理上仍然面临很多问题和困难。

企业进行数据治理面临着三大问题,最大的是组织架构问题。

就是有没有一个组织架构来支撑,把数据管理好。从组织架构上,你必须得有一个数据管理部,像我们现在的客户东航、国开行等,它都会有这个部门。我觉得这是所有事情的开始,因为这意味着你从公司层面足够重视。我觉得这是客户最大的困难,凡是失败的项目,关键是组织架构不支撑。

那么,企业数据治理如何落地执行呢?

工欲善其事,必先利其器。目前业界流行的数据治理软件,一般也称为数据资产管理产品、数据治理产品,多是单个产品。

而亿信华辰经过十余年技术沉淀和项目锤炼,全面推出一站式数据治理管理平台-睿治,帮助企业搭建数据治理全栈解决方案,由元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全等多产品组成。睿治作为一个智能敏捷的数据全生命周期管理应用平台,全方位保障企业业务数据在采集、集成、交换、存储、应用等一系列业务流程中的完整性、准确性、一致性和时效性。

睿治针对数据治理的整体框架和流程,一图以蔽之:

企业大数据治理做得不成功会存在那些问题_第1张图片

一站式解决方案

睿治平台融合数据治理9大产品,提供一站式解决方案。有了睿治,数据治理的所有问题那都不是事儿!9个产品模块功能可互相调用,全程可视化操作,打通数据治理各个环节,同时提供各个产品模块任意组合,快速解决企业不同的数据治理场景。

全面自动的元数据管理——

企业大数据治理做得不成功会存在那些问题_第2张图片

元数据管理致力于处理技术元数据、业务元数据、管理元数据,通过丰富的元数据分析和检核,帮助各行各业用户获得更多的数据洞察力,进而挖掘出隐藏在资源中的价值。

规范统一的数据标准——

企业大数据治理做得不成功会存在那些问题_第3张图片

睿治平台提供了一套完整的数据标准管理流程及办法,通过统一的数据标准制定和发布等一系列的活动,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理。

智能高效的数据质量——

企业大数据治理做得不成功会存在那些问题_第4张图片

睿治平台内置了多种质量检查规则可供选择,并支持数据质量检查方案的定义和管理。同时提供多种形式的问题数据分析功能、统计报表功能、数据质量分析报告及统一调度整改计划。

简单易用的数据交换——

企业大数据治理做得不成功会存在那些问题_第5张图片

通过睿治平台,可实现若干个业务子系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。

丰富全面的数据集成——睿治平台提供了丰富的数据处理组件,如:常用组件、输入输出、转换组件、数仓组件、脚本组件等,可高效快速完成数据的传输、清洗转换、装载落地等处理过程,保证数据可靠性。

直观清晰的数据资产管理——

企业大数据治理做得不成功会存在那些问题_第6张图片

可进行不同角色的目录化管理,分析数据资产之间的关系;

统一共享的主数据——可为各业务系统数据调用提供黄金数据;

贯穿全程的数据安全——用于保证数据的安全性,提供对隐私数据的加密、模糊化处理;

便捷睿智的数据生命周期——对数据的全生命周期进行管理,按你所想进行自动归档和销毁,从而真正全方位的把控数据。

你可能感兴趣的:(企业大数据治理做得不成功会存在那些问题)