随着互联网、移动互联网的快速发展,企业数据资产越发显得其重要性,但是企业对于大数据的应用不当可能很容易造成失控,并可能消耗企业资源和预算。
虽然大数据可以为企业用户提供卓越的洞察力和宽阔的视角,也有可能让企业不堪重负。企业根据业务出发去收集相关的数据并做出自己的选择,而目前企业面临的主要问题是大数据是由技术专业人员收集的并付诸实践的技术解决方案,但是大数据的最佳实践是结合企业的业务流程去发掘数据的潜在价值。
由于互联网、物联网和移动互联网的迅猛发展,使得IoT设备得到爆炸式增长,人们收集到的数据比以往更多。根据权威机构的调查,越来越多的公司其存储的数据量将会越来越大,数据量级别将会达到TB及PB以上,而企业每年因数据损坏而造成损失会越来越高。然而,企业在创建数据湖或数据仓库的具体实践中大部分数据未被使用或曾被使用过,企业的数据湖将快速积累成为存满数据的信息池, 这将导致大量的数据存储空间被浪费。企业在大数据实践中最基本的问题是许多数据只得到了部分处理或完全偏离了基础,数据收集不正确或收集手段没有正确定义,企业的业务很明显与大数据有关。
这对于商业数据库(如Oracle、DB2、SQLServer等关系型数据库)中使用的常规的、日常的、小级别的数据来说是个小问题, 但对于企业来说,则需要有效的利用大数据技术去处理大量的信息,但因其数据的规模大,企业获得收益或混淆的可能性也越大。因此,企业如何“正确”的利用大数据变得愈加重要。
那么企业在大数据实践中应该遵循什么样的原则,“正确”对于企业意味着哪些应用关键原则。下面我们将谈一谈企业大数据实践的关键原则。
数据分析领域的迅速发展,企业大数据的最佳实践的概念正在慢慢的演变。企业需要通过可能的最佳策略进行竞争,因此企业大数据的实践提出一些关键原则和策略,希望企业能够避免被大量无用数据所淹没,致使企业被淹没在数据湖中。
1. 明确大数据业务目标
在企业开始利用大数据分析过程之前,了解业务需求和目标应该是企业采取的第一步,也是最重要的一步。企业用户必须明确他们想要的结果。企业管理层必须率先在大数据实践前做好充分准备,正确接纳大数据的思维,并且在技术方面必须遵循相应的技术原则。如果企业的管理层没有明确的业务目标,那么将不能收集并正确创建数据。很多组织在大数据实践过程中会收集了一切能够收集的数据,然后再去清除他们不需要的数据,这会造成很多不必要的工作,因此企业应该事先整理和规划出所需要的数据范畴,而不是收集全部数据。
2. 有效评估并与合作伙伴制定大数据战略
大数据项目不应该由IT部门孤立完成,大数据项目必然涉及至数据所有者, 包括企业内部产生数据的每个业务部门;或者是一个提供大数据技术的供应商或咨询机构,这些供应商可以为组织带来外部的视角和眼光,并评估组织当前的实际情况。
在制定大数据战略的过程中,应该对整个过程持续进行检查和反馈,以确保企业收集所需的数据的正确性和有效性,并且会为企业的高效运营提供所需的见解,这就像厨师在整个烹饪过程中时刻检查自己的工作一样,而不只是收集所有内容之后再进行检查,因为如果在此期间数据出错,这意味着检查数据要一直回溯到起点,并在不必要的时候启动。
企业通过与那些项目利益相关者一起协同工作,确保关联方能够有效的参与大数据项目,从而确保项目取得成功。
3. 企业应确定自己的主数据源和大数据建设目标
企业拥有的大量的数据并不等同于是良好可用的数据。企业可能会在某个地方将正确的数据混合在一起,但它会由企业自己决定。收集的随机数据越多,越是经常杂乱无章,形式各异,这将不利于大数据项目实践的有效开展。
同样重要的是确定企业所拥有的是其所没有的东西。一旦收集了项目所需的数据,就确定可能缺少什么,在这些工作开始之前一定要把一切都准备好。
企业并不总是能够事先知道需要什么数据字段,所以一定要确保软件的灵活性,以便在实施过程中调整。这与确定企业拥有什么以及在大数据中需要什么的理念相吻合。
其底线是企业必须对原有的数据进行测试并检查结果。企业可能会惊讶地发现没有得到需要的答案。在企业首先开展该项目之前,最好先找出答案。企业在确认数据来源时可以事先做好企业的主数据和元数据的管理工作, 这样可以确保大数据建设的有效实施。
4. 保持持续有效的沟通和评估
有效的协作需要利益相关者和IT部门之间的持续沟通。企业的目标可能会在项目的进行期间发生变化,如果发生这种情况,必须将变更信息传达给IT部门。企业可能需要停止收集一种形式的数据,并开始收集另一种形式的数据,而企业不希望这种情况发生或者持续下去。
如何绘制一张清晰的大数据战略地图,在某些地点打破预期或期望的结果。如果是一个为期12个月的项目,每三个月检查一次。这给了企业一个复习和改变的机会。
5. 引入敏捷技术与迭代方法提升大数据的快速反应
企业开展的第一个大数据项目不应该过于雄心勃勃。需要从概念验证或试点项目开始,这样的项目规模相对较小,并且易于管理。
选择企业想改善业务流程的一个领域,但是在事情出错或错误严重的情况下它不会有太大的影响。另外,如果问题不需要解决,不要强迫采用大数据解决方案。
企业还应在大数据实践中使用敏捷开发技术和迭代方法来实现。敏捷是一种操作手段,并不局限于开发。敏捷开发是什么?例如写一小段代码,然后开始测试多种方法,然后再添加,再进行彻底测试、冲洗、重复。这是一种可以应用于任何过程的方法,而不仅仅是编程。
使用敏捷和迭代实现技术,可以根据当前需求在短时间内提供快速解决方案,而不是一次性瀑布方法。
6. 有效的评估大数据技术需求
根据调研机构IDC公司的数据,绝大多数数据是非结构化的,可能高达90%。但是企业仍然需要查看数据来自哪里以确定最佳数据存储。企业可以选择SQL或NoSQL以及NewSQL(两种数据库的变体)。
企业需要实时洞察力还是在做事后评估?可能需要Apache Spark技术体系进行实时数据处理,或者可以使用Hadoop技术体系实现离线数据处理。还有用于分散在多个地域的应用数据库(企业的分布式应用),这可能是具有多个分布式应用的公司要求。
另外,企业需要查看每个数据库的具体分析功能,看看它们是否适用。
7. 与云计算平台的大数据保持一致
企业在采用云计算时必须谨慎,因为可能采用按量计费,而大数据意味着要处理大量数据。但是,云计算也有很多优点。公共云可以即时或至少非常快速地进行配置和扩展。Amazon EMR和Google BigQuery等服务允许快速建立原型。
首先是使用云计算平台来快速构建企业的环境原型。使用DataSet和Amazon、Microsoft Azure等云计算提供商提供的许多工具,企业可以在几个小时内建立、开发和测试环境,并将其用于测试平台。然后,当企业制定出一个坚实的运营模式时,将其移回内部部署的数据中心进行工作。
云计算的另一个优点是企业收集的大部分数据都可能驻留在那里。在这种情况下,企业没有理由将数据转移到企业内部部署的数据中心。许多数据库和大数据应用程序都支持来自云计算和本地的各种数据源,因此,如果企业在云计算平台中收集数据,应确保云计算平台中的数据可用性。
8. 着重培养企业的大数据人才,做好数据的安全策略
大数据是一个新兴的领域,而不是像Python或Java编程这些可以自学成才的领域。麦肯锡全球研究院的一项研究表明,2018年全球将缺乏140至190万名拥有必要专业知识的人员,另外还缺乏基于分析结果作出决策的150万名相关管理人员和分析师。
首先必须明确的是谁应该有权访问数据,以及有多少访问权限。数据隐私是当今的一个主要问题,尤其是欧洲即将实施严格的通用数据保护条例(GDPR),这将对企业的数据使用造成严格的限制。
企业确保清除所有数据隐私问题以及谁有权访问敏感数据。企业应该关注其他治理问题,如营业额?确定哪些数据(如果有的话)可以进入公共云,哪些数据必须保留在本地部署数据中心,以及谁控制什么。
所以,企业应该在大数据实践中注重对于大数据人才的培养体系,确保后续工作的持续开展。