大数据项目的规模和范围都很大,往往雄心勃勃,但往往都是彻底的失败。2016年,Gartner估计60%的大数据项目都失败了。一年后,Gartner分析师Nick Heudecker说,他的公司是“过于保守的估计,把失败率60%接近85%。今天,他说一切都没有改变。
Gartner并不孤单。 微软公司的长期高管和(直到最近)Snowflake Computing的首席执行官Bob Muglia告诉分析网站Datanami :“我找不到满意的Hadoop客户。 就这么简单。 ……实际上已经成功驯服了Hadoop的客户数量可能少于20个,并且可能少于10个。 鉴于该产品,该技术已经投放市场多长时间,以及投入了多少常规行业能量,这简直就是疯了。” Hadoop当然是引发大数据狂潮的引擎。
熟悉大数据的其他人也说,问题仍然是现实的、严重的,并且不完全是技术之一。 实际上,相对于真正的罪魁祸首,技术是失败的次要原因。 这是大数据项目失败的四个关键原因,以及成功的四个关键方法。
Heudecker说,大数据故障背后存在一个主要的技术问题,那就是集成来自多个来源的孤立数据以获得公司所需的见解。 与孤立的旧系统建立连接根本不容易。 他说,集成成本是软件成本的五到十倍。 “最大的问题是简单的集成:如何将多个数据源链接在一起以获得某种结果? 很多人走在数据湖路线上,想想如果我将所有事物都链接到某种魔法上,那将会发生。 事实并非如此。”他说。
孤立的数据是问题的一部分。 客户告诉他,他们将数据从记录系统中拉到数据湖之类的通用环境中,无法弄清这些值的含义。 “当您将数据提取到数据湖中时,您如何知道数字3的含义?” Heudecker问。
普华永道资深研究员艾伦·莫里森说,由于他们在孤岛上工作或创建只是数据沼泽的数据湖,因此它们只是在探索自己可以完成的工作。 “他们不了解需要挖掘或推断并明确显示的数据中的所有关系,因此机器可以充分解释该数据。 他们需要创建一个知识图层,以便机器可以解释在下面映射的所有实例数据。 否则,你就会得到一个数据湖,一个数据沼泽。”他说。
您可能会认为大多数从事大数据项目的人实际上都会想到一个目标,但令人惊讶的数字却没有。 他们只是以事后的目标启动项目。
“您必须很好地解决问题。 人们认为他们可以连接结构化和非结构化数据,并获得所需的见解。 您必须提前定义问题。 您想获得什么见解? 数据定义软件公司Talend的产品行销经理Ray Christopher说:“问题的定义很清楚,而且要事先定义好。”
Enterprise Application Consulting的首席分析师Joshua Greenbaum表示,使大数据和数据仓库项目陷入困境的部分原因是主要指导标准通常是积累大量数据,而不是解决离散的业务问题。
“如果将大量数据汇总在一起,则会得到数据转储。 我称它为卫生垃圾填埋场。 垃圾场不是找到解决方案的好地方,”格林鲍姆说。 “我总是告诉客户决定先解决哪些离散的业务问题,然后再解决,然后查看可用数据的质量,并在确定业务问题后解决数据问题。”
“为什么大多数大数据项目都会失败? 首先,大多数大数据项目负责人缺乏远见。”普华永道的莫里森说。 “企业对大数据感到困惑。 大多数人只考虑数字数据或黑匣子NLP和识别引擎,并进行简单的文本挖掘和其他类型的模式识别。”
很多时候,公司认为他们为数据仓库建立的内部技能会转化为大数据,而事实并非如此。 对于初学者来说,数据仓库和大数据以完全相反的方式处理数据:数据仓库在写入时执行架构,这意味着数据在进入数据仓库之前就已被清理、处理、结构化和组织化。
在大数据中,将累积数据并应用读取模式,在读取时对数据进行处理。 因此,如果数据处理从一种方法转向另一种方法,您可以肯定技能和工具也是如此。 那只是一个例子。
“技能永远是一个挑战。 如果我们谈论30年后的大数据,仍然会面临挑战,” Heudecker说。 “很多人都对Hadoop表示敬意。 我的客户在查找Hadoop资源方面遇到了挑战。 Spark更好一点,因为该堆栈更小并且更容易训练。 Hadoop是许多软件组件。”
大数据项目经常从较旧的数据仓库中获取数据,并尝试将其与新的数据源(例如传感器或网络流量或社交媒体)合并。 这并非完全是企业的错,企业在大数据分析之前就已经收集了数据,但这仍然是一个问题。
顾问格林鲍姆说:“几乎缺少的最大技能是了解如何融合这两个利益相关者,使他们共同解决复杂问题的技能。” “数据孤岛可能成为大数据项目的障碍,因为没有任何标准。 因此,当他们开始着眼于计划时,他们发现这些系统还没有以重用这些数据的方式来实现。”
“使用不同的体系结构,您需要进行不同的处理,” Talend的Christopher说。 “技术技能和架构差异是为什么您不能使用当前工具来部署本地数据仓库并将其与大数据项目集成的常见原因,因为这些技术对于处理新数据而言将变得太昂贵。 因此,您需要Hadoop和Spark ,并且需要学习新的语言。”
这是一个古老的陈词滥调,但适用于此:如果您没有计划,请计划失败。 Gartner的Heudecker说:“成功的公司才是有成果的公司。” “选择一些小的,可实现的和新的东西。 不要使用旧的用例,因为您会受到限制。”
普华永道的莫里森说:“他们需要首先考虑数据,并以一种机器可读的方式对其组织进行建模,以便数据为该组织服务。”
很多时候,利益相关者被排除在大数据项目之外,而正是大人们会使用结果。 Heudecker表示,如果所有利益相关者合作,他们可以克服许多障碍。 他说:“如果技术人员一起工作,并与业务部门合作以交付可行的结果,那将会有所帮助。”
Heudecker指出,在大数据方面取得成功的公司在必要的技能上进行了大量投资。 他认为这是数据驱动公司中使用率最高的,例如金融服务,Uber,Lyft和Netflix,这些公司的财富基于拥有良好且可操作的数据。
“这是一项团队运动,可以帮助组织和收集数据并清理数据。 这样做还可以提高数据的完整性。”塔伦德的克里斯托弗(Christopher)说。
人们似乎有一种心态,即大数据项目需要庞大且雄心勃勃。 像您第一次学习的东西一样,成功的最佳方法是从小处开始,然后逐渐扩大野心和范围。
休达克说:“他们应该非常狭窄地定义自己在做什么。” “他们应该选择一个问题领域并拥有它,例如欺诈检测,对客户进行微细分,或者弄清楚要在千禧一代市场中推出什么新产品。”
克里斯托弗说:“最终,您必须询问想要的见解或将业务流程数字化。” “您不只是将技术投入到业务问题中; 您必须预先定义它。 数据湖是必不可少的,但是如果业务中的任何人都不会使用它,您就不想收集数据。”
在许多情况下,这也意味着不要夸大自己的公司。 “在我研究过的每家公司中,整个业务都只有几百个关键概念和关系。 一旦了解了这一点,您就会意识到所有这几百万种区别只是那几百种重要事物的微小变化。”普华永道的莫里森说。 “实际上,您发现许多细微变化根本不是变化。 它们实际上是相同的东西,只是名称不同,结构不同或标签不同。”他补充说。
尽管您可能要使用收集到并存储在数据仓库中的TB级数据,但事实是,仅关注于专为大数据而设计的存储系统中新收集的数据可能会更好。
顾问Greenbaum表示:“我绝对建议不要仅仅因为您的公司获得了该技术的许可而对现有技术基础设施产生迷恋。” “通常,新的复杂问题可能需要新的复杂解决方案。 依靠公司内部的旧工具十年都不是正确的方法。 许多公司使用旧的工具,这扼杀了该项目。”
莫里森指出:“企业需要停止纠缠自己的内裤,而要抛弃制造更多筒仓的传统架构。” 他还说,他们需要停止期望供应商为他们解决复杂的系统问题。 “几十年来,许多人似乎以为他们可以为解决大数据问题买单。 任何大数据问题都是系统性问题。 当涉及到任何复杂的系统更改时,您必须建立出路,”他说。
原文链接: https://www.infoworld.com/article/3393467/4-reasons-big-data-projects-failand-4-ways-to-succeed.html