在确定投资大数据解决方案之前,评估可用于分析的数据;通过分析这些数据而获得的洞察;以及可用于定义、设计、创建和部署大数据平台的资源。询问正确的问题是一个不错的起点。使用本文中的问题将指导您完成调查。答案将揭示该数据和您尝试解决的问题的更多特征。
尽管组织一般情况对需要分析的数据类型有一些模糊的理解,但具体的细节很可能并不清晰。毕竟,数据可能具有之前未发现的模式的关键,一旦识别了一种模式,对额外分析的需求就会变得很明显。要帮助揭示这些未知的未知信息,首先需要实现一些基本用例,在此过程中,可以收集以前不可用的数据。构建数据存储库并收集更多数据后,数据科学家就能够更好地确定关键的数据,更好地构建将生成更多洞察的预测和统计模型。
组织可能也已知道它有哪些信息是不知道的。要解决这些已知的未知,组织首先必须与数据科学家合作,识别外部或第三方数据源,实现一些依赖于此外部数据的用例。
本文首先尝试回答大多数 CIO 在实施大数据举措之前通常会提出的问题,然后,本文将重点介绍一种将帮助评估大数据解决方案对组织的可行性的基于维度的方法。
组织多半会选择以增量方式实现大数据解决方案。不是每个分析和报告需求都需要大数据解决方案。如果对于对大型数据集或来自多个数据源的临时报告执行并行处理的项目,那么可能没有必要使用大数据解决方案。
随着大数据技术的到来,组织会问自己:“大数据是否是我的业务问题的正确解决方案,或者它是否为我提供了业务机会?”大数据中是否隐藏着业务机会?以下是我从 CIO 那里听到的一些典型问题:
为了回答这些问题,本文提出了一种依据下图中所示的维度来评估大数据解决方案的可行性的结构化方法。
对于每个维度,我们都给出了一些关键问题。依据业务上下文,为每个维度分配一个权重和优先级。评估会因业务案例和组织的不同而有所不同。您可以考虑在与相关的业务和 IT 利益相关者召开的一系列研讨会中探讨这些问题。
许多组织想知道,他们在寻找的业务洞察能否通过大数据解决方案解决。没有权威的指南能够用来定义可从大数据获取的洞察。具体场景需要由组织识别,而且这些场景在不断演变。在确定和识别在实现后会给企业带来重大价值的业务用例和场景的过程中,数据科学家起着至关重要的作用。
数据科学家必须能够理解关键绩效指标,对数据应用统计算法和复杂算法来获得一个用例列表。用例因行业和业务不同而有所不同。研究市场竞争对手的行动、发挥作用的市场力量,以及客户在寻找什么,会很有帮助。下表给出了来自各行各业的用例示例。
行业 | 示例用例 |
---|---|
电子商务和在线零售 | 电子零售商(比如 eBay)在不断创建针对性产品来提高客户终生价值 (CLV);提供一致的跨渠道客户体验;从销售、营销和其他来源收获客户线索;并持续优化后端流程。
|
零售和专注于客户 |
|
金融服务 |
|
欺诈检测 | 欺诈管理可预测给定交易或客户帐户遇到欺诈的可能性,帮助提高客户带来的利润。解决方案将会实时分析交易,生成立即行动建议,这对阻止第三方欺诈、第一方欺诈和帐户特权的蓄意滥用至关重要。解决方案通常设计用于跨多个行业检测和阻止各种各样的欺诈和风险类型,这些类型包括:
|
Web 和数字媒体 | 我们目前处理的许多数据是增多的社交媒体和数字营销的直接后果。客户生成一连串可挖掘并投入使用的 “数据废气”。
|
公共领域 |
|
健康和生命科学 |
|
电信 |
|
公用事业 | 公用事业公司运行大型、昂贵、复杂的系统来发电。每个电网包含监视电压、电流、频率和其他重要操作特征的复杂传感器。效率意味着密切关注从传感器传来的所有数据。 公用事业公司现在正利用 Hadoop 集群来分析分析发电(供应)和电力消耗(需求)数据。 智慧仪表的采用导致前所未有的数据流汹涌而来。大多数公用事业公司都未做好充分准备在开启仪表后分析该数据。 |
媒体 | 在有线行业,大型有线运营商(比如 Time Warner、Comcast 和 Cox Communications)每天都可以使用大数据来分析机顶盒数据。可以利用此数据来调整广告或促销活动。 |
杂项 |
|
潜在的客户正在社交网络和评论站点上生成大量新数据。在企业内,随着客户切换到在线渠道来执行业务和与公司交互,交易数据和 Web 日志与日俱增。
首先为企业内存在的数据创建一个清单。识别内部系统和应用程序中存在的数据以及从第三方传入的数据。如果业务问题可使用现有数据解决,那么有可能不需要使用来自外部来源的数据。
请考虑构建一个大数据解决方案的成本,并权衡它与带给业务部门的新洞察的价值。
在有关现有客户的归档数据的上下文中分析此新数据时,业务人员将获得对新业务机会的洞察。
主要满足以下条件,大数据可提供可行的解决方案:
评估通过大数据解决方案获取的业务价值时,请考虑您当前的环境是否可扩展并权衡此投资的成本。
询问以下问题,确定您能否扩充现有的数据仓库平台?
如果任何这些问题的答案是 “是”,那么您就可以探索扩充现有数据仓库环境的方式。
扩展现有数据仓库平台或 IT 环境与实现大数据解决方案的成本和可行性取决于:
它还依赖于将从新数据来源收集的数据量、业务用例的复杂性、处理的分析复杂性,以及获取数据和拥有恰当技能集的人员的成本。现有的资源池能否开发新的大数据技能,或者是否可从外部雇佣拥有稀缺技能的人员?
请注意,大数据举措会对其他正在实施的项目产生影响。从新的来源获取数据具有很高的成本。您首先应当识别系统和应用程序内部存在的数据,以及目前收到的第三方数据,这一点很重要。如果业务问题可以使用现有数据解决,那么有可能不需要使用来自外部来源的数据。
在生成新工具和应用程序之前,请评估组织的应用程序组合。例如,一个普通的 Hadoop 平台可能无法满足您的需求,您可能必须购买专业的工具。或者相对而言,Hadoop 的商业版本对当前用例而言可能很昂贵,但可能需要用作长期投资来支持一个战略性的大数据平台。考虑大数据工具和技术需要的基础架构、硬件、软件和维护的成本。
在决定是否实现一个大数据平台时,组织可能会查看新数据源和新的数据元素类型,而这些信息当前的所有权尚未明确定义。一些行业制度会约束组织获取和使用的数据。例如,在医疗行业,通过访问患者数据来从中获取洞察是否合法?类似的规则约束着所有行业。除了 IT 治理问题之外,组织的业务流程可能也需要重新定义和修改,让组织能够获取、存储和访问外部数据。
请在您的情况的上下文中考虑以下治理相关问题:
大数据解决方案可以采用增量方式实现。明确地定义业务问题的范围,并以可度量的方式设置预期的业务收入提升,这样做会很有帮助。
对于基础业务案例,请仔细列出问题的范围和解决方案带来的预期收益。如果该范围太小,业务收益将无法实现,如果范围太大,获得资金和在恰当的期限内完成项目就会很有挑战性。在项目的第一次迭代中定义核心功能,以便能够轻松地赢得利益相关者的信任。
需要特定的技能来理解和分析需求,并维护大数据解决方案。这些技能包括行业知识、领域专长,以及有关大数据工具和技术的技术知识。拥有建模、统计、分析和数学方面的专业经验的数据科学家,是任何大数据举措成功的关键。
在实施一个新的大数据项目之前,确保已安排了合适的人员:
所有组织都拥有大量未用于获取业务洞察的数据。这些数据包括日志文件、错误文件和来自应用程序的操作数据。不要忽略此数据,它是宝贵信息的潜在来源。
查找数据复杂性增长的线索,尤其是在数据量、种类、速度和真实性方面。
如果满足以下条件,您可能希望考虑大数据解决方案:
如果满足以下条件,各种各样的数据可能都需要大数据解决方案:
考虑您的数据是否:
如果满足以下条件,那么请考虑使用大数据解决方案:
如果数据的量、种类、速度或真实性具有合理的复杂性,那么有可能会适合地采用大数据解决方案。对于更复杂的数据,需要评估与实现大数据解决方案关联的任何风险。对于不太复杂的数据,则应该评估传统的解决方案。
不是所有大数据情形都需要大数据解决方案。请在市场中寻找线索。竞争对手在做什么?哪些市场力量在发挥作用?客户想要什么?
使用本文中的问题,帮助确定大数据解决方案是否适合于您的业务情形和您需要的业务洞察。如果认为是时候实施大数据项目了,请阅读下一篇文章,其中会介绍如何定义一个逻辑架构,而且将会确定您的大数据解决方案需要的关键组件。