金融机构大数据应用案例_案例研究:在大型金融机构中选择大数据和数据科学技术

金融机构大数据应用案例

数据科学正在Swift成为各行各业的开发人员和管理人员的一项关键技能,而且看起来也很有趣。 但这非常复杂-有很多工程和分析选项可导航,而且很难知道您做对了还是熊陷阱在哪里。 在本系列中,我们探索了理解数据科学的方法-了解到过那里的人们对数据科学的需求,在哪里不需要它,以及如何使它成为您的资产。

该InfoQ文章是“掌握数据科学 ”系列的一部分。 您可以订阅通过RSS接收通知

重要要点

  • 在组织中采用大数据和数据科学技术是一个转型项目,类似于敏捷转型,并面临许多类似挑战。
  • 在进行此类业务转型时,如果您拥有高级领导层支持并包括相关利益相关者,那么使用敏捷方法就很好。
  • 在讨论技术选择之前,重点关注战略业务成果以及组织需要哪些新功能。 让每个相关的利益相关者都有发言权,以优先考虑功能并就后续技术选择进行协作。
  • 避免加倍关注跟不上需求变更的技术,而要获得的不仅仅是增加的收益。
  • 请注意在广泛访问数据以进行分析与保持敏感数据安全之间存在的紧张关系。 在安全性方面,感知也很重要,除了合规性之外还需要其他考虑。

组织越来越多地采用数据科学和高级分析,这在越来越大的程度上影响了他们的决策,产品和服务。 这经常会引发一个问题,即什么是数据科学最佳工具集。 从表面上看,这个问题似乎与技术比较有关。 您可能最终会回顾一长串有关R , Spark ML以及Jupyter或Zeppelin等相关技术的利弊清单。 实际上,我们可以编写一系列完整的技术比较。 但是,对于组织而言,这首先是一个问题,即哪些功能将支持其未来的业务目标。 专注于它们使技术选择更加容易,从而减少了浪费时间和精力的风险。

我们如何建立一个框架,以便以务实和富有成效的方式进行上述选择技术的讨论? 在本文中,我们将通过一个实际示例探索一个合适的框架。 组织的典型起点是瘫痪的孤岛和大量采用的技术。 您不想仅仅因为利益相关者要求而添加更多的技术和孤岛。 新技术和基础设施应取代现有技术,并分解并取代筒仓。 但这在传统分析和商业智能供应商声称能够应对新挑战以及大量新技术(其中许多都是开源的)增加了更多选择的环境中并不是一件容易的事。 后者通常声称要替换传统工具,并使其功能超出其能力范围。 在位人士反驳说,他们提供更好的企业质量,例如安全性和支持。

我们在这里讨论的真实示例客户一年多以前就与我的雇主接触,这是一个巨大的挑战,其中包括近期和长期的战略要求。 这家FTSE100公司正处在转型的时刻。 由于过去的碎片化和依赖关系无法维护且无法提供业务价值,因此它在组织上正在发生重大变化,并且需要重塑其当前平台的某些部分。 我们迫切需要解决的问题是,在一个新的平台上以完全透明的方式在一个紧迫的期限内融合历史数据的新报表和基础分析,满足当前的业务需求。 基于设备技术的现有数据仓库技术既昂贵又受限制。 如果不投入大量资金且不增加未来的校对分析功能,则新报告和高级分析的执行速度将非常缓慢,甚至无法执行。

成本和限制是一个严重的问题。 客户认识到,随着市场随着竞争性技术变革的日益激烈而竞争,从其核心业务活动中获得的长期价值将不可避免地减少。 该组织的领导者意识到,在解决紧急需求之后,立即需要新颖的功能来为未来的业务做准备。

我们与主要利益相关者合作,制定了一项计划,将主要数据集集中到一起,从而可以在将来灵活处理和分析业务的下一个发展。 值得注意的是,核心数据仓库并没有被抛弃,只是被还原为最初的角色。 尽管如此,许多主要保留数据并且只能被困难地查询的遗留系统仍在逐步淘汰的道路上。 同时,我们非常重视确保数据正确流经不同平台以提供治理和安全性。 该计划推迟了有关高级分析和数据科学技术问题的详细信息。 之所以可行,是因为新平台可以根据需要并在需要时采用大多数相关的平台。 用这种方法给客户带来的好处是巨大的。 未来业务需求的细节仍在不断发展,而眼前的业务需求则需要采取行动。 将决策和实施分解为分阶段的方法,而又不妨碍平台端创新的未来途径,这是两全其美的。

这里的第一课是避免加倍关注无法满足需求变化的技术。 另外重要的是,不要进行一对一的技术匹配,即不要仅仅用相似的,较新的技术替代一项技术,而该技术只会带来很小的好处。 将一揽子技术视为业务成本和一系列功能的回报。 我们希望使用更少和更便宜的技术来降低成本,或者为它需要的业务实现更多的功能。 理想情况下,我们同时提供。 在我们的示例中,淘汰旧系统和减少数据仓库占用空间的组合带来了可用于新分析平台的节省,从而替代了某些功能并添加了相关的新功能。

考虑到这一点,我们可以专注于我们要实现的目标。 今天的企业面临与昨天相同的挑战。 他们必须降低成本,提高利润率,发展以保持合规性,并且可能还需要在不断变化的世界中重新定义其核心业务,例如,服务是由自动化和商品化驱动的。 过去几年发生的变化是,数据及其有效使用正成为应对这些挑战的关键机会。

问题是大多数组织都不知道这些答案甚至问题的形状。 在各个业务领域的抽屉中通常都提供一些明显的短期机会,并且它们总体上比现状略有改善。 大多数利益相关者已经习惯了自己的局限性,因此需要鼓励他们多做些梦。 当被问及他们想实现什么目标时,他们会在组织现有能力的限制内进行思考,或者要求月球解决未来未知的需求。

因此,长期的基本要求,有时随着核心业务的重塑,往往很难甚至无法实现。 因此,第二个教训不是要瞄准月球,而是要对新兴需求保持灵活,而不是试图预测未来。 在我们的示例中,我们证明了我们为迭代式扩展平台留出了足够的空间,以适应未来的需求,而不必限制选项或进行返工。 为此,我们计划了多个扩展步骤,这些步骤展示了在适当的时间添加一组丰富功能(如流处理或键值存储)的选项,仅列出其中的两个功能。

但是,如果我们变得完全由技术驱动,并以增加各种功能和技术的期望来代替延迟的内向反射和需求收集,则存在风险。 我们最终可能会在没有业务目标或价值的情况下采用技术,从而造成巨大的成本和复杂性,或者更糟的是完全失败。 在这种情况下,围绕大数据和数据科学的嗡嗡声已导致利益相关者陷入炒作陷阱。 他们认为,采用技术可以解决业务目标,功能和要求方面的缺陷。 对于利益相关者而言,至关重要的是要向大数据和数据科学提出正确的问题,以免造成混乱和失望。 这些问题包括特定的战略业务目标和要求,这是前提条件。 尽管从一开始就必须明确战略目标,但可以像我们的示例一样随着时间的推移反复得出需求。

组织可以使用正确的大数据策略评估当前数据,确定需要的数据并采用新功能来围绕数据存储,处理和分析。 实际上,这种敏捷性是现代数据驱动型组织的基础,该组织使之能够在快速发展的技术环境中运作。 数据科学利用了灵活的组织评估和采用这些技术所提供的功能。 然后,数据科学还提供了深刻的洞察力和适应性解决方案,以应对来自两种技术(即更多,更快,更多样化的数据)日益增长的挑战,与此同时,人们对驱动产品,服务,洞察力和决策的数据的期望也越来越高。

在我们的示例中,传统的数据仓库方法面临挑战,仅第一个任务就没有足够的灵活性来满足任何未知的未来需求。 该解决方案也不是简单的,因为该特定业务在具有敏感数据的金融行业中运作并受到严格监管。 但是企业需要产生深刻的见解,这需要许多数据科学家和企业用户进行访问。 大多数组织都存在这种紧张关系,即使所有数据可供所有可能的消费者使用,同时确保其安全,并确保不会滥用或泄漏任何数据。

对于政府,医疗保健和金融客户,这些挑战也必须通过首页测试,即,数据安全问题(无论是感知的还是真实的)都可能导致灾难性的新闻报道。 因此,安全性既是实际安全性的问题,也是感知性的问题。 有趣的是,这就是为什么许多客户对云感到犹豫的原因,在云中,随着安全选项的改进,感知和现实之间的分歧越来越大。 对于某些公司而言,合规性可能是个问题,即数据的存储位置,云提供商正在越来越多地在法规区域内提供资源以解决这些需求。

对于选择内部解决方案的客户,我们概述了立即使用案例所需的关键功能,并设计了可以灵活扩展到未来的平台。 第一个目标是使用Hadoop及其生态系统为核心构建一个平台,以吸收旧数据和新数据,并通过屏蔽和加密对其进行保护,然后进行报告。 所需的分析工具是基本而直接的决策,主要是利用SQL接口将Hadoop生态系统用于旧版工具并使用 Apache Hive 。 Hive是首选,因为它是所选发行版的组成部分,稳定,具有丰富SQL覆盖范围,可通过旧系统的标准连接进行访问,并且与发行版的安全模型紧密集成。 此外,第一阶段所需的性能在处理大批数据以进行报告和分析时更为相关。

核心平台的构建和集成以及必要的PCI合规性是现阶段的主要挑战。 由于时间紧迫,工作必须立即开始,所有利益相关者都乐于“快速失败”,并提供平台关键元素的概念证明实现,以Swift发现组织障碍和技术限制。 自然,只有解决了所发现的问题,快速失败才是有益的。 因此,每当我们达到一个里程碑或失败(即学到一些东西)以吸引新的业务和技术利益相关者解决问题或为下一步计划时,工作就会伴随着研讨会。

这种方法在高层领导的支持下有效,尽管有时也很困难。 作为解决方案的一部分,可能需要评估现有的流程和技术以及已建立的供应商。 这有时会导致与供应商和业务利益相关者进行艰难的对话,无论是在组织欠缺还是在供应商和合作伙伴都无法做到时,他们都会如实地管理故障。 高级利益相关者需要有能力采取策略性观点并解决一些问题,因为处于数据驱动开发的最前沿意味着这也是为数不多的找出不起作用的方法之一。 只有通过建设性的协作方法才能做到这一点,在这里结合讲习班以吸引利益相关者并听取他们的需求和流程,并具有在概念验证环境中进行迭代以建立可行和不可行路径的能力至关重要,这使我们能够快速进行工作。

快速失败的一个很好的例子是选择加密和屏蔽敏感数据的工具。 一位著名的市场参与者提供了他们的解决方案,并坚称其建立的相关财务用例使其成为评估的首选。 事实证明,市场已经远离它们,而Hadoop生态系统的新功能(例如透明数据加密与真正的多租户范例结合)太大了,无法适应其产品和安全方法。 快速失败并在概念证明环境中引入其他供应商的能力意味着所引起的延迟是可控的,并且在另一轮评估之后,与另一供应商的工作得以进展。

随着第一阶段工作即将完成,整个组织对访问平台,数据以及添加工具以支持组织中的数据科学家和高级业务分析师的需求不断增加。 需求从探索性分析,高级近实时报告到智能应用程序和产品不等。 这些需求都需要大量功能和工具。 此外,许多数据科学家具有不同的工具偏好,通常包括R,Python( scikit-learn ), Spark ML (带有Python,Scala或Java),各种商业解决方案以及Jupyter或Zeppelin等笔记本。 通常还不清楚和初步的许多要求和偏好,必须与实现这些要求和偏好的工具相匹配。 我们还需要牢记治理,安全性,业务连续性,软件和数据集开发生命周期以及成本,复杂性和风险方面经常被忽视的方面。 简而言之,该组织是否可以成为能够以最小的风险,及时,盈利地持续创新的组织,还是会淹没在技术中?

过多的创新灵活性和技术的广泛采用将带来风险并使组织瘫痪。 缺乏治理和安全性不足可能会导致数据泄漏或质量下降。 当需要支持太多技术并且集成变得难以管理时,资源可能是一个问题。 另一方面,仅考虑安全性的严格的简约技术选择将扼杀组织中的创新,人才将流失,能力不足,组织将发现自己无法应对新的机遇和风险。 在无法满足需求且技术能力不断变化的创新情况下,冗长的瀑布过程来计划完美解决方案的正交思想毫无用处。

当我们正确地可视化组织时,作为一个资源池有限并且旨在从中获取最大相关能力的实体,那么类似敏捷的方法将成为最佳选择。 开发这些框架的框架类似于我们用来评估技术选择并解决核心平台开发和构建路径中的问题的研讨会。 我们可以召集相关业务部门的各种数据科学和分析利益相关者,讨论情况。 有哪些易于理解的用例,它们对组织的优先级和影响,实施这些用例所需的功能以及鲜为人知的创新未来构想和潜在所需的功能? 技术问题是第二部分。 他们团队中的技术偏好和现有技能是什么? 必须满足的各种需求和组织标准的开发生命周期需求是什么? 理想情况下,后一个问题应得到安全,基础架构和运营以及软件开发等部门的利益相关者的支持。

我们的客户非常先进,并且已经有了一些重要的高级领导者,他们都是大数据和分析专家,因此他们已经具有很大的独立性。 但是,他们的确感谢专家的外部支持,独立指导和评估,他们也是平台开发和未来分析工作的一部分。 对于顾问而言,这是客户接受您作为独立权威和可信赖顾问时的梦想成果。 我们一起举办了一个研讨会,为数据科学工作做准备。 我们收集了这些信息,并且在研讨会期间,我们已经能够跨业务部门确定工作的优先级,并排除了不合适的技术候选人。

该练习的好处是立竿见影的。 所有利益相关者都知道彼此,他们的愿望和喜好,这本身就是宝贵的。 此外,我们能够确定一项重要的工作,即基于近乎实时数据流的决策服务,可以为所有各方提供服务,即每个人都有一个需要这种服务的用例。 我们能够避免并行开发和集中精力,并将其作为试点项目进行优先处理。 在不受管理的情况下,我们可能会使用由多个业务部门开发的不同技术来提供多种服务。 这样,我们就可以合并工作量和工具选择。

我们的下一步是选择要添加到数据科学工作平台的第一组技术,尤其是Spark与ML,Java,Python和Kafka,用于流数据。 这些带来了手边用例所需的功能,并且还将涵盖将来的一些和辅助用例。 在研讨会讨论中入围候选人并增加了运营和组织方面之后,做出了选择。 例如,我们需要确定哪些技术是具有广泛支持,成熟度和可雇用技能的市场领导者。 后者是在此阶段选择Java而非Scala的影响因素。

一个重要方面是不要放弃任何选择,不要让利益相关者参与建设性讨论。 即使在选项似乎不太可能的情况下,我们也可以通过上述框架优先处理它们。

我们即将从事该服务的开发。 未来的好处是它将为组织带来一系列技术及其能力。 立即在关键业务项目中对它们的非功能性能力进行评估,例如围绕安全性,可靠性和性能。 此外,经证实,它们很可能会被业务利益相关者采用,因为它们可以工作并且可用。 这减少了对重叠替代选项的需求。 凭借良好的选择和成功的实践,不断采用更多技术的愿望逐渐减弱,对已得到证明的可用解决方案的喜爱也日益广泛。

该计划将继续该框架,并从利益相关者和用户那里征求反馈意见,以进行评估,并在缺乏现有功能的情况下进一步采用技术。 随后的研讨会将自然而然地从广泛采用的讨论转变为维护对话,最终变成随着市场的不断发展,我们将讨论逐步淘汰技术的讨论。

翻译自: https://www.infoq.com/articles/data-science-for-finance/?topicPageSponsorship=c1246725-b0a7-43a6-9ef9-68102c8d48e1

金融机构大数据应用案例

你可能感兴趣的:(大数据,编程语言,人工智能,数据分析,java)