全世界最大的金融数据是什么?有多大?怎么分析?华尔街的高频交易、量化交易和对冲基金,用人工智能和大数据赚到了难以想象的利润,请参见
赚钱最多的他们
阿拉丁神话
他们使用的通信手段,已经到了激光通信和原子钟的级别;他们使用的算法,已经到达了人类无法理解的程度;有一些玩家操纵市场的手段简直是妖孽。
Finra作为华尔街的监管机构,就是惩治这些“妖孽”的“判官”,他们在云端进行了无数道高一尺,魔高一丈的斗争和博弈,让我们来看一下Finra EVP&CIO Steve Randich在Re:Invent大会上的分享。这里给大家摘要三个最精彩的点:
1.事情的起因是2010年华尔街由高频交易公司、量化基金公司的算法踩踏和羊群效应造成的股市“闪崩”,没有人能够调查清楚原因,于是需要一个能处理全世界交易数据的大数据分析平台
2.作为一个非常保守的监管机构和全世界最大的金融数据,Steve果断采用公有云,并且竟然使用开源数据库!Steve演讲的气场非常强大,注意他演讲的语气几乎是:QNMD,Oracle!
3.结果非常成功,Steve的团队做到了之前想象不到的事情,有一次欧洲市场的爆发交易波峰,系统完全自动化分析,Steve说,这都是我们团队自己做的,没用任何供应商。我只能说:NB
很荣幸来到这里讲述我们的故事,我认为这是一个很棒的故事。
两年半之前,我们开始把我们最关键的系统迁移到了AWS- 我们的市场监控系统,我们系统的核心现在在AWS上,所有数据的90%的都在AWS上,我们是从皇冠上的珠宝(最重要的部分)开始的,在这个过程里,我们获得了惊人的益处,这超过了我们所有人刚开始预想的预期,我们学到了很多,也变革了我们IT的文化。
我们是Finra,金融行业监管局,我们是华尔街的监管机构,我们的使命是保护投资者利益,让市场公平运作,确保没有人操纵市场。我们如何做到?我们用最先进的技术,搜集来自行业的大量数据,所有交易所、证券公司的证券交易,所有的订单和报价和交易,每天都在发生-大量的数据,每天最高峰值能达到750亿条。每天要处理超过六个月的Visa和MasterCard流程(数据),我们要做的就是,把这些数据放到一起,每天、每周、每月进行查看。我们讨论的是几万亿的数据,超过20PB(2019年已经达到30PB).我们运行复杂的针对这些数据的监视,寻找可疑的活动。
我们怎么开始使用AWS的呢?几年前(2010)有一次股票市场的闪断崩溃,这是市场上一次非常让人不快的大事,结果,证券交易委员会(SEC)提出了新的监管要求,来加强监管,一方面,要搞清楚发生了什么非常困难,到底是交易算法出了问题还是什么。新的监管要求更加严格,需要更多的数据,并且能够理解(这些问题)的数据,比原来大得多的数据。彭博说,这将是有史以来最大的数据库,所以我们研究了如何建设这个事情。
我们看了下当前的东西,想象一下,数据仓库,处理当下工作的很不错,能够满足之前的要求。但当我们看看将来要解决的挑战,和我们所需要采集的数据量,我们很快就决定,我们只能要不一样的东西,所以从2013年起,我们就在看一下公有云上的大数据开源解决方案,这就是我们真正想要开始的地方。所以我们看了所有的公有云解决方案商,不计其数的大数据专家,各大公司的高管,最大的科技公司都告诉我们,这不是云干的活,这行不通。所以我们做了大量的概念验证(PoC),很多分析,和Finra最聪明的员工,都在研究。
2013年底,我们拿到了方案和模型验证,以及在架构上应该是什么样子。所以我们说,让我们去做吧,我们马上开始。
为什么要等SEC宣布再去做,只要这个东西开始,我们就能用这样的架构来构建数据库。我们今天在这里的其中的明显原因,就是:我们能够减少成本,基础设施能让我们按需处理存储。
从2014年开始建设这个新的系统,到了2014年中期完工。这种方法不合常规,作为华尔街监管机构,出于管控需要,我们需要非常保守,尤其是在网络安全方面。但是我们先把最关键的数据、最密集的系统做了迁移,这非常大胆。
在战略上我们有四个指导原则,第一个自力更生,我们不想依赖供应商,虽然供应商、云代理商轮番而至,但在几个月内我们团队的技能已经市场上的大多数供应商都好了。
下一个是公有云和私有云的争论,很多人都要私有云,尤其是在金融服务业,他们需要控制。我们认为,为什么要自己去拥有并管理哪些商品(硬件),明明有摩尔定律(那些硬件贬值很快),更重要的是,私有云更多是由基础设施运维人员在推动,他们想要停留在自己的舒适区里面。是的,他们也许能够接受云的概念,但他们想要在内部做这件事情,保持控制。
第三个是开源,我们要用开源的数据库软件,比如Hbase, Hive,数据库供应商接二连三,跑过来告诉你,这个不能扩展,另一个不成熟,还有的不可用,他们都错了,我们证明了他们都错了。
最后是我们不想升级原有架构,相反地,我们想做的是在云上把应用全部重写,充分利用云的优势,这就是“正确的用云”, DevOps(运维开发一体化),网络安全,从底层构建开始就嵌入。这是我们的做法.
AWS从一开始就具备全部(这四点特性)。我们反复验证,AWS比其他竞争对手领先几年,如果可以想象的话,这种差距在扩大。我们现在使用非常广泛的AWS产品,他让我们能够从哪些警告我们的数据库供应商那里实现自由,实际上,在Hbase我们有两万亿行代码,我们希望他们还会大量增长。我们创建的专家技术储备非常厉害,本周的大会上将有七位Finra专家发表如何使用AWS。
接下来我们要做什么?我们要把全部负载都放到AWS上,我们的核心已经在AWS上了,但是我们要去掉所有的铁锈,重写软件,重构架构,为了达到DevOps(开发运维一体化),实现自动化,我们将关闭数据中心,我们将使用更多AWS的服务,正如Andy说的那样,我们会去掉Oracle,使用AWS Arora。
我们得到的东西超出了我们的预期,我们得到了巨大的惊喜,这些我们一开始根本没想到,一开始我们看到的,在2014年我们的产出惊人,我们的性能提高非常惊人。我们的互动查询效率提高了400倍。我们的调查能力获得了极大的提高,我们大量扩招了调查和监管团队,以前这是不可能的,以前我们只能做一些少量的Google搜索,现在我们能够在几秒钟、甚至毫秒钟(做到很多的事情),(今年)六月份,我们有能力捕捉欧洲和英国的市场高峰,实际操作的时候没有遇到任何挑战,我们遇到很多次交易波峰,系统会自动使用EMR临时启用上万个计算节点,然后在不用的时候把它们全都删除,能够处理市场上的峰值。我们回头来看日志的时候,峰值出现的时候,我们还没意识到,峰值已经过去了。
2015年,也就是一年到一年半之前,我们下了结论,公有云的安全性比私有云还要好,比自己管理数据中心还要好,我不知道你的观点是什么,但那和小道消息一样并没有任何帮助。就像小报报道说:天哪!希拉里在云里的邮件泄露了。
弹性,作为两个交易所的CIO,包括纳斯达克和花旗银行的CIO,我花了很多时间在灾备和数据恢复上,我们的数据库横跨十几个数据中心,(现在)整个灾备和弹性的模型发生了变化,公有云上的弹性是在数据中心里无法拥有的。
最后我要说的是,在共有云会议上,我们大声呼吁公有云的好处,也吸引了很多注意力,十几家大公司、大银行、其他监管机构、金融机构都来向我们学习我们的经验,现在我们已经和他们建立了商业关系(也许是咨询服务),帮助很多机构来学习,我真的为我的团队能够自力更生做到这一点感到自豪。和AWS一起作为合作伙伴并分享,并很高兴能够跟大家分享这个故事。谢谢