众所周知,金融行业对于数据有着极为严苛的标准和要求,尤其当在线化、实时化业务场景增多以后,金融行业也面临着多重的挑战:既要满足实时数据分析的高性能、高效率需求,又要确保数据的安全性和完整性。基于此,金融行业对数据服务的选型也会格外谨慎与困难。尤其是在各类数据库产品层出不穷的当下,金融行业到底应该如何选型?怎样的产品才更加符合金融行业的未来发展?
在 FCon 全球金融大会的大会现场,InfoQ 也采访到了飞轮科技 COO & 联合创始人,他本人长期投身在大数据、基础架构和云计算领域,过去 12 年一直在百度工作,曾担任百度智能云副总裁、大数据与云存储等部门总经理,从零到一开拓出数十款云产品及数十亿营收。目前致力于推广开源 Apache Doris,并基于 Apache Doris 内核打造了实时数仓产品 SelectDB ,助力中国邮政储蓄银行、银联商务、平安人寿等多家头部金融企业升级了实时数据仓库平台。关于金融领域客户对实时分析场景的痛点与解决方案,他在采访过程中分享了自己的观点。
Q1:金融行业对数据服务的需求主要集中在哪些方面?包括对实时数据仓库的需求点主要是在哪些方面?
连林江:金融行业在数字化转型上走得相对靠前,无论是技术力量的投入,还是对新技术的使用都非常深入,但聚焦于数字化转型,依然面临着很多诉求和挑战。
从业务需求看,可以看到金融行业的业务更多地开始走向在线化,消费者金融业务、企业金融业务等都大量 APP 化,这些在线化的变化都带来业务感知、风控、客户洞察和决策等业务路径的实时化要求,所以就需要做更实时的消费信贷、欺诈交易识别、客户行为洞察等等动作。可以看到,金融行业服务客户的时间、路径都比以前更短了,也就需要更快的数据分析和响应速度。
从技术角度看,新技术给金融业务带来了更多业务变革的可能性,对技术的超前建设、对前沿技术趋势的预判也尤其重要,所以我们看到很多行业客户都开始设立金融科技部、信息科技部这样的战略组织,来全盘推进金融科技的战略。
但很多金融行业在大数据建设上,普遍还存在滞后性、复杂性。举例来说,很多的金融企业在一定程度上复刻了原来互联网公司走过的大数据建设路径,基于 Hadoop 构建了大数据平台,并在此之上建设了大量的系统以应对不同业务的挑战,比如有批量处理分析系统、实时处理分析系统等等,少则十来个,多则可能几十个。所以从技术规划和发展趋势的角度来说,金融行业的大数据系统需要化繁为简,架构需要更简单、更高效。
此外,大数据的技术发展是日新月异的,如何能够紧跟时代变化也是金融行业面临的另一挑战。
Q2:那么,金融领域的企业如何找到一款适合自身业务的数据库产品?您能否从实时数据仓库选型的角度给一些建议?
连林江:第一,从需求出发。刚刚也提到了金融行业的业务开始走向在线化,更需要一个实时的数据库应对业务挑战,同时还需要解决一系列随之而来的如何用好的问题,比如数据如何集成、如何治理、如何面向业务进一步调优等;第二,看清楚未来的技术趋势。技术的日新月异往往带来不断的更新换代,这其实是一个不断迭代的过程,因为系统的建设是滞后于技术发展的,可能造成的局面是今天投入力量进行系统升级了,过一两年又在新技术的冲击下需要迭代。而我们对大数据未来趋势的判断是朝三个方向发展:实时化、统一化以及云原生化,所以也建议金融领域的企业用户能够选择面向未来、符合技术趋势的产品;第三,关注产品的开放性。所谓开放性指的是尽量选择能够代表行业标准的产品,类似像数据库领域的 SQL 这种标准接口语言,这类标准性带来的是更开放的选择,以及未来历史资产的继承性。纵观大数据技术,开源其实一直在引领大数据产业发展,开源能够非常好地促进标准,也能够带来开放性。
Q3:刚好连总也讲到了开源这个因素,我们知道 SelectDB 是基于开源的 Apache Doris 来开发的,对于金融行业而言,开源是否是企业选型的重要考虑点之一?
连林江:我今天看到很多金融领域的企业,他们普遍对前沿技术有非常强的敏感性和开放性。从实际的交流观点来看,大家对于开源技术的认可和采用也是普遍趋同的。为什么呢?
第一,如刚刚提到的,开源本身能够很好地带来标准性,因为开源在开发者群体里是一种市场经济化的行为。一个好的开源产品如果被大家认可了,便能够引发更大范围、更广泛的使用,这个过程天然具有很大的可信度和标准性,所以优秀的开源产品一定有它的独特优势和普遍适应性;第二,一个开源项目要想发展好,它一定要有持续的先进性,这也会给产品带来持续的、蓬勃的生机;第三,金融对自主可控的要求比较高,而由于开源的代码可以共享,使其具备了自主可控的特性,如果企业有能力就可以很好地掌控、投入建设,便能在这个社区里得到一加一大于二的效益。
我认为开源是对金融企业来说是一个非常有前景的平台建设路径,它能提供更强的生命力和正向循环。通过开源也可以让我们的产品得到锤炼,对我们自身而言也是一个机会。就像 Apache Doris 是从百度的海量数据场景里锤炼出来的,通过开源又广泛地吸收了多行业、多场景的需求,让其能够更快地蓬勃发展。所以我们可以看到,金融领域的企业以及开发者对开源是非常认可的,也是很愿意投入,并且是在持续做建设的过程。
Q4:众所周知,金融是对数据要求极高的行业,因此也是不少数据库厂商的竞争高地,相比于其他金融级数据库,SelectDB 的核心优势是什么?
连林江:从公司设立的第一天起,我们就非常清楚自己的定位——实时数仓,实时性是产品的第一要求。
要对数据做到实时分析,最重要的是解决好两个延迟问题,数据集成的低延迟和数据查询的低延迟。换而言之,数仓必须能满足数据进得足够快、同时能够实时可见支持秒级的查询。
因此我们在实时性上进行了大量的技术创新,包括支持毫秒级的实时数据写入、实时增删改的主键存储模型、实时追加的明细和聚合存储模型以及毫秒级轻量化表结构更新等,可以实现数据的实时导入与实时可见。而在实时查询方面,SelectDB 在高并发点查询、大宽表查询、复杂多表关联等多种查询负载上都拥有极速性能。在全球分析型数据库测评榜单 ClickBench 中,SelectDB 更是凭借在多种场景下的卓越性能表现,占据性能全球排名第一的位置。
在定位之外,还要进一步看清大数据的发展形势,当前企业普遍使用典型的湖仓并行架构方案,既有面向批量的多个组件、也有面向交互分析的多个组件,甚至不止一个湖一个仓。基于此,我们提出了统一化的理念,简化当前复杂的架构,尽可能减少数据组件;特别值得一提的是,我们也在不断地完善湖仓一体方案,采用了 SelectDB 的现代化数据平台方案将数据仓库和数据湖进行融合统一,在一套架构中为 BI 报表、Adhoc 分析,以及批量和增量 ETL 等多种业务负载提供统一的数据处理和分析能力。
此外,针对有上云需求的客户,会更加在意云服务的性价比和资源弹性。SelectDB 也是从开始就把云产品当成核心来做,在去年 10 月份我们就推出了第一款云原生产品,也是国内第一款立足于多云之上、完全 SaaS 化的云原生数据仓库 SelectDB Cloud,目前已经支持阿里云、华为云、腾讯云和亚马逊云科技等国内外主要云厂商。
除了上述提到的优势以外,SelectDB 还有架构简单和生态丰富的特点。当金融客户要将历史资产迁移到 SelectDB 上时,能够很好地保障企业用户数据的迁移以及集成。考虑到很多金融客户的大数据系统上、下层都有联动,所以 SelectDB 也与数十家合作伙伴做了产品互兼容、互认证以及方案打通。
最后一点,由于金融客户的特殊性,持续的陪伴和服务能力也是更为重要的。在这一点上,我们其实也做了很多的建设和投入,目前在国内有 7 个分支机构,会安排售前、售后等支持人员,为他们提供可靠的服务保障。
Q5:相比于其他实时分析的需求场景,金融行业的应用软件是否有哪些额外的关注点?SelectDB 会采用哪些方案进行保障?
连林江:对于互联网行业而言,他们更喜欢在云上一站式地选购 SaaS 化的产品,既能做到开箱即用,产品之间也有很好的联动性。但对于金融企业而言,出于对可靠性或监管的要求,大量系统建设都是私有化独立部署的。对此,我们做了大量金融企业级产品的工作:
首先,我们为金融行业打造了企业版,可以私有化部署在各种环境下,比如虚拟机、物理机、云原生基础设施或者私有云,我们都能为其提供非常高效的部署,以及简单、易用、易运维的能力。其次,金融客户对数据以及整个 IT 基础设施的安全性要求是非常高的,我们除了保证单一软件系统的高可靠性、高可用性以及完整的权限系统外,我们尤其加强了容灾备份的能力,提供了本地双集群和多地多中心集群之间 CCR 的能力,一旦有服务断掉了,马上能够秒级分钟级的启动。
Q6:是否方便分享一个 SelectDB 在金融场景的落地案例?
连林江:SelectDB 在整个金融行业服务的客户非常多,包括银行、证券、基金等等。这里我可以分享一个国有大行在金融反欺诈上的实践案例。
因为国有大行本身有非常多的网点和客户,在这基础上做业务的在线化,就需要在事前、事中、事后做很多的风控判断和处理。尤其对于反欺诈行为来说,过了一天可能损失是追不回来的,所以基本上要达到秒级,最差分钟级的反馈闭环。此外,由于反欺诈行为更多发生在终端,国有大行有数万个网点、亿级的用户,需要有几万甚至几十万的并发来支撑,这对于技术有非常强的要求。另外,作为一个建设的平台方,它还需要管理起来更简单、数据高可靠,而且每次数据统计都是精确无误的。这些特性决定了它的选型非常苛刻,所以他们也做了非常多的评测,最后整体认为 SelectDB 的技术是最符合要求的,比业内同款产品的性能要高出几倍、几十倍。
现在客户实际落地用下来效果非常好,如果用以前的老架构去实施,效果可能是小时级甚至是 T+1,现在做到了秒级的实时性,所以也在大力推广更大规模使用。他们也在规划更多的落地场景,也想让日志分析用到我们的技术,把原来做指标观测、订单分析查询的系统都替换掉,而且整体的成本投入只需要以前方案的三分之一到五分之一。这个客户整体上讲,SelectDB 不仅很好地满足了业务方需求,也更好地满足了建设方需求。
Q7:后续,SelectDB 将如何服务好更多金融领域的客户,基于此,我们是否有相应的规划?
连林江:从技术角度,我们会在实时化、统一化、云原生化三个方向上持续投入和迈进,这很好地满足广大企业客户的需求;今天,大量的金融客户也已经从中获得了收益,我们也会齐头并进继续做深技术创新。
从业务场景,我们会沿着用户的业务场景做深入的优化。比如针对画像行为分析,我们进行函数的设计、业务流程优化;针对数据分析,做实时报表、辅助决策、日志分析,甚至 AI 的数据分析,这些都是更加深入的场景化思考和落地实践。这就意味着我们的技术和业务是双向迭代的过程。
在金融领域,当前数据分析的技术和业务场景是非常多的,这其中对于数据的存储和数据的处理其实是一个非常基础性的要求,在这之上应用场景的需求满足更需要端到端的解决方案能力落地,这就需要和领域内的广大生态厂商一起努力。比如,我们跟一些 BI 厂商联合做指标分析,效果就比以前提升了好多倍,这些场景方案能力最后都会在广大的金融客户场景中释放出效益。后续,我们也希望和更多的合作伙伴一起提供更多端到端的场景化方案
作为全球数据库和大数据领域最活跃的开源社区之一 Apache Doris 的商业化公司,我们看到了 SelectDB 在实时化、统一化、云原生化方向上的坚定投入。我们也期待随着 SelectDB 在金融领域商用化程度的不断加深,以及端到端金融联合解决方案的持续补充,未来将帮助更多金融领域的企业释放数据价值。