“Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps。尽管AIOps对于广大运维人员来说,仍然是一个新词,但在各企业,已经尝试通过技术手段重新挖掘和创造数据价值,在实践中正在迈出智能运维的第一步”。
为什么要AIOps?简单来讲,一方面由于业务的发展企业的系统变得越来越庞大和复杂给运维带来了巨大的压力,通过智能工具代替人力是必经之路;另一方面,则需要通过新技术与智能算法的导入创造数据价值,助力业务决策,重塑企业价值。作为企业数据的载体,IT系统的变革无疑是智能化的前提。
拿保险行业来说,互联网创造了新的营销模式和机遇,如电商退运保险、航班延误险等使得传统的保险行业逐渐迈向互联网领域。然而这些业务模式导致保单数量在特定场景下的爆发式涌入,巨量碎片化的交易给系统建设带来了巨大的挑战,传统系统建设模式,不再能够满足性能安全稳定性等方面的需求,因此企业内部需要新的架构来适应。
渤海财险面对当前系统的运维瓶颈和未来的发展需求,从今年起对企业的数据进行了标准化场景化和在线化的改造,并基于分布式系统搭建了一体化的经营决策平台,从根本上解决了管理层看不到数,分析层取不到数,业务层拿不到数的现状。为公司各级决策者提供了实时高效的数据支持,也在智能运维的方向上迈出了重要的一步。
本次系统改造主要解决了以下问题:
1、实现了数据的标准化和规范化
2、解决了系统间数据不通的障碍
3、创建了直观的系统状况展示层,为决策者提供有力支持
4、系统的分布式变革为业务的发展奠定了基础
在刚刚过去的第七届数据技术嘉年华上,渤海财险的系统处处长卢彬彬分享了企业数据架构的智能化演进之路。
在渤海财险原有的IT架构下,支撑着新核心、财务及BI等多套业务系统。根据业务的需要,各业务系统间采用了DB-LINK技术实现业务系统间的数据互访需求,为业务的读请求提供跨系统的数据支撑根据分析需要,BI系统每天晚上定时从各关键的业务系统内抽取数据,作为BI数据分析的源数据。BI抽取数据采用传统的ETL+1的形式,效率比较低,很难满足实时性的需求。
从数据应用的角度来讲,最前端的承保系统产生保单信息,之后传入到客服理赔,财务等系统进行处理,完成保单的处理。由于当前的系统是由不同的开发商开发的,在管理上有各自的要求,因此不同的系统之间数据并不能完全互通,使得跨条线的统一管理很难实现。
在当前的业务现状下,每天所常用的各类报表和提数脚本高达400多个,由于数据不能互通,在很大程度上影响了业务的进行。
整体来说,原有的IT系统架构面临以下几个问题:
效率:BI系统采用ETL的传统抽取数据的方式,不能满足实时性的需求
性能:传统的架构采用小型机+存储的模式,IO处理能力低下。跨系统的DBlink抽数也会带来一定的性能影响,系统经常出现卡顿等情况,在高峰期尤为明显。
扩展性:传统的高端存储不能灵活扩展,不能满足业务灵活变动的需求。
因此,为了保证业务的高效稳定运行及灵活扩展,必须要对原有的IT系统进行改造。针对当前管理层看不到数,分析层取不到数,业务层拿不到数的情况,集团内部决定做一下改造:针对业务场景对数据进行场景化改造,根据行业标准对数据进行标准化,同时为了满足实时需求,对数据进行在线化,经过这样的改造,最终实现快速开发数据产品,标准化的数据组织方式和实时高效的数据提供。
数据是企业的核心资产,而IT系统作为数据的载体,在企业的价值链中居于越来越重要的地位,通过IT系统的变革来创造数据价值,驱动业务变革,成为企业系统运维的目标与战略方向。对于企业来说,数据能创造的价值包括:促进业务发展、控制经营成本、防范各类风险等,通过数据分析为企业提供决策依据,实时的数据查询可以降低理赔客服系统的经营成本,并通过数据质量的提升而防范来自注入、税务等的风险。这也是本次渤海财险系统改造的目标。
针对数据应用现状,首先进行数据的标准化改造,对于原有系统,采用标准化校验,满足要求的数据可以导入到数据仓库,不符合的数据按照一定标准进行改造处理之后再导入。而新的系统的建设必须遵循标准和规范要求。
针对系统之间数据不通的现状,在经营决策平台上,通过实时的数据分析和传入,在运营系统和管理系统之间创建完整闭环。在生产系统产生经营数据和管理数据,财务数据等,并实时地传递到ODS系统,在ODS上提供简单的系统查询和清单下载。ODS层的数据集中之后,经过清洗、归纳和整理,形成场景类的数据,生成对应的多位表和统计表,再经过聚类、提炼形成各种快报图标等,为经营管理者的决策提供依据。
在以上的需求基础上,对于整个平台的改造方案如下:通过经营决策平台统一抽取各个应用系统的数据,作为统一的交互平台,避免了系统之间的数据交互带来的性能等问题。
为了满足上述需求,需要强大的硬件能力,尤其是IO能力的支撑,经过大量的选型,最终选择了数据服务的领先团队云和恩墨的zData分布式存储管理软件构建分布式架构。分布式存储具有以下优势:
1、 多维动态扩展:计算节点和存储节点可以按需动态扩展,容量和性能线性增长
2、 资源池化&云化 :计算资源和存储资源池化,统一管理,按需分配扩展
3、 高性能:x86服务器为基础、使用闪存卡、InfiniBand交换机实现高处理能力和IO吞吐量
4、 安全&冗余:所有组件均有冗余,存储自动镜像及故障自动重构,无需人工干预和不影响在线业务。
高性能低成本易扩展的zData分布式存储管理软件,成为渤海财险系统改造的首选方案。
在正式搭建之前,渤海财险IT团队在云和恩墨工程师的协助下,从高可用、性能、场景、压力等多各个维度进行了严密的测试。测试结果表明:
Ø 基于分布式存储技术搭建的经营决策平台,在计算节点、存储节点、InfiniBand交换机层面,均具有防单点故障的能力;
Ø I/O吞吐量达到10GB/s的数量级(50倍),IOPS达到200万/s的数量级(80万)
Ø 建表空间、大表创建、索引创建、全表扫描性能,对比传统SAN存储提升23~37倍不等!
Ø 在每秒4000会话的压力下,事务数为43000/s,事务响应时间仅为30ms!
因此分布式存储架构,不仅是解决当前渤海财险系统困境的最佳方案,更是企业进行云化智能化改造的必经之路,而专业的数据服务团队与产品,则帮助企业在这条路上走得更好。
通过经营决策平台的建立,将各个系统的数据集中到一起,经过处理后以可视化的方式直观地展现给用户,为企业的管理经营提供了很大的决策依据。以下是渤海财险的平台展示:
自从决策平台上线后,系统上下载报表的耗时大幅降低。并且在建立数据质量检测机制后,由于数据实时传送,还可根据预先建立的数据检验规则制定自动化的周期性检验,并通过邮件、短信主动推送。各个业务线的人员反馈,系统体验良好,极大地提升了效率和使用体验。
卢彬彬表示,渤海财险未来的IT的演进方向基本上会在现有基础稳定的情况下,逐步过渡到以分布式为核心的互联网架构上来。下一步,渤海财险将逐步实现基于公有云平台的灾备,更好地保障数据的安全可靠。
卢彬彬说,在保证安全及监管风险的前提下,全行业都在朝着互联网思维方向转变,现在及将来是互联的天下,任何事物都是在线的,不只是保险行业,全行业、我们的衣食住行都在这个巨大的网中。不做在线化变革,终将被时代所抛弃。
数据为桥,渤海财险通过本次IT系统的改造,一方面通过系统分布式变革解决了运维的瓶颈,也为后续的业务扩展奠定了基础;另一方面实现了数据的标准化场景化和在线化,极大地挖掘了数据的价值,为决策者提供有力依据,驱动业务创新。
思维创新引导技术变革,技术发展创造数据价值,随着数据在企业中的地位日益凸显,运维也将发生根本性的变化,从最初的被动管理维护数据,到通过数据分析来指导业务决策,各行业企业正在从传统运维逐渐走向自动化运维,随着技术的进一步发展,未来以数据为本,重塑企业价值,智能运维将成为不可逆转的趋势。