作者:冯礼
编辑:Sammi
摘要:
某国内领先券商依托Hadoop大数据技术,将Kyligence的KAP产品整合在运维分析系统内,为运维管理人员提供便捷高效的数据访问和分析能力,有效实现了多个平台的高效运营管理,大大提升了运营监控、管理能力。
1. 公司及产品简介
上海跬智信息技术有限公司(以下简称Kyligence)由Apache Kylin(第一个来自中国的Apache软件基金会顶级开源项目)核心团队成员组建而成。作为领先的智能大数据分析平台及解决方案供应商,Kyligence专注于大数据分析领域创新,致力于进一步推动Apache Kylin开源项目的发展和演进,拓展全球用户社区;提供基于Apache Kylin的下一代企业级数据仓库及商务智能大数据分析平台Kyligence Analytics Platform (以下简称KAP)。从私有部署到云计算平台,KAP都能使用户在超大规模数据集上获得极速的交互式分析能力和洞察能力。
Apache Kylin是Hadoop生态的重要成员,是首个完全由中国团队贡献和主导的Apache软件基金会顶级开源项目。开源两年来,Apache Kylin已经被国内外超过200家公司所使用,包括eBay、Yahoo、Expedia、百度、网易、京东、美团、唯品会等国内外大型互联网公司,以及电信、金融、高端制造等传统行业的领先企业。Kylin广泛应用于大数据分析平台、OLAP多维分析、数据服务平台、自助查询平台等多种大数据分析场景中。
Kyligence推出的大数据智能分析平台KAP,是基于Apache Kylin的,在超大数据集上提供亚秒级分析能力的企业级大数据分析产品,定位于为业务用户、分析师及工程师提供简便、快捷的大数据分析工具和产品。在继承Apache Kylin的超高性能、免编程开发、多协议支持、非侵入式部署等突出优点的同时,KAP在企业用户所关注的应用场景丰富、实施效率、安全可控、存储效率、性能优化、自助式敏捷BI、系统监控等方面进行了全方位的完善和创新,被誉为目前最为成熟的OLAP on Hadoop产品。
2. 背景概述
本例中的证券公司是A类AA级的综合类券商,其经纪业务市场占有率名列前茅;经营管理、风险控制、合规体系、信息技术等水平领先,是国内最早开展各类创新业务的券商之一。凭借全方位的业务创新、服务创新和管理创新,成就了一系列市场第一。
券商希望整合多个平台的埋点日志、运营日志、统计数据等信息,通过使用大数据分析平台及技术,使用一套架构实现实时查询、当日汇总、历史汇总等多个查询分析场景。将大规模数据集上的多维分析、交互式分析能力开放给各运营部人员,从人工式地数据收集、脚本开发、分析统计演进到分布式、自动化地数据分析,满足公司在多个平台下的大数据量、近实时、高安全隔离下的数据分析和数据服务能力,为即将到来的更具挑战的流数据分析、数据挖掘等场景打下坚实的基础。
3. 案例概况
本例中,KAP对券商的对多个平台:行情、运营、数据链路和OA系统进行汇总分析,提取关键性能指标,作为运营支撑的参考依据。
经过一系列系统升级,券商目前已经将大部分实时、历史数据分析的任务从操作数据库offload至Hadoop架构,使用了多个大数据组件来实现对不同层级的数据进行查询分析,整体架构如下图:
包括KAP、Impala、HBase、ES等多个Hadoop组件被用于各系统的不同分析场景中,其中KAP主要用于以下系统的管理信息统计:行情系统、运营系统、数据链路系统及OA工作流平台。
3.1 行情系统KAP应用
行情系统接收各交易所的行情数据,经过接入、存储等步骤,提供了行情推送、行情回放、实时计算、行情分析等多种能力,是券商最重要的应用平台之一。
基于KAP及其他Hadoop技术构建的行情管理平台为行情系统各产品线提供简便、高效、合理的运营管理能力,保证行情系统运行的稳定性和数据质量的可靠性,同时为管理人员提供便捷高效的数据访问和导入导出功能。应用场景有:监控服务器的运行状态,提供数据和流量统计、日志分析、实时报警、行情数据图形化展示、数据编辑等。
行情管理平台的一个典型统计场景为:统计每天从不同数据源接入的股票、基金、债券、期货和指数的Tick、逐笔交易和逐笔委托的条数。使用KAP前,这个场景为了快速展示统计结果,需要人工设计中间表来进行预计算。这样每当业务部门产生一个要分析的任务,数据部门需要专门为它写一个包括取数、汇总、累加、存储多个步骤的程序。这种模式下,对上百个任务需要维护非常庞大、复杂的相应程序;而且当业务变化导致维度表发生变化时,必须由开发人员手工修改程序中的维度表后再重启程序,这样不但运维流程复杂,而且会导致数据同步存在延迟,影响了对业务的迅速响应,增加了运营对于业务变更的适应难度。
使用KAP后,数据部门只需在开始时和业务部门确定需求,根据分析任务进行模型和Cube的设计,之后在加载初始数据后,可自动对Cube进行每日增量更新;且维度表变化后,每次的增量更新会基于变化后的数据进行,不需要人工干预即能保证数据的准确性和实时性,大大降低了运营难度。平均每个任务的设计和数据准备周期从数小时减少到分钟级。在每日休市后,数分钟内即可将当日数据同步到Cube中,在线可查。
3.2 运营系统KAP应用
运营系统是一个集中监控券商内部子系统(如理财软件系统、综合柜员系统、资产管理系统等)运营情况的平台,以报表的形式展示各子系统的访问情况,系统性能,用户行为,页面行为等。
KAP应用在运营系统的多个场景中,如:对于运维事件的统计,对于各个网站的用户行为分析等。常用的运维指标有:统计事件发送状态、失败数、发送渠道等,统计各个网页的点击用户数、点击量和平均响应时间。
3.3 其他KAP应用
除了以上应用场景,KAP对数据链路平台及OA工作流系统的运营情况进行汇总监控,如:统计每十分钟数据链路平台传递的业务数据记录数、统计OA工作流系统中用时最长的工作等场景,为各个平台的平稳运行保驾护航。
3.4 KAP应用架构
在基于Hadoop的KAP分析架构中,数据在多个系统中流转:
通过行情数据、网页日志、SDK埋点等方式将来自各个系统的数据收集起来,经过初步加工提炼后通过Kafka分发。
Kafka消息转存入HBase表中,可以支持对数据进行修改和即席随机查询。这个场景提供实时数据。
Hive以外部表形式对HBase的HFile文件建表,这样可直接以Hive表形式访问所有数据。
KAP以Hive为输入进行Cube的构建,并进行每日的增量构建。提供在超大数据量下的亚秒级多维分析能力,获取各个系统的关键指标。
Tableau和自研Web分析工具连接KAP进行多维展现和分析。
平均查询时间相比Impala有十倍以上的提升。
架构见下图:
4. 项目价值
“传统的预计算方法要为每个任务单独开发一个程序,除了开发的成本,还有运维这些程序的成本。
Kylin的优势是通过简单的Cube设计,就能完成海量数据的多维统计和实时查询,大大节约了人力成本,提高了开发效率。”
——信息技术部大数据架构师