转载公众号 | DataFunSummit
分享嘉宾:鲍捷博士 文因互联
编辑整理:松烨 博瑜科技
出品平台:DataFunTalk
导读:知识图谱标准件已经全面赋能主流金融场景,经历了7年时间的发展,在金融监管、银行、资管、证券等领域得到广泛应用。今天我们从时间的角度,详细介绍应用场景是如何一步一步演化出来的。
2016年知识图谱在金融领域Big Bang
2017年举办第一届金融知识图谱论坛
2018年成立金融知识图谱工作组
2019年金融知识图谱工作系列沙龙(如何破局)
2020年理解四种自动化(手、眼、脑、心)
2021年“知识”是企业数字化转型的核心基础设置
01
2016年知识图谱在金融领域Big Bang
2010年我们已经有很多如何把语义和金融融合在一起的想法,学术界已有很多方面的研究,2012年语义演化为知识图谱。
2016年3月9号AlphaGo打败了围棋冠军李世石,整个金融界完全被震撼,金融市场是程序化交易的天下,这一天成为知识图谱在金融领域的Big Bang,金融界有很多人提出了很多问题,问题大致分类如下:
2016年3月12日,我们组织国内第一次语义和金融两个领域的对话,“语义对话金融沙龙”。邀请了很多业内专家,一起探讨很多问题。
2016年3月国内几乎没有知识图谱的应用案例,我们的认知只在“创投类数据库”,能找到的案例只有少量的欧美应用案例:
2016年是Fintech上下半场的转折点,互联网金融向智能金融的演进,互联网金融主要是以P2P为主,上半场以金融为主,下半场以技术为主,不仅延伸以前那些场景,并且创造新场景。
金融IT化的过程分为四个阶段,分别是信息化、大数据化、自动化、智能化。前面20年时间已完成信息化和大数据化的建设,2010到2016的5年时间已完成一些简单的自动化。因此到了2016年,我们就考虑是否需要智能化。
智能化的本质是自动化处理“脑力体力劳动”,比如每天做财务报表来算账,属于重复的脑力体力劳动,可以自动化,但是如何去找到一个非常优质的投资机会不属于此类。我们怎么能够把人的洞察的能力用巨大的规模来实现,或者把社会的力量用机器的速度来实现,这就是智能化在金融里落地的核心,如何去自动化脑力体力劳动。
2016年是否要需要智能化,事实最终证明,2016年仍属于大数据化阶段,自动化是超前的,智能化更是超前的。
02
2017年举办第一届金融知识图谱论坛
2017年3月我们在杭州大学组织第一届金融知识图谱论坛,由中文信息协会主办。
在本次会议上,中国中文信息学会常任理事,上交所前CEO白硕介绍NPL与知识图谱的对接;浙江大学教授陈华钧分享开放知识图谱的愿景和挑战。还邀请腾放、文飞翔、郭颖哲三位创投数据库领域的CEO分享了他们的成功案例。
1. 认知
2017年知识图谱的场景较2016年有大幅扩展,除了创投数据库之外,有了公众公司的基本面的数据库,行情数据库,特别值得指出,2017年我们文因互联负责完成上交所的公告摘要项目,是国家第一个采用自然语言处理进行上市公告。2017年证明可以用机器去做公告数据提取、研报数据提取,还有舆情数据提取。同时还有其他的数据提取,例如工商数据,也就是泛企业数据。
2. 应用
2017年知识图谱的应用系统丰富起来,看到传统数据终端可能会被替代,出现了金融搜索引擎、金融问答引擎、研报的公告摘要、脱水研报、脱水公告、自动化信贷流程,自动化评级流程,自动化写报告,自动化写新闻,自动化做审计等。
在2017年知识图谱在金融领域的建设过程总结为三句话:
• 天下难事,必做于易;天下大事,必做于细。金融知识图谱是一个很复杂的系统工程,中间可能需要先达到若干中间节点,而非一下子就能变魔术。
• 它可能催生新的应用,但一时难以在旧的金融体系内承载。
• 它需要金融人才和人工智能人才的密切交流,培养一种新的复合型人才。这些工作,都不是一两年就能完成的。
03
2018年成立金融知识图谱工作组
2018年在全国知识图谱与语义计算大会上成立金融知识图谱工作组,我们发现金融领域应用从利用技术角度可以分为四类:大数据技术、机器学习技术、文本处理技术,以及知识和规则技术。2016年以前我们基本以大数据技术和机器学习技术为主,在智能营销、智能支付、智能风控、智能投顾应用已经相比较成功。在智能监管、智能资管、智能审计、智能投研、智能客服应用遇到困难,难点在于结构化数据之前的文本信息,巧妇难为无米之炊。解决难点的关键是在提供优质的数据,必须解决文档自动化理解问题,成为整个行业的主旋律。
2018年客户提出非常多的需求,整个行业趋势总结为以下方面:
1. 认知
2018年的金融知识图谱比之前又丰富了很多。灰色部分是2017年的,黑色部分是2018年的。
2. 应用
随着图谱的增强,应用也大大扩展,灰色部分是2017年的应用,黑色部分是2018年新增的应用。尤其是2018年前后,各种聊天机器人开始大量使用,降低了客服和营销成本。
2018年随着整个国家金融转型,在监管、基础数据、资管、咨询、研究、销售、投顾、会计、审计、投资等10大应用领域新增非常多的细分场景,具体场景如下:
04
2019年金融知识图谱工作系列沙龙——如何破局
2019年大家都在探索,还不知道商业化场景和真正的破局点在哪里?我们金融知识图谱工作组就组织一系列的会议和沙龙,金融界和技术界更加密切地进行交流。
2019年3月24日在国家金融发展实验室组织了金融制度论坛,主要讨论监管业务。
2019年4月13日普华永道中国会议讨论的更广的业务内容。
2019年配合CCKS2019的评测竞赛,我们和中南大学一起发布三项评测任务,评测任务代表自动化文本处理在金融领域已经开始进入主流视野。
我们认识到整个知识图谱其实是一个技术栈,不是一项技术,而是一堆技术的集合体,知识图谱不仅是图谱,是知识加上辅助,如下图的知识图谱金字塔:
规则、本体和模式这些工程就是知识,它们是非常重要的,在不同层级上对应金融领域里都有应用,例如证券领域要进行规则建设,实现大规模的合规和审批的流程自动化;银行中的信贷合规,信贷反欺诈的数据集成、风险图谱、自动化生成报表,都是有相应知识支撑的应用,本质上来说“知识的核心价值是驱动流程自动化”。
2019年出现了知识图谱的破局点,就是证监会发布监管3.0,一个纲领性的文件,提出了全覆盖,无死角建设监管体系。
证监会、银保监会都开始用机器自动进行监管,监管科技倒逼所有的金融机构进行流程的自动化,2019年7月知识图谱非常有效地支撑科创板审核的一些关键流程,中国第一次实现IPO审核中利用自然语言处理技术构造上市公司的知识图谱。我们在参与科创板知识图谱和2018年北交所构造股转中心第一套制度,我们在实现银行、交易所等机构的细分场景时,出现非常多的新型用户交互。
我们面临一些新的问题:数据结构化,数据如何呈现问题,还有各种细粒度的自动化监管问题。另外我们也开始发现了更多银行精细化运营的问题,包括集中作业问题、获客问题、客户防流失问题,所以很多细分场景如下:
05
2020年理解四种自动化(手、眼、脑、心)
知识图谱的核心不是图,更重要的是业务知识,能够帮助我们进行任务的自动化,从数据结构化的流程自动化到业务的服务化,再到服务的开发,分别对应手、眼、脑、心四种自动化。
四种自动化对应不同的应用场景,流程的自动化帮助我们提高产品质量,比如各种券商的IPO自动化写招股说明书,自动化审核。
06
2021年“知识”是企业数字化转型的核心基础设置
知识图谱的标准件已经全面赋能主流的金融城,包括监管、资管、保险、银行、证券和各种通用的这种领域里,现在都有相对成熟的金融制度的应用。未来到底是什么样,这其实是一个左右互搏的过程。
企业一直在做数字化转型,数字化转型的本质是企业都要一个CPU,上面都是各种核心的业务系统,包括BPM系统和ERP系统、CRM系统。传统企业的IT系统底层都是数据库,未来企业一定会发生巨大范式变迁,企业的核心资产是流程知识和业务知识。过去五年时间,我们看到金融企业在财务的知识、审核的知识、信贷的知识、风控的知识,都在不断的去沉淀。
不同的机构都在落地统一流程平台、数字化员工系统等,他们的本质上一个赋能的系统,底层要有知识库来管理大量的知识,然后上面不断赋能各种各样的应用。知识图谱在金融领域的价值已突显,应用场景也越来越清晰,未来将会有更多的场景出现,去探索。
今天的分享就到这里,谢谢大家。
分享嘉宾:
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。