论大模型在金融行业的应用场景

摘要:众多的金融机构及金融科技企业都在积极拥抱大模型的到来,除了已经涌现出若干金融垂域大模型以外,应用场景的探索也是重中之重。目前为止,相当多的金融大模型应用层出不穷,百花齐放,但仔细观察可以发现,大多还集中在改变或提升人机交互的方式方法层面,如智能客服、文档协助处理与生成、NL2SQL等全行业耳熟能详的领域。那么,大模型能否更加深入与广泛地与金融业务或科技需求融合以推进金融科技水平发生阶跃性的升级,甚至推动金融行业发生新一轮的智能化变革?本文首先提出是否并如何引入大模型的原则,接着试图尽量清晰地界定大模型的能力边界,然后对大模型在金融行业的具体应用领域进行全面的分析与讨论,旨在为大模型驱动的新一轮金融智能化行动提供参考与建议。

1. 大模型驱动AI无处不在

大模型的潮流席卷而来,除了基础模型方面各种开闭源大模型层出不穷,争奇斗妍以外,各行各业也掀起大模型智能应用探索的热潮,金融行业自然也不例外。本文认为,大模型有望彻底改变人工智能在金融科技中的应用状况,驱动AI无处不在。

长期以来,人工智能在金融行业的应用一直处于比较尴尬的状态:都在重视都在尝试却少有真正起到关键性作用的案例与场景,更不要说成为推动金融科技进步的主要因素了。“智能”这个词,相当多的情况下背后实际上是预定义规则,或者是部分自动化流程,以统计/机器学习为主体实现的并不多;而相当多采用统计/机器学习方法的项目,实效也并不理想。这主要是因为经典机器学习方法:

  •         一是往往需要大量的、高质量的场景相关训练数据;
  • 二是多数情况下需要参与人员同时具备极高的数据科技专业技能与极为深厚的场景相关业务知识经验,这通常是非常困难并难以规模化普及的;
  • 三是所生产模型也只能适用于该专用场景,难以通用。

实践证明,人员、成本及技术等多个因素决定了以机器学习为主的经典人工智能很难成为平民化的通用IT设施,是一个“奢侈品”,而绝大多数关于AI中台的规划设计都停留在概念上。因此,人工智能一直都没有成为金融科技建设发展的主力军,成点困难,有点无面,难以普及,名不符实......。

而大模型驱动的新生代人工智能则完全不同:

  • 首先基础大模型本身是预训练的,它出生就已经带有相当丰富的通用知识,即使不做任何工作,直接在各行各业也都能产生一些效果;
  • 其次,目前对基础大模型进行专向知识的训练补充,可以通过微调(fine-tuning)来实现,通常并不需要大批量的数据就可以产生非常不错的迁移效果;
  • 另外,大模型还可以结合向量数据库,通过不需要训练的RAG(检索增加生成)方式高质效地实现对通用大模型进行专向知识补充;
  • 更进一步,智能体Agent技术的编排规划能力又可以通过大模型得到极大的补充与增强,反过来有效约束了大模型的发散特征,大大扩展与提高了大模型解决问题的范围与质效。

因此,本文认为,虽然离AGI还有一段距离,但大模型有望使人工智能实现平民化,大大降低AI的使用难度,扩大应用范围,推动AI无处不在,成为通用IT基础设施。

2. 金融大模型及应用现状

众所周知,金融行业一直以来都是信息科技与人工智能发展与应用的高地,金融科技也一直在行业数字化转型中处于引领地位,大模型自然也是如此。目前,在模型基础设施(Infra)与应用场景方面,众多的金融机构及金融科技企业都积极的探索与尝试。

首先是预训练的金融垂域大模型。在Transformer架构与LLM流行之前,实际上就已经有专业领域的金融大模型推出,如基于深度双向架构BERT、用于金融文本情感分析的FinBERT系列,以及基于生成器-鉴别器框架的ELECTRA模型的金融领域变体FLANG;2022年底由GPT3.5推动的Transformer架构流行以来,也出现了如T5(Text-to-Text Transfer Transformer),基于GPT的PloutosGPT,FinGPT,基于BLOOM的BloombergGPT,XuanYuan 2.0,基于LLama的FinMA、Fin-Llama、Cornucopia – Chinese,以及FinTral,以及华为盘古基础大模型之上的L1金融行业大模型与L2金融场景大模型等。同时,也有相当多的金融机构在采用全量或微调方法自行训练本企业或者行业专用的垂域大模型。

然后就是大模型的金融行业应用。本文认为,现阶段,真正有效的大模型金融应用场景探索比金融垂域大模型研发重要的多。与通用大模型不同的是,垂域大模型的作用主要体现在其所能支持的专业应用场景上,否则将毫无价值。在这一方面,可以说已经在业界掀起了一股强烈的探索热潮,其中部分是在自有垂域大模型基础之上开展,部分是直接在通用大模型之上开展,并已经取得了一些可圈可点的效果。目前为止,可见并已证明可以产生实效的场景主要包括:

  • 智能客服:这几乎是所有行业最先执行并能最先产生明显效果的场景,金融当然也不例外。大家知道,在大模型出现之前的智能客服,大多还都是要基于相对固定的话术与即定规则执行,真正高体验与专业有效的客服工作还是要转人工才能完成。本次大模型热潮正是由ChatGPT在人机对话方面的震撼效果推动的,它无论在自然语言的理解上,还是对话生成上,多轮记忆能力上,可以说都达到了划时代的效果,在该方面将所有过去的真假人工智能都远远抛在了后面,可以使智能客服达到完全拟人化的效果;
  • 文档分析:文档处理与生成也是大模型最擅长的能力。通过大模型可以实现高质量的金融文档摘要、命名实体识别(NER)、情感分析,可以协助生成各种金融专业文件与报告初稿。也有采用大模型进行文档(如评测报告、投标标书)质量审核与评估的尝试,其效果也在逐渐改进中;
  • NL2SQL:这本质上也是语言类的场景,基本包括两个层次的工作:一是自然语言生成或者协助改进SQL,二是自然语言直接生成了报表或者分析的结果。第二个层次实际上是一个智能体的应用,用大模型编排规划多步的流程,然后综合调用各种工具接口实现,NL2SQL是其中比较关键的环节;
  • 大模型辅助编程:用大模型来提高编程效率,也是金融机构和广大金融科技企业正在尝试中的生产效率提升类场景;
  • 其它人机交互的改进:除了客服,人机交互的对话式场景还可以用在很多其它方面:如自然语言用户界面,技术服务与运维的智能代理,软件交互界面的自然语言化等,这些都属于对话类,本质上对客服是同一类场景。

需要指出的是,虽然上面这些场景都是大家能够最先想到的,但真正要做的很好,也不是那么容易,必须结合优质的技术架构与工具设计,模型优化,数据准备与处理,以及反复的尝试与试错,同时也不可避免的需要对所在行业与场景知识的专业性通过实操深入理解。以客服为例,可以说,即使对通用大模型什么也不做,直接使用或者简单定义一些提示词知识提示模板,也能达到一定的效果,比如百分之六、七十真人的准确度。但如果想到达到90%以上的准确率,那就必须结合专业细致的行业数据、话术抽象、切分,上下文学习/RAG使用,知识图谱的构造,人类反馈的常态化,模型的选择,模型微调中参数调优、数据质量与混合比例的调优、减少遗忘的策略设计,甚至模型结构的创新改造设计等手段综合起来,才可以达到。

虽然这些场景也需要投入相当专业的工作才可以达到比较好的实效,但可以发现,如上场景基本都可以归为一类,即人机交互方式的改变与提升,统称为自然语言用户界面也不为过。严格来讲,也还没有使大模型在金融科技或者金融业务的主体部分发生作用,例如金融科技中的数据、交易、运维体系系统性改进或改造,金融业务中的存、贷、投、保、风控、营销等产品或服务质效提升、模式变化甚至催生新业态。这正是大模型在金融行业的应用现状,即大都集中在人机交互模式的升级,还没有广泛深入到金融科技与业务的主体中,那么所谓智能金融革新的具像自然也处于较为模糊的阶段。

但由上文分析,我们还是希望并坚信大模型的能力远不仅限于此,坚信大模型能将人工智能在金融行业的应用推向新的水平,更加广泛与深入的改变金融科技与业务的现状,甚至驱动产生一个名符其实的智能金融新时代。下面我们将从大模型的应用引入原则,大模型的能力边界分析,以及具体的、更大范围的大模型金融应用场景几个方面进行论述(需要指出:本文主要讨论大语言模型LLM,以下统称大模型)。

3. 大模型的应用引入原则

大模型究竟能在哪些应用中发挥作用?这是目前探讨最为热烈、广泛的问题。有观点认为大模型的适用范围非常广,几乎可以改造所有应用,人类即将进入人工智能无所不能、无处不在的时代,大量的工作工种将被人工智能替代,甚至有一股强烈声音认为人类自己都将被AI替代与控制;还有观点则认为大模型的作用被严重夸大与炒作了,实际上大模型的主要进步还是局限在自然语言的理解与对话生成上,在其它方面并没有明显的突出能力与优势。这两种观点究竟孰是孰非呢?

本文认为,大模型的应用探索,并不需要以准确回答这个问题为前提。或者说,评判“无敌论”与“炒作论”,对大模型究竟能在哪里发挥作用,没有太多的实际意义。我们需要回答的问题是:在应用中,究竟可以在哪些地方引入大模型?对这些问题的具像回答,我们会在后文中与大家一起探讨,但本文尽最大努力所能列举出来的场景参考,肯定只能涵盖大模型可能作用范围的一部分,甚至是一小部分。因此,本文试图给出实践中大模型的应用引入原则,即如何判断究竟在哪些地方适合尝试引入大模型进行提升或改造。这里认为,相关的原则讨论比具体的场景介绍还要重要,它可以在实践中有效地指导产品或者研发的判断,从而将有限参考的作用转变为无限挖掘的支持。

  • 原则1——精耕细钻

就是说,在探索挖掘大模型应用场景时,不要停留在整个场景的宏观层面,比如:“能否用大模型实现智能决策?”“能否实现智能营销?”“能否实现智能风控”,对此类回答“是”或者“否”往往没有太多的意义。应该对要提升与改造的场景的实现流程、分支步骤的实现方法、所依赖的数据与工具等进行细粒度的分解与分析,每一步、每一点都探究下是否可以使用大模型进行提升,所谓“精耕细钻”;

  • 原则2——“人”“智”增替

那么,在实施“精耕细钻”的过程中,究竟怎么判断哪个环节适合引入大模型呢?这自然需要具体问题具体分析,很难给出一个统用的答案。但是,本文认为,以现阶段大模型的能力表现来看,倒是可以总结相对通用的原则:凡是依赖人类手工的工作,或者人类专家经验的环节,都有可能基于大模型进行智能增强或者替换,所谓“人”“智”增替。也就是说,如果有某项工作过去一直无法避免大量的人工耗费,现在大模型就很有可能大幅减少人工甚至实现完全自动化;如果有某些环节过去必须依托专家经验的亲自参与才能取得较好的效果,现在大模型就有较大概率在一定或者很大程度上替代专家经验。

总之,笼统的讲大模型适用不适用哪个场景意义不大,应该在“精耕细钻”的基础上,以人”“智”增替为原则进行判断,可以做为大模型的应用引入原则标准,从而有效地指导大模型的应用推广实践。

当然,这并不是说所有符合原则的情况都一定能通过大模型得到明显的成效,只是说这些地方值得仔细研究与尝试,但却可以帮助我们避免大量不必要的尝试。例如复杂的数学计算,分明是可以直接调用相关的软件包或接口来实现,目前看用大模型的必要性显得不是很大。另外这也只是大模型现阶段在工程实践中的应用引入原则,在科研领域,则不应该受此限制。

4. 大模型的能力边界分析

有了大模型的应用引入原则之后,还需要讨论一下大模型的能力边界,或者准确地讲是指现阶段大模型的工程能力边界,这也是有助于更进一步界定应该在什么时间、什么程度上应用大模型。需要限制在工程而非科研领域。因为大家经常会看到一些介绍或探索大模型非凡能力的文章,但有可能是在科研领域内。严格来讲,在科研领域,可以是无所不能的,但在工程实践中是否适用,实际是个问号。现在来尽量准确回答这样一个问题:大模型究竟能做什么,擅长做什么,不能或者不擅长做什么?

关于大模型的对话、文档摘要与生成、翻译、情感分析等语言型能力,属于众所周知的,本文就不再赘述了,这里从如下几个方面进行分析:

首先看一下大模型的能力擅长,即大模型比较其它特别是经典AI方法有明显优势的能力究竟还有哪些?可以重点关注几个方面:

  •  意图识别:从语言和文档中准确识别用户意图,是大模型最擅长的一项优势能力,它对基本意图、复杂多意图、摘要生成、关联识别、实体识别、个性识别、情感识别、内容解释等多方面的相关效果都达到前所未有的水平,前文所述大模型人机交互应用大多都需要基于此实现。那么,在推进大模型应用时,除了最普遍的人机交互场景之外,对每一个具体环节,首先应该分析的就是是否可以采用意图识别进行提升,例如电商平台中从大量客户评价中总结关键客户意图信息,然后再驱动回复生成,从而极大程度地降低过去用大数据方法分析海量评价的代价;
  • 行为规划:行为规划是意图识别的典型进阶能力,根据识别的意图和提取的实体,模型会规划一系列行为或步骤来满足用户的需求;可以根据用户意图和上下文信息进行逻辑推理,以决定最佳行动计划;对于多个步骤任务,能够生成完整的计划;还能根据用户的特定行为、偏好、时间设定等来制定个性化、精准的行动计划。基于行为规划,再对相关应用API、包接口、搜索等集成调用,首先是智能体Agent开发的关键,而在大模型场景适用度分析时,也应该是重点考量的能力项;
  • 时序分析:通常来讲,大模型的数字数据处理能力是不算突出的,虽然相关研究在不断进展中,在工程实践中,一般都应该避免用大模型处理数学与传统统计学领域内的问题。但是,由于时间序列数据与文本数据实际上都具有序列数据的共同特征,而理解和处理序列特征的能力正是大模型所擅长,Transformer架构已经被证明在各种时间序列任务中有效;加之大模型可以从文本数据中生成附加特征和生成描述性统计,从而对原始数据进行增强来提高时间序列模型的准确性;更有研究发现通过适当数据标记,大模型可以隐式理解时间模式。因此,用大模型对时序数据分析是值得在实践中关注的能力,它可以在相关预测、异常检测以及时序差值等需求中发挥作用;
  • 关联挖掘:从多结构文本(各种格式文档,数据库,半结构化等)以及多模态数据(文、音、视、图)中,发现与挖掘数据关联,大模型表现出较过去其它方法非常明显的优势。这包括跨模态的信息融合与统一表示,识别不同模态内容之间的语义联系,捕捉不同模态间情感的一致性或矛盾之处,从不同模态数据中抽取事件并识别关系等。在工程实践中,应该重点分析是否适合引入大模型关联挖掘能力;
  • 有限推理:大模型同样具有较为突出的基于已有知识进行逻辑推断和理解的能力,包括事实推理、常识推理、因果推理、概念理解、跨文档/模态推理以及推理中的情境感知等,从目前实践效果看,已经表现显著的优势,值得在应用中引入。但需要注意,大模型的推理能力目前为止同样也有很大的局限性,除了知识范围限制的之外(这一点可以通过后训练post-train、外挂知识库与上下文学习icl来增强),在处理复杂逻辑、深度逻辑及新任务泛化推理时,可能表现不佳,因此需要根据场景的特色仔细设计如何正确有效应用;
  • 个性推荐:结合了用户偏好和历史行为数据之后,大模型在个性化推荐方面还表现出明显的应用潜力。它能从数据中构建很丰富的用户画像,提取较深层次的物品特征,有效处理稀疏用户-物品交互矩阵,并较好地应对新产品与用户;
  • 数据增强:对已有数据进行增强是大模型的重要特性,能对现有数据集进行修改和扩展,并按需泛化进行数据生成。这一能力可以广泛应用于实践中语义变化、正确性检查、自动标注、数据类别平衡等需求环节。

关于大模型能力擅长,还有一个重要问题需要在工程实践中特别关注:即关于确定性的问题。目前看来,虽然可以结合专向微调,上下文学习icl/RAG,知识图谱等多种方法来提升大模型的准确率与确定性,也出现一些可喜的研究成果,但至今业界没有人、没有实践、也没有理论基础能保证大模型输出结果的可靠性,包括幻觉(Hallucinations)、思维连贯性与一致性,以及认知错误等。因此,原则上现阶段大模型不适合应用于必须精确或确定结论的场景!或者说在这种场景中,大模型的结果只能做为辅助人类判断的参考。例如金融行业的信贷决策、投资决策、风控决策、利率确定等等,不应该基于大模型向着自动或者无人化的方向努力;关于包含决策或者直接影响决策的文档与报告,也不应该完全由大模型来生成。

5. 大模型的金融应用场景探讨

基于如上大模型应用引入原则与能力边界的总结,现在对大模型一些可能的具体金融应用场景进行探讨。需要指出的是,正如上文所述,下面所有具体场景,都需要依据“精耕细钻、人智增替”的原则在实践中从业务、技术、产品三个角度仔细分析斟酌大模型的可适用度。并且即使是判断可适用的环节,也需要从数据准备、模型优化以及技术方法与架构设计几个角度不断结合实效调整迭代、深度打磨,才可能得到相对满意的效果。

  • 数据“智”理:金融数据治理是典型的手工与专家经验重度参与的工作,包括数据标注、补全、分类,标准的制定、落实与维护,质量异常的规则制定、发现与修正,元数据侧写、标签与血缘发现构建等等,都需要大量的人工干预。大模型在这里可以发挥较大的作用,相当程度的替代人为经验,实现高自动化水平的数据预处理、数据标准、数据质量、元数据管理等,并且可以提供潜在数据关联挖掘、数据增强与生成,以及多模态数据综合治理等升阶的能力,将金融数据治理推进到数据“智”理的层次;
  • 客户分析:从大量的客户信息、接触历史与交易行为,以及相关文音视图资料中,综合分析客户画像,偏好,给予客户某方面信息的问答式查询与总结,提供决策建议等,可以很大程度上协助全面、精准地服务客户,从而提高服务满意度、转化率与复购率。目前看,在金融客户经理相关系统中,全面引入大模型作为辅助,是一个不错的选择。产品表现形式上可以是相对独立的“数字助手”,也可以是深度融合到各项操作中的Copilot,具体情况具体分析,不需要一概而论;
  • 营销推荐:一些研究与实践表示,对客户进行金融产品的个性化推荐,大模型表现出明显优于传统机器学习或者规则引擎的能力,可以根据客户、产品资料的数据特点,已完成功能的不足与需求分析,以及所在场景的具体情况,将大模型与其它方法进行整合、集成设计,应该可以相当程度上提升营销推荐业务的水平与效果;
  • 价格预测:如前文所述,大模型在时序数据的特征提取与分析方法表现出相比LSTM、CNN以及经典统计模型不俗的能力。因此,可以采用大模型对具有明显时序特征的产品(如股票)价格进行预测。在具体实现中,一是可以充分发挥大模型指令微调与思维链推理COT方法的优势,二可以利用大模型从多模态数据(如新闻文本与视觉数据)中提取有价值的信息与结构,以作为经典机器学习方法补充;
  • 异常检测:与价格预测一样,可以使用大模型进行金融时序数据的异常检测。由于金融时序数据具有季节相关性、舆情相关性、事件相关性、情感相关性和非线性关系等高度复杂性,大模型在全面捕捉时序数据的复杂性方面相比传统统计方法具有较大的优势,并且可以明显增加自动化程度,被证明在金融时间序列异常检测中可能会变得越来越有价值;
  • 风险评估:能否用大模型进行风险评估,是值得仔细商榷的关键场景之一。由于金融风险评估一般都要求较好的稳定性、准确性与可靠性,因此大模型通常被认为是不适当的。但是,首先,大模型能够从丰富的多模态数据中提取风险评估对象的特征与关联信息,这无疑能明显增强现有风险评估与评分方法的能力;另一方面,研究表明,大语言模型在执行各种预测任务方面表现出了突出的能力,结合各种微调与知识补充方法,基于类似于“具有某种组合特征的某个个体的风险概率有多大”的提示词工程,可以得到非常不错的风险评分结果。但正如前文所述,这种方法同时也在可靠性、确定性,以及过度与自信不足、偏见等方面表现出极大的挑战,因此,采用大模型预测能力获取可靠的风险评分应该也是一个值得重点关注的方向,起码现阶段,对评分结果加注全面的解释,以作为人为判断的辅助,是完全可行的;
  • 流程自动化:通过大模型对语言意图准确识别与分解后,结合智能Agent技术,实现金融业务流程自动化,是一个相对通用的场景。可以说,经过仔细的业务分析与工程开发,大模型可以将相当多的金融业务流程自动化推进到一个新的水平;
  • 场景模拟:当然,目前处于研究热点的多Agent代理交互技术,还可以广泛用于例如信贷、股票交易对手的模拟,宏观经济活动的模拟等场景,甚至实现更加复杂的金融市场、交易与经济活动模拟,从而有效提高金融工作与决策的质效。但是,现阶段看来,该方向应该作为重点关注的研究方向,在工程中的实际使用还要假以时日。

除如上列举之外,大模型还可以在数据库查询优化(如通过学习历史模式智能生成查询计划、智能索引优化、智能缓存管理等),集群效能分析(如SQL资源占用分析、集群资源扩缩需求量化分析等),安全审计,隐私保护等等很多方面发挥作用,只要遵循上文引入原则仔细分析,其可适用的场景可以是非常广泛的。

6.  结语

大模型在金融领域的应用场景还在持续不断的探索中,这种探索首先应该遵循对场景流程精细分析,以及尽量减少人工干预的原则,同时参考大模型已被证实有效的能力边界来做决定。除了较为普遍的人机交互类场景以外,大模型可以在金融数据智理、客户分析、营销推荐、价格预测、异常检测、风险评估、流程自动化以及金融场景模拟等方面发挥不同程度作用,但如何有效的在这些场景中正确引入大模型,需要依据细粒度上下文情况,结合大模型的技术特点做仔细业务分析与产品设计。并且具体的工程实现方法,包括数据预处理、模型调优、上下文相关学习、训练技巧、技术架构、经验总结并不断迭代优化等非常关键。总之,简单停留在宏观描述层面某个场景讲行与不行,没有太大的意义。

你可能感兴趣的:(金融,人工智能)