基于知识图谱的小微企业贷款申请反欺诈方案
金磐石1, 万光明2, 沈丽忠3
1 中国建设银行股份有限公司,北京 100033
2 中国建设银行金融科技部,北京 100032;
3 建信金融科技有限责任公司厦门事业群,福建 厦门 361008
关键词:反欺诈 ; 企业画像 ; 关联图谱
论文引用格式:
金磐石, 万光明, 沈丽忠. 基于知识图谱的小微企业贷款申请反欺诈方案. 大数据[J], 2019, 5(4):100-112
JIN P S, WAN G M, SHEN L Z.Knowledge graph-based fraud detection for small and micro enterprise loans. Big Data Research[J], 2019, 5(4):100-112
1 引言
随着我国经济发展步入新常态,小微企业快速发展,并逐渐成为我国市场经济中较活跃的主体。据相关数据统计,目前我国约有近1亿户小微企业,这些小微企业广泛分布于实体经济的各行各业。作为经济发展和社会稳定的重要支柱,小微企业在促进人才有序流动、维护市场活力、推动科技创新等方面发挥着不可或缺的作用。然而相对于大中型企业而言,小微企业在市场竞争中仍处于弱势地位,融资问题导致其很难保证经营的稳定性与持续性。
银行贷款是企业融资的重要手段,为缓解小微企业的经营压力并满足强烈的融资需求,商业银行的小微贷款业务逐步扩张,各类信贷产品应运而生。截至2018年第三季度,小微企业在银行机构的贷款总额达33.04万亿元,贷款授信户数超过1 800万户。但由于小微企业在提供自身资讯上的天然弱势,“不透明”“内部化”的非对称数据信息使得银行难以在业务申请阶段把控小微客户实质性的信贷风险,对小微企业信贷产品的管理比大型企业也困难得多。如今,欺诈风险已经成为消费金融业务面临的主要风险之一,反欺诈也对银行的风险控制技术提出了更高的要求。科学合理地进行小微企业贷款欺诈风险管理已经成为商业银行亟须解决的问题。
小微企业贷款业务是近年来兴起的一种贷款手段,由于其“新”的特征,在金融行业内对小微信贷欺诈尚没有一个通用的定义。商业银行在信贷申请欺诈风险的防范工作方面已经积累了很多经验,但是当前的工作多为面向大中型企业或面向个人信贷的反欺诈方案。不论是较为原始的黑白名单甄别、实现自动决策的规则引擎,还是基于人工智能技术的风险量化与无监督的欺诈模式识别,反欺诈的分析和度量技术在小微企业领域仍在探索的过程中。
为解决以上难题,本文针对小微企业的信贷业务特点提出了一种基于全方位企业画像与企业关联图谱的贷前反欺诈模型。该模型从企业自身、企业实控人、企业干系人以及企业网络关系图谱四大维度提取特征,然后在金融行业知识的辅助下,通过数据挖掘、特征筛选等方法定义多个欺诈场景,并利用LightGBM分类器对欺诈进行概率推断。相比传统的信贷欺诈分析模型,本文方案将关系型信息和企业节点自有属性信息有机地结合,能够有效地挖掘小微企业与欺诈目标的非线性关系,有助于全面、有效地在申请阶段评估小微企业的欺诈风险状况。相比于传统的企业风控反欺诈,本文方案的创新点如下。
● 针对小微企业信息不对称的特点,整合多源数据集,在提取企业自身特征的同时,利用其关联实控人及相关干系人的基本信息与征信状况生成全方位企业画像,更加完善地刻画小微企业可能存在的信贷风险。
● 结合图知识和金融行业知识,挖掘欺诈场景,通过分析小微企业命中欺诈场景的情况,输出欺诈概率。
● 挖掘并构建企业与企业间的关联信息,建立企业关联图谱,有利于识别出异常的欺诈行为。
● 归约掉图谱中的非企业节点,将复杂、庞大的异构关系网络折叠为仅保留小微企业实体的同构网络。这既解决了网络存储的开销问题和网络特征提取的计算复杂度高的问题,又能够隔离无关节点的干扰,直观地呈现企业之间的联系。
● 使用 LightGBM 分类框架,采用有监督学习模式在构建的关联图谱上进行基于节点自身属性特征与网络特征的欺诈概率预测,从关系和实体属性两个角度共同进行欺诈评估。
2 相关工作
2.1 企业传统信贷反欺诈
有监督学习是当下反欺诈检测中应用广泛的机器学习方法,能够基于历史数据(即已知的欺诈申请和正常申请)建立分类模型,输出欺诈概率,更好地量化欺诈风险。该方法收集客户申请信息并将其作为训练集,训练出的机器学习模型通过对用户特征的抽象理解,分析特征间的隐藏关系,填补并增强规则引擎无法覆盖的复杂欺诈行为。业界常用的模型算法包括逻辑回归、决策树、支持向量机、XGBoost和神经网络等。
2.2 基于关联图谱的信贷反欺诈
在反欺诈场景中,除了考虑单一信息点的属性,企业间的隐藏关联往往包含更多未知的潜在信息。因此,企业信贷欺诈的识别问题也可以转化为企业关系图挖掘或社交网络分析问题。基于知识图谱的信贷反欺诈旨在将多源异构的数据整合成机器可以理解的知识,将“单点”的信息转换成“平面”的相互关联的图谱,进行异常风险检测,从而实现欺诈的识别与防御。
基于构建好的知识图谱,可以使用半监督或无监督的方式进行异常子图挖掘、社群发现或标签染色。除此之外,对网络特征(包括中心度、一度二度关联特征)的直接提取也可以供各类有监督风险评估模型使用。另外,随着深度学习算法的普及,知识图谱的关联分析引入了网络嵌入这种图表示学习的思想。在尽量保留网络信息的前提下,根据图谱中的拓扑关系,用低维向量表示每个节点与其周围节点的关联特性。作为一种表征学习的方法,图嵌入可以解决图数据的高维度、稀疏性等问题。经过向量的表征后,再利用大量算法进行边的预测、分类、聚类。
2.3 小微企业信贷反欺诈的难点
尽管商业银行在反欺诈方面已经展开了较多尝试,但是针对小微企业贷前的欺诈识别仍处于探索阶段。其难点主要集中在以下方面。
(1)小微企业信息透明性差
小微企业与传统的银行贷款业务有很大差异,如果采用无差异化的风控模型和放贷标准,绝大部分小微企业无法通过审核。具体地,对于传统的中大型企业信贷业务,银行通常采用申请评分卡(application score card)的方式决定是否放贷以及贷款额度。这样的方式对企业申请贷款时提交信息的完整性和真实性有极高的要求,如果信息造假或者有缺值,评分卡方式很难准确判断企业的信用情况。中大型企业通常采用标准的财务审计制度,经营信息也相对透明,是可以通过评分卡的方式授信放贷的。但是对于小微企业而言,其经营规范性差、信息透明度差,评分卡的方式在很大程度上并不适用于小微信贷业务。
(2)银行与企业之间信息不对称
银行与企业之间的信息不对称与欺诈标签的定义对有监督学习提出了挑战[1]。由于小微企业缺乏规范的财务报表和税务审计信息,经营透明度差,银行难以掌握小微企业的真实状况,无法全面刻画客户特征,从而进行风险评估。此外,由于银行针对小微企业推出的大多贷款业务开展时间不足一年,对于欺诈标签的定义尚不明确,真实欺诈标签的严重不足阻碍了模型对欺诈特征的学习与把控。
(3)图嵌入模型可解释性有限
基于知识图谱的方法能够捕捉到企业间的关联,利用这些关联,可以得到全新的反欺诈分析。金融反欺诈实践中常用的图谱均为异构图谱,即网络中的节点与边涵盖多种类型,这加大了图特征提取以及图嵌入方法选择的难度。以某金融机构信用卡申请关系图谱为例,个体类型包括申请人的IP地址、设备、账户联系人等,个体之间也存在不同的关系,如IP登录行为、设备登录行为等。尽管一些网络特征指标在实际反欺诈实践中效果非常显著,但由于反欺诈对实时决策的高需求,这些指标都需要迅速地计算提取。节点的中介中心性、集聚系数等指标存在较高的计算复杂度,如果不采取一些近似的算法并进行预计算,难以满足实施决策的业务需求。基于深度学习的图嵌入算法的选择同样受到异构网络的局限,大多网络嵌入方法(如Perozzi等人提出的DeepWalk、Grover等人提出的Node2vec、适用于大规模信息网络的LINE)仅适用于同构网络的表征学习。而2017年由Dong等人提出的Metapath2vec虽然对DeepWalk进行了扩展,使用基于元路径的漫游捕获不同类型节点之间的关系,进而解决异构网络的学习问题,但其网络嵌入可解释性有限,无法对任务决策做出解释。
(4)孤立企业信息难以利用
尽管现有的反欺诈方案可以分别从孤立的企业信息或整体的企业网络结构来甄别欺诈,但是还没有一种明确的方案同时从这两种维度着手。如何有效地处理并综合利用这两种信息,使二者相互辅助共同发挥作用是当前小微企业反欺诈着重关注的问题。
3 小微企业贷款申请反欺诈方案
在有监督机器学习预测分析中,信贷反欺诈的目标变量是既定的欺诈标签。在关系图谱的学习中,目标是在给定的网络中寻找高风险的欺诈模式。如果将二者结合,则需找出合适的方式在一组特征中概括网络,然后将这些特征与非网络(即节点属性)特征相结合进行预测,从而得到特定节点的欺诈概率。本文提出了一种解决方案,采用有监督的学习方法,从构建企业关联图谱入手,整合多个数据源,全面捕获企业的独立属性与企业间的隐藏联系。在构建图谱时,将多维度的企业特征作为节点属性,并将复杂的异构网络归约为仅保留申请贷款企业的同构网络,既使企业关系可以直观展现,又能降低图谱的存储空间与网络特征指标的计算成本。最终将节点属性与网络特征共同输入LightGBM分类模型进行欺诈预测。方案整体模型架构如图1所示。
图1 模型架构
3.1 小微企业信贷欺诈的定义
3.2 建模粒度与标签定义
本方案以企业为粒度进行建模,后续网络的构建与特征工程都将围绕每一家待预测的小微企业展开。此外,由于反欺诈模型的构建仍采用有监督的学习模式,明确欺诈的定义是保证模型预测效果的前提。如第2.3节所述,由于历史数据中缺少对企业欺诈的准确描述,本方案将根据银行内部及相关部门披露的企业及企业干系人在2018年1月到2019年3月的严重违规记录建立欺诈标签,并将该标签作为目标变量。相关企业和个人严重违规数据包括银行内部欺诈系统中的名单以及行政违法记录黑名单 。
3.3 图谱构建与特征提取
3.3.1 数据准备
为获取小微企业的全面信息,本方案用到的数据不仅来源于银行提供的企业数据、个人客户数据,还通过关联外部第三方数据形成具体的企业画像。数据的抽取可分为实体、属性的抽取以及关系的抽取。抽取范围确定在企业贷款申请时间处于2018年1月到2018年12月且有还款表现的企业中。
小微企业申请贷款的原始数据存在于多张数据表中,经过字段清洗、合并等预处理后,将数据存入SQL数据库中。本文方案的输入数据通过直接查询数据库获得。数据准备完成之后,按照预定义的键值处理方法对不同的数据类型进行规范化处理,例如:对于个人信息中的身份信息,使用“01”代指企业实控人,使用“02”代指股东、高管等其他企业干系人 。
(1)实体和属性抽取
以企业为粒度进行建模,即实体是企业。对企业及其主控人、干系人的数据信息进行属性提取。
企业信息数据包括如下内容。
● 企业基础信息:企业技术编号、注册地址、行业分类、法人信息等。
● 企业工商类数据:企业注册日期、工商信息变更次数、法人信息变更次数等。
● 企业存款数据:贷款余额、存款余额、存款月积数等。
● 转账数据:半年内转出次数及金额、半年内转入次数及金额等。
● 征信数据:企业黑名单、企业第三方征信等。
实控人与干系人信息数据包括如下内容。
● 个人基础信息:年龄、学历、职务、婚姻状况、子女状况等。
● 个人存款数据:存款时点余额、时点个人资产管理规模、一年内申请贷款的次数等。
● 征信数据:个人黑名单、个人征信等。
(2)关系抽取与实体归约
构建知识图谱的前提是建立节点间的关联,而关联的定义需要依据业务需求,并且极为复杂。本文结合业务逻辑,将企业间风险较高的关系进行罗列并汇总为5类:企业与个人的对应关系(如控股关系)、企业干系人与企业干系人的对应关系(如亲属关系)、企业与相关属性的对应关系(如企业共同联系方式)、企业干系人与相关属性的对应关系(如干系人共同联系方式)、企业与企业的对应关系(如企业担保关系)。
具体关系见表1。表1中建立的原始企业关系涉及多个信息来源,不同的来源对节点和边处理差异很大,由此导致了数据异构、碎片化问题,关系中包含多个实体类型。这些非企业实体在关系的构建中仅作为连接企业节点的媒介,而非网络结构分析的主体。异构网络信息种类敏繁杂,很难从中提取到有用的信息。因此,保证整体企业关系网络同构,实体统一可使网络特征的提取更高效。因此,本文在构建出以上所有关系后,将关系两端的节点限定为企业,并将关系中与考察实体无关的其他类型节点(如干系人、联系方式等节点)进行折叠归约,减少无关节点的干扰,保证每条关系最终对应到企业本身。
3.3.2 同构网络关系图谱构建
图2 企业关系图谱子图
3.3.3 节点属性特征构建
3.3.4 网络特征构建
3.4 图数据的存储和维护
3.5 算法选择
4 实验及结果
实验阶段将分别建立两种分类模型。模型1为基础模型,单纯使用节点属性,不考虑网络结构特征。模型2在使用节点属性的基础上,引入基于关联图谱提取的节点邻居欺诈比例这一额外特征共同训练。两种模型均使用LightGBM算法框架在相同训练集上进行模型训练,并在相同测试集上进行评估,旨在探究融合网络结构特征后的欺诈模型是否对单独的节点自身属性欺诈模型的预测效果有所提升。
4.1 实验设定
4.1.1 数据集划分
4.1.2 网络特征处理
直接运用以上划分方式对数据集进行切割并单纯使用节点属性建模,是符合逻辑的,但当加入图谱网络的特征时会出现一些问题。其中与传统机器学习模型中经常做出的假设相违背的一点是数据特征的非独立同分布(independently identically distribution,IID)特性。在关系图谱中,节点之间的相关行为意味着一个节点的标签信息可能会影响其相关节点的标签信息。因此在对每个节点进行网络特征提取时,模型训练集和测试集的划分势必会因为整个网络的互联特性而受影响,难以实现完全独立的分割。即使本文假定所构建图谱中节点间的关系是全感知的,且在一定时间范围内不会发生变化,图谱中的每个节点的标签在真实应用场景中也不一定都是已知的。因此,本文在划分完训练集与测试集后对节点周围邻居欺诈比例这一特征进行计算时,如果某节点的邻居来自训练集,那么其标签被设为已知,直接加入特征计算过程中;如果来自测试集,那么标签被设为未知(NA),以此避免关系型特征带来的干扰。
4.2 模型训练与参数选择
4.3 评价指标
反欺诈的业务场景中数据的不平衡程度很高,因此应选择对数据倾斜敏感度较低的指标对模型表现进行客观评价。本文选择AUC以及KS值对模型效果进行评价。AUC与KS值均基于真正率(TPR)和假正率(FPR)计算得出。AUC值表示用不同阈值下TPR与FPR连成的ROC曲线下方的面积。AUC值越高,模型对于正负样本的区分能力越强,效果越好。KS值表示TPR和FPR的最大差值,反映的是模型的最优区分效果,KS值对应的阈值可作为区分好坏用户的最优阈值。
4.4 实验结果
第一组实验将企业节点的自身属性输入模型并进行训练,全部特征数目为60,涵盖了筛选过后的企业自身属性、企业唯一实控人属性以及企业其他干系人属性。第二组实验除了用到以上60个全部特征,还加入了当前企业关联周围邻居节点欺诈申请的比例,共计61维。比较两个模型在测试集上的表现,模型效果对比如图3所示,模型性能表现见表3。
灰色和黑色两条曲线分别代表是否加入网络特征的模型的表现。其中引入网络特征的模型(AUC为0.844)对欺诈样本的区分能力明显好于仅使用节点属性的模型(AUC为0.791)。其在测试集上的AUC值提升了6.7%,KS值提升了24.7%。
除了模型表现的比较,模型对结果的可解释性同样确保了整个银行贷款业务的风险可控。由于LightGBM本质上采用基于决策树算法的梯度提升框架,在模型训练的过程中会根据特征的信息增益来分裂叶子节点。因此,可将其作为特征重要性信息,以评价不同特征对欺诈风险预测的贡献程度。图4列出了模型2中重要性排名靠前的特征。可以发现,企业邻居的欺诈比例对模型判断企业欺诈风险的影响最大,企业地理位置、企业存款信息位列其后。同时,在排名靠前的特征中出现了企业实控人与企业干系人的相关属性,证明了建立完整的企业画像在全面考量小微企业申贷风险时的重要性。
5 结束语
本文针对当前小微企业信贷反欺诈的痛点,提出了一种基于企业画像与企业关系图谱的有监督学习解决方案,实现从孤立的企业实体欺诈风险到全局网络风险的把控,为反欺诈实践提供了新思路。通过对比传统的信贷反欺诈风控方法,可以明显地看到本文方法为孤立的企业画像引入网络特征的优势,也能够更准确地刻画申贷小微企业与欺诈目标之间的非线性关系。在当前普惠金融的大市场环境下,该方法可在一定程度上解决小微企业贷前反欺诈的风控难题,帮助银行提供更加高效、可靠的金融服务。
作者简介
金磐石(1965- ),男,中国建设银行股份有限公司信息总监,主要研究方向为数据处理领域技术研究与应用、人工智能领域技术研究与应用等。
万光明(1974- ),男,中国建设银行金融科技部高级工程师,主要研究方向为应用架构管理、人工智能方向架构管理等。
沈丽忠(1978- ),男,建信金融科技有限责任公司厦门事业群大数据平台架构师,主要研究方向为数据挖掘、分布式存储、分布式计算、流计算、数据分析等。
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。
关注《大数据》期刊微信公众号,获取更多内容
往期文章回顾