反欺诈数据挖掘技术在医疗保险业的应用

一、项目背景

最近的新闻中都是用户在看似正常的消费或取款后，发现自己的卡却被盗刷了，这种现象就是欺诈交易。欺诈交易是存在于银行、保险、证券等各行各业的危害现象，给人们经济、生活带来较大损失和威胁。作为世界难题，发达各国纷纷辅以了强大的信息化管理系统,通过数据挖掘和人工智能辅助侦测、识别和评估欺诈交易，有效提高了反欺诈技术手段。

CRISP-DM，即跨行业数据挖掘标准流程（如下图），是迄今为止最流行的数据挖据流程参考模型。图中所示的各个大小节点之间的关联会有循环和粗略不一，过程并不是重点，关键是数据挖掘的结果最终能嵌入到业务流程，以提升业务效率和效益。

CRISP-DM和SPSS自有开发的SPSS Modeler契合度非常好, 支持严格设计、半试验研究、偏智能化的三大统计方法论,是全球最为出色的统计软件之一.本次以SPSS Modeler18为建模工具，利用非真实的医疗保险业数据（投保人信息、医疗机构信息表、索赔信息表、医疗诊断与处理信息表）作为内部业务数据、非真实的小额贷款数据作为第三方客户数据源，进行欺诈交易发现的数据挖掘建模和分析, 也相信于其他行业具有借鉴意义。

在CRISP-DM的商业理解阶段，首先对企业进行拥有资源、需求、风险、成本收益的形势评估，以便对数据挖掘目标的进行确定。

业务梳理的医疗保险欺诈风险分析如下：

1）国内医疗保险欺诈表现形式

主要有 : 冒名顶替 ( 即就医资格作假) ; 病因作假 ( 将非医保支付病种( 如车祸、工伤、打架斗殴、自杀等 ) 改成医保支付病种); 夸大损失; 票据作假; 医疗文书作假; 住院床位作假( 即挂床住院 ) ; 编造虚假住院、门诊特殊病等有关资料“骗保” 。

2）欺诈的主体

在“第三方付费 ”的制度下 ,医务人员和被保险人可能合谋欺诈保险机构。

主要有三个角色：投保人、医疗机构、保险公司，发生欺诈的可能性来源有投保人、医疗机构。结合业务特征整理数据挖掘的目标和思路方向如下：

数据异常检测；

对投保人进行分类研究，使用用户画像，并结合外部数据对已有和潜在的客户进行欺诈评分预测；

对医疗机构信息的分类研究；

医疗索赔检测。

声明：鉴于篇幅，本篇概为总揽，对具体的思路、算法将在今后做专题。

二、数据与模型分析

2.1数据异常检测

不少数据异常情况从业务逻辑来说是一件可以凭借经验直接判断的事情。比如某客户的索赔频率和额度在一段时间大量增加、投保人的支付金额和投保人医疗费用数据大小关系异常等，都可以视为疑似欺诈，相关过程不做技术展示了。

Benford定律和anomaly detection是审计、证券等行业运用比较广泛的异常监测方法。所谓异常检测就是发现与大部分对象不同的对象，其实就是发现离群点。我们可以同时多种异常检测方法来提升发现欺诈交易的命中率。Benford定律的是个有点趣的定律，揭示了海量数据中首位数字分布特征：数据的第一位数字数字越大，出现的频率越低。通过聚类建模，以医疗机构编号、支付金额、索赔笔数等为输入变量：

我们可以得出当索赔阙值大于50 、聚类的距离阙值大于0.2的机构疑似欺诈报告：“医疗保健机构编号:10083642887,医疗保健机构细类: psychology,医疗保健机构索赔索赔数量 58”和“医疗保健机构编号: 10085843968,医疗保健机构细类: med trans,医疗保健机构索赔索赔数量 71”。

为扩大异常数据搜索范围，利用专门的异常检测方法Anomaly建模：

得到如下表中异常偏离指数大于1.5、Anomaly标记为“T” 的疑似欺诈投保人名单：

通过查看模型的结果，表中也展示出导致该条记录被视为异常值的3个最重要影响因子及影响指数，可以轻易看出包括DIAG诊断、Procedure处理过程、MEDcode医疗措施在内的因子是导致疑似欺诈的重要因素。

经过欺诈部门审核完毕,可以比较两种算法的命中率。

2.2投保人的欺诈分析

包括：聚类迁移，欺诈评分，用户画像。

2.2.1客户的聚类迁移

通常来说，在较短时间内，不论是机构还是个人的状态、行为模式是较稳定的，不会发生太大的变化。如果对投保人所做的聚类细分，在一年甚至半年内有客户变换所在细分群组的话，可以提交疑似欺诈报告。聚类建模挑选几个关键输入变量（参考RFM模型），比如支付金额、支付笔数、保险条款分别对第一年和第二年进行聚类建模并作群组变换的标记，可以得到疑似欺诈名单。

在对客户的聚类分析中，可以发现一些记录数量很少的群组，在营销活动中常常被忽略，但在欺诈发现中却是值得引起注意的一个异常行为类群。

2.2.2欺诈评分：单分类器和集成学习（Ensemble Learning）

个人信用体系建设在发达国家已经非常成熟，众所熟悉的银行业就涉及到信用审批，额度确定，以及反欺诈等专业的应用。美国银行业中每年八千亿美元的刷卡量中仅造成一个亿左右的损失，占总量的约0.02％，其成熟发展的数据挖掘技术成果斐然。

欺诈评分可以主要分三个步骤:变量转换,生成logsitic回归模型和评分转化。样本随机地分成两部分：一部分用于建立模型，另一部分用来对模型进行检验。变量的Bining(分箱)处理实际上对数据是有一定损失的，但出于以业务服务为出发点的需求，必须考虑到分箱变量对于业务人员来说更方便使用和理解。

输入logistics回归模型的是各个（分箱）变量的WOE值(weight of evidence) 。Woe值的计算公式：WOE=ln（好客户占比/怀客户占比）*100。

变量转换包含以下步骤：

1）剔除冗余变量（相关系数较大的变量保留其一即可）;

2）对连续变量的Bining处理和离散变量的类别归并处理；

3）IV值的计算和WOE值的计算，为提升预测能力，尽量筛选IV值大于等于0.02和小于等于0.05的变量。

上图是变量转换数据流的模型和输出的一部分，可以看出第一次输出表格，作为离散变量的信用卡数据还可以继续计算其违约率进行转换分类。

逐步法进行logistic回归建模后，还要利用统计方法对回归系数进行评分转化，评分转化步骤涉及到一个量表编制的业务量化过程，暂不详述。预测模型的检验可以用roc、k-s指标法等，评分卡检验需要反映出哪个分段是区分最大，选择ks指标法：

一般，KS>0.2即可认为模型有比较好的预测准确性。

回归是单分类器的基本常见算法之一，还可以用决策树C5.0建模。

查看C5.0模型可以得到客户发生欺诈的8条规则，根据这些规则可以了解发生欺诈交易之前的若干显著特征，从而发现客户的欺诈征兆，及早进行防范。在规则1中，可以看到年龄在27岁以下、持信用卡类型为“支票”、国籍是希腊、南斯拉夫的客户是发生欺诈交易的高风险的客户群之一。

单分类器虽然在过去广泛运用，但存在明显的不足。近些年来美国银行业大量采用了树形算法家族，目前接触较多的集成学习主要有2种：基于Boosting的和基于Bagging，新近的还有梯度递增树算法。这些集成学习方法避免了变量间的相互依存性问题，而且预测分析能力也逐步增强，适用范围广，在反欺诈和其他一些领域被证明效果非常好，是我们专业人士关注的方向。

Boosting算法的主要思想是在T次迭代中，每次迭代对分类错误的样本加大重采样权重，使得在下一次的迭代中更加关注这些样本。这样训练的多个弱分类器进行加权融合，产生一个最后的结果分类器，提高了该弱分类算法的准确率。我们使用boosting 设置50棵决策树迭代：

建模及结果：

2.2.3用户画像

近年比较热的用户画像，为的是公司追本溯源对客群有更多感性的认识，辅助市场部进行精准营销，并利用内部数据和外部（第三方）数据建立起大规模的数据仓库体系，成为公司的核心价值资源。用户通常具有人口统计学，社会群体特征，金融业务特征、个人兴趣爱好等等几大标签体系。通过对用户画像的研究，搭建客户的各类标签体系，可以帮助我们分分钟认识客户。

一般来说,银行具有丰富的交易数据、个人属性数据、消费数据、信用数据和客户数据，用户画像的需求较大也实践较早。目前很多社交兴趣爱好等信息来自于第三方补充。保险行业的产品是一个长周期产品，保险客户再次购买保险产品的转化率很高,对用户的画像也会是一个必要的过程。

根据业务经验和集成算法理论(当数据集较大时，可以分为不同的子集，分别进行训练，然后再合成分类器)，像银行业、电信业等大型公司的客户数据，我们可以首先根据客户价值(长尾理论)的高低分类，再分别对高价值客户、中低价值客户等建立可能不同类型的模型以实现更好的分类效果。针对每次不同而丰富的营销业务需求，第一步先从庞大的客户标签体系中构建出的标签特征子集，再通过进行LR（RANKING MODEL）等计算标签影响因子，进行标签的权重赋值，所得排名靠前的标签就是此项业务人员所需了解的目标用户的画像了，同时也能较准确地为市场部提供相应的营销客户名单，大大提升业务效率。

假定开头使用的anomaly数据异常检测结果为真实，增加投保人信息表中的客户属性:“是/否发生欺诈”并按结果分别标记，使用k-Means建模并输出各聚类群组的欺诈比例，查看得出结果报告：

从输出结果中，对于欺诈比例较高的的聚类，我们可以重点考察他们的群组特征标签，spss modeler中可以直接察看聚类特征的比较情况，得出聚类7的模型特征描述如下，实现了分分钟便认识欺诈交易的陌生人。

2.3医疗机构的分类研究

医疗机构的分类研究同样可以首先使用聚类迁移分析方法（同上投保人的聚类迁移法），国外的反欺诈技术已经深入结合到各机构的管理过程中了，并取得良好成效。

2.4医疗索赔的检测

医疗服务过程在各机构的处理方式上，通过人工审查欺诈是一件比较有难度和成本的事情。结合临床路径的概念和经验，借助数据挖掘技术建立模型，自动识别每一项特定医疗服务的系列特征，如防射疗程、化疗疗程度等，是推动医疗保险业欺诈发现重大进展。国内也开始了更多深入的研究与应用。

三、总结

反欺诈数据挖掘技术在医疗保险业的应用

你可能感兴趣的:(反欺诈数据挖掘技术在医疗保险业的应用)