title:
“精准社保”的赛题为“基本医疗保险医疗服务智能监控”,由参赛队完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,以进一步丰富现行医保智能监控的医保规则和医学规则,提高医保智能监控的针对性和有效性。违规行为举例如下:
(1)为了获得不当利益,部分人员从各种途径收集医疗保险参保人员的社保卡,通过社保卡到医院进行虚假诊疗,套取医保基金。(社保卡收集、套取医保基金)
(2)在门诊特殊疾病的诊疗中,部分人员通过编造病历、诊疗过程,套取医保基金。
在本次比赛中,将上述两种违规人员统称为涉嫌造假人员。选手需要基于给定的训练集数据得到模型,然后使用模型判定测试集中的人员是否为涉嫌造假人员。(编造的病例、编造的诊疗过程、被套取的医保基金、训练集数据->模型、判定测试集(决策树??)
从编造的数据中提取出造假特征。
造假人员特征,哪些是造假人员
可能的特征:
骗保金额:
1.短次大数额
2.多次小数额
药单:在药单中出现没有用到的药。
“医托”,负责制造假的诊断材料、住院收费票据
假冒印章仿真度高
question:为什么审查机构无从查证?
answer:收费票据防伪性不强 各地款式不一 审核难度大
solution: 最有效的录入数据库,比对医院数据和报保数据?全国医保信息系统亟待建立(全国联网)。
wonder:数据分析分析的是什么数据??短次大数额的能区别(高危),多次小数额需要查明禁止+惩罚。
针对骗保的法律条款:
1、投保人骗保,解除保险合同,并不退还保费
《保险法》规定,如果投保人故意隐瞒事实,不履行如实告知义务的,或者因过失未履行如实告知义务,足以影响保险人决定是否同意承保或者提高保险费率的,保险人有权解除保险合同。投保人故意不履行如实告知义务的,保险人对于保险合同解除前发生的保险事故,不承担赔偿或者给付保险金的责任,并不退还保险费。
2、投保人骗保,或构成保险诈骗罪
根据《中华人民共和国刑法》第一百九十八条规定,有下列情形之一,进行保险诈骗活动,数额较大的,处五年以下有期徒刑或者拘役,并处一万元以上十万元以下罚金;数额巨大或者有其他严重情节的,处五年以上十年以下有期徒刑,并处二万元以上二十万元以下罚金;数额特别巨大或者有其他特别严重情节的,处十年以上有期徒刑,并处二万元以上二十万元以下罚金或者没收财产:
(一)投保人故意虚构保险标的,骗取保险金的;
(二)投保人、被保险人或者受益人对发生的保险事故编造虚假的原因或者夸大损失的程度,骗取保险金的;
(三)投保人、被保险人或者受益人编造未曾发生的保险事故,骗取保险金的;
(四)投保人、被保险人故意造成财产损失的保险事故,骗取保险金的;
(五)投保人、受益人故意造成被保险人死亡、伤残或者疾病,骗取保险金的。
有前款第四项、第五项所列行为,同时构成其他犯罪的,依照数罪并罚的规定处罚。单位犯第一款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,处五年以下有期徒刑或者拘役;数额巨大或者有其他严重情节的,处五年以上十年以下有期徒刑;数额特别巨大或者有其他特别严重情节的,处十年以上有期徒刑。
保险事故的鉴定人、证明人、财产评估人故意提供虚假的证明文件,为他人诈骗提供条件的,以保险诈骗的共犯论处。
法律虽没有给小数额诈保判刑,我觉得应及那里医保信用机制,用大数据区分可能诈保任人员,再具体证实对于大数额的交给公安机关处理,小数额将诈保人加入不信任名单采取必要的惩罚措施。
比赛评选规则:
P P∩R R
目标:找到一个拟合程度比较好的算法模型。
学习其他组的方法:
人社大赛算法赛场解题思路分享+第四名+__DPS__
1.快速了解医疗保险理赔的一般业务流程以及医疗保险欺诈的常用手段
2.将在时间上冗余的记录过滤掉
3.得到了每个用户的TF-IDF特征向量,为了防止过拟合,我们选用了最简单但有效的Logistic模型,结合3折交叉验证,预测出一列新的概率值,作为新的特征
赛题数据:
赛题一共给出了5张表,包括了训练数据集、训练集的标签集、测试数据集、预测人员编码数据集、三目项目明细数据集。 其中对每张表的分析如下:
renshe_df_train:训练数据集,一共包含了72954个就诊者在2016年里的多条就诊记录。此表包含69个字段,总结下来主要包括如下几个方面的数据:个人和医院编号、药品费用信息、检查费用信息、治疗费用信息、手术费用信息、床位费用信息、材料费用信息、输血费用信息、各项补助和申报审批信息、诊断病种名称等等。
renshe_df_id_train:训练集的标签,分别对训练集中的72954个就诊者进行了是否欺诈的标注,1表示欺诈,0表示正常,其中欺诈人数有2600人。
renshe_df_test:测试数据集,一共包含了26360名就诊者在2016年里的多条就诊记录。其中表的结构和训练集保持一致。
renshe_df_id_test:只包含测试集中需要进行识别的就诊者的pid编号。
renshe_fee_detail:训练集和测试集的补充数据,对训练集和测试集中的每一条记录所包含的三目项目进行记录。其中的各个项目分别为:1——药品处方项目、2——检查项目、3——特殊门诊挂号、4——手术相关、5——住院、6——材料相关、7——普通挂号、9——其他。
特征提取:
整体维度特征提取主要是以每个就诊者的全部数据进行聚合提取特征,其中医院特征、个人结合医院特征、个人特征分别为:
医院特征:
※医院系数:通过计算每个医院的总就诊次数中欺诈次数所占的比例和总报销费用中欺诈报销费用的比例分别得到每个医院的就诊欺诈系数和报销欺诈系数。
(特征背景:发生欺诈次数较多的医院可能存在监管不严的情况,医院系数可以体现出医院发生欺诈的概率)
个人结合医院特征:
※医院系数与个人就诊情况结合:由于个人的就诊记录会对应于多个医院,个人就诊情况和医院特征进行结合时可以按三种方式进行结合:1、以个人就诊次数最多的医院的系数作为特征。2、对个人就诊的所有医院的系数进行求和作为特征。3、对个人就诊的所有医院的系数进行求和并除以就诊次数作为特征。
(特征背景:欺诈人员对于监管不严的医院有更大的偏好)
※个人就诊次数:统计每个人的就诊次数。通过数据分析发现每一次就诊会对应多条就诊记录(同一次就诊中不同的三目项目可能会在训练集和测试集中产生多条记录),于是在统计就诊次数时对于同一天在同一个医院的多条记录看成是一次就诊次数。
(特征背景:个人就诊次数如果过多其欺诈可能性就较大 )
※就诊次数与医院结合:可以统计出同一天内去两个及以上的医院的天数,一天内去不同医院的最大数。
(特征背景:如果一个人在一天内访问多个医院的情况经常发生,其行为就可能存在异常。如果一个人在一天内就诊的医院数量的最大值很大,其行为也可能存在异常。)
※就诊频率和就诊时间窗口:计算就诊的最大时间和最小时间的间隔天数得到时间窗口,用就诊次数除以时间窗口得到就诊频率。
(特征背景:如果一个人就诊频率很高,其行为很可能存在异常。)
※就诊不同医院数量: 统计出每个人就诊的不同医院的数量。
(特征背景:如果一个人去过大量不同的医院就诊,其行为也可能存在异常。)(对于票贩子一条龙服务而言,他们有固定的作假医院,没必要跑多家,这个特征打折扣)
个人特征:
※各项费用的统计:对于药费费用信息、检查费用信息、治疗费用信息、手术费用信息、床位费用信息、材料费用信息、输血费用信息、各项补助和申报审批信息、就诊总费用、三目项目等涉及到的费用进行求和,平均,求比例,求波动等统计(其中求平均是由求和除以就诊次数,求波动是按就诊次数为单位)。重要性排名靠前的费用主要为:就诊总费用(就诊总费用特征是通过各项三目项目的费用相加而得)、审批金额、基本医疗保险统筹基金支付金额、起付标准以上自负比例金额、药品费申报金额(大金额的)。
(特征背景:欺诈核心目的是骗钱,费用高低和欺诈发生的几率相关性很大。)
※窗口期内平均每天费用特征:前期利用gbdt的特征重要性评估,挑出较为重要的特征:就诊总费用、药品数量、药品费用、审批金额、基本医疗保险统筹基金支付金额、药品费申报金额等除以时间窗口得到窗口期平均每天费用特征。
(特征背景:计算窗口期内平均每天的费用,体现出了单位时间内费用的高低,减少时间窗口对费用的影响。)
※个人病例特征:由于出院诊断内容杂乱无规则,名称不统一,前后并无逻辑性,缺失值较多,综合以上因素决定用人工建立词集的方法对特征进行提取。主要步骤为:1、对欺诈和非欺诈用户分别根据诊断病种名称分组并进行排序。2、通过对排序列表的分析,可以人工建立出病种名称词集,并且可以覆盖到大部分的用户诊断病例。3、对每个就诊者,利用词集里的病种,分别统计出每个病种出现的次数作为病例特征。
(特征背景:某些疾病可能更容易伪造,或者是骗取到的药品费用更加高昂,使得欺诈者更倾向于对某些疾病进行伪造。)
※药品处方特征:药品处方特征的情况和病种特征类似,但是在建立词集的时候由于药品种类繁多不能兼顾到所有药品,因此只提取出现频率前24种药品作为特征。(在之后特征重要性分析中发现药品特征重要性较为靠后,所以没有进一步加入更多药品词集的必要。)
(特征背景:某些药品可能更加容易报销,或者是价格更加高昂,使得欺诈者倾向于开这些药。)