ETL使用Kettle处理银行信用卡申请项目

一.项目概述

        对当天申请信用卡人员进行信息校对,对不符合人员进行风险标注,无风险人员信息根据所在地区进行分表、交付

信息来源:

1.web端:银行网页申请 | 2.移动端:网银、手机银行 | 3.三方:各类门户网站、手机APP |4. 柜台:人工柜台、ATM、CRS | 5. 业务员:地推

主表预览:

 信息清洗流程:

信息获取→信息输入→信息去重→代码信息替换→添加/补充 对应信息字段→风险备注→重制信息表→根据实际 需求/情况 进行 表 / excel / sql / csv 输出

四.数据清洗目的:

(1 业务员对部分数据信息不理解,去掉无用数据

(2 分析部门/风控部门 进行数据分析,进行风险分析与风控,确认是否符合发卡要求

五. 风险备注:

对申请人员所填写信息不符者进行风险评估,并进行风险备注,申请人员哪一项出现风险信息,在备注中进行说明

*年龄风险:根据身份证信息进行年龄校验,不符者进行风险备注

*户籍风险:根据身份证信息进行户籍校验,不符者进行风险备注

*地址风险:根据地区信息,无法验证者,进行风险备注

*学历风险:硕士学历<22岁,博士学历<24岁者,不符者进行风险备注

*工资风险:年薪>20W者,进行风险备注

*性别风险:根据身份证信息进行校验,不符者进行风险备注

六.分表:

1.分析部门/风控部门:无风险标注信息与风险标注信息

2.业务员:按地区分表→业务员(地区)→核发办卡

七.数据出口:

组长 或 科室经理→分析部门/风控部门→业务员

身份证信息解读:

1.第一、二位表示省:自治区、直辖市、特别行政区

2.第三、四位表示市:地级市、自治州、盟及国家直辖市所属市辖区和县的汇总码,其中,01-20,51-70表示省直辖市;21-50表示地区(自治州、盟)。

3.第五、六位表示县:市辖区、县级市、旗,01-18表示市辖区或地区(自治州、盟)辖县级市;21-80表示县(旗);81-99表示省直辖县级市。

4.第七位到第十四位是生日期码,表示编码对象出生的年、月、日

5.第十五位到十七位是顺序码,地址码所标识的区域范围内,对同年、月、日出生的人员编定的顺序号。其中第十七位奇数分给男性,偶数分给女性。

6.最后一位是校验码,是由号码编制单位按统一的公式计算出来的。

7.Ⅹ是罗马数字的10,用X来代替10,可以保证公民的身份证符合国家标准

二.项目准备

项目文件检验并做适当记录,时刻准备补录:

1.分析主表次表之间的关系,可写sql语句统计数据

2.根据数据量选取合适的抽取转换方式

比如替换主表某字段序列号对应次表的数据,并输出主表

根据不同的项目选择不同的方式:

1.excel中选择列 >>>ctrl+f>>>替换(P)>>>查找内容设置为代码号>>>替换为要替换的数据>>>搜索(s)[ 按列 ]>>>全部替换

2.sql查询语句:select b.类型 from 总表 a join 数据匹配的表 b on a.字段(类型) = b.字段(代码);

3.sql建表语句:将表转换sql语句,进行批量替换,最后运行sql

4.kettle:值映射+修改类型

5.连数据库:2个表 表输入+分别排序+记录连接+字段选择+excel输出

7.数据库查询+映射子转换

...

根据项目需求,逐步运行验证,适当建立映射规范

如下图为建立公司所在地映射规范,以下我对比地图摆放,注意(先完成再完善)

ETL使用Kettle处理银行信用卡申请项目_第1张图片

其中运用Switch/case对主表数据进行匹配

ETL使用Kettle处理银行信用卡申请项目_第2张图片

数据库查询与主表取得联系

ETL使用Kettle处理银行信用卡申请项目_第3张图片

设置映射规范输入:将主处理表传输的字段写入其中

 工程处理总主表:

ETL使用Kettle处理银行信用卡申请项目_第4张图片

 进行替换后使用字段选择提取需要修改的字段,如更新名字,或移除然后将处理结果放入新建的excal输出进行比对验证,如果没问题进行下一步

身份证号对应要提取转换的数据如下:

ETL使用Kettle处理银行信用卡申请项目_第5张图片

设立增加常量并将步骤更名为增加年份,此步骤主要是为了验证身份证出生日期与设置此年份的差值得出的年龄与填写是否一致

ETL使用Kettle处理银行信用卡申请项目_第6张图片

 进行相减计算ETL使用Kettle处理银行信用卡申请项目_第7张图片

 使用映射值,将身份证第17位(倒数第2位)进行性别比对,以验证性别风险用

ETL使用Kettle处理银行信用卡申请项目_第8张图片

下一步数据库查询将身份证前6位与次表进行比对,以验证后续地区与填写地区是否一致

ETL使用Kettle处理银行信用卡申请项目_第9张图片

 根据过滤记录进行条件筛选,将符合条件的输出到true表中,不符合输出到false表中

如判断年龄风险,是否一致

 ETL使用Kettle处理银行信用卡申请项目_第10张图片

 增加常量,以进行风险标注ETL使用Kettle处理银行信用卡申请项目_第11张图片

判断户籍有无风险,是否一致

 ETL使用Kettle处理银行信用卡申请项目_第12张图片

判断地址-区有无风险,是否不存在

 ETL使用Kettle处理银行信用卡申请项目_第13张图片

判断街道有无风险,是否不存在

 ETL使用Kettle处理银行信用卡申请项目_第14张图片

判断学历有无风险,是否不合理,如虚报需进一步处理

ETL使用Kettle处理银行信用卡申请项目_第15张图片

判断工资有无风险,根据当地平均水平划分标准,对超过水平进行风险标注核实

ETL使用Kettle处理银行信用卡申请项目_第16张图片

 对性别确认,是否有虚假性别

 ETL使用Kettle处理银行信用卡申请项目_第17张图片

 全部处理完输出即为全部无风险的表

 ETL使用Kettle处理银行信用卡申请项目_第18张图片

被划分有风险的可以输出到风险表中

 END

你可能感兴趣的:(Kettle,数据库,etl,sql)