类型
|
数据类型
|
漂白方式
|
所需前提
|
个人用户隐私
|
姓名(中文)
|
将姓名分成姓和名两部分分别处理,姓可以使用百家姓的轮询算法(
注意特殊的复姓
),名可以不变,或使用汉字的随机算法
|
|
地址
|
地址一定要使用分段处理方式,例如:原数据为北京市丰台区,如果全部随机则可能变成黑龙江大连市,表面看起来没问题但是在开发者眼中却是一个很别扭的地址并且在身份证的字段中不好控制,所以地址要分为省、直辖市,然后将对应的新省里的市进行随机抽取(个人认为需要数据表支持)
|
|
|
住址
|
住址可以不变(这里只是指街道、小区、楼号、单元号、户号等),如果需要漂白则可以使用随机方式,不过随机也要遵循原数据格式。
|
|
|
出生日期
|
出生日期由于数据类型的区别,可以将数据老化(向前增加时间,变为原日期的过去日期),或数据翻新(向后增加时间,变为原日期的未来日期)
|
|
|
身份证
|
身份证字段分为地区6位,生日8为,和后4为随机位,其中地区要与地址对应
|
完成地址漂白,完成出生日期漂白
|
|
其他证件
|
与身份证处理类似,如有必要也应分块处理
|
|
|
电话
|
固定电话分为区号和本机号和分机号,这三个除区号以外都需要分别使用随机方式。手机号分为号段3位,地区4位,随机4位。对于400和800电话前三位应该予以保留不变。
|
完成地址漂白
|
|
银行卡
|
除前几位位于所在银行有关其余必须全部使用随机算法
|
|
|
密码
|
必须使用随机算法或哈希算法
|
|
|
网址
|
只需地址哈希即可,域名并不需要漂白
|
|
|
邮政编码
|
邮政编码只需要根据漂白后的地址所对应的邮编覆盖即可
|
完成地址漂白
|
|
车牌号
|
简称与地址要相同,其余使用哈希
|
完成地址漂白
|
|
保险行业
|
单号
|
单号若为纯数字形式,并且无规则可以使用同长度的序列,若有特殊要求则将特殊需求通过分块单独处理,其余使用随机方式。若有某些字母,因其字母会有一部分含义所以字母应该使用轮询算法,数字处理参照纯数字单号。
|
|
险类
|
险类的代码若为纯数字则可以使用随机,位数少的可以使用轮询。其对应的险类名称可以再次分配或根据生成的新的险类代码对应的险类名称覆盖。
|
|
|
险种
|
由于险种是基于险类的,所以险种的一部分可能重新与险类对应,后半部分可以随机生成,险种名称与险种代码对应关系参考险类
|
完成险类漂白
|
|
其他
|
列名
|
个人认为列名不应当漂白,因为开发人员有时会根据列名来寻找想要的内容,如果列名被漂白,则上生产库时要将列名修改回原值,会耗费很多时间和精力。所以个人认为完全没有必要。
|
|
列名
|
随机值
|
产生日期
|
姓名
|
5
|
2012-08-15
|
|
|
|