问题
在做项目的时候经常会遇到这样的问题:
方案
其中要生成大量的没有意义的测试数据,以便进行压力测试,这个数据是最好生成的,只需要写几条SQL语句,多运行几次即可。如果不想写SQL语句, 也可以使用数据生成工具:VisualStudio、PowerDesigner、DataFactory等都可以使用。我推荐使用 DataFactory,有较强的定制性。
下面主要说一下另外一种假数据,那就是前面2种情况,具有一定业务规则和可读性的假数据。要生成比较像样的假数据主要是基于已有的系统,在真实数据 的基础上进行随机的混淆和交叉,从而产生大量看起来比较真实但是实际上却全是假的数据。对于第一种情况,可以将其他系统中的对应实体表的数据导入到 Demo环境中,然后再进行混淆交叉。
我们可以将系统中的数据分为:数字、日期和字符串3种类型分别进行混淆。
姓名的拆分是分为姓和名,而公司的拆分可以拆分成前2个字和后面的字。如果是英文姓名或者英文公司名则可以按照第一个空格将英文字符串拆分成第一个 单词和后面的单词。然后将产生的两个字段存入临时表,用两个临时表进行交叉联接,得到两个字段的所有组合,然后再随机选出一定条数的数据,用选出的随机数 据将原有数据替换即可。
示例
以一个HR系统为例。假设其中有一个Employee表,该表记录了员工的工号、姓名等信息,现在要对姓名进行处理,具体操作如下:
1.区分出中文名和英文名,分别进行拆分。中文姓名以第一个字为A列,剩下的字尾B列,英文名以第一个单词为A列,剩下的单词为B列,将拆分的数据存入临时表,具体SQL语句如下:
select SUBSTRING(Name,1,1) A,SUBSTRING(Name,2,10) B into #CName from Employee where UNICODE( Name)>255 --中文 select Name,SUBSTRING(Name,1,CHARINDEX(' ',Name,1)) A,SUBSTRING(Name,CHARINDEX(' ',Name,1),50) B into #EName from Employee where UNICODE( Name)<255 --英文
2.让A列和B列进行交叉联接,得到姓名组合的全集,然后随机选出与源数据相同数据量的姓名存入临时表(临时表中有ID流水号字段)。假设员工表里有5000员工数据,则可以选取5000个随机姓名,代码如下:
create table #newCName(ID int identity primary key,Name nvarchar(50))
insert into #newCName(Name)
select top 5000 n1.A+n2.B
from #CName n1
cross join #CName n2
order by NEWID() --随机选取行
3.由于Employee中没有自增的ID字段,只有字符串形式的员工号作为主键,所以需要给每个员工号编一个流水号,用于和随机姓名中的流水号对应,以便接下来的UPDATE操作:
create table #newEmployeeID(ID int identity primary key,EmployeeID varchar(10))
insert into #newEmployeeID
select EmployeeId
from Employee
where UNICODE( Name)>255 --中文
4.更新Employee表中的姓名字段为随机生成的姓名:
update Employee
set Name=n.Name
from Employee e
inner join #newEmployeeID i
on e.EmployeeId=i.EmployeeID
inner join #newCName n
on i.ID=n.ID
where UNICODE(e.Name)>255 --只更新中文姓名
5.用同样的方法,可以对英文姓名进行混淆交叉替换。
优化
这里需要注意的是第2步,使用了CROSS JOIN操作,也就是求两个表的笛卡尔积,如果一个表中有10W条数据,那么将会产生100亿行结果,然后再进行排序,那将是近乎不可能完成的任务,所以 必须减少进行笛卡尔积的表的数据量,比如每个表只取500条不重复的数据,那么修改后的SQL语句是:
select top 5000 n1.A+n2.B
from
(select distinct top 500 A from #CName )n1 --取不重复的500个姓
cross join
(select distinct top 500 B from #CName ) n2--取不重复的500个名
order by NEWID() --随机选取行
这样最多只是500*500条记录,进行排序选取随机行将会很快完成。