Adam中SUPP数据集的应用

SUPP数据集是对变量的补充说明,我们先直接来看一下一个项目中 ADCM 中变量 ATC1 的生成。Spec中的逻辑是:

SUPPCM.QVAL where QNAM= ARATC1T for the given USUBJID and CMSEQ if CMCAT = "ART MEDICATIONS";
SUPPCM.QVAL where QNAM= CMATC1T for the given USUBJID and CMSEQ if CMCAT = "PRIOR AND CONCOMITANT MEDICATIONS";

这个变量的有两个来源,我们拿一个来举例。ATC1 的值为 SUPPCM 数据集中的 QVAL,QVAL有那么多条记录,有什么条件呢?

  1. SUPPCM.QNAM= ARATC1T
  2. USUBJID 相同
  3. CMSEQ 相同
  4. CM.CMCAT = "ART MEDICATIONS"

我看到这些条件第一个想法是,CM 与 SUPPCM 按照USUBJID、CMSEQ拼接就好,然后根据另外两个条件进行赋值就好了。可当我看到SUPPCM数据集的结构时,突然有种无从下手的感觉。
Adam中SUPP数据集的应用_第1张图片
SUPPCM截图

首先SUPPCM数据集中没有CMSEQ这个变量,所以上面第一个想法无法直接运行。思考了一会,第一个想法是用Proc SQL进行拼接。与DATA相比,SQL拼接的灵活性要好很多,可以输出多个条件对拼接进行约束。
Adam中SUPP数据集的应用_第2张图片
SQL拼接
上面的代码思路是,单独新建一个新的数据集用来生成 ATC1。这过程不需要将两数据集中的拼接变量修改成相同的名称,可以直接引用进行比较:
on a.usubjid =b.usubjid and a.cmseq = b.idvarval_n

同时,在Where语句中进行条件设置,不需要多余的处理。生成的数据集如下:
Adam中SUPP数据集的应用_第3张图片
ATC1

那不用SQL语句,DATA步是否可以实现这样的效果呢?也是可以的。前面无从下手的原因是,在SUPPCM数据集中,用于拼接的BY变量不直接存在,得新建后在进行拼接。CMSEQ不是一个单独的变量,它是一个标志符(IDVAR变量的值),具体的CMSEQ值在IDVARVAL中,无法直接拼接。这种情况可以先进行条件选择,使得IDVARVAL变量保存的都是CMSEQ的值,这样以这个变量作为BY变量就可以拼接了;同理,QNAM的约束条件也提前处理好,新建CMTRT变量与CM数据集中的CMTRT值进行对应。我们可以先看下代码:
Adam中SUPP数据集的应用_第4张图片
Data步拼接
由于DATA步拼接要保证BY变量的名称相同,所以要提前重命名或生成需要的BY变量;而PROC SQL中不需要保证BY变量名称相同,与DATA步相比,显得简洁。

回过头来看之前的代码,可以进行一些小修改。在SQL拼接中,目前的思路是需要哪些变量,就生成新的数据集,数据集里包含ID类的变量,用于后来的拼接,思路很流畅;当然,也可以一步到位,直接将新变量拼接到CM数据集中,新建一个拼接一个,不需要最后的汇总拼接。

在DATA步拼接中,可以不进行观测数筛选,保留其他不符合条件的观测,因为在拼接过程中这些观测不影响拼接结果,如下图:
Adam中SUPP数据集的应用_第5张图片
DATA步拼接小修改

这样的修改因为保留了很多观测,拼接的效率会降低,但是整个思路会更容易理解。

你可能感兴趣的:(Adam中SUPP数据集的应用)