转自:http://zhangyuexing.7ta.cn/Article/12289/1441
SAM 软件
(Significant Analysis of Microarray)它是由 Standford 大学开发的一个免费软件, 目前广泛地被学术界所采用,进行挑选差异基因。SAM 软件可以作为插件在Office Excel 软件中进行应用,很容易被生物医学工作者掌握。SAM 软件进行分析的一个基本前提就是需要至少 3 次实验以上的重复。 这里的重复可以是生物材料的重复,例如某种疾病包含多个病人;也可以是实验的重复,例如药物处理细胞做了 4 次实验。通过重复实验,才能从统计学意义上判断差异变化的基因。可以理解 SAM 软件和统计学 t-test 检验有类似之处。笔者从合作单位被编辑退回的稿件中了解到,有很多退稿是因为没有进行重复实验,例如对照和处理各一个样本,然后认为荧光信号值差异在 2 倍以上的基因就是差异的基因。审稿编辑的意见往往是需要加上重复实验进行统计分析。
举一个例子,要研究某种疾病 A 的人群和疾病 B 的人群血液中有核细胞基因表达的差异(疾病 A 和疾病 B 人群分别至少要有 3 个人以上)。若是使用了单通道的表达谱芯片,例如 Affymetrix 的芯片,你可能得到例如表 1 这样的数据:
表 1. 单通道芯片设计的例子(以信号值进行计算)
1
样 本 病 A1 病 A2 病 A3 ... 病B1 病B2 病 B 3...
基因
NM_001192 122 453 278 1345 2315 1954
NM_004836 4566 3567 5632 5643 5689 6112
AK025431 11831 13432 12543 24231 21998 19888
在 SAM 软件进行差异基因筛选的时候, 这种例子可以选择 two class unpaired(2 因素不配对)的算法。因为实验研究的就是 2 组样本,并且疾病 A 和疾病 B的病人之间没有一一配对的关系。那么在进行 SAM 软件运算前,需要加一行样
本识别标记(可参见表 2) ,让 SAM 程序知道哪些信号值是来自同一组病人的。
表 2. 单通道芯片数据在 SAM 软件中的格式
样 本 病 A1 病 A2 病 A3 ... 病B1 病B2 病 B 3...
基因
1 1 1...... 2 2 2
NM_001192 122 453 278 1345 2315 1954
NM_004836 4566 3567 5632 5643 5689 6112
AK025431 11831 13432 12543 24231 21998 19888
另外加入的一行蓝色字体就是样本识别标记, 这样 SAM 软件通过格式上的默认,就知道哪些数据是同一组病人的不同重复。 目前发现单通道芯片有这样一种可能的缺陷:若一个实验进行的时间很长,例如 1-2 年以上,那么进行芯片实验的试剂之间有较大的差别,有时芯片杂交的信号强度差异并不是生物样品的差异,而是试剂不同带来的差异。
如果是使用双通道芯片,笔者不建议某个病人 A 个体和某个病人 B 个体的RNA 混合在一起和一张芯片做杂交,因为你并不知哪两个病人应该配对。笔者建议取一个共同的参照物。 选取共同参照物的基本要求就是比较容易得到该共同参照物样本,并且和所研究的因素没有关系。在下面这个例子中,可以取若干个 2正常人血液有核细胞的 RNA 混合物做一个共同参照, 也可以购买美国 Stratagene公司的 Universal Human Reference RNA sample 作为一个共同参照物,这样得到的数据就将是一个比值(可参见表 3) :
表 3. 使用共同参照物实验设计的双通道芯片设计的例子(以比值进行计算)
样本 病 病 病 病 病 病
基因 A1/CK A2/CK A3/CK ... B1/CK B2/CK B3/CK...
1 1 1...... 2 2 2
NM_001192 0.34 0.28 0.35 1.12 1.43 1.22
NM_004836 4.44 3.67 5.65 5.66 3.54 6.43
AK025431 1.22 0.98 1.19 3.42 2.46 2.89
以上同样可以用 SAM 软件中 two class unpaired 的方法来计算疾病 A 组病人和疾病 B 组病人之间差异的基因。用比值进行计算的优点在于,各种试剂、操作产生的差异在比值中被消除掉了。 因此,在使用单通道芯片时,若需要在时间间隔比较长远的数据之间进行比较,目前存在一种趋势,即在某段时间内进行的单通道芯片实验,安排做一张共同参照物 RNA 的芯片,然后得到比值;经过较长时间以后再做芯片实验时,同时再安排一张共同参照物 RNA 的芯片,然后又得到比值,最后对不同时间段之
间的比值进行比较。 例如选择一个细胞另外一种常见的实验就是对动物或者细胞进行药物处理。观测药物处理引起的基因表达变化,实验重复了 3 次。这种实验,用药物处理后,除了采用上述单通道芯片试验设计以及利用一个共同参照物来做双通道芯片的
试验设计外, 还可以把每次实验的处理和对照样品用不同的荧光素标记和一张芯片进行杂交。这样就得到一个纯粹的比值,数据格式如下:
3
表 4. 对照和处理同时杂交芯片实验设计得到的芯片数据格式双通道芯片数据
样 本 处理 1/对照 1 处理 2/对照 2 处理 3/对照 3 ...
基因
NM_001192 0.23 0.12 0.15
NM_004836 3.55 4.24 3.56
AK025431 1.22 0.89 0.96
在 SAM 软件进行差异基因筛选的时候,这种例子可以选择 one class 的算法,大致的意思就是判断是否和比值=1 是否有显著性差别。 此时也需要另外在表格中插入一行,让 SAM 软件处理的时候知道只有一个因素。
表 5.对照与处理同时和芯片进行杂交的双通道芯片数据在 SAM 软件中的格式
基 因 处理 1/对照 1 处理 2/对照 2 处理 3/对照 3 ... ...
样本
1 1 1
NM_001192 0.23 0.12 0.15
NM_004836 3.55 4.24 3.56
AK025431 1.22 0.89 0.96
由于在 SAM 软件进行差异基因选择时,可以通过调节参数来改变差异基因的数目。在文章中写作时,可以根据基因变化的倍数来选择变化的基因,并列出其他的一些参数,例如 False Discover Rate (FDR),或者再加上 Local FDR,具体
例子可参见图 2。
另外,对于有多因素分析的实验,例如比较多个组织,然后寻找在某个组织中特异表达的基因,也可以利用 SAM 软件中的 Multiclass 算法。 由于 SAM 软件通常需要根据需求或结果来调整参数,因此笔者认为利用芯片数据写作的研究人员最好能学会使用 SAM 软件。
以上摘自《有关芯片写作的思路》,其实在SAM安装后在安装目录下有详细的PDF说明及EXCEl实例,可具体自己参考,安装SAM需提前安装R程序。