正负数据如何归一化_GEO的series_matrix数据的预处理:(正)负值处理和归一化...

我用基因表达数据做progject.

我下载"GSE****_series_matrix"的数据(affy的HG_U95**2平台),由于不会处理.cel数据所以没有下载的.cel raw data.

series_matrix类型数据的主要形式如下,行是probeset_ID,列是样本。

在这个下载的数据中,有一些表达值很大而有一些很小(负值),因此需要预处理。

有一些论文(或支持材料)对表达密度值给出了一threshold并的方法,比如:below the minimum threshold of 10 were set at the minimum threshold. The maximum threshold was set at 16,000.

而我所必须使用的一个数据其文献没有给出数据预处理的具体参数,写了邮件也没有回信。

现在有两个问题:

1

那些极端的(正)负值如何处理?需要有一个文献支持,这样所得到的结果有依靠。

normalize时需要log intensity或log ratio作为输入,于是先进行log转化:那些负的值log前肯定需要处理才行。

2

如何归一化呢?

R里的affy包处理的是.cel文件(这个种文件我不会处理,因为可能涉及到背景校正等等更多的预处理步骤。

针对series_matrix,有什么好的软件包使用?

!series_matrix_table_begin

ID_REF GSM23761 GSM23762 GSM23763 GSM23764 GSM23765 GSM23766

34021_at 11.3 25.4 1.7 5.1 2.1 14.2

34011_at -63.3 -135.3 -126.6 -119.1 -42.4 -118.5

33994_g_at 11451.5 15581.6 24475.1 14981 30357.8 11717.6

31307_at 2.5 3.1 5.7 2.9 1.3 1.6

你可能感兴趣的:(正负数据如何归一化)