mystrugglelife

Bioconductor分析基因芯片数据第五章

使读者初步了解使用Bionconductor完成基因芯片预处理的流程

接着详细讲解戏弄i按预处理和数据分析等内容

最后深入了解实际工作中会遇到的芯片处理问题以及如何用学到的只是解决问题

目的：掌握芯片分析的整体框架，自行学习其他厂商或种类（例如SNP芯片或CHIP-chip芯片）的芯片处理方法

5.1快速入门

例5-1 从数据包CLL中载入芯片数据，完成预处理，最后获得基因（探针组）表达矩阵。注意，探针组表达矩阵的行对应的行对应的探针组，而不是基因，基因和探针组的关系见5.2.1.这段程序从载入原始数据（CEL文件）开始，通过预处理得到基因表达矩阵，是芯片数据处理的一个必须步骤

CLL 数据是慢性淋巴白血病（Chronic lymphocytic leukemia,CLL)数据集，采用了Affymetrix公司的HG_U95Av表达噗芯片，测量了24个样本，12625个探针

例5-1采用的实验设计方式：两组之间是对照试验（control test)，每组内都是平行实验（parallel test),对照实验，简单来说就是为了阐明某种单一因素的效应或者影响，在保持其他因素不变的前提下，测试一定数据的实验组样本呢和对照组样本，并对结果进行比较。平行实验，简单来说就是对同样的一组样本取两个以上相同的样品，以完全一致的条件下进行试验，测试结果的稳定性

5.2基因芯片基础知识

5.2.1探针组

一张基因芯片（以affymetrix表达谱芯片为例）可以包含上万个的探针（通常由25个碱基组成），他们整齐有序地印刷在芯片上。一组探针或者探针组（probe set),来自于一个基因，通常由20对或者11对探针组成，每一对探针都由匹配探针（perfect match，PM）和错配探针（Mi是match，MM)组成，成为探针对（probe pair),MM与PM的序列只有正中央的那个碱基不同，其余的都一致。但是，在一些高密度芯片中，例如外显子芯片（Exon array),每个探针组只有4个PM探针，没有MM探针。

探针序列的来源叫做参考序列，通常来自于公开的核酸数据库（例如NCBIGeneBank或RefSeq)对于不同的芯片类型，探针组在参考序列中的分布不同，3’表达谱芯片的探针组排布在参考序列3‘末端附近的一至两外显子上，外显子芯片中，每个长度大于25个碱基的外显子都有针对他的探针组：铺瓦芯片（Tilling array)中，探针组覆盖了几乎所有的外显子和内含子

需要强调的是，芯片数据领域提到的基因表达矩阵往往是以探针组而忽视以基因为单位的，即每行都对应一个探针组的表达量。后面将要降到的差异基因分析也是找打显著性差异的表达的探针组，然后通过ID映射才对应到探针组代表的基因，探针组与基于的关系往往是多个探针组对应一个基因。但是在实际应用中，经常不太注意区分，探针组有时也会被叫做基因

5.2.2主要的芯片文件格式

主要的是CEL文件

affymetrixi芯片原始数据最常用格式为CEL文件，也是芯片预处理和分析的出发点。CEL文件的主要内容就是每个“cell"的灰度信息，"cell"是整个芯片图像划分后得到的小网格，每个小网格中的图像被看作来自一个探针，自CellHeader开始，每行数据对应芯片上的一个”cell"位点，包含5列信息，依次为X坐标,Y坐标，灰度的平均值，灰度的标准差以及用了多少个像素来求这个平均值

CEL文件只提供了每个探针的灰度信息，还需要基因芯片探针排布的信息（即哪个探针来自哪个探针组），才可以得到芯片上每个探针组对于的表达数据，这就需要CDF文件。另一个重要的是probe文件，他提供了探针的序列信息。afftymetrix公司为每种型号的芯片都提供了对应的CDF文件和Probe文件。CDF文件中的对应关系用户可以自行更改，例如为了应多多个探针组的ID对应到同一基因ID的现象，有些研究季候就把对应到同一个基因的多个探针合并为一个探针组，并提供修改后的CDF和Probe文件

图5-3B是affymerixHG-U133A芯片的Probe文件的部分内容，他只包括了一个探针组（名称是“200688_at")的所有探针，共11条序列，文件中第2和3列是对应探针所在的X和Y 坐标，第4列是序列的第13个奸计（中心）位置对齐到一致性序列的相对位置，第5列是对应探针的序列，最后是样品与探针杂交的方向

5.3基因芯片数据预处理

基因芯片数据预处理的目的是将探针水平的数据（杂交信号）转换成基因表达数据，主要的数据结构有Affybatch类和Expressionset类，前者用于存储探针水平的数据（相当于CEL文件的内容），而后者用于存储表达水平的数据（相当于基因表达矩阵的内容）。预处理通过质量控制，剔除不合格的芯片（数据），只保留合格的进入下一步处理。然后通过标准化，将所有芯片数据中的基因表达只变换到一个可以比较的水平，用于后续分析

5.3.1数据输入

例5-1中，芯片数据的输入是从数据包中得到的，但是在实际应用中，更常见的情况是从CEL中获得数据，无论是数据包还是文件输入，读入的数据会存入一个“affybatch"类型的对象中，可以通过执行help（affybatch)获得更详细的介绍

头文件：用于描述实验样本、平台等相关信息，其中包括phenoData,featureData,protocolData以及annotation等几个类

assayData:这是affybatch类必不可少的，他的第一个元素是矩阵类型，用于保存基因表达矩阵。该矩阵的行对应不同的探针组（probe sets)，用一个无重复的索引值表示，列对应不同的样品。当使用exprs方法时，调取的就是这个基因表达矩阵

experimentData:一个MIAME类型的数据，设计这个MIAM类的目的就是用于保存MIAME原则建议的注释信息.MIAME原则是一组指导方针，他建议了一组标准来记录与基因芯片实验设计相关的资料

5.3.2质量控制

质量控制对于后续的分析至关重要，原始图像（DAT文件）级别的质量控制一般用个芯片公司自带的软件（如affymetrix公司的GCOS)完成。本节中，质量控制主要集中在CEL文件级别的处理，从最简单的直观观察，到平均值方法，再到比较高级的数据拟合方法。这三个层次的质量控制分别功能分别用image函数simpleaffy包和affyPLM包实现

直观的查看一下芯片上所有位点的灰度图像

image函数表示选取的CLLbatch中的第一个基因芯片（即“CLL10.CEL"）的数据，然后调用image函数根据CEL文件中的灰度信息画图，affymetrix芯片在印刷时会在四个角印刷特俗的花纹，并且在左上角印刷芯片的名称，花纹与芯片名称可以帮助我们借助这个图像分辨率来了解芯片数据是否可靠。如果无法分辨四角花纹或芯片名称，很可能数据有问题

根据image函数的图像信息，可以对芯片的信号强度产生一个总体认识：如果图像特别黑，说明信号强度低；如果图像特别亮，说明信号强度很可能过饱和

尺度因子affymetrix公司规定，用于比较的芯片之间的尺度因子的比例必须小于三

检测值（detection call)和检出率（percent present）:一组探针能否被检测到，用检测值有（present，简称R)、无（Absent,简称A)和不确定（Marginal presen,简称M)来表示检测范围的上下边界（a1及a2)选用了默认值0.04和0.06.检出率，是用所有检测值为p的探针数量除以芯片所有探针组数控得出的百分比。如果检出率过低，表示大部分的基因都未被检测到，很难说明是该芯片实验有问题，还是这个样品的大多数基因本身就很难检测到，有原因是表达量基地或是其他。因此，需要看多个样品之间的相对差别，如果有的样品的检出率与其他的有比较大的差别，那很可能该样品出现了问题

平均背景噪声（average background）：对于每一块芯片，根据所有的MM值作出统计，可以得到背景噪声的平均值、最小值和最大值。往往较高的背景噪声都伴随着最低的检出率，因此这两个指标可以结合使用

标准内参（internal control genes）:mRNA是按照5‘端到3’端的顺序来降解的，芯片探针组也是根据这个顺序来设计的，因此探针组的测量结果可以体现这一趋势。因为大部分的细胞都有β-action和GAPDH基因，所有affymetrix在大部分的芯片里都将他们设置为一组观察RNA降解成都的内参基因。根据这两个基于设计的探针组很好的涵盖了他们3‘端和5’端的每一个区段。通过比较他们3‘端相对于中间或者5’端的信号强度，可以很好地指示出实验质量。affymetrix建议这个比值对于β-action不大于3，对于GAPDH不大于1.25，即可以说明这个芯片的质量可以接受。如果这个比值很高，表明不完整的β-action或者GAPDH的存在，可能源于体外转录不好或者降解非常严重。如果使用的是affymetrix的小样本实验流程（small sample protocol）而不是常用的标准流程（standard protocol），建议使用3’端相对于中间的比值。原因是小样本流程有更扩增次数，有可能产生更多较短的转录序列，不可避免的带来3‘端的偏倚。为了验证杂交的质量

根据上述标准，可以使用Bionconductor的simpleaffy包对affymetrix芯片数据进行质量评估，最后得到质量控制总览图（图5-8）

qc图的看法，图5-8是CLL数据集中全部24个芯片数据的质量控制总览图。图5-8中从左至右，第一列是所有样品的名称；第2列是两个数字（对应每个样品），上面是以百分比形式出现的检出率，下面的数字表明平均背景噪音；第3列（"QQ stats")最下面的横轴是尺度因子等指标对应的坐标，取值范围从-3到3，用浅蓝色虚线作为边界。第3列用到了三项指标：尺度因子、GAPDH3'/5'比值和action3比值（记做graph3/graph5和action3/action5),分别用实心圆、空心圆和三角标志表示出来。另外，如果第三列中出现红色的”bioB"字样，说明该样品中未能检测到BioB

简单地讲，所有指标出现蓝色表示正常，红色表示可能存在质量问题。但是根据实际情况不同，还要进一步分析。一般来讲，如果有一个芯片各项指标都不太正常，尤其是BioB无法检测到，建议判定为该芯片实验失败。如图5-3中的样品”CLL15.CEL",这个数据的检出率（38.89%）明显低于其他样品，action3/action5远大于3，而且没有检测到BioB,因此可以判定此数据无效。如果多个芯片都出现了相同的问题，原因则可能是多方面的；如左侧第2列24个芯片的检出率和背景噪声都很高，原因是阈值设定过高，如果降低阈值，大部分就会变蓝；再如，全部芯片都不能检测到BioB,有可能是嵌入探针所针对的DNA溶液加入比例不对

基于平均值家建设的评价指标都有一个,默认的假设，那就是对于每一块新片，质量是均匀的，不会随着位置变化发生较大的变化。但如果关注芯片的每个小格（Grid),就会发现格与格之间的质量也是有差异的，这可能由于芯片印刷的问题，也可能是杂交过程中出现的问题。那么如何才能得到比较可靠的质量评估，这需要设计多种能反映芯片数据全貌的指标综合分析从而得出最终的结论。这些指标要在对原始数据拟合（回归）的基础上计算得到，然后以图的形式显示，包括：权重（weights)&（residuals)图、相对对数表达（relative log expression，RLE)箱线图、相对标准差（normalized unscaled standard errors,NUSE)箱线图、RNA降解曲线、聚类分析（cluster analysis）图、主成分分析（principal component analysis，PCA)图、信号强度分布图及MA图等，以上功能由Bionconductor中的affyPLM包实现

一般情况下，在权重图中，绿色代表较低的权重（接近0），白色、灰色代表较高的权重（接近1）；在残差图中，红色代表正的高残差，蓝色代表负残差；在残差符号中，红色代表正的残差，蓝色代表负的残差。如果权重和残差都是随机分布的，应该看到绿色均匀分布的权重图和红蓝均匀分布的残差图。图5-9中，左上为原始图像，右上为权重图，左下为残差图，右下为残差符号图。另外，还可以看到，图中左上部出现了一些白色的条块，这是正常的现象，因为有些时候，探针会按照GC比率（GC ratio）排布从而导致白斑的，那什么样的权重和残差图是不可接受的呢

在对比实验中，即使是相互比较的对照组与实验组之间，大部分基因的表达量还是应该保持一致的，平行实验之间一致性更强。相对对数表达（RLE)箱线图可以反映上述趋势，它定义为一个探针组在某个样品的表达值除以该探针组在所有样品中表达值的中位数后取对数。一个样品的所有探针组的RLE的分布可以用一个统计学中常用的箱型图形表示。如果使用RLE箱线图来控制CLL数据集的实验质量，每个样品的中心应该非常接近纵坐标0的位置（图5-11）。如果个别样品的表现与其他样品的表现与其他大多数明显不同，那说明这样品有问题

NUSE是一种比RLE更为敏感的质量检测手段。如果根RLE箱线图对某个芯片的质量产生怀疑，那么再结合NUSE图，这种怀疑就可以确定下来。NUSE定义为一个探针组在某个样品的PM值的标准差除以该探针组在各样品中PM值标准差的中位数，如果所有芯片的质量就是非常可靠的话，那么他们的标准差会十分接近，因此他们的NUSE值会都在1附近。然而，如果有某些芯片质量有问题的话，就会严重地偏离1，进而导致其他芯片的NUSE值偏向相反的方向。当然，还有一中非常极端的情况，那就是大部分芯片有质量问题，但是他们的标准差却比较接近，反而会显得没有质量问题的NUSE值明显偏离1，所以必须结合RLE及NUSE两个图才能作出更可靠的判断。例如结合图5-11和6-12，可以看出CLL1和CLL10的质量明显有其他样品，所以需要舍弃。

RNA降解是影响芯片数据质量的一个很重要因素，因为RNA是从5‘端开始降解的，所以理论上探针5’端的荧光强度应该低于3‘端的荧光强度。RNA降解曲线的斜率表示了这种变化趋势，斜率越小，说明降解较少；反之，则降解越多。但是，如果斜率太小，甚至接近0，就要特别注意，这不仅不代表基本没降解，而且可能全部被降解。因为，在实际实验中国，基本没降解是不可能的，很可能是因为RNA降解太严重，才导致计算值接近，从图5-13中，可以看出CLL13对应的曲线几乎平行于横轴，因此判断很可能降解严重，需要作为坏数据去除

最后经过上面的综合分析，需要去除的三个样品数据：CLL1、CLL10和CLL13

前面讲到的几种质量控制放大都是基于“平均值”思想的。其实，还可以从另外一个角度来对芯片质量进行检验。这就是利用芯片之间的相互关系，例如在对照试验中，理论上组内同种类型的芯片数据应该聚拢在一起，两个组之间应该明显地分离。这个思想是非常合理的，需要做的就是找到一种指标来刻画芯片数据之间的相似度或距离，Pearson线性相关系数就是最常用的这类指标。基于“相互关系”的方法，其核心是相关系数矩阵，它包括了全部关系信息。计算相关系数矩阵，苦役使用预处理子琪娜的芯片数据，也可以使用标准化之后的数据（见例5-8）。例5-8中，通过查看相关系数矩阵“pearson_cor”,可以看到组内（稳定组和恶化组）和组件相似度差异不大。在实际应用中，往往不是直接查看相关关系矩阵，而是根据有相关系数矩阵，而是根据由相关系数矩阵导出的距离矩阵，进行聚类分析或主成分分析以对样品归类并图形化显示（见例5-8）

从聚类分析的整体结果看（上图），稳定组和恶化组根本不能很好地分开，这样还不能简单判定实验完全失败，所有样品数据都不能用。理论上讲，如果总体上两组数据是分开的，那么说明我们关心的导致癌症从稳定到恶化的因素起主导作用；如果不是，很可能其他因素起主导昨天，因此导致聚类被整体打乱，则不能简单判定所有样品出了问题。芯片分析往往采用两个主成分来构建分类图，从图5-15也可以看出稳定组（矩形）和恶化组（菱形）根本就不能很好分开。使用主成分分析时，还必须考虑前2个主成分是否具有代表性，这要看前2个主成分的累计贡献率，如果低于60%，可以考虑另外一种类似的方法来构建分类图，即多维尺度分析（metric multi-dimensional scaling method)

5.5.3背景矫正、标准化和汇总

芯片数据通过质量控制，剔除不合格的样品，留下的样品往往需要通过散步处理（背景矫正、标准化和汇总）才能得到下一步分析所需要的基因表达矩阵

首先，讲一下背景矫正，前面提到的芯片中MM探针的作用是检测非特异性杂交信号。理论上，MM只有非特异性杂交，而不会有特异性杂交，MM的信号值永远小于其对应的PM信号值，那么可以用简单的书学方法处理一下，做一个PM-MM或者PM/MM即可去除背景噪声的影响。但实际中，经常发现大量的MM信号值比PM信号值还要高。因此，需要应用更为复杂的统计模型来去除背景噪声，这个过程叫做背景矫正

其次，介绍一下标准化。标准化的目的是使各组/次测量或各种实验条件下的测量可以相互比较，相处测量间的非实验差异，非实验差异可能来源于样品制备、杂交过程或杂交信号处理等，芯片数据标准化，根据其基本假设总体上分为两种：“bulk normalization”和“control-based normalization”。前者假定仅有一小部分基因表达值在不同条件下有差异，而绝大部分基于表达值不变，因此使用所有的基因表达值作为参考进行标准化；而后者使用表达值被认为是恒定不变的参考基因（通常为芯片制造商提供的外源参考基因）作为标准进行标准化。在实际应用中，芯片数据标准化只采用第一种方法

’最后，使用一定的统计方法将前面得到的荧光强度从探针（probe）水平汇总到探针组（probe set）水平，这个过程被称为汇总（summarization）

上述散步处理过程可由一个函数实现，它就是affy软件包中的expresso函数，通过控制这个函数的参数，就可以分别制定三步处理具体应该采用的方法

expresso参数复杂，可以通过help（expresso）命令获得他的全部参数说明

芯片内标准化方法针对双通道（见2.3.1），又可分为全句话方法（global normalization)和荧光强度依赖的方法（intensity-depent normalization),前一种方法假设红色染料的信号强度是正比例关系的，即R=kG(R:红色信号强度；G：绿色信号强度，k:假设为常数）。差异表达值（log2(R/G)在标准化之后相当于平移了一个常量c=log2(k)，数学上表示为log2（R/G)-c=log2(R/kG)=0。但实际上，c并不是一个常数，而是另外一个变量的A的倍数c(A),这里A=1/2*log(R/G),这一点可以从MA图（图5-16A）中看到M的总趋势不是平行于X轴的

MA(M代表Minus，A代表Average)图的英文全称是：The distribution of the red/green intensity ratio plotted by the average intensity .MA图中，定义M=log2（R/G）

5.3.4 预处理的一体化方法

前面5.3.3讲到了通过设置参数，expresso函数可以自动化实现整个预处理过程（背景矫正、标准化和汇总）。除了expresso函数，affyPLM软件包提供了three step函数可以更快的实现同样的功能

例5-11

从信号强度分布图来看（图5-17），MASS算法处理后的数据出现了很多负数，从图5-17中还可以看出原本不重合的多条分布曲线（图5-17A）在经过了RMA算法处理后重合到了一起（图5-17C），有利于下一步的差异表达分你想。但是他却出现了两个峰值，这并不符合高斯正太分布。如果采用gcRMA算法处理，不但所有的曲线很好地重合到了一起，而且他们的分布也更加近似高斯分布（图5-17D）。因此，gcRMA算法对RMA算法的改进在这一组数据上表现得很明显。然而，这并不意味着gcRMA算法总是优于RMA算法，对于不同的数据进行算法比较，才能进一步确定哪种算法最合适

通过箱线图（图5-18)可以看到三种算法处理后的个样品的中值十分接近。MASS算法总体而言还是不错的，只是有一定的拖尾现象。而gcRMA的拖尾现象比RMA要明显的多。这说明针对地表达量的基因，RMA算法比gcRMA算法表现的更好

还可以通过MA图（图5-19）来查看标准化处理的效果，从例5-12中（只示例CLL中一部分数据）可以看出：在原始数据中，中值（红色曲线）偏离0，经过gcRMA预处理之后，中值基本保持在零线上。注意，运行例5-12最后一行代码时，MAplot函数不支持ExpressionSet类型的数据CLLgcrma,读者可以将其转换为Affybatch类型后再运行

例5-12

5.4基因芯片数据分析

本书2.2.3提到了基因芯片表达差异的显著性分析在基因表达数据分析中的特殊地位，而且这个地位很大程度上都是基于芯片领域的经验得来的。尽管研究人员不断改进芯片试验和统计学方法，并不断寻求一些新的方法（例如机器学习）来分析芯片数据，当前最主要的应用依然还是基因表达差异的显著性分析。本书从例5-13到5-17的程序涵盖了一个显著性分析的完整流程，读者可以一次运行全部代码，也可分开运行以便于逐个掌握，但是必须连续运行所有程序，因为后面的程序依赖前面程序的输出。通过这几个实例，读者可以清晰地把握Bioconductor处理芯片数据的整个流程

5.4.1选取差异表达基因

基因表达差异的显著性分析的第一步就是选取表达具有显著性差异的基因。总体来说，这类分析的基本假设是标准化的芯片数据符合正太分布，因此所用的统计方法基本上就是T/F检验和方差分析。当前，常用的分析方法主要有：T检验、SAM（significance analysis of microarrays)方法、CyberT方法、经验贝叶斯（Empirical Bayes)方法、方差分析（The Analysis of avriance,anova)和RP（Rank produces)方法

RP方法通过计算基因表达值的集合平均值及其排序的变化来比较两组间的差异。SAM、CyberT和经验贝叶斯都是调整后的T检验，而且后两种方法都采用了贝叶斯方法进行调整。CyberT将标准差及信号强度的关系使用线性模型进一步强化，提高了准确率，有研究指出，它的计算结果要好于SAM算法。经验贝叶斯又在CyberT基础上进行了改进，首先，经验贝叶斯在计算标准差时考虑的全部基因，而不是排序后相近的（人为设定的同一个窗口范围内）基因；其次，经验贝叶斯不在局限于两组数据，可以通过设计实验对比矩阵，计算多种复杂条件下的差异表达。因此，经验贝叶斯是当前最为常用的分析方法，他已经完整地由Bioconductor中的limma包实现。但是，总体来睡哦，现在没有仍和理论或者经验能够证明哪种算法是最好的

limma包是基于R和Bioconductor平台的分析芯片数据的综合软件包，例5-13是应用limma包计算CLL数据集中差异表达基因的整个流程

首先，可以从最终结果（即变量“dif")中查看所有的两组数据（即恶化期与稳定期）之间差异表达基因的信息。每行数据对应一个探针组，包括8列信息：第1列是探针组在基因表达矩阵eset中的行号；第2列“ID”是探针组的AffymetrixID；第3列“log FC”是两组表达值间已以2为底对数化的变话倍数（Fold change，FC)，注意由于基因表达矩阵eset本身已经取得了对数值，因此这里实际上只是两组基因表达值均值之差；第4列“AveExpr"是该探针组在所有样品中的平均表达值（average exprssion value);第5列”t"贝叶斯得到的调整后的俩组表达值T检验中的t值；第6列“P.Value"是贝叶斯经验得到的P值；第7列“adj.P.Value"是调整后的p值；第8列”B“是经验贝叶斯得到的标准差的对数化值，由于涉及较深的数学基础，为了加深limma的计算过程，可以用简答函数来得到探针组”39400_at"的行号、“AveExpr"和“log FC“

然后逐次介绍这个分析过程的六个关键步骤：构建基因表达矩阵、构建实验设计矩阵、构建对比模型（也叫对比矩阵）、线性模型拟合、贝叶斯检验和生成结果报表（dif)

构建基因表达矩阵时，需要注意的是，limma对输入数据的要求是必须是经过对数转换的表达值。例5-13调用了gcRNA算法来对数据进行预处理，得到标准化的基因表达矩阵eset,这个矩阵是经过对数变转换的。但是，如果是从其他算法（例如MASS）得到的数据，还需要自行编程进行对数转换

实验设计矩阵需要调用model.matrix函数构建，该函数需要用户指定一个公式，构建好的实验设计矩阵design要提供给下一步的拟合函数lmFit。通过查看design变量，可以看到下面内容：实验设计矩阵的每一行对应一个样品的编号，每一列对应样品的一个特征，每个特征实际上形成了一个包含若干表达基因。比如，在例5-13中，一共有21个样品，他只考虑了一个因素，即疾病状态（disease），这个因素有两个水平，即恶化（progressive）和稳定（stable），最后实验矩阵中出现了diseaseprogres和diseasestable两个特征。多因素和多水平的实验设计，会产生更多的特征

比较模型需要调用makecontrasts函数构建，该函数需要用户制定一个公式，这个公式表明用户对实验矩阵design中的哪一个特征和哪一列特征进行比较，以得到差异。例5-13指定的是在恶化和稳定两个水平之间进行比较，以寻找这两个水平之间的差异表达给予你，因此，公式表示为contrasts='diseaseprogress. - diseasetable",zhuyi "diseaseprogress."中的“."，是CLL数据集中对：progress”简写带来的，不是运算符号

接下来是根据实验设计矩阵条用函数对基因表达矩阵做线性拟合lmFit(eset,design),根据对比模型进行插值计算，最后是贝叶斯检验（见5.4.1）。由于这些射击较深的统计学背景

最后，重点讲一下topTbale函数，它的主要功能有三项：1.对贝叶斯检验得到的“P.Value"进行调整得到”adj.P.Value",调整的算法默认是BH(Benjamini-hochberg)算法2.生成全部基因的检验结果报表3.还可以通过某个参数来筛选具有显著性差异表达的基因，通常使用“adj.P.Value,常用的阈值一般是0.05或者0.01，也可以使用”P.Value"(见例5-13）这里有三点需要注意：1.topTable提供了多种方法可以做基因筛选，例5-13就通过对数化的变化倍数“lfc"去掉了一些在两组条件下变化不大的基因，但是这样做的理由并不是很充分，因为变化倍数不大的不一定就是没有显著变化2.topTable还提供了参数可以对基因进行排序，比如使用“adj.P.Value"从小到大排序，可以清楚地看到变化最显著的基因3.显著基因的选取具有一定的主观性，阈值设定是0.01还是0.05并没有严格的规定

5.4.2注释

找到了差异表达基因，接下来是使用注释包对差异表达基因进行注释。在4.2.3中的注释一部分讲解中提到过Bionconductor的几种注释方式，对affymetrix芯片产生的差异表达基因的注释就采用第一类注释方式，即下载对应具体平台的注释包，进行本地注释（这部分代码需要在例5-13后执行）。例5-14只用两种基因ID 来对探针组进行注释，有关用基因本体路（GO)和通路（pathway）注释的内容与5.4.3的GO和通路富集分析一起讲解

例5-14注释实质上就是一个ID映射的过程（见2.3.1），也就是把芯片探针组的ID映射到基因国际标准名称（gene symbol)和Gene symbol是由人类基因命名委员会（the hugo gene nomenclature committee,hgnc)为每个人类基因提供的唯一命名，一般是大写拉丁字母缩写形式，后面可加数字。NCBI对于每一条提交的序列，根据其存入的NCBI数据库时的先后顺序赋给一个整数，这就是GI。这里增加了一列GI的目的，就是为了下一步通过GI映射到基因本体论（GO),然后做GO 的富集分析

“GO:0022904"

5.4.3统计分析及可视化

差异基因注释后的下一步工作就是统计分析和可视化（见2.3）。对于差异表达分析，最主要的两种统计分析就是GO的富集分析（见2.4.4）和KEGG通路的富集分析（见2.4.5）。这两种分析方法分别由Bioconductor的Gostats包（见例5-15）和geneanswer包（见例5-16）实现

从例5-15最终结果（即变量"bp"）可以看到每个显著性富集的GOterm含有六列信息（不包括行号）：第1列是GO term的ID,该ID对应的内容在后面列出，如”GO:0022900",对应后面的“respiratory electron transport chain";第2列”p.value"是超几何检验的p值；第3列“oddsratio”是超几何分布中的比值；第5列“count”是差异表达基因中世纪属于这个GOterm的基因数量；低6列“size"是总基因中属于这个GO term的基因数量。以“GO:0022904"为例，此次分析的总基因数量为8804，差异表达基因数量是1138804个基因中有75个基因（即”size")属于”GO:0022904"，如果从8804个基因中随机抽取113个基因，那么113个基因中期望属于“GO:0022904"的基因数量应该是2.25（即”ExpCount"),而实际上12个（即‘Count")，根据这个情况，计算出来的P值应该是1.506871e-10(远远小于0.01），因此可以说差异显著基因在“GO:0022904"上是显著富集的。为了加深理解GO富集分析的计算过程，读者可以用简单函数来计算P值。另外5-15还通过函数htmlReport输出了HTML的报告文件，它在前面六列的基础上，多加了一列GO term的描述，并且链接到GO的官方网站

值得注意的是，对比例5-15和5-14的结果报表，可以看到例5-15的报表bp没有根据p值来筛选统计上显著富集的GO term，因此包括了全部的GO term

例5-16调用了GeneAnswers包实现了KEGG通路的注释、统计和可视化的给你。而且GeneAnswers功能强大，除了KEGG，还可以支持GO\REACTOME和CABIO等多个数据库，可以通过设定参数categoryType分别指定注释类型。从例5-16最终结果可以看到每个显著性富集的通路；第2列”precent in the observed List"表示在观察到的基因列表中的比例；第3列“percent in他和genome”是在基因组中的比例；第4列“fold of overrepresents"是基因过表达的倍数；第5列”OddRatio"是超几何分布中的比值比；第6列“P.Value"是超几何检验的P值

可视化可以直观显示统计结果，帮助研究人员进一步理解实验结果并找到下一步工作的思路，因此可视化和统计分析密不可分。Bioncoductor的所有统计分析包几乎提供了相应的函数来显示数据分析结果。这里根据前面的分析结果，调用pheatmap包来绘制差异表达热谱（图5-20），调用Rgraphviz包来绘制显著富集的GO term的关系图；最后绘制显著富集的KEGG 通路的关系图和热图

实例3例5-24主要完成找到对比1和4之间、对比2和3之间共同表达的差异表达基因，对比5的差异表达基因，并对三组差异基因座注释和GO富集分析。每组数据输出三个HTML格式的报告文件，分别对应GO三个领域的富集分析的结果，该文件内容请看例5-15有详细介绍。由于pathway分析，特别是pathway的显示要占用较大内存资源，必须在Linux服务器上运行

你可能感兴趣的:(生物信息,1)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro