《基因的名义》读书笔记

  这本书比较适合我这类入行不久的人来看,里面介绍了很多基因组学方面的应用和相关原理,内容涉及基因组学的发展历程、基因学和测序技术的应用(寻祖,亲人鉴定,性状预测,癌症检测和用药,出生缺陷预防,消费级基因检测等等)、以及基因领域的未来发展动向。总体来说,还不错,不过里面有些描述偏专业了,普通大众从科普的角度来看可能有些难以理解。
  我重点记录了其中一些概念性的知识点,平时很难看到这么全的概念。

  1. 主成分分析
  2. SNP和SNV有区别吗?
  3. 队列研究是个啥?
  4. 人群患病风险与风险倍数
  5. 计算风险倍数的方法
  6. PLINK软件及PLINK格式
  7. 基因检测的准确性有哪些指标可以度量?如何计算?——sensitivity & specificity & precision & accuracy
  8. ROC曲线
1. 主成分分析(principal component analysis,PCA)

  将关系紧密的变量按照一定的准则变换到新坐标空间内的变量,使得这些新变量是两两不相关的,同时在新的坐标空间只需要极少数几个维度就能够使这些新变量在反映原始数据的信息方面尽可能多地保持原有的信息。
  在聚类的时候怎么运用?
  “这个方法可以单纯从基因的相似性来进行推断,不需要知道哪个地方的人有能吃辣的基因、哪个地方的人有能喝酒的基因。比如说,我们测定1000个非洲黑人、1000个美国白人和1000个中国汉族人的基因组信息。由于我们不知道到底哪些基因位点在这些人群中的差别大、是具有代表性的,因此我们通常会测定大约100万个甚至更多的基因位点。但是那么多位点,我们也没办法逐个地进行分析。利用PCA分析方法,我们可以把这100万个甚至更多的单个基因位点的信息汇总成只有2个值,一般称为主成分1(PC1)和主成分2(PC2)。也就是说,通过正交变换将一组可能存在相关性的100万个变量转换为2个变量,而这两个主成分就是新空间两个线性不相关主成分的系数。然后,当我们拿到一个待检测的人的基因数据时,只需要按照同样的步骤把他的PC1和PC2计算出来,然后与上述的三组参照人群去比较,就可以判断他是非洲黑人、美国白人,还是中国黄皮肤的人。”
  相关文献
  “2008年,《自然》杂志上发表了一篇题为“欧洲人的基因和地理位置相契合”(Genes mirror geography within Europe)的文章,表明根据基因和PCA方法计算出来的值与欧洲人的实际地理位置有非常强的吻合。这篇文章,至今被引用超过1000次,充分地反映了PCA分析方法在祖源分析中的重要性。”

2. SNP和SNV有区别吗?

  如果1个SNP在人群中的频率非常低,不到1%,则称之为SNV(single nucleotide variation,单核苷酸变异)。

3. 队列研究是个啥?

  流行病学中一个常用的方法。
  队列研究(cohort study,又称群组研究)的研究对象是纳入研究时未患所研究疾病的一群人(跟case-control有区别),根据是否暴露于所研究的病因(或保护因子)或暴露程度而划分为不同的组别,然后在一定期间内随访观察不同组别的人该病(或多种疾病)的发生率。如果暴露组(或大剂量组)疾病的发生率显著高于未暴露组(或小剂量组),则可认为这种暴露与疾病存在关联,并且暴露在疾病发生之前进而可能提示有因果联系,但确认是否存在因果联系仍需要其他科学研究的支持。

4. 流行病学中的人群患病风险和基因检测中常说的风险倍数的区别

  流行病学调查研究中得出的人群患病风险(比如说糖尿病发生率为10%)是绝对风险。而基因检测更多时候注重的是相对风险的研究,例如有基因变异的人相对于整个人群或者相对于无基因变异的人的风险,也就是风险倍数。

  以糖尿病为例,假设国人的糖尿病发病率确实是10%,而基因检测的结果显示我的风险是人群平均水平的10倍,这表示我的发病率是100%吗?显然没有这么简单。首先,这个10%的发病率肯定不是完全由基因来决定的。对于像糖尿病这样的复杂疾病来说,目前科研发现的基因位点能解释10%的发病率中的10%就不错了,所以,当科研文献报告说某一个基因位点能让风险增加2倍、3倍甚至10倍,其实是针对10%中的10%还不到的那部分。

5. 计算风险倍数的方法

一是风险比(relative risk,RR),二是比值比(oddsratio,OR,又称优势比)

6. PLINK软件及PLINK格式

  PLINK是哈佛大学医学院麻省总医院的团队于2005年开发出来的一款软件,当时与之配套发表的文章已经被引用了1万多次,这在学术界是非常少有的。
  PLINK格式,有两个文件。一个是map文件,每一行是一个基因位点,第1列是染色体,第2列是基因位点的代码,第3列是一个摩尔根值(现在一般写成0),第4列是所在染色体的位置。一般只需要知道第二列就够了、因为有了这个基因位点代码(一般用rs开头),染色体(第1列)和所在染色体的位置(第4列),都是可以查到的。
  另外一个是ped文件,就是具体的每一个人的每一个位点的基因的值。每一行代表一个人,前面6列都是关于人的信息,分别是家庭代码、人的代码、父亲代码、母亲代码、性别代码、疾病代码,从第7列开始就是每一个位点的基因的值了。除了ACGT这些值以外,如果某个位点的数据没测出来,就会显示“00”等字符。

7. 基因检测的准确性有哪些指标可以度量?如何计算?——sensitivity & specificity & precision & accuracy

真阳性(true positive)、真阴性(true negative)、假阳性(false positive)、假阴性(false negative)。它们分别对应上表中的90、9850、50、10。

在统计学上,经常用两个指标来概括一个检测仪器或方法的好坏。第一个是“敏感度”(sensitivity),也叫作“真阳性率”(true positive rate),它等于(true positive)/yes。另一个是“特异度”(specificity),也叫作“真阴性率”(true negative rate),它等于(true negative)/no。

统计学上还有两个常见的名词,它们的分子与上面的两个名词分别是一样的,但分母用的不是事实上的yes或no,而是检测仪器报告的positive 或negative。第一个是“阳性预测值”(positive predictive value),它等于(true positive)/positive。另一个是“阴性预测值”(false predictive value),它等于(true negative)/negative。阳性预测值也被称为“精确度”(precision),尽管精确度在其他很多场合也用到。与“阳性预测值”互补的是“错误发现率”(false discovery rate),两者相加等于1,也就是说false discovery rate=(false positive)/positive。

我们日常生活中经常提到的指标——“准确度”(accuracy),它等于(true positive+true negative)/总样本数。

8. ROC曲线

  要动态地反映一个工具或方法在不同阀值的综合表现,在统计学中经常用到的是“接收者操作特征曲线”(receiver operating characteristic curve,简称ROC曲线)。ROC曲线下方的面积(area under the curve of ROC)简称AUC,AUC值越大,分类器正确率越高。当AUC=1时,是完美分类器,采用这个预测模型时,存在至少一个阀值能得出完美预测。但在绝大多数预测的场合,不存在完美分类器。当0.5

你可能感兴趣的:(《基因的名义》读书笔记)