亲本分析杂谈(一)——分子标记系统发展

亲本分析(parentage)是指依据生物个体之间的遗传信息,判断个体之间亲缘关系的一种数据分析手段。用通俗的话说,就是亲子鉴定。本节主要关注亲本分析的分子标记系统,讨论亲本分析的大致流程。

一、概述

既然做亲子鉴定,显然是比对个体间的遗传数据。如果违背孟德尔定律,那么两个个体就不是亲子关系(当然,现实远没有那么简单,但我在之前的读书笔记中也提到,刚开始认识一个事物的时候,尽量保持幼稚、简单,别想着刚开始就考虑所有因素,那样只能导致被大自然这个魔术师搞得团团糟)。下游的亲本分析软件(parentage software),做的就是这样的事,即输入遗传数据,并依据孟德尔定律,给出个体间亲缘关系的推断。

但在这之前,首先我们得拿到遗传数据,而且是一个群体中每个个体的遗传数据。如果是在上个世纪前半叶,我们无从入手;但时至今日,相信有人会说,大不了每个个体测全基因组就行了(很好、很自然的想法,事实上也的确有类似于这种想法的测序技术,被称为RAD-seq)。我们把利用生物学检测方法测定(群体中)个体基因型的过程称为基因分型(genotyping),相应的生物学检测方法泛称为assay

结果发现一个问题,即使真的有全基因组的数据量去进行亲本分析,会发现其中大量数据是冗余的,比如某个基因座(locus)在所有个体的等位基因(allele)都是A(我很非常喜欢举极端的例子,因为它们是理论发展的重要灵感来源之一)。你不会希望这样的位点放到亲本分析运算中,因为它们不会带来任何帮助。当然,一个事物没有好处和没有坏处这两者是截然不同的,应该单独讨论。事实上,类似于这样的等位基因还会带来致命的坏处,这在后续提到alleleic dropout的时候再说。因而,它们不该被放到亲本分析计算中。

这表明,在基因分型这一步骤前,还有一步至关重要,那就是分子标记鉴定(marker identificaiton)。应当筛选出基因组上中“高质量”的分子标记放到下游亲本分析中,这才是有意义的。与此同时,筛选出所谓“高质量”的分子标记,还带来了一个额外的彩蛋——复用性。也就是说,以后再做类似的亲本分析时,可以重复使用这些分子标记,就像有个分子标记数据库一样。

综上,亲本分析分三个步骤,缺一不可:分子标记鉴定 ► 基因分型 ► 下游分析

二、用于亲本分析的分子标记系统发展

用于亲本分析的分子标记必须有两个特征:多态性(polymorphic)、遗传机制清晰。所谓多态性,就是说不同个体在该位点的等位基因不能是一样的,总要有点variation。

20世纪上半叶,亲本分析算法先于分子标记技术的发展,但如何获取遗传数据,人们还无从入手。20世纪70至80年代,等位酶(allozyme)诞生,人们开始能够获取某些位点的遗传数据,但位点数量十分有限。

等位酶是第一个检测方便的共显性孟德尔标记(Mendelian marker)。遗憾的是,它的多态性不够,因而信息量低。随后,DNA指纹(DNA fingerprinting)短暂地用于亲本分析一段时间,但Flanagan和Jones在2018年Mol Ecol.的综述说它比较粗糙,并且“relied on patterns of band sharing”,并且它不是个孟德尔标记。我没懂作者想表达什么,暂且将其搁置。

20世纪90年代,微卫星(microsatellite,SSR,或短串联重复,short tandem repeat,STR)崛起。其优点非常明显:每个基因座上有多个等位基因。但也有三个缺点:(1)有些物种的基因组根本没啥多态性的SSR位点;(2)跑胶时条带分得不太开;(3)开发成本大。

SSR的开发过程是怎样的呢?

分享一个曾经很火的方法,叫做选择杂交富集法(selective hybridization)。实验原理不详细说了(反正费时间),总之就是把基因组DNA打断,最终生成DNA文库,送测,然后根据测序结果找出序列中的重复序列,初步得到SSR。但初筛得到的SSR并不一定能用。接下来要做两轮SSR检验:(1)扩不扩得出?为每个SSR设计引物,再拿某个DNA样品做PCR扩增,并用琼脂糖凝胶电泳检验这些SSR是不是真的扩出来了。扩不出来的SSR是没有用的;(2)多不多态?在扩出来的SSR中再筛选多态性的SSR,即群体中不同样品在同一个SSR位点要出现不同的条带才行。通过两轮经验的SSR才是真正能用的。

当然,现在如果仍然采用SSR,多数情况下是从已有的基因组中直接鉴定SSR,但后续SSR检验(如检验它能不能被扩出来)的步骤还是一样的、且必需的。有人喜欢称这种开发SSR的方法叫生物信息学法,并且描述为“从NCBI等在线数据库下载序列并寻找SSR”。我不太喜欢这种说法,因为说白了,本质上就是,前人帮你测序测好了,你直接筛SSR就完了。因此,我认为没必要在概念上画蛇添足,因为这容易导致读者的困惑。不如描述成,“如今,测序数据公开在NCBI等网站上,帮我们跳过了测序的步骤,从而直接筛SSR……”

回过头来说“跑胶时条带分得不太开”这个问题。这在今天已经不是个问题了。他的意思是说,如果某个SSR位点不同等位基因的分子量差异很小,那么电泳时不同条带之间距离很近,以至于无法区分。但现在SSR可以送测,因此这不是个大问题。

用于亲本分析的分子标记有什么要求

分子标记都是服务于最终的科学问题的。在不同研究问题下,所谓分子标记“高质量”的定义方式大相径庭。就像...

什么是一个成功的人呢?

我猜你不想回答这个问题,嗯,我也一样,希望让它永远是以问题的方式存在。

用于亲本分析的“高质量”分子标记,就是要让亲本分析结果拥有高匹配度(assignment rate)和低错误率(error rate)。这两个概念在后续章节中进一步展开,我们现在仅仅简单地将它理解成核酸检测的检出率和假阳性。

尝试着考虑以下因素对亲本分析结果的影响:

– 次要等位基因频率(minor allele frequency,MAF):某个基因座中第二常见的等位基因在种群中出现的频率。

– 哈迪–温伯格平衡(Hardy-Weinberg equilibrium,HWE):某个基因座遗传规律满足哈迪–温伯格假设,即没有突变、选择、迁移和遗传漂变,个体间随机交配。

– 连锁不平衡(linkage disequilibrium,LD):指不同基因座出现连锁状态。

– 缺失率(missing rate):指某基因座获得测序数据的样品数占总样品数的比例。

– Phred质量分数(Phred quality score/ QUAL):指某基因座存在变异的可能性。质量分数越大,样本越有可能存在变异。Phred = –10 · log(1-p),其中p为某个样品中变异存在的概率。例如,p = 90%时,Phred质量分数为10。

– 覆盖深度(coverage depth):指被测序的碱基占基因组大小的比率。对某个基因座而言,不同样品最终的覆盖深度不同,因而会出现最大覆盖深度、最小覆盖深度和平均覆盖深度三种指标。

– 无效等位基因(null allele/ nonamplifying allele/ alleleic dropout):指某个杂合子在PCR扩增时,其中一个等位基因没有被扩出来,导致最终被观测成纯合子的现象。

先卖个关子。这些因素如何影响亲本分析结果,当然要等到后续展开亲本分析核心算法后才能详述。

众所周知,总体上而言,现在是SNP的时代。但目前亲本分析中SNP的使用量还不如SSR,顶多平分秋色。不少研究者是因为在他们的研究物种中找不到SSR,因此转而使用SNP,最终报道说SNP比SSR好(但我感觉说这句话真得小心)。SNP有显著的优点:(1)突变率小(尽管事实上SSR的突变率也基本不对亲本分析产生什么影响);(2)自动化,包括测序和质量打分。

与SSR一样,鉴定SNP前也是总得先有测序数据,例如重测序(resequencing)数据,即对群体中不同个体测基因组。从测序数据中鉴定SNP有个专门的名词,叫做SNP-calling。Call出来的SNP往往还要进一步过滤,筛出更高质量的SNP,称为SNP过滤。筛选出SNP后,为每个SNP设计引物,随后就可以像SSR那样对群体进行基因分型了。

SSR分型的过程往往是“DNA提取►PCR►assay(或电泳,或送测)”。SNP分型也类似,但assay的方法更多。SNP-PCR采用和SSR相同的assay方法,走相同的流程,最终得到群体遗传学数据,其优点是价格便宜(这是最便宜的方法)。SNP芯片(SNP-chip,或SNP array)则将成十几万个SNP整合到芯片上,直接丢去高通量测序完成分型,省去了做实验,但缺点是价格很贵,并且对基因组信息依赖高,因而往往在基因组明晰的模式生物中使用较多。

可能是因为上述SNP分型的方式和SSR类似,它被称为传统SNP(traditional SNP)。提出这个概念是为了和测序分型(genotype-by-sequencing)这一概念相对。

测序分型得益于下一代测序(next-generation sequencing)技术的发展。测序分型应用于亲本分析也被认为新一代的亲本分析范式。我们说,亲本分析一般来说有三个步骤:“分子标记鉴定►基因分型►下游分析”。测序分型区别于传统分型的最显著特征——它把前两个步骤合成一个步骤了。也就是说,我测序只测一次,那就是把需要进行亲本分析的所有个体全测个遍,建个文库,然后从中Call出高质量SNP(或鉴定SSR),并直接开展亲本分析。也就是说,当分子标记鉴定出来的同时,基因分型也自然而然地完成了。

也就是回到刚开始那个看似很幼稚的想法:要搞亲子鉴定,那所有个体测个全基因组、测它个遍,难道还不解决问题吗?(请先忽略测序错误问题)

所谓下一代分子标记(next-generation marker),就是基于下一代测序思想发展的分子标记,说白了就是我懒得做实验了,通通测个序,分子标记就在那个数据集里面。

测序分型技术有:RAD-seq、多鸟枪分型(multiplexed shotgun genotyping,MSG)、外显子测序(exome sequencing)等。

测序分型也有缺点,即测序错误较多,而且测序分型的错误的检测很少被整合到下游亲本分析软件中(不像SSR测序错误)。为提高测序质量,可以进一步减少测序区间,将感兴趣的基因组区域定制成特异性探针与基因组DNA杂交,进而测序。这种方式叫做目标序列捕获(target capture)

此外,还可用转录组数据鉴定出SNP。

三、总结

本文介绍了亲本分析的大致流程,及分子标记系统的发展历程,只是为了给后续核心算法的分享做个铺垫。真正有意思的、有理论深度的,当然是分析算法。

图1  总结



 下一篇:to be continued...

你可能感兴趣的:(亲本分析杂谈(一)——分子标记系统发展)