gwas snp 和_GWAS | 原理和流程 | 全基因组关联分析

GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ plot

GWAS入门必看教程:Statistical analysis of genome-wide association (GWAS) data

名词解释和基本问题:

关联分析:就是AS的中文,全称是GWAS。应用基因组中数以百万计的单核苷酸多态;SNP为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。在全基因组范围内选择遗传变异进行基因分析,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。

连锁不平衡:LD,P(AB)= P(A)*P(B)。不连锁就独立,如果不存在连锁不平衡——相互独立,随机组合,实际观察到的群体中单倍体基因型 A和B 同时出现的概率。P (AB) = D + P (A) * P (B) 。D是表示两位点间LD程度值。

曼哈顿图:在生物和统计学上,做频率统计、突变分布、GWAS关联分析的时候,我们经常会看到一些非常漂亮的manhattan plot,能够对候选位点的分布和数值一目了然。位点坐标和pvalue。map文件至少包含三列——染色体号,SNP名字,SNP物理位置。assoc文件包含SNP名字和pvalue。haploview即可画出。

SNP的本质属性是什么?广义上讲是变异:most common type of genetic variation,平级的还有indel、CNV、SV。Each SNP represents a difference in a single DNA building block, called a nucleotide. 狭义上讲是标记:biological markers,因为SNP是单碱基的,所以SNP又是一个位点,标记了染色体上的一个位置。大部分人的基因组,99%都是一模一样的,还有些SNP的位点,就是一些可变的位点,在人群中有差异。这些差异/标记可以用于疾病的分析,根据统计学原理,找出与疾病最相关的位点,从而确定某个疾病的risk allele。

SNP array是如何工作的?SNP array测得不是单个碱基,而是allele。所以GWAS的结果是三种:(1 - AA; 2 - AB; 3 - BB),也可能是0、1、2.

linkage disequilibrium (LD)和 pairwise correlation的区别?

如何鉴定Somatic vs Germline Mutations?In multicellular organisms, mutations can be classed as either somatic or germ-line。必须做通常需要trios或healthy tissue的测序才能确定。最显然的是cancer里大部分都是somatic的variations。

SNP、variant和mutation有什么区别?SNP是中性的,mutation显然和疾病相关;其次就是频率,频率很高的是SNP,mutation则很低。variant和variation是同义词,因此和SNP是等价的。

为什么还需要haplotype?HapMap计划的动机是什么?The HapMap is valuable by reducing the number of SNPs required to examine the entire genome for association with a phenotype from the 10 million SNPs that exist to roughly 500,000 tag SNPs.

common variant和rare variant是根据什么来区别的?paper 怎么理解这里的common和rare?variant就是SNP,”常见的变异“,SNP就是位点,一个位点怎么能说常见和不常见呢?这里是有点反直觉的。这里的common说的是minor allele,就是the second most common allele。比如一个SNP:rs78601809,它的位置可知,在不同人群中的allele frequency可知,总体的MAF是0.39 (T)。一个SNP的MAF<1%,那就是rare variant。直觉理解就是这个位点的碱基在人群中很少发生变化。rare variants (MAF < 0.05) appeared more frequently in coding regions than common variants (MAF > 0.05) in this population

Genetic variants that are outside the reach of the most statistically powered association studies [13] are thought to contribute to the missing heritability of many human traits, including common variants (here denoted by minor allele frequency [MAF] >5%) of very weak effect, low-frequency (MAF 1–5%) and rare variants (MAF <1%) of small to modest effect, or a combination of both, with several possible scenarios all deemed plausible in simulation studies [14].

为什么genetic这么执着于MAF?

因为从进化角度,risk allele更有可能是minor allele,自然选择。不绝对,但可以说是富集。看文章:Are minor alleles more likely to be risk alleles?

common variants together account for a small proportion of heritability estimated from family studies,common variants通常都在非编码区,占总variants的很小一部分,同时effect size也比较低。

SNP的small effect和large effect是什么意思?effect size

极其容易搞混的术语:SNP、mutation、variant、allele、genotype。Allele frequency、Genotype frequency,alternative allele frequency、MAF。一定要能快速区分这些术语的差异,否则你做的就是假的统计遗传学。

gene-based rare-variant burden tests是用来干什么的?Increased Burden of Rare Variants Among S-HSCR。

epistatic effects是什么?

为什么说L-HSCR

你可能感兴趣的:(gwas,snp,和)