2022-04-17

Nat Biotech | 基因编辑对癌症相关突变进行高通量功能评估

原创 huacishu 图灵基因 2022-04-17 07:03

收录于话题#前沿生物大数据分析

撰文:huacishu

IF=54.908

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者使用胞嘧啶和腺嘌呤碱基编辑器以及向导RNA(sgRNA)文库,评估了29060个导致蛋白质变体的癌症相关转换突变对非肿瘤性肺细胞存活和增殖的功能影响;

2、作者通过在慢病毒载体上使用替代靶序列与sgRNA编码序列配对来监测碱基编辑效率和结果,确定了每个sgRNA诱导单一初级蛋白变体的sgRNA,使这些突变与碱基编辑引起的细胞表型相联系。


韩国延世大学医学院Hyongbum Henry Kim教授课题组在国际知名期刊Nat Biotechnol在线发表题为“High-throughput functional evaluation of human cancer-associated mutations using base editors”的论文。癌症组织中发现的许多突变的综合表型表征是癌症基因组学的最大挑战之一。在这项研究中,作者使用胞嘧啶和腺嘌呤碱基编辑器以及向导RNA(sgRNA)文库,评估了29060个导致蛋白质变体的癌症相关转换突变对非肿瘤性肺细胞存活和增殖的功能影响。通过在慢病毒载体上使用替代靶序列与sgRNA编码序列配对来监测碱基编辑效率和结果,确定了每个sgRNA诱导单一初级蛋白变体的sgRNA,使这些突变与碱基编辑引起的细胞表型相联系。该方法可以扩展到更多未知意义的变体和其他肿瘤类型。

为了使用胞嘧啶碱基编辑器(CBE)和腺嘌呤碱基编辑器(ABE)将癌症相关的转移突变引入内源性靶序列,作者首先构建了表达CBE或ABE的细胞系。HBEC30KT细胞是来源于正常肺细胞的永生化非致瘤性支气管上皮细胞。作为癌前细胞,使用慢病毒表达针对TP53的短发夹状RNA(shRNA)的HBEC30KT细胞(HBEC30KT-shTP53;以下简称P细胞)。尽管P细胞只表达低水平的TP53 mRNA,但基因集富集分析显示p53途径上调。与HBEC30KT细胞类似,P细胞需要表皮生长因子(EGF)进行细胞扩增。依次将表达反式激活子(rtTA)和碱基编辑器(CBE或ABE;图1a)的慢病毒载体转导到P细胞(方法)。由此产生的细胞系表达CBE或ABE,分别命名为P-C细胞或P-a细胞。为了确定可被CBE或ABE修饰以包含在人类癌症组织中观察到的转移突变的靶序列,作者使用了癌症中的体细胞突变目录(COSMIC),并确定了84806个C>T和G>A单核苷酸变异(SNV)和23176个A>G和T>C SNV,它们可以分别由CBE和ABE使用80203和23008个sgRNA以高预测效率生成。还添加了两组sgRNAs阴性对照组:第一组含有不针对人类基因组中任何序列的sgRNAs(以下简称非靶向sgRNAs或NT);第二组由sgRNAs组成,它们与CBE或ABE一起会诱发同义突变。通过这个过程,分别为CBE和ABE制备了83731和23613个sgRNA。为了监测碱基编辑效率和结果,向sgRNA编码慢病毒载体(图1b)中添加了相应的替代靶序列,生成了上述83731(用于CBE)和23613(用于ABE)对sgRNA编码序列和靶序列的慢病毒文库,分别命名为文库C和A(图1b)。在两个文库中的sgRNA编码序列和目标序列之间添加了一个8-nt长的分子标识符(UMI),用于跟踪转导细胞和后续分析。作者分别将文库C和A转化为重复的P-C细胞和P-A细胞以诱导CBE或ABE表达(图1c)。当在初始转导后第10天测量整合靶序列的碱基编辑效率时,发现效率很高;在第4、5、6和7位,CBE的中位效率分别为57%、59%、61%和53%,ABE的中位效率分别为16%、68%、68%和59%。通过基础编辑器效率预测计算模型(如DeepCBE、DeepABE和BE-Hive)比通过Cas9核酸酶活性预测模型更好地预测测得的基础编辑效率。当比较独立生物复制中氨基酸变化或非同义编辑效率时,观察到高度相关性,皮尔逊相关系数分别为0.93和0.97(图1d)。此外,一小部分同义对照sgRNAs也显示出非同义编辑,这强调了监测基础编辑效率和结果的重要性。因此,在随后的分析中,没有使用这些sgRNA作为阴性对照。接下来,作者研究了整合靶序列的碱基编辑效率与表型变化之间的关系。使用190个针对C2文库中65个必需基因的独特sgRNA,发现当替代序列中的非同义碱基编辑效率超过60%时,sgRNA转导细胞的大量消耗(图1e)。与这一发现一致,受试者操作特征分析显示,在整合靶序列中效率高于60%的靶向sgRNA的必需基因具有更好的性能。此外,用较少的UMI筛选出sgRNA可提高功能分类的准确性。当用数学方法计算内源性位点的碱基编辑效率与相应sgRNA的对数倍变化(LFC)之间的关系,作为生长表型的参数,例如增殖和存活的增加或减少时,LFC和碱基编辑效率相关。此外,当碱基编辑效率低于60%时,与效率高于60%时相比,在必需基因中诱导终止密码子的sgRNA被归类为中性的比例更高。因此,从功能分类中筛选出那些效率低下的sgRNA和在第10天UMI数量不足(<50)的sgRNA。

为了评估CBE和ABE产生的变异对细胞增殖和存活的功能影响,在没有强力霉素的情况下培养这些含有突变的细胞群14天(图1c)。在文库C和A最初转导后的第10天和第24天,从细胞群中分离基因组DNA,并进行深度测序,以评估sgRNA和目标序列对以及UMI的相对频率。计算了每个sgRNA的LFC值和P值。基于−log10(P值)和每个sgRNA的中值LFC,使用对照非靶向sgRNA的分布,从功能上将sgRNA分为消耗、可能消耗、可能中性(可能消耗)、中性、可能中性(可能生长)、可能生长和生长(图2a,b)。当针对DepMap中定义的常见必需基因的无义突变诱导sgRNAs进行分类时,只有47%的非同义碱基编辑效率低于60%的sgRNAs被分类为耗尽或可能耗尽,而69%的编辑效率高于60%的sgRNAs被分类为耗尽或可能耗尽,强调基础编辑效率监控的重要性。如果sgRNA诱导的突变耗尽,每个sgRNA的UMI数量会减少。因此,在基于Cas9的筛选中,每个sgRNA的UMI数量以前被用作额外参数,以提高命中的准确性。事实上,从第10天到第24天,针对C2文库中必需基因(消耗性sgRNAs)的CBE sgRNAs在UMI CPM中的LFC,以及消耗性sgRNAs在UMI RPM中的LFC中值,随着时间的推移而降低。为了减少分类中错误消耗或生长的sgRNA的数量,将符合RPM和P值中LFC消耗或生长标准的sgRNA分类为可能消耗或可能生长,前提是UMI CPM中的LFC分别未显示消耗或生长(图2a)。

为了测试高通量评估的规模是否可以修改,以及使用独立的文库是否可以重现分类结果,作者制备了三个较小的文库(分别包含3261和3170个CBE特有的sgRNAs和1595个ABE特有的sgRNAs),分别命名为C1、C2和A1。观察到库C、C1和C2以及库A和A1中相同整合靶序列的非同义碱基编辑效率之间存在高度相关性(图3a)。使用图2a(图3b)中描述的方法对sgRNA进行了功能分类,发现使用大型文库(C和A)的变体分类与使用较小文库C1、C2和A1的变体分类(图3c)是兼容的,这表明即使实验规模减小,作者的高通量分类也是可重复的。

为了验证基于高通量实验结果的分类,单独测试了碱基编辑产生的变体的效果。选择了28个用于高通量评估的sgRNA,并通过慢病毒转导将这些sgRNA分别导入P-C细胞或P-A细胞。将转导的细胞与强力霉素一起培养7天以诱导碱基编辑,并在没有强力霉素的情况下再培养14天。在感染后6、10、17和24天收集并分析细胞,以追踪sgRNA递送后的个体等位基因频率(图4a)。正如预期的那样,观察到高通量实验中整合靶序列的20个选定sgRNAs诱导的61个碱基编辑等位基因的频率与独立个体实验中内源性靶位点的频率之间存在高度相关性(图4b)。深度测序显示,碱基编辑产生的变异频率增加、保持不变或减少。如果在第10天之后,碱基编辑的变异频率降低,野生型序列频率增加,将sgRNA归类为缺失。当碱基编辑的变异频率增加而野生型序列频率降低时,相关的sgRNA被归类为外生型或中性型。当碱基编辑的变异体和野生型序列的频率在第10天之后随时间保持不变时,考虑到碱基编辑的泄漏表达,将sgRNA分类为中性或耗尽。基于变异和野生型序列频率的单个sgRNA功能分类结果与高通量评估结果一致(图4c)。由于使用这种变异频率跟踪很难区分外生长和中性表型,接下来进行竞争性增殖分析,以比较sgRNA转导和非转导细胞的增殖(图4a)。根据sgRNA转导细胞随时间的富集或耗竭情况,与非靶向sgRNA转导的细胞相比,对sgRNA进行分类。流式细胞术显示,基于该分析的分类与高通量评估的分类一致(图4d),这也支持了高通量评估的高准确性。

上述分析基于对细胞增殖和生存能力的评估。鉴于癌症最重要的标志之一是生长信号的自给自足,作者评估了细胞对生长信号EGF的依赖性,EGF是P细胞增殖所必需的。构建了一个名为eC(表皮生长因子CBE)的文库,在162个与EGF/EGF受体(EGFR)信号通路相关的基因中观察到3967个过渡突变。将eC文库导入P-C细胞,并通过添加强力霉素诱导碱基编辑。将细胞群分为EGF去除组和未处理对照组,去除EGF并添加10nM的EGFR抑制剂阿伐他尼,然后将两个对照组再培养10天(图5a)。与上述实验类似,通过比较EGF去除组和对照组的细胞数量,对sgRNA进行功能分类(图5b)。在对整合靶序列的编辑结果进行评估后,对899个具有单一氨基酸变化的蛋白质变体进行了功能分类,仅确定了一个对阿法替尼产生耐药性的衍生变体EGFR_p.T790M,这是一种众所周知的功能增益突变;两种消耗型变体,SH3GL3_p.D169N和PIK3C2B_p.E650K;和495个中性变体(图5c)。高通量评估显示,EGFR_p.P753S是一种VUS,与可能的耗竭表型相关。

在这项研究中,根据对非肿瘤性支气管上皮细胞增殖和存活的影响,对29060种蛋白质变体进行了分类。随后在体内对这些变体进行的功能评估可以提供关于这些变体致瘤功能的进一步信息。此外,由于本研究中使用的癌前细胞(P细胞)来源于原代支气管上皮细胞,因此研究中显示的功能在其他细胞类型中可能有所不同。尽管肺癌相关突变在每个功能类别中的分布与其他癌症相关突变的分布相似,但在其他细胞类型中进行高通量评估可以提供更可靠的普遍结论。此外,癌症基因组图谱(TCGA)中列出的突变分布与TCGA中未列出的突变分布相似。虽然CBE(而非ABE)最近被用于寻找具有功能效应的过渡突变,但这些筛查需要对潜在的命中率进行单独验证,因为在筛查期间没有监测到碱基编辑效率和结果。通过监测替代靶序列的碱基编辑效率和结果,并使用UMIs,实现了对过渡突变的高通量功能评估。最近,还报道了使用类似的碱基编辑效率和结果监测系统,对CBE诱导但非ABE诱导的癌症相关变体进行高通量评估。然而,整合靶序列的碱基编辑结果和效率有时可能不同于相应内源性位点的碱基编辑结果和效率;在这些情况下,确定每个sgRNA的主要蛋白质变体可能不太准确。尽管直接监测内源性位点的碱基编辑结果可以防止这种潜在差异,但在这些大规模高通量实验中,实际上不可能监测所有内源性位点。涉及直接监测内源性位点的单独或小规模实验可以提高确定主要蛋白质变体的准确性。此外,使用最近开发的高活性碱基编辑器将减少因碱基编辑效率低而被归类为“未评估”的sgRNA数量。总之,使用UMIs和替代靶序列进行的高通量评估确定了至少29060种蛋白质变体对非肿瘤细胞增殖和存活的功能影响。这些结果将有助于更好地理解突变在癌症,尤其是肺癌发展中的功能作用。该结果将有助于提高癌症样本基因检测的临床实用性。


教授介绍

Hyongbum Henry Kim博士于2006年获得延世大学博士学位。他目前是延世大学医学院药理学系的教授。他还是韩国基因组编辑协会的主席。他正试图改进和开发全基因组核酸酶库,以破坏编码和非编码元件。他的实验室正在进行的其他项目包括CRISPR-Cas9在遗传性眼部和肝脏疾病中的潜在治疗应用。他们还对基于靶序列评估CRISPR-Cas9活性的高通量方法感兴趣。他们将继续改进或开发用于生物医学研究和生物技术的基因组编辑工具,并将这些先进的基因组编辑方法应用于各种疾病的治疗模式。

参考文献

Kim Y, Lee S, Cho S, et al. High-throughput functional evaluation of humancancer-associated mutations using base editors. Nat Biotechnol.2022;10.1038/s41587-022-01276-4. doi:10.1038/s41587-022-01276-4

你可能感兴趣的:(2022-04-17)