自从开始分享自己的CRISPR-Cas9学习笔记和记录之后,收到了很多很有用的Tips以及一些未曾思考过的问题。分享学习笔记是一个非常好的学习方法,因每个人的背景知识、思维逻辑和思考角度都可能不一样,因而在学习的侧重点以及疑问点也会因此不同。每当有人提出一个我未曾思考过的问题,就是我补充自己背景知识的机会,在来回交流过程中,经常得到许多意外收获。目前收到最多的问题是:
- 您好,我想要设计xx(非模式生物物种)的gRNA,你推荐的工具只能设计人和鼠的,还有别的工具可以设计gRNA吗?
- 您好,我想知道怎么选择一条合适的gRNA。
这两个问题可以说是直击要害,非常关键。之前设计gRNA的时候是在张峰老师的网页上随手挑一个,并根据网页工具指示选择gRNA,然而随意确是最致命。今天我们要讲的内容则是由基因编辑小伙伴蒋同学推荐的2020年CRISPR-Cas实验设计和数据分析的最新综述:Design and analysis of CRISPR–Cas experiments
文章主要分为以下两部分:
- Software tools for guide design
- analysis of CRISPR editing experiments
由于内容性质和篇幅限制,我们今天只讲第一部分。
1. 基因编辑器的谱系
说起CRISPR,好像下意识的就接上Cas9。然而Cas9(Streptococcus pyogenes ,SpCas9)并不是CIRSPR世界的唯一,但它是第一个被用于人类细胞基因编辑的Cas内切酶。既然我们学习基因编辑技术,即使用不上其他的工具,也要了解它们世界大概都有谁。而这篇文章做了非常好的总结:
如图可见:
(1)横坐标代表年份,纵坐标则是这些基因编辑器在ClinVar数据库中,能编辑的致病相关的SNPs的分数。例如,在上半部分Cas核酸酶的部分,FnCas9出现的年份是2016年,它能够靶向的致病相关SNPs比SpCas9要多。
(2)上半部分的Cas相关内容,以张峰等人为主。而下半部分的单碱编辑器主要以David Liu团队为起始,他俩是好朋友,他们和J. Keith Joung一起组成“CRISPR天团”,并创立致力于单碱基编辑疗法的公司Beam Therapeutics。我们都知道CRISPR最大的问题是脱靶,如果说CRISPR-Cas9是加农炮,那单碱基编辑器则是就是狙击枪。对于单碱基突变引起的疾病,使用单碱基编辑技术纠正错配的碱基,是非常理想的治疗手段。
(3)资源:ClinVar数据库,ClinVar是NIH资助并有NCBI主导的共用数据库,其收录了人类基因变异和表型之间的关系。
既有这么多种基因编辑器,那gRNA的设计工具更是眼花缭乱,最近感觉CRISPR技术的更新、进化速度远远大于我们学习的速度。
2. 常用的gRNA设计网站
一般来说,会先打开张峰课题组的网站https://zlab.bio/guide-design-resources ,并在下方的“TOOLS FOR GUIDE DESIGN”随意选择一个gRNA设计工具(一般选用CRISPOR)。然而真的是随便选一个就可以吗?之前没有思考和研究这些工具差异的原因是,由于研究的是人类基因,对于on-target以及off-target的预测方法已经趋于成熟,因此个人主观认为,不论是什么工具,大概都差不多吧。造成这种错觉的原因是我对计算机科学、统计学的无知。试想一下,on-target以及off-target的预测依赖于精妙的算法,而算法则依赖尽可能精准的模型。不同的工具,很有可能使用不同的模型、算法以及判定标准。因此强烈推荐不要错过这部分的解读,本文是计算机科学家,从算法、统计学的角度解释不同gRNA设计工具的差异,这一点是我们湿实验的人一直忽略或者是根本就没想到的地方。
经统计,目前至少有30中网页gRNA设计工具,还不包括一些需要自行下载代码运行的设计工具。作者列举了目前维护情况较好的几个常用网页工具进行介绍,盈利性质的商业设计工具、需要自行运行代码的工具以及有用途小众的工具则不在此列。
纵观这些工具可以很清晰的看到,不同的网站服务于不同的目的,当一个网页工具不能得到预期目的时,用户需要混合搭配使用。以下是这些网页工具的分点介绍:
2.1 input:信息输入情况
在选择好网页工具之后,我们需要输入一些关于目的基因或者序列的信息:
可上传的数据类型:txt序列文档,fastq序列文件,或者允许用户输入转录本ID,例如Ensemble ID 或者RefSeq。这对knockout来说非常方便,不然的话用用户需要自行上传外显子或蛋白的CDS序列。但这里需要注意转录本ID是有明确的序列,而基因symbol则不是,其原因在于同一个基因可能会有N个转录本,因此需要特异性编辑某个转录本的实验,网站工具允许选择转录本ID是非常有用的,网页工具的转录本序列源是Consensus CDS project (CCDS) 和APPRIS等权威源数据库。
CHOPCHOP、E-CRISP等一些工具会默认优选选择针对所有转录本的gRNA,而 CRISPick和GUIDES等工具可以定义更多参数,例如,gRNA的间隔、分布等等,因为可以设置gRNA分布,因此可避免设计出来的高分gRNA集中在某个弱外显子上,gRNA的分布自定义对设计library是非常有用的,通过提高gRNA的外显子覆盖度,从而保证基因编辑的效果。当目标基因的数目较少时,还可以手动依次设计,而library的设计则无法将上万的基因人工敲入,因此允许用户批量定义目标基因的工具在library的设计中尤为便捷。
2.2 基因组和Cas酶多样性、基因编辑目的
这部分可以很好的解答上面的第一个问题:
您好,我想要设计xx(非模式生物物种)的gRNA,你推荐的工具只能设计人和鼠的,还有别的工具可以设计gRNA吗?
通常这种情况,我的答案只能是抱歉,我不是很了解。
(1)基因组多样性:根据上表可知,CHOPCHOP和CRISPOR可对hundreds的物种进行设计,而少数只有human and mouse这种模式生物。当这些工具都没有包括实验的目的物种时,需要找到支持用户自行上传参考基因组的工具,例如:CRISPy-web (http://crispy.secondarymetabolites.org/) 。
(2)Cas酶多样性:由于不同的Cas酶对应的PAM序列不同,因此期望所有工具都能涵盖所有的Cas酶 gRNA序列设计不太实际。在这里CHOPCHOP就是最大的秀儿,它可支持任何5′ or 3′ PAM,而CRISPOR、RGEN Cas-Designer还能支持10中以上Cas酶。
(3)编辑目的: knockout、CRISPRa or CRISPRi?虽染CRISPR技术发展突飞猛进,但SpCas9仍然是目前使用最广的Cas酶,而且Cas9相关的试剂是最全的(丰满的现实)。目前来说,knockout还是最主流的应用,但有一些网页工具还提供转录本起始位点,从而可以设计CRISPRa and i。
2.3 可视化结果
看到就是实在,有些用户偏好可视化结果,举例CRISPOR。
粘贴序列后提交,可视化结果如下:
而GUIDES可提供依据GTEx数据库的剪接体的可视化结果(想放图来着,但是网页结果太慢了),这一点用CHOPCHOP使用的UCSC基因组不同。
2.4 on-target和off-target的预测方法和能力
on-target:on-target的预测方法得益于基于SpCas9的CRISPR screens的发展,目前有Rule Set 2、Moreno-Mateos score 、SAE score等方法。(1) 对于慢病毒传递系统以及RNA聚合酶III启动子依赖的哺乳动物细胞,Rule Set 2是最好的方法;(2)而体外转录则Moreno-Mateos score表现更佳。因此需要依据自身实验的特性选择拥有更合适的on-target评价方法的gRNA设计工具。
off-target:目前有 CCTop、CFD score、Hsu-Zhang score和Elevation等可off-target活性,不仅仅是简单计算错配的数量。而不是所有的工具都使用了全面的脱靶预测方法,这将会导致存在“漏网之鱼”,CRISPOR看起来是评价方式最多的方法。具体可参照上文中的table 1。
2.5 下游实验设计也会影响gRNA的选择
(1)对于构建单克隆细胞系的实验来说,可以在on-target的能力上让步,从而避免脱靶的情况,而对于CRISPR library则在on-target上要求更高。
(2)对于使用U6启动子的gRNA转录方式,使用带有G为起始的gRNA可以增强U6启动子转录能力。不过这方面我们在设计gRNA的oligo时,可以人为的加入G:
(3)此外,含有RNA聚合酶III终止序列(4 - 6个T)、与传递载体同源、或用于克隆的限制性酶切位点的gRNA,最好可以排除在外。着这里体现为Poly-T motif、Poly-N motif、hits in CpG islands、homology to delivery vector等多个评价选项。具体仍可参照上表。
2.6 重点:基因注释改变引起on-target的偏移
随着人们对基因认知的不断加深,基因注释不断更新,原先认为是protein-coding的gene,可能会被重注释为 长非编码RNA(long noncoding RNAs,lncRNAs),反之亦然,这种情况会造成targeting drift。例如可在Addgene上购买到的CRISPR screens GeCKOv2,目前已经有少量偏移,而GeCKO的第一个版本,目前已经在Addgene上失去踪迹,大约是因为这个库有“比较重大的缺陷”。
(小声嘀咕,好似由于基因注释引起的少量偏移对我们来说影响不大,毕竟只要筛到关键基因即可,不一定强求库的完整性。而需要考虑的是,早期的libraries是在比较旧的on-target和off-target评价体系下设计的,因此这些库的on-target和脱靶情况需要重新评估。)
3. 使用不同工具设计同一个基因的gRNA
一个基因
作者使用3个网页工具,对人类 HPRT1 (hypoxanthine phosphoribosyltransferase1) 基因进行gRNA设计,结果如下:
(1)CHOPCHOP由于没有ATG的排除标准,因此在起始位点ATG之前的gRNA也被囊括在内。因此使用CHOPCHOP的时候,要么自己粘贴某段特定的序列,不然就是在Snapgene中检查gRNA的周边情况,以免在ATG之前。
(2)可见CRISPick正如前面所说,它设计的gRNA会有一定间隔的出现在基因的多个外显子上,并且覆盖度可达protein coding序列的65%。而我们之前有说过gRNA越设计在后面,前面翻译的蛋白就越完整,很有可能前部分的蛋白就已经拥有生物学功能了,因此这里我们文章中提到的knockout的gRNA设计原则:gRNA要针对所有的isoform,并尽可能靠前。这个原则并不是通用的,而是仅仅针对knockout,实际操作还需要各位自行考虑。
(3)GUIDES则主要依赖于基因注释的结果。
按照前面的介绍,我们不难发现,CRISPOR在多个方面都是比较优秀的,但这里为什么没有用CRISPOR的例子呢?
六个基因:一个基因不足以说明情况,则多试几个,根据下图我们可以看到,不同的网页工具设计出来的gRNA有重叠部分,究其原因则是因为使用了相似或者相同的on-target和off-target评价策略。例如:
(1)由于对基因isoform上的策略不同,CRISPick的168个gRNA被CHOPCHOP和E-CRISP排除在外,原因是当给定一个基因ID之后,CRISPick会自动选择一个“最优”转录本进行设计,而CHOOCHOP倾向于针对所有转录本。
(2)三个网页工具的重叠部分高达1169个gRNA,因其有相似的on-target评价策略:Rule Set 2。但由于off-target策略差异,会导致有互相排除的部分。
(3)CHOPCHOP和E-CRISP有1082个重叠gRNA,因为他们都针对基因的5-65% coding序列,而CHOPCHOP并不排除target在poly-T motif (RNA聚合酶III终止子)的gRNA,而CRISPick和E-CRISP则排除了,因此CHOPCHOP有一个较大的非重叠部分。
这里要说一句老套的话,具体问题具体分析,gRNA设计工具没有孰优孰劣,在能拿到手的实验资源条件下,保证达到课题实验目的和设计,综合考虑设计gRNA,是我们的最终目的。该综述非常值得一看,强推。