CRISPR-Cas gRNA设计到底该选哪个工具？？

自从开始分享自己的CRISPR-Cas9学习笔记和记录之后，收到了很多很有用的Tips以及一些未曾思考过的问题。分享学习笔记是一个非常好的学习方法，因每个人的背景知识、思维逻辑和思考角度都可能不一样，因而在学习的侧重点以及疑问点也会因此不同。每当有人提出一个我未曾思考过的问题，就是我补充自己背景知识的机会，在来回交流过程中，经常得到许多意外收获。目前收到最多的问题是：

您好，我想要设计xx（非模式生物物种）的gRNA，你推荐的工具只能设计人和鼠的，还有别的工具可以设计gRNA吗？

您好，我想知道怎么选择一条合适的gRNA。

这两个问题可以说是直击要害，非常关键。之前设计gRNA的时候是在张峰老师的网页上随手挑一个，并根据网页工具指示选择gRNA，然而随意确是最致命。今天我们要讲的内容则是由基因编辑小伙伴蒋同学推荐的2020年CRISPR-Cas实验设计和数据分析的最新综述：Design and analysis of CRISPR–Cas experiments

paper

文章主要分为以下两部分：

Software tools for guide design
analysis of CRISPR editing experiments

由于内容性质和篇幅限制，我们今天只讲第一部分。

content

1. 基因编辑器的谱系

说起CRISPR，好像下意识的就接上Cas9。然而Cas9（Streptococcus pyogenes ，SpCas9）并不是CIRSPR世界的唯一，但它是第一个被用于人类细胞基因编辑的Cas内切酶。既然我们学习基因编辑技术，即使用不上其他的工具，也要了解它们世界大概都有谁。而这篇文章做了非常好的总结：

the universe of target

如图可见：

（1）横坐标代表年份，纵坐标则是这些基因编辑器在ClinVar数据库中，能编辑的致病相关的SNPs的分数。例如，在上半部分Cas核酸酶的部分，FnCas9出现的年份是2016年，它能够靶向的致病相关SNPs比SpCas9要多。

（2）上半部分的Cas相关内容，以张峰等人为主。而下半部分的单碱编辑器主要以David Liu团队为起始，他俩是好朋友，他们和J. Keith Joung一起组成“CRISPR天团”，并创立致力于单碱基编辑疗法的公司Beam Therapeutics。我们都知道CRISPR最大的问题是脱靶，如果说CRISPR-Cas9是加农炮，那单碱基编辑器则是就是狙击枪。对于单碱基突变引起的疾病，使用单碱基编辑技术纠正错配的碱基，是非常理想的治疗手段。

（3）资源：ClinVar数据库，ClinVar是NIH资助并有NCBI主导的共用数据库，其收录了人类基因变异和表型之间的关系。

既有这么多种基因编辑器，那gRNA的设计工具更是眼花缭乱，最近感觉CRISPR技术的更新、进化速度远远大于我们学习的速度。

2. 常用的gRNA设计网站

一般来说，会先打开张峰课题组的网站https://zlab.bio/guide-design-resources ，并在下方的“TOOLS FOR GUIDE DESIGN”随意选择一个gRNA设计工具（一般选用CRISPOR）。然而真的是随便选一个就可以吗？之前没有思考和研究这些工具差异的原因是，由于研究的是人类基因，对于on-target以及off-target的预测方法已经趋于成熟，因此个人主观认为，不论是什么工具，大概都差不多吧。造成这种错觉的原因是我对计算机科学、统计学的无知。试想一下，on-target以及off-target的预测依赖于精妙的算法，而算法则依赖尽可能精准的模型。不同的工具，很有可能使用不同的模型、算法以及判定标准。因此强烈推荐不要错过这部分的解读，本文是计算机科学家，从算法、统计学的角度解释不同gRNA设计工具的差异，这一点是我们湿实验的人一直忽略或者是根本就没想到的地方。

经统计，目前至少有30中网页gRNA设计工具，还不包括一些需要自行下载代码运行的设计工具。作者列举了目前维护情况较好的几个常用网页工具进行介绍，盈利性质的商业设计工具、需要自行运行代码的工具以及有用途小众的工具则不在此列。

table 1

纵观这些工具可以很清晰的看到，不同的网站服务于不同的目的，当一个网页工具不能得到预期目的时，用户需要混合搭配使用。以下是这些网页工具的分点介绍：

2.1 input：信息输入情况

在选择好网页工具之后，我们需要输入一些关于目的基因或者序列的信息：

可上传的数据类型：txt序列文档，fastq序列文件，或者允许用户输入转录本ID，例如Ensemble ID 或者RefSeq。这对knockout来说非常方便，不然的话用用户需要自行上传外显子或蛋白的CDS序列。但这里需要注意转录本ID是有明确的序列，而基因symbol则不是，其原因在于同一个基因可能会有N个转录本，因此需要特异性编辑某个转录本的实验，网站工具允许选择转录本ID是非常有用的，网页工具的转录本序列源是Consensus CDS project (CCDS) 和APPRIS等权威源数据库。

CHOPCHOP、E-CRISP等一些工具会默认优选选择针对所有转录本的gRNA，而 CRISPick和GUIDES等工具可以定义更多参数，例如，gRNA的间隔、分布等等，因为可以设置gRNA分布，因此可避免设计出来的高分gRNA集中在某个弱外显子上，gRNA的分布自定义对设计library是非常有用的，通过提高gRNA的外显子覆盖度，从而保证基因编辑的效果。当目标基因的数目较少时，还可以手动依次设计，而library的设计则无法将上万的基因人工敲入，因此允许用户批量定义目标基因的工具在library的设计中尤为便捷。

2.2 基因组和Cas酶多样性、基因编辑目的

这部分可以很好的解答上面的第一个问题：

您好，我想要设计xx（非模式生物物种）的gRNA，你推荐的工具只能设计人和鼠的，还有别的工具可以设计gRNA吗？

通常这种情况，我的答案只能是抱歉，我不是很了解。

（1）基因组多样性：根据上表可知，CHOPCHOP和CRISPOR可对hundreds的物种进行设计，而少数只有human and mouse这种模式生物。当这些工具都没有包括实验的目的物种时，需要找到支持用户自行上传参考基因组的工具，例如：CRISPy-web (http://crispy.secondarymetabolites.org/) 。

（2）Cas酶多样性：由于不同的Cas酶对应的PAM序列不同，因此期望所有工具都能涵盖所有的Cas酶 gRNA序列设计不太实际。在这里CHOPCHOP就是最大的秀儿，它可支持任何5′ or 3′ PAM，而CRISPOR、RGEN Cas-Designer还能支持10中以上Cas酶。

（3）编辑目的： knockout、CRISPRa or CRISPRi？虽染CRISPR技术发展突飞猛进，但SpCas9仍然是目前使用最广的Cas酶，而且Cas9相关的试剂是最全的（丰满的现实）。目前来说，knockout还是最主流的应用，但有一些网页工具还提供转录本起始位点，从而可以设计CRISPRa and i。

2.3 可视化结果

看到就是实在，有些用户偏好可视化结果，举例CRISPOR。

粘贴序列后提交，可视化结果如下：

CRISPOR

而GUIDES可提供依据GTEx数据库的剪接体的可视化结果（想放图来着，但是网页结果太慢了），这一点用CHOPCHOP使用的UCSC基因组不同。

2.4 on-target和off-target的预测方法和能力

on-target：on-target的预测方法得益于基于SpCas9的CRISPR screens的发展，目前有Rule Set 2、Moreno-Mateos score 、SAE score等方法。（1）对于慢病毒传递系统以及RNA聚合酶III启动子依赖的哺乳动物细胞，Rule Set 2是最好的方法；（2）而体外转录则Moreno-Mateos score表现更佳。因此需要依据自身实验的特性选择拥有更合适的on-target评价方法的gRNA设计工具。

off-target：目前有 CCTop、CFD score、Hsu-Zhang score和Elevation等可off-target活性，不仅仅是简单计算错配的数量。而不是所有的工具都使用了全面的脱靶预测方法，这将会导致存在“漏网之鱼”，CRISPOR看起来是评价方式最多的方法。具体可参照上文中的table 1。

2.5 下游实验设计也会影响gRNA的选择

（1）对于构建单克隆细胞系的实验来说，可以在on-target的能力上让步，从而避免脱靶的情况，而对于CRISPR library则在on-target上要求更高。

（2）对于使用U6启动子的gRNA转录方式，使用带有G为起始的gRNA可以增强U6启动子转录能力。不过这方面我们在设计gRNA的oligo时，可以人为的加入G：

G for RNA

（3）此外，含有RNA聚合酶III终止序列(4 - 6个T)、与传递载体同源、或用于克隆的限制性酶切位点的gRNA，最好可以排除在外。着这里体现为Poly-T motif、Poly-N motif、hits in CpG islands、homology to delivery vector等多个评价选项。具体仍可参照上表。

2.6 重点：基因注释改变引起on-target的偏移

随着人们对基因认知的不断加深，基因注释不断更新，原先认为是protein-coding的gene，可能会被重注释为长非编码RNA（long noncoding RNAs，lncRNAs），反之亦然，这种情况会造成targeting drift。例如可在Addgene上购买到的CRISPR screens GeCKOv2，目前已经有少量偏移，而GeCKO的第一个版本，目前已经在Addgene上失去踪迹，大约是因为这个库有“比较重大的缺陷”。

libraries

（小声嘀咕，好似由于基因注释引起的少量偏移对我们来说影响不大，毕竟只要筛到关键基因即可，不一定强求库的完整性。而需要考虑的是，早期的libraries是在比较旧的on-target和off-target评价体系下设计的，因此这些库的on-target和脱靶情况需要重新评估。）

3. 使用不同工具设计同一个基因的gRNA

一个基因

作者使用3个网页工具，对人类 HPRT1 (hypoxanthine phosphoribosyltransferase1) 基因进行gRNA设计，结果如下：

three tools

（1）CHOPCHOP由于没有ATG的排除标准，因此在起始位点ATG之前的gRNA也被囊括在内。因此使用CHOPCHOP的时候，要么自己粘贴某段特定的序列，不然就是在Snapgene中检查gRNA的周边情况，以免在ATG之前。

（2）可见CRISPick正如前面所说，它设计的gRNA会有一定间隔的出现在基因的多个外显子上，并且覆盖度可达protein coding序列的65%。而我们之前有说过gRNA越设计在后面，前面翻译的蛋白就越完整，很有可能前部分的蛋白就已经拥有生物学功能了，因此这里我们文章中提到的knockout的gRNA设计原则：gRNA要针对所有的isoform，并尽可能靠前。这个原则并不是通用的，而是仅仅针对knockout，实际操作还需要各位自行考虑。

（3）GUIDES则主要依赖于基因注释的结果。

按照前面的介绍，我们不难发现，CRISPOR在多个方面都是比较优秀的，但这里为什么没有用CRISPOR的例子呢？

六个基因：一个基因不足以说明情况，则多试几个，根据下图我们可以看到，不同的网页工具设计出来的gRNA有重叠部分，究其原因则是因为使用了相似或者相同的on-target和off-target评价策略。例如：

six genes

（1）由于对基因isoform上的策略不同，CRISPick的168个gRNA被CHOPCHOP和E-CRISP排除在外，原因是当给定一个基因ID之后，CRISPick会自动选择一个“最优”转录本进行设计，而CHOOCHOP倾向于针对所有转录本。

（2）三个网页工具的重叠部分高达1169个gRNA，因其有相似的on-target评价策略：Rule Set 2。但由于off-target策略差异，会导致有互相排除的部分。

（3）CHOPCHOP和E-CRISP有1082个重叠gRNA，因为他们都针对基因的5-65% coding序列，而CHOPCHOP并不排除target在poly-T motif （RNA聚合酶III终止子）的gRNA，而CRISPick和E-CRISP则排除了，因此CHOPCHOP有一个较大的非重叠部分。

这里要说一句老套的话，具体问题具体分析，gRNA设计工具没有孰优孰劣，在能拿到手的实验资源条件下，保证达到课题实验目的和设计，综合考虑设计gRNA，是我们的最终目的。该综述非常值得一看，强推。