19.4.19上海交大单细胞论坛学习

刘小泽整理于2019.4.19+4.26
有幸参加了4.19的上海交大单细胞论坛，下面简单记录了一下会议内容

单细胞测序技术探索人类胚胎发育-汤富酬教授

简介：汤老师课题组主要围绕人类早期胚胎发育、多能干细胞的自我更新能力和多能性调控的分子机理，特别是表观遗传学调控机理，以及相关的原始生殖细胞发育过程中的表观遗传学重编程机理。利用单细胞功能基因组学分析技术(单细胞RNA-Seq转录组分析、单细胞DNA甲基化组测序技术、单细胞多组学平行测序技术等)，以及基因编辑技术、少量细胞染色体免疫共沉淀-高通量测序技术、单细胞基因组测序技术、小鼠胚胎显微操作技术和胚胎干细胞体外定向分化等技术在单细胞和单碱基分辨率深入分析人类早期胚胎、生殖系细胞、以及多能干细胞中基因表达网络的表观遗传学调控机理

主要做人类着床前胚胎，困难在于胚胎数量比较少，通常一个大型个体只有十几个至几十个胚胎，每个胚胎只有一个或者少量的细胞，后来到囊胚之后，又会有几种不同类型的细胞，因此需要单细胞分辨率的方法去检测基因表达；

另外还需要全基因组水平的单细胞检测方法，人体细胞中有2万多个基因，如果在受精卵里面去看这些基因的表达，需要一个一个去做，那么就需要几万个细胞，另外这样没有办法看到基因与基因之间的正负相关关系。如果能拿一个细胞就检测出所有的基因，不仅可以节省使用材料，而且还可以探究任何两个基因之间正向或者负向相关。

目前单细胞技术已经被用在几百个课题中，来检测细胞异质性、细胞类型、细胞发育阶段、每种阶段中基因表达情况等等。

2009年在英国博后期间首创单细胞技术；

2013在北大组建团队，关注基因表达调控(DNA甲基化如何影响胚胎早期发育)，开发了世界第一个单细胞DNA甲基化测序技术，使用人或小鼠的一个细胞，就可以检测100万个以上CpG甲基化位点。

当时遇到的困难：审稿人要求数据验证，但是当时没有这样一种单细胞DNA甲基化测序方法，而且没有单细胞CpG位点的检测方法。因此又开发了单个细胞中单个CpG位点的检测方法，然后研究了人类生殖细胞的DNA甲基化组是如何变化的。

知道了精子和卵细胞的基因组都是高甲基化的，发育第一个星期，大约有一半的CpG位点被擦掉，到了囊胚期多能性内细胞团细胞阶段，大概只有43%甲基化位点留下；之后在胚胎发育的第二个星期，进行胚胎着床(粘到子宫壁上)，这个过程中甲基化会重新增加，结果比在精子和卵细胞中还要高一些，甲基化中位数在91%左右；着床后胚胎的所有体细胞也是存在hypermethylation（甲基化）状态的，而原始生殖细胞中甲基化是要重新擦掉(擦掉上一代所有的甲基化，让下一代根据基因组序列去重构表观信息)；胚胎发育到10-11周时，基因组中绝大多数甲基化都被擦掉，甲基化中位数大约只有7%左右，但是这仅仅是总体平均水平，实际上与转座相关的重复序列还有很多的甲基化留下来。一方面，当代想要尽可能去除上一代的"表观记忆"，另一方面，又不想让重复序列发生大量转录，造成大量转座影响，导致基因组不稳定。这里胚胎就选择了一个平衡：没有转座风险的地方就尽可能擦除甲基化，有转座风险的地方就保留了一些甲基化，将上一代的一些表观记忆带到了下一代

同时，由于当时技术限制，没有再深入探索。于是提出问题：精子甲基化比卵细胞要高很多（16%左右），那么精卵结合后甲基化比例怎么变化？是二者相等，还是继续保持精>卵，又或者是发生了逆转卵>精？

为了回答上面没有论证的问题，又利用父母源基因组测序+单个细胞中杂合SNP信息的获取，就可以分开一个细胞中的父源基因组和母源基因组，这样可以做到半个单细胞的甲基化测序 (2018，Parental specific DNA methylation dynamics duiring human)，结果就发现，父源基因组去甲基化速度非常快，发生一次卵裂后父源基因组甲基化就比母源少8-10倍，也就是甲基化发生了强烈的逆转，虽然这个差异是在着床前7天产生的差异，但是着床后虽然差异没有那么大，但仍然父源会比母源基因组低2-3倍，也就是说，虽然父源开始想要把更多的甲基化信息传递到后代胚胎中去，但是因为着床后早期胚胎发育主要是依靠母源基因组，所以会把绝大多数父源甲基化信息擦掉。

表观遗传学中除了甲基化以外，染色质状态也很重要，实验室也开发了单细胞多组学的方法，可以看到DNA甲基化、染色质状态、基因组拷贝数变异。大体方法就是：单细胞轻微裂解，保持细胞活性和染色质状态=》体外甲基化处理（甲基化酶作用到GpC位点的胞嘧啶）=》哺乳动物内源甲基化在CpG位点，这个C位点与GpC的绝大部分是分开的，如果测到一个DNA序列是open chromatin状态，也就是裸露的DNA双链，上面的GpC位点会被甲基化；如果是核小体占位或者异染色体区域，那么GpC位点不会甲基化。

染色质状态研究应用：
人早期胚胎只有60-80%可以正常发育的整倍体细胞，还有一些是多/少一两条=》可以根据单细胞的拷贝数变异，分开胚胎中整倍体细胞和异常的非整倍体细胞=》实验做了280多个单细胞的基因组分析，发现有60多个是非整倍体细胞=》
主要研究整倍体细胞=》
另外，研究了小鼠模型表观基因组变化，发现与人差异较大，比如基因启动子区域发挥作用是在小鼠1细胞到2细胞阶段，在人胚胎中是4细胞到8细胞阶段=》
最开始时卵的染色质很开放，精子的很致密；受精以后发生逆转；8细胞后重新回落，父源与母源在每个单细胞中的开放程度是一样的，这个现象是人类特有的=》小鼠模型还是存在局限性，还是直接研究人的胚胎更准确=》
生殖细胞发育不止在胚胎发育中存在，在出生后也是一直存在的，特别是精子发生过程，出生后还需要经历一些复杂的阶段，最后才能变成成熟的长尾巴的精子，但是这个过程研究复杂，因此利用了同步化小鼠胚胎发育到20个重要发育阶段中=》
在每个重要阶段进行转录组分析，找到重要的marker表达特点=》
每个发育阶段大约需要3~4个marker，并且没有跳跃连续发育过程，可以找到中间态=》
如果有的基因很早期就上调表达，那么很有可能就是一个master regulator gene；如果在比较晚才上调表达，那么有可能是一个下游执行基因

发现原型精子早期和晚期发育差异特别巨大，比其他任何两个相邻发育阶段的差异都大。
提出一个现象：男性不育没有长尾巴的精子，但有原型精子，因此医院有时会利用原型精子做试管婴儿，但结果仍然比有尾精子效率低很多。

猜测：不是原型精子本身不适合做试管婴儿，而是由于原型精子早期和晚期之间差别很大，晚期效果要好于早期阶段的精子

功能试验（利用小鼠）：将原型精子分为早期和晚期阶段，分别注射到小鼠成熟的卵细胞中，发现晚期的原型精子可以支持胚胎发育成囊胚并且效率较高，但早期不行=》目前正在尝试人类胚胎，找到精子发生上下游级联关系，成功的话可以提取晚期精子，提高体外胚胎成功率

探索人类精子发生过程：正常男性精子发生图谱：睾丸中随机挑选2000多个单细胞，进行scRNA分析，找到从精原干细胞到原型精子的整个发育阶段以及每个阶段重要marker基因表达的变化；更关心的是，男性不育患者精巢单细胞（患者的精巢中已经不存在生殖细胞，但是生殖细胞的微环境还在），利用单细胞测序发现了精巢中一个重要的体细胞--Sertoli Cell，与正常人相比发生了很大的基因表达变化，因此不仅生殖细胞没有，而且体细胞也发生了DNA损伤，因此不能进行正常的精子形成

除了生殖细胞，还做了脑细胞发育图谱、一整个系统的细胞图谱，比如消化道(食道、胃、小肠、大肠)整个的发育过程

总结：

目前细胞生物学特点：

以基因为核心，做各种调控关系，最后都要落到具体的基因上
聚焦基因的直接互作，连接它们之间的分子关系
上下游因果，比如想看到A基因促进B基因的上调

未来可能新增：

不局限与单个基因=》基因调控网络
DNA系统冗余性vs鲁棒性【既然一个链就包含了遗传信息，为何双链？二倍体（一对等位基因）？很多内脏器官成对分布（两个肾、两半肺）=》猜测：分子通路是否也是冗余的（同一个功能至少有两个以上的平行分子来实现）？】
human cells in vitro人类体细胞直接研究(不用退到动物模型上)
系统预测：看到什么变化，哪些可能与疾病有关，早期发现疾病

提问：

Q1：每个阶段可以找到3~5个高表达的基因(marker)，但它们是否是发育的关键基因？

A1：找到的marker确实有一些是下游的没那么重要的基因
Q2：找到了高表达基因，那么有没有一些基因被特异地关闭，那么这些关闭的基因是否为关键基因？

A2：比如从A阶段到B的两个状态的细胞，A阶段的marker必须很早就要关闭，这样才能允许B阶段发育；如果是相对较晚的关闭就会次要一些。因此通过A、B中间态寻找，不仅可以找到B阶段的marker，还可以找到A阶段的marker
Q3：开发的scCOOL-seq与ATAC-seq的比较？

A3：主要区别就是：ATAC-seq直接看的就是open chromatin区域(只占基因组不到1%)，异染色体就没有观察；scCOOL-seq就是首先扩增基因组片段(不管是open还是异染色体区域)，这样open和closed都可以看到，但是缺点就是closed比open多一百倍，这样需要测序深度很深，通量有限；如果想得到单细胞信息的话，使用ATAC-seq又快又便宜；如果想在少量细胞中看的更全的话，scCOOL-seq可以看的更清楚
Q4：利用marker gene表征各个细胞状态，怎么确定一个cell type中的marker就是稳定表征的？

A4：找的marker在每个细胞中都是表达的，但是大部分marker在每个细胞都会有波动，原因有两个：内源生物学+技术误差。这里提出的："中间态" 概念就很好，原来都关注不同的cell type，把不同类型看成分离的。但从发育角度看，它们都来自一个受精卵，所以所有的的细胞类型都是连续的，由于技术因素或者关注点不同，忽略掉了中间的过程。现在技术可以看到中间态了，那么细胞类型这个定义就存在一些问题，比如从A到B发育阶段中间的细胞，算A阶段细胞还是算B的？或者一种细胞分化成两种细胞，到什么时间算是彻底分开？
单细胞未来技术：造价、灵敏度、通量（目前一个细胞10元）+扩展单细胞组学(现在出了sc-chipseq)+单细胞代谢组、蛋白组

小鼠胚胎空间转录组图谱-景乃禾教授

主要从事中枢神经系统发育的分子机制和多能干细胞神经定向诱导分化的调控机制研究

主要做小鼠着床后胚胎

受精后在输卵管=》4.5天着床，向下长形成长形结构，近端与远端结构=》5.5天后端原条结构出现=》6.5-7.5天进行原肠运动，24h分出来3个胚层：外胚层（又繁分化为表皮、神经系统）、中胚层（骨骼、血液、肌肉、肾脏等）、内胚层(呼吸道、消化道)

目前存在的问题：组织中取出消化成单细胞，但是这样它们的位置信息就丢失了。

早期使用激光显微切割技术：可以留下空间信息，但通量不够

单细胞网络-陈洛南

主要研究方向：网络系统生物学、合成系统生物学、计算系统生物学；利用系统工程、动力学分析、优化和数学建模以生物复杂网络和动态行为为主线来研究生命系统

我们测量的基因、蛋白表达都是随着时间、条件变化的，一个cell type中也是不断变化的，并不是说细胞一发生变化，就意味着形成了不同的cell type。那么什么是稳定的？认为调控关系是稳定的，于是原假设就是：一个cell type中的调控关系是稳定的。

目前一个细胞可以看到量，比如：

expression
protein expr
metabolomics
methylation

但是，can we construct a network in a single cell?比如，就测了一个细胞的RNA-Seq、蛋白表达等，那么能不能得到映射出来的调控关系网络？

利用CSN：cell specific network=>one net for one cell

先了解如何对多个细胞构建网络？比如得到了100个细胞中5000个基因各自的表达量，那么就是一个5000x100矩阵，那么做一个两两的相关性网络，或者调控网络、因果网络等。总之，测出来多个细胞或者多个样本，就可以得到网络

对于一个细胞，主要基于独立概率分布：

独立概率分布

只要这个式子成立，就证明它们之间没有关系。

降维=》基因的度(每个基因连接个数) =》基因表达可能没有差异，但是度存在差异"Dark gene"

认为基因不稳定，度是稳定的，只是变成一个稳定的量，然后下面使用一般的聚类算法

1 NDM：network degree 《=》标准的GEM：gene expr

2 临界理论：缓慢累积=》快速变化，这是动态过程，重点在临界点(由慢到快的接点tipping point)

DNB：dynamic network biomarker

Tipping point => critical transition => DNB =>drug target

pseudo-trajectory: 找临界type，找到分化点branch point

3 细胞干性potency ：干细胞一个基因与很多基因都有关联（调控关系很混乱，每个细胞可以映射成一个网络，网络熵很大），越往体细胞关联越少

提问：

多个组学数据放在一起，基因组数据量大，其他数据量小，放一起可以吗？

需要做成独立的变量，基因、蛋白、甲基化映射到同一个空间，变成可比的=》data fusion

bulk与scRNA区别

scRNA：一个细胞一个网络，bulk是多个type的平均值

scRNA-seq肠癌病人ILC及受Sin1-mTOR调控的ILC2-陈磊

ILC：Innate lymphoid cells，参与innate immune，数量较少；lack of marker

ILC功能发展很快，主要在小鼠研究

type1：againgt tumor
type2: 对抗寄生虫
type3：对抗细胞外微生物

Q：肠癌病人有哪些类型ILC细胞，功能是什么

拿到组织=》流式分选：3个病人癌+癌旁，同样趋势：ILC3下降，ILC1上升
高维流式：同样ILC1上升，3下降
scRNA，希望找到好的marker，分出细胞type

ILC sorting：

每个样本Unsupervisede聚类，marker检查=>每个细胞类型比例=》feature plot for newly discovered markers=>sub groups of ILC1

mTOR信号通路=》sin1=》sin1敲除的小鼠=》胚胎致死，sin1对胸腺发育重要；sin1敲除对ILC2影响最显著

summary：

4 clusters of ILC2. Zeb2 cluster and Lgals cluster were regulate by Sin1
MHC-II/CD74 highly expressed only in one specific ILC2 subset

单细胞试剂盒测定酶分子活性-江德臣

100nm孔直径，毛细管电泳替代空气泵

2018PNAS，国内首次测定单个细胞器的蛋白活性，每次吸一个细胞器，管内反应完电信号改变排出，然后再下一个

比如：吸取溶酶体，然后糖苷蛋白活性分析（单个溶酶体中葡萄糖苷活性）验证是否吸取成功

可以在单个细胞层面研究细胞器差异，单细胞多种酶活性联合分析(所有试剂盒底物混合，然后看每个细胞中是否有这个酶)，一天能做100个细胞

流式需要大量的细胞，如果细胞量不够可以用这个技术；还可以提供空间信息，带有目的性；理论上可以吸取各种细胞器(目前做成功的是最好做的溶酶体)

噪声鲁棒性单细胞数据分析-邹欣

三个挑战：技术噪声、先验信息缺乏、高度稀疏

scRNA三个噪声来源：

随机：技术噪声，如设备热噪声、PCR扩增效率不同产生
系统性：非随机但与生物过程相关，如批次
生物学噪声：生物学过程相关但与研究问题无关，如细胞周期变化对细胞类型判断

算法：

OGFSC：基因滤除，（一般设置人工阈值），这里用算法替代人工，多重线性回归模型。另一种scmap算法会过滤掉大量DEGs

与数据先验信息吻合：重新分析Science（它使用人工阈值），结果产生差异
SINCE：single-cell number of clusters estimation

双向聚类法=》基因表达谱二值化=》CERS统计量，评价聚类结果错误风险=》比较不同的CERS判断最优结果

可靠地描述数据系统性波动

首次阐述过分类错误和欠分类错误可能同时出现，可以使用SINCE迭代聚类分析策略

建议：如果要进行scale、Normalization(比如FPKM、TPM)，有风险，可能引进的bias比去掉的bias还要大。推荐不要对数据本身进行操作，直接提取出数据更好一些。

单细胞蛋白检测技术- 丁显廷

蛋白与核酸不同，不能被扩增"放大"。做蛋白一般采用三种方法：流式、western blot、tissue上的免疫组化

最常见的单细胞多靶点检测—流式：原理就是拿来一个细胞，可能存在很多的biomarker与疾病相关，但是这个没办法直接观察。因此可以找一个荧光挂到其中一个biomarker上；想看另外一个biomarker，就要换一种荧光，以此类推。然后通过检测荧光的expression，然后变相评估荧光标记的biomarker的expression量。
改进：荧光流式变为质谱流式【荧光比较少（7种），而且光谱的overlap非常严重，不是特别好的标签，但元素多（已知的非放射性同位素就有130多种），更精确（分子量差1，就可以清楚知道是什么元素），通道数量多且无干扰，同位素没有背景（许多动物组织有自发荧光，但是不存在自发同位素）】

可以用少量样本获得大量数据，一般有三种信息需要重点关注：

表面身份证信息：CD4、CD5、CD8、CD45，看这个细胞是谁
表面功能信息：PD1、PDL1、HER2是表面功能信息
细胞内部变化信息：每个亚型的通路

血液金标准还不能完全确定肿瘤病人，单细胞组学可以辅助诊断

组织切片拓扑/空间学技术：免疫组化过程汇总不需要将组织消化成单个细胞，拿来切片直接挂上金属标签，然后激光原位离子化，所有成分推到质谱中检测，可以直接从原位检测每个细胞125种靶标检测，得到几乎所有感兴趣的细胞种类、细胞功能以及在拓扑学上发生怎样的变化

single cell western blot：蛋白上样、分离、固定（组蛋白或非组蛋白95%以上）、免疫杂交

提高通量：将化合物做到了一个孔板上，将细胞种到孔板，然后沿着孔板平行跑电泳：可以一个板处理100个细胞，每个细胞中6-7个蛋白的定量/半定量检测，丰度只需要2-10个拷贝就能检测出，做一次时间<2h。适用于发育生物学、干细胞分化、CTC研究、小动物样本、脑脊液

肝脏细胞单细胞图谱—张政

液体活检

最早指病灶扩散到血液的细胞，不止肿瘤

临床分期不等于手术分期

CTC：circulating tumor cell

判断细胞恶性程度：

细胞病例cytology
FISH
protein marker：EpCAM+/CK+/CD45-/DAPI+
single cell
Function assay
- EPISPOT
- metabolic assay: cancer hallmark 多种肿瘤共同拥有的特征(其中最简单的细胞能量代谢异常可以做)

肝癌单细胞异质性研究

肝癌异质性是影响疗效重要因素，靶向治疗困难

多点取材+PDPCs研究空间异质性

分支进化
53.8%驱动基因位于亚克隆
药物靶标全部位于分支

多点取材+PDPCs研究时空异质性(6例病人，69个取材点) Journal of hapotology,2019

转移可以是早期事件
多个克隆协同发生转移
转移灶药敏改变，可以采用"敏感性治疗"策略

单细胞全基因组解析肝癌克隆起源

多中心起源
- 肿瘤间突变谱不同
- 预后一般较好
肝内转移(单中心)
- 肿瘤间突变普相似
- 预后一般较差
- 介入或靶向治疗

单细胞全基因组测序：共30肿瘤细胞+正常

单克隆变异：CNV基本一致；"爆发性模式"
多克隆变异：CNV几乎完全不同，"累积性"模式

它的结论：多结节肿瘤可能是多可克隆起源

单细胞转录组测序

免疫微环境：7个病人，有一个吃免疫抑制剂

巨噬细胞>10群

通用型少量细胞表观遗传修饰谱分析新技术-赵小东

参与2003 ENCODE计划

当时使用PET(paired end ditag) tech + Sanger：两端结合代表一段基因，利用分子自身环化，但浓度不能太高

pipeline of ChIP-PET

胚胎干细胞：自我更新+多能性

观点：200多种组织类型，遗传物质一致，个体发育是表观遗传过程

生殖干细胞在哺乳动物中存在：FGSCs

开发了少量细胞-ChIPseq，做到了10个细胞，还没有实现单细胞角度

scRNA是定义出单个细胞的中关键转录因子，如何解析下游调控？或许可以结合这里的单细胞表观遗传

所有基于chip分析都要抗体，抓取核酸

BD单细胞测序—中科普瑞

BD Rhapsody

上样1000-20000细胞，捕获率50-60%，最多获得10000-12000细胞

细胞用绿色荧光标记=》后期荧光检测，绿色为活细胞，红色为死细胞

80w磁珠，直径比微孔略小，保证每个孔中都有磁珠，多余被冲掉

单个细胞裂解+mRNA捕获

磁珠回收=》利用磁极吸取磁珠上捕获的mRNA

得到报告：单细胞数量、双细胞比例等

抗体-oligo偶联结构，主要应用于：

膜表面通用抗原=>多样本标记
膜表面特异性抗原=》ab-seq(膜蛋白定量分析)

降低成本；减少批次效应(上样前标记混合，实现一次上机，一次建库，一次捕获)；有效去除样本间双细胞(利用细胞标签)

基于抗体-oligo的蛋白检测：后续发展方向

靶向测序

相对于mRNA，检测低丰度基因的灵敏度更高
仅关注几百个基因
数据集更小

服务流程：45d

marker数据库

cellmarker：检索细胞、基因
mouse cell atlas：浙大郭老师小鼠组织器官检索
cancer SEA：肿瘤特异性检索
CD marker handbook =》 BD提供，人和小鼠表达谱信息

10Xgenomics最新应用—胡超博

截止18年，发表了400篇，10M细胞

lineage tracing by Cas9 and scRNA

feature barcode可以同时对

单细胞检测CNV按照基因组上20Kb区域检测

coming soon：

空间转录组分析(baocode：计算count+抓取位置信息)
Chromium connect：全自动细胞=》测序