scATAC文献:人类大脑皮质单细胞水平染色质和基因调控的动态发育图谱---最后部分

文献名:Chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution

manifold:
流形是一种空间,一个流形好比是一个 d 维的空间,在一个 m 维的空间中 (m > d) 被扭曲之后的结果(一般维度压缩的方法中都会提到这个词,谱聚类中就有涉及这个思想),可以类似于地球,地球的表面是一个球面。

流形的距离度量方法不能简单地使用欧式距离求任意两点地距离。假设现在需要求从北极到达南极距离,不可能把地球打穿直线到达,根据实际情况可以知道,北极到达南极的距离应该是半个圆周的长度

image.png

原文链接:https://blog.csdn.net/qq_30545831/article/details/81776819

Part4:
Chromatin and gene expression profiles identify two astrocyte precursor populations
染色质和基因表达谱确定了两个星形胶质细胞前体群体

人类皮质星形胶质细胞更大,形态更复杂,并且可能比其他哺乳动物的更多样化。然而,人类星形胶质细胞潜在多样化的基本步骤尚不清楚。作者观察到三个相互连接的模糊基因模块,主要来源于PCW24组织,表达AQP4、TNC、ALDH2和APOE,以及星形胶质细胞中特异表达的其他基因(m2、m13、m14)(图5A)。


image.png

为了测试这些转录相关但不同的亚群是否与不同的调节因子相关,作者计算了与m13和m14基因相关的增强子之间的差异基序富集。作者发现基本螺旋-环-螺旋(bHLH)因子基序ASCL1和NHLH1在模块m13中富集,而SOX21在m14中富集(图5B)。


image.png

在作者研究结果的神经胶质细胞中,ASCL1和NHLH1基序的可及性与bHLH因子OLIG1的基因表达相关性最好,并且作者先前已将SOX21指定为皮质类器官星形胶质细胞成熟的潜在调节因子。因此,通过OLIG1与SOX21基序的染色质可及性可以区分两种不同的星形胶质细胞样表达模式。

为了更详细地检查表达这些模块的细胞之间的差异,作者计算了星形细胞簇A1-HES和A2-OLIG之间的差异基因表达,分别对应于模块m2/14和m13的表达(图5C和5D;表S5)。


image.png

簇A1-HES表现出HES4和CAV2的显著高表达,而A2-OLIG的特征是SPARCL1、ID3和IGFBP7表达增加(图5D)。


image.png

为了确定这些不同的星形胶质细胞前体亚型是否是由于不同皮质区域的取样所致,作者使用了最近发布的scRNA-seq数据集(图5E)。


image.png

作者发现,在这个独立的数据集中,属于作者的星形细胞类别的基因集在不同的细胞群中表达,这一观察结果不能用皮质区域的差异来解释(图5F)。


image.png

这些发育状态可能对应于成年亚型,例如在整个皮质灰质中发现的原生质星形胶质细胞,在白质中发现的纤维状星形胶质细胞,或populate layer 1的灵长类特异性 interlaminar 星形胶质细胞。

Part5:
Chromatin state links GPCs to lineage determination in cycling cells
染色质状态将GPC与循环细胞中的谱系测定联系起来

接下来,作者研究了祖细胞的染色质状态如何可能影响表达程序的获得,这些表达程序具有更分化的细胞状态的特征。因此,作者关注表达与细胞周期特征密切相关的基因模块的细胞之间的异质性(图6A;Pearson r分别为0.89和0.91)。


image.png

为了将染色质可及性与以胶质细胞为中心的表达图谱联系起来,作者使用可及性衍生的基因活性得分将13378个胶质细胞scATAC-seq细胞的假体积聚集体投射到作者的基因模块衍生的流形中。与作者的CCA簇匹配分析(图2B)一致,pseudobulks主要由投射到该图少突胶质细胞终点的ATAC簇c15(OPC/LIGO)细胞、投射到ASCL1+/OLIG2+星形胶质细胞室的簇c10(mGPC)数据和簇c9(late RG)组成投射到室管膜和HES4+星形胶质细胞endpoints的数据(图6B)。

然而,虽然作者在染色质landscape中没有观察到明显的循环簇,但这些ATAC-seq假块样本的一个子集投射到RNA-seq嵌入的cycling cluster、 early-pseudotime compartment中。这些样本被划分为三个不同的分支,它们由scATAC seq cluster 分配定义(图6C)。

作者推测RNA-seq中强大的cell-cycle signatures可能减少了这些差异,而这些差异在ATAC-seq数据中更为明显,分析这些独立的分支可能使作者能够确定cycling progenitors是否倾向于不同的有丝分裂后命运。

为了探索影响这些命运决定的因素,作者根据每个分支的gene activity scores确定了每个分支的特定基因。作者观察到这些基因与一组GPC(包括HES1、RFX4、OLIG1、OLIG2、NEUROD6和EOMES)有很强的重叠。总的来说,所有三个cycling cells分支中的差异染色质活性都因GPC而富集(图6D)。


image.png

每个分支在前五个最独特的基因(BHLHE40、OLIG1、OLIG2、NEUROD6、NEUROD4)中至少富集了一个bHLH GPC TF(图6E)。


image.png

这些factors的注释motif的相似性与假设一致,即它们可以竞争相似的结合位点来驱动多个不同的细胞命运。总之,这些结果表明,GPC的不同染色质活性和基因表达是区分不同类型 cycling glial progenitor cells.的显著特征。

接下来,作者想知道这些GPC是否既与密集的调控元件集合高度相关,又高度富集谱系定义的转录因子。为了评估这些联系是否可能是最终分化终点的指标,从而潜在地驱动分化,作者仅使用GPC相关染色质信号重新预测A、B和C循环群体分支的ATAC-seq pseudobulk 样本。作者观察到样本在伪时间内向前移动到具有不同、更成熟表达状态的区域(图6F),


image.png

而使用随机基因亚群或基因模块的重投影则非特异性地向流形的中心移动。这一观察结果表明,这些循环细胞中与GPC基因相关的染色质模式已经显示出高级转录细胞状态的特征。类似地,当作者将来自联合多组数据集的scRNA-seq数据投射到基于模块的manifold中时,投射到循环域的一部分细胞显示出来自每个分支的更多分化细胞的不同可访问性特征(图6G)。基于这些结果,作者提出,在皮质发生过程中,进入细胞周期的祖细胞可能在表观遗传学上为未来的细胞命运做好准备,并且该信息在GPC中进行了编码,GPC是一组具有大量连接增强子的基因,丰富了与谱系定义的TFs的结合。

Part6:
Deep-learning models prioritize disruptive noncoding mutations in ASD
深度学习模型优先考虑ASD中的disruptive非编码突变

接下来,作者使用作者的图谱解释ASD中的非编码从头突变,使用1902个家族中超过200000个此类突变的Simons Simplex集合目录(表S6)。与未受影响兄弟姐妹相比,具有簇特异性scATAC-seq峰的突变的原始重叠(Naive overlap)不会使ASD个体的突变富集(GluN6簇的优势比[OR]=1.02,Fisher精确检验p=1.0;图S8F),表明仅峰值水平注释不足以解决一组稀疏的因果突变。

深度学习模型已被证明有助于根据预测的监管影响对疾病相关的非编码基因变体进行优先排序。因此,作者基于最新的BPNet架构对卷积神经网络进行训练,以学习能够预测每个scATAC-seq衍生细胞类型的碱基分辨率、pseudo-bulk染色质可及性的模型,这些细胞类型来自基因组序列(图7A)


image.png

使用峰区和基因组背景,匹配GC含量和基序密度,以纠正潜在的序列组成偏差。模型显示,在交叉验证模型的5倍范围内,预测的总Tn5插入计数覆盖率与观察到的Tn5插入计数覆盖率之间存在高度稳定的相关性(例如,GluN6,平均Spearman rho=0.58)。为了预测候选突变对染色质可及性的细胞上下文特异性影响,作者使用作者的cluster特异性BPNet模型根据预测计数中的等位基因fold-change变化计算local disruption score。对于每个簇,作者计算了病例组和对照组中high- effect-size突变的富集程度。作者观察到GluN2/3/4/6/9的ASD相关突变显著富集(>1.2倍),这与之前的研究一致。此外,作者发现了与IN2/3/4、nIPC、late RG和early RG簇的强烈关联。early RG簇的富集程度最高(OR=1.909,超过20,Fisher精确p<0.05;图7B;表S6)。

作者还观察到,这种对因果破坏性突变进行优先排序的方法对阈值参数选择具有鲁棒性。相比之下,使用人类胎心增强剂训练的BPNet模型没有产生富集(OR=1.01,p=1.0)。同样,使用一组胎心enhancers的naive overlap enrichment也不会对病例突变产生富集(OR=0.97,p=1.0;图7C)。总之,这些结果表明,在与疾病相关的细胞状态中,对染色质可及性景观进行训练的碱基对分辨率预测模型的突变效应分数对于确定假定的因果非编码突变的优先级至关重要。

BPNet模型优先考虑的病例和对照突变具有相似的保守性得分和与最近转录起始点(TSS)的相似距离,突出了通过其他方法识别这些因果突变的挑战。通过对预测的高效应大小突变及其最近的基因进行注释,作者观察到SFARI数据库中最近基因的病例突变(n=24)比对照突变(n=17;图7D)富集1.4倍。

接下来,作者确定了overlapped的TF基序,并预测其将被来自所有正富集簇的BPNet模型的所有高效大小突变所破坏(图7E,表S6)。作者发现,在病例组和对照组中,划分demarcates topological loop boundaries的CTCF是最常被破坏的基序之一。NRF1基序是另一个经常被破坏的基序。NRF调节先前与疾病相关的GABA受体亚单位GABRB1。与对照组相关的病例中其他经常被破坏的基序家族包括E-box/bHLH家族基序(ASCL1,NEUROD6)和同源框家族(PAX5)基序,具有更多谱系特异性效应。之前也发现同源框蛋白被ASD中的变体破坏。

作者模型中的一个高度破坏性突变位于NFIA的一个内含子中(图7F和S8M)。该基因的功能缺失突变先前与ASD有关。该突变位于NFIA靶基因的连锁内含子增强子中。作者观察到,这种增强子在不同类型的GluN cluster中特别容易获得。GluN6的BPNet模型预测了破坏NFIA基序的突变,表明该突变可能通过自动调节反馈失调NFIA基因的表达。


image.png

在nIPC集群中,BPNet模型预测了与神经肽Y基因(NPY)相连的基因间增强子的破坏性从头突变,其TSS距离突变90 kb(图7G)。NPY在妊娠中期人类皮质的subplate和早期RG中表达,NPY受体的基因组缺失与ASD相关。该模型进一步预测了这种从头突变破坏染色质环锚定处的CTCF结合位点,表明该位点的染色质结构可能受到潜在的机械影响。

(终于把这篇文献译完了)

你可能感兴趣的:(scATAC文献:人类大脑皮质单细胞水平染色质和基因调控的动态发育图谱---最后部分)