Ideas

干湿结合的生物学

表观测序

可观测值是每个基因的表达量，隐变量是不同细胞类型的组成，比如建立某一类细胞和基因表达的关系，推断细胞丰度

feature表达，可以是signature或者转录本，chromState等

ATAC-seq数据分析工具的比较和推荐（Genome Biology综述）

使用MutsigCV预测驱动突变基因

空间表观组

Tn5的特点? 是否组装？

原位：应激状态下细胞染色质重构，直接原位固定细胞状态，进行建库。UV应激

可以和相分离的研究结合在一起，TF等调控因子可能有相分离特性，大的转录复合物相分离的特性和染色质状态的变化

很多细胞内的转录水平或者开放染色质可能是瞬时的或者随着应激的进行逐渐变化的，能否记录染色质动态变化的过程

目前的单细胞分析方法都会丢失细胞在体内原有的位置信息，并且在体外进行单细胞捕获耗时较长，细胞内的分子活动尤其是转录组在离体环境下也会发生改变。

借鉴空间转录组的思路，能否实现原位的空间表观组测序？因为现有的方法大都是应用算法进行多组学数据整合，很难评估算法的准确性（校正批次效应严重，来自样本、操作者、实验仪器等等），能不能直接把染色质状态和细胞cluster的空间位置对应起来？

这个相比空间转录组的一大困难在于，ATAC的数据是稀疏的，很容易受无关因素的干扰（组织优化）开放染色质每个细胞只有2个拷贝

癌症

PAM50分子分型原理，基于已有分类矩阵和样本的距离，距离衡量有很多种包括高斯相似度

合成生物学

表观修饰系统

人工合成表观遗传修饰系统，了解详细的机制问题，写入、读取、执行模块；这个其实和人为导入两个功能模块，通过诱导（植物激素，有效回避了内源信号的干扰）使其相互作用产生某种生物学效应（有丝分裂检查点）相似------->简化的模型

与传统的基于discovery的answer不同，合成生物学生成一个模型来回答问题：

此外，为了使这种合成的表观遗传调控系统的应用更广泛，研究者通过融合dam功能域和dCas9蛋白构建了gRNA引导的靶向起始模块，并证明了其靶向和催化能力

首先开发了一种小分子脱落酸（ABA）诱导起始模块(synIIND)，以建立6mA修饰的起始状态，然后通过m6A 识别结构域和dam功能域构建了一个读-写模块（Read-write module）

https://www.cell.com/cell/fulltext/S0092-8674(18)31461-2?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0092867418314612%3Fshowall%3Dtrue

又能读又能写的模块才能把修饰propagate下去：One hallmark of an epigenetic network is the spatial spreading of the signal: adding a third construct—one that combined the read and write domains (synRW)—to their synI and synR constructs enabled the researchers to not only establish a mark but also propagate it over genomic distances of several kilobases, where it triggered the expression of the reporter.

在高等真核生物中的研究显示，唯一可以遗传的染色质结构域包含与抑制性染色质相关的H3K9me3 和 H3K27me3

执行 H3K9me3 和H3K27me3 的机器具有不同的“书写+阅读”机制。这里值得特别注意，“书写+阅读”是指“书写”这些修饰的酶可以同时“阅读”自己“书写”的内容，成为自己的“阅读者”，这使得这些组蛋白修饰（H3K9me3 和 H3K27me3）具有“自传播”的属性，因而赋予了其遗传性

实际上作者在研究中发现为了实现读和写的循环，这种m6A writer酶的活性不能太强，因为在自然界中这种擦除和建立异染色质的酶经常就是相比其他酶活性更低。可以这样理解：转录的活化状态需要转录激活因子维持，所以它们总是要维持较高活性；反之的抑制状态更重要的是怎么传播相对更广泛的抑制状态。（让细胞没有诱导物时也能表达GFP)

但是这种记忆不如自然状态下的表观遗传修饰稳定，作者认为：The read–write circuit is the core engine, but alone it may be insufficient to establish long-term memory; coupling two distinct feedback loops may help fortify the memory,” Khalil reasons. His team is planning to build additional feedback loops onto their circuit.

m6A还是真核生物mRNA上常见的修饰类型

能不能人为地操控染色质的状态从而实现细胞命运的改变？（不一定是TF）

合成简单的系统探究异染色质扩散机理

SAC文献（纺锤体组装检验点人工激活）

使用TetO-TetR系统或者PYL1-ABI1系统来人为激活SAC的这两项研究都来自于同一个实验室——英国爱丁堡大学的Kevin Hardwick实验室。

TetO-TetR系统的缺点，就是需要诱导比较长的时间，16-18个小时。PYL1-ABI1系统相比TetO-TetR系统有很多优点，比如：不需要诱导、起效快、可以冲洗掉ABA让细胞恢复进入后期等。

TetO-TetR系统利用的是四环素操纵子系统：tetO是四环素操纵子，tetR是四环素抑制子，类似于你们熟悉的乳糖操纵子lacO-lacI系统。

作者最初就是想构建可以用四环素诱导SAC激活的人造系统，但是在实验中发现，其实不需要加入四环素也能够诱导出来SAC激活，你注意到的那个实验结果就说明了，tetR与tetR之间可以形成二聚体，这就把Mph1-tetR和Spc7-tetR两个融合蛋白拉在一起，这两个蛋白在整个SAC激活系统的最上游，它们在一起就可以激活SAC，不非要结合到tetO位点处。

spc7-9TE和9TA是什么意思：以前的研究已经知道Spc7需要被Mph1激酶磷酸化才可以更好地招募SAC的关键蛋白，比如Mad2, Mad3, Bub1等。Spc7蛋白中已经鉴定出来的可以被Mph1激酶磷酸化的丝氨酸或者苏氨酸位点共有12个，但是其中最重要的有9个。spc7-9TE是指把Spc7中9个潜在的磷酸化位点突变成模拟磷酸化的谷氨酸，而spc7-9TA是指把Spc7中9个潜在的磷酸化位点突变成不能被磷酸化的丙氨酸。

可以同时尝试用KD plus和Q5分别扩增

spc7序列有约4000个碱基，分段克隆

解读测序峰图

改造酵母

改造酵母，插入新的pathway，合成新的生物制品，只需要一个点突变足以使酵母产生高温适应型突变体，且这个突变涉及的生物学功能是产生更多的一种化学物质

文献:

Mol Cell背靠背 | Micro-C揭示高分辨率染色质三维结构图谱
Nature亮点 | 单细胞测序空间定位新算法
文献分享 | Cell：利用合成的读-写（Read-Write）模块构建表观遗传调控
Nature Biotechnology丨论文导读——单细胞空间转录组分析、磷酸化蛋白质组功能性景观数据库
多组学文献精读04 | 机器学习识别与肿瘤去分化相关的干性特征
Creating epigenetic memory: https://www.nature.com/articles/s41592-019-0312-3
Synthetic readers and writers for mammalian chromatin: https://www.nature.com/articles/s41576-018-0090-2?WT.feed_name=subjects_synthetic-biology
Science | 何川/韩大力/高亚威合作发现m6A调控染色质状态和转录

机器学习应用

major challenge

整合不同类型的数据

Integration of different data types should, in theory, lead to a more holistic understanding of complex biological phenomena, but this is difficult due to the challenges of heterogeneous data and the implicitly noisy nature of biological data

数据维度：‘’维度灾难‘’

样本的有限、高维数据往往导致模型欠佳

In biological studies, the number of samples is often limited and much fewer than the number of variables due to costs or available sources (e.g., cancer samples, plant/animal replicates); this is also referred to as the ‘curse of dimensionality’, which may lead to data sparsity, multicollinearity, multiple testing, and overfitting

applications

应用领域包括转录本丰度预测、对缺省数据的imputation(比如snp，DNA甲基化信息)，variant calling、疾病诊断/分类；如下，还可以做群体、进化遗传学研究

In addition to the prediction of regulatory regions, recently, supervised learning showed considerable potential for solving population and evolutionary genetics questions, such as the identification of regions under purifying selection or selective sweeps, as well as more complicated spatiotemporal questions

Challenges and future outlooks

对于某些复杂模型的解释比较困难，毕竟生物学家往往对于模型的生物学解释更感兴趣而不是模型的准确度。

不同类型数据整合并不容易，比如说基因表达谱数据很难和突变信息整合在一起，因为向量不等长

数据维度：来自不同来源的数据进行整合可以增加样本量，尤其是对于离散的定性数据是可行的，比如SNP；但是对于表达谱就不行，因为有太多隐藏的因素会影响表达量，与生物学效应掺杂在一起

生物学数据往往是不平衡数据，比如病例总是比正常样本少很多

DNA、RNA互作

GRID-seq

RNA会作用于活性增强子。那么GRID-seq信号能否反映普通增强子（typical enhancer，TE ）和超级增强子（super ehancer, SE）的强度差异？

GRID-seq技术可应用于预测与RNA生成有关的基因组相互作用，可作为现有的3D genome研究的补充。

参考：DNA-RNA互作检测技术

文末含代码

Psoralen交联RNA互作,以Xist为例:

long range

modular

alternative same region can adopt different second structures

CUT-RUN

蛋白质-DNA互作技术更迭

CUT-RUN技术特点及延伸思考

甲醛交联掩盖抗原表位的问题
免疫沉淀的大量损失问题
分辨率、信噪比问题（富集DNA）
bias和可重复性问题（切割时间）
是否依赖抗体

CUT-Tag数据表现

重磅：CUT&Tag 2.0时代来临，更便捷，更高效

ATAC-seq Hint分析含代码

Tn5专题

High-throughput chromatin accessibility profiling at single-cell resolution
Tn5 as a model for understanding DNA transposition
Massively parallel digital transcriptional profiling of single cells
Tn5 transposase and tagmentation procedures for massively scaled sequencing projects
Tn5 wikipedia 与CUT-Tag合并
Structure/function insights into Tn5transposition
Insertion site preference of Mu, Tn5, and Tn7 transposons
超低起始量uliCUT-RUN: Profiling of Pluripotency Factors in Single Cells and Early Embryos
- 参考：通常，组织样品中细胞数和细胞纯度之间的平衡，会不利于ChIP-seq分析纯化组织特异性细胞群。而uliCUT＆RUN从50个细胞中获得因子结合图谱的能力与高细胞数的图谱高度重叠，因此几乎可以从任何可用的样本进行绘图。

思考转座酶可能的其他应用？

LIANTI

LIANTI，全称为Linear Amplification via Transposon Insertion，即通过转座子的线性放大，是一项经过改良的单细胞全基因组扩增（whole-genome amplification，WGA）方法。 LIANTI法首先利用Tn5转座子结合LIANTI序列，形成Tn5转座复合体（含T7启动子），之后该复合体随机插入单细胞基因组DNA，经转座后，将DNA随机片段化并连接T7启动子。随后T7启动子行使体外转录功能，用转录获得大量线性扩增的转录本，转录本再经过逆转录之后得到大量的扩增产物，随后进行正常的建库测序操作。整个过程仅进行线性扩增，没有进行指数扩增，大大增强了扩增稳定性，降低PCR干扰，此外，该技术将该放法将测量拷贝数的空间分辨率提高了3个数量级（能在千碱基分辨率进行微CNV检测，基因组覆盖率可达到97%），助力更有效、更精准地检测出更多遗传疾病。

img

伊成器课题组聚焦新冠病毒共感染病原体的检测与研究（基于转座酶的TRACE）

基因组组装

10Genomics应用Linked-reads*可辅助二代测序进行基因组组装

https://www.10xgenomics.com/cn/linked-reads/

hi-c一次建库可以获取全基因组范围内的染色质互作信息，从而去研究染色质三维结构的不同层级单元,。通过hi-c来研究染色质三维结构，是其主要应用场景。除此之外，hi-c数据还有一个应用领域，那就是可以用来辅助基因组组装。

通过hi-c数据，科学家发现在同一条染色体上的染色质片段互作频率更高，不同染色体间的互作频率较低。利用这一特性，有人提出了利用hi-c数据来辅助基因组组装的思路，对应的文章发表在nature biotechnology上，链接如下

https://www.nature.com/articles/nbt.2727

基因组组装水平不同，该基因组可进行的分析也不同。染色体水平的参考基因组是众多分析的基础需求，因此通常建议基因组组装到染色体水平。

新物种组装基因组评价

基因组组装专栏

慢病毒

慢病毒载体的前世今生及安全性探讨

蛋白质相变及其研究技术

293细胞家族

慢慢的慢病毒，给我快快的用起来

慢病毒可快速、高效的将目的基因整合到宿主细胞基因组，非常适合用于构建稳转细胞株。但慢病毒也有缺点，即使是稳转细胞株，可能会随着传代次数的增加而慢慢丢失干扰或者过表达的效率。
其中可能是原因是在多克隆稳转细胞系的培养过程中，经慢病毒整合的细胞可能相对于野生型在生长活力没有优势，因此随着传代次数的增加，经整合的阳性细胞数目慢慢变少，从而导致效率降低。
在这种情况下可以选择挑选单克隆稳转株的方式。

转座子与慢病毒.jpg

转座子的优点：操作简单，可承载的基因片段大，无需包装慢病毒，“后悔”插入还可以删除（而且相比loxP是scarless deletion)，全身而退，一般用于删除抗性基因/荧光标签，避免和后续慢病毒等基因编辑工具在筛选标记上有冲突。
转座子的缺点：转染效率低会影响整合效率，质粒设计比较复杂，异染色质化会沉默基因表达，此时需要加入绝缘子。

而今天我们要讲的是一个新的人工修饰的转座子系统：piggyBac
piggyBac转座子最初于1983年在飞蛾体内发现，但直到2005年才成功用于哺乳动物细胞的基因编辑，它的特点有如下：
（1）作为经修饰后的DNA转座子，piggyBac有两个组成部分，转座子和转座酶；
（2）piggyBac转座酶促进转座子的基因组整合，尤其喜好基因组的TTAA位点；
（3）转座酶也能以完全无缝的方式切除转座子，不留下任何序列或突变；
（4）piggyBac具有较大的载货能力(已证明超过200 kb)，并且没有已知的上限。

参考：睡美人系统

养细胞注意事项

R包开发

非负矩阵分解寻找单细胞表达模块
表达矩阵signature发现& feature peaks
相分离蛋白预测
列表id提取与分割
eQTL分析R代码
simulation数据，可以用于比较不同计算工具的效果; Case Study: scRNA-Seq Simulation: http://www.bioconductor.org/packages/release/bioc/vignettes/SummarizedBenchmark/inst/doc/CaseStudy-SingleCellSimulation.html 怎么合理地模拟scATACseq的数据？
- SCSIM: Jointly simulating correlated single-cell and bulk next-generation DNA sequencing data

SVA是什么？

参考：https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.0030161

Abstract

基因表达水平可以受很多因素影响，比如遗传、环境、人群、技术等。除了有些已知因素可以测量以外，很多因素实际上要么是未知的要么是无法测定或者过于复杂以至于不能在单一模型里很好地捕获它们。如果不能把这些因素造成的异质性考虑进去，实际上很有可能对研究结果产生较大的影响。本文介绍的SVA(‘surrogate variable analysis)是这样一种方法，它能够准确地捕获表达信息和任何建模变量间的关系，从而增强生物数据的准确性以及分析的可重复性。

单细胞

超火的空间转录组：一篇Cell带你领略它的强大

sc-ATAC-seq细胞类型注释策略

空间转录组结合ISS(in-situ sequencing)实现高分辨率3D器官表达谱

注意ST是非靶向性的，而ISS是靶向性的，是在基于ST等数据的基础上进一步提高精度

对基于ST测序和scRNA-seq的区域标记和细胞类型识别进行确认和进一步亚细胞靶向解析

ISS可在单细胞分辨率下生成固定细胞或组织的多重表达谱。它首先将mRNA原位逆转录成cDNA，再通过锁式探针（padlock probe）进行靶点识别和滚环扩增（RCA）。由于滚环产物（RCP）是拴在模板上的，这提供了可靠定位，并通过连续的寡核苷酸探针掺入，实现原位测序。其优势在于，能够获得基因表达的亚细胞分辨率下的靶向性准确信息。

Michaela Asp et al. (2020) A Spatiotemporal Organ-Wide Gene Expression and Cell Atlas of the Developing Human Heart. Cell.

R. Ke et al.(2013) In situ sequencing for RNA analysis in preserved tissue and cells. Nat. Methods.

ActivePathways

整合多组学数据的通路富集分析

整合多组学数据发现跨越多个数据集显富集通路，合理化提供证据并突出显示相关基因。

尚无方法可用于对来自全基因组测序（WGS）数据的编码和非编码突变进行统一通路分析，或将其与其他类型的DNA突变整合在一起。

在这里，我们报告ActivePathways方法研发，该方法使用数据融合技术来应对多组学数据的整合通路分析的挑战。它检测跨多个数据集的显着丰富的通路，包括在任何单个数据集中都不明显的通路。

The effect of methanol fixation on single-cell RNA sequencing data

甲醇固定保持样本完整性

Recently, the need for scRNA-seq sample fixation has emerged in many scenarios, such as when samples need long-term transportation, or when experiments need to be temporally synchronized. Methanol fixation is a simple and gentle method that has been routinely applied in scRNA-seq. Yet, concerns remain that fixation may result in biases which may change the RNA-seq outcome.

RNA-seq

单细胞RNA测序综述汇总

FAQ: https://www.biotechniques.com/molecular-biology/roche_rna-rna-sequencing-library-preparation-and-construction/

A Bayesian data fusion based approach for learning genome-wide transcriptional regulatory networks

单细胞转录组WGCNA

scATAC

scATAC-seq数据专用包

ArchR介绍

10X Cell Ranger ATAC 算法概述

单细胞数据科学的十大挑战

单细胞多模态：一套序列用来标记RNA，另一套序列用来标记蛋白

UMI1，UMI2，UMI3......

Challenge I: Handling sparsity in single-cell RNA sequencing

Challenge II: Defining flexible statistical frameworks for discovering complex differential patterns in gene expression

Challenge III: Mapping single cells to a reference atlas

说到底是根据细胞中基因向量的表达模式匹配到一起。这个问题应该分两个方面来看：

数据集之间的mapping算法

reference 怎么样

为了和已知世界构建联系，目前大部分还是用已知的细胞类型的marker来mapping

这些reference忽略了一个关键的信息：细胞的分化过程。

而且对于UMAP图，直观上提供的是细胞群体之间的数量信息，不能提供分辨率信息

Challenge IV: Generalizing trajectory inference

不同的TI方法得的结果之间还有很大的gap，令人沮丧的是，有时候甚至是相反的

Challenge V: Finding patterns in spatially resolved measurements

很大程度上，位置决定细胞的形状和功能

单细胞基因组结构变异的测定问题Challenge VI: Dealing with errors and missing data in the identification of variation from single-cell DNA sequencing data

与转录组定量不同，基因组的分析往往是结构方面，而这本身就是一种挑战。

我们可以区分三种情况: 比如scATAC-seq检测单细胞开放区

(i)等位基因比例不平衡，即。，包含杂合突变的基因座，其中两个等位基因之一的优先放大导致读数失真;

(ii)等位基因缺失，即，包含杂合突变的基因座，其中只有一个等位基因被扩增和测序;

(iii)位点丢失，位点丢失是指等位基因在一个位点的扩增完全失败，导致对基因组的某个位置没有任何观察。

拿CNV来说吧，如果有CNV事件，你不一定检测到，检测到了，不一定能够识别出来，识别出来了，不一定能描述它的影响，知道了它的影响，在不同时间组织中同样的CNV事件，不一定能够很好地比较它们。

Challenge VII: Scaling phylogenetic models to many cells and many sites

Challenge VIII: Integrating multiple types of variation into phylogenetic models肿瘤异质性和演化分析

对于CNVs的系统发育推断，主要的挑战是:

(i)确定正确的突变谱

(ii)计算这些谱之间的现实转移概率。

Challenge IX: Inferring population genetic parameters of tumor heterogeneity by model integration

Challenge X: Integration of single-cell data across samples, experiments, and types of measurement

以一种生物学上有意义并支持预期分析的方式连接来自不同来源的数据。描述不同来源的数据如何关联的mapping将随着样本数量、时间点和测量类型的增加而增加复杂性。

Challenge XI: Validating and benchmarking analysis tools for single-cell measurements

ATAC-see

结合ATAC-see开放染色质与荧光原位杂交信号

我们当时做这个实验的目的是：证明携带原癌基因MYC的ecDNA染色质，是高度开放的。因此，我们就用FISH来定位ecDNA，并用ATAC-see来看，这些ecDNA能否与ATAC-see信号共定位。

但我们又可以发现，在蓝色的细胞核区域之外，有大量的ATAC-see信号。那是为什么呢？其实那是线粒体。因为线粒体中也含有DNA，而且那些DNA是裸露的，并没有和组蛋白形成核小体的。这就导致了，线粒体DNA是几乎100%开放的，因此ATAC-see技术中的Tn5转座复合体，就如入无人之境，将线粒体DNA给全部标记上。

而我们为了证明，核外的那些超强的ATAC-see信号其实是我所不关心的线粒体，因此我们同时采用了MitoTracker进行了染色。

ATAC-see.jpg

现在大家越来越依赖于测序技术，而传统的细胞遗传学方法（即在显微镜下观察染色体这类技术），则逐步被遗忘了。然而，虽然测序技术的 DNA 序列分辨率很高（即能轻易地解析单个碱基的突变），但其空间分辨率却很低。反过来，细胞遗传学技术，比如荧光原位杂交，虽然不能精确地检查 DNA 碱基的突变，但是，其空间分辨率却很高，能够知道癌基因的空间定位。因此，只有将这两项技术结合起来，才能够有效地研究肿瘤遗传学。这也是我们团队所推崇的研究路线：测序和影像，一个都不能少。只有和传统的影像学技术相结合，才能彻底解析肿瘤的基因组。
引自：https://www.zhihu.com/question/361684745

HuBMAP

HuBMAP（https://commonfund.nih.gov/hubmap）是NIH资助的一个公益项目，旨在开发一种在细胞分辨率水平绘制人体图谱的开放的框架和技术，并且从不同年龄正常人的一些组织中绘制出基础图谱。虽然NIH之前发起的一个项目GTEx，检验了大约一千个人中DNA变异和大块组织中的表达模式，但HuBMAP是一个截然不同的计划，它旨在产生单细胞水平上空间分辨率的分子图谱，但是使用的样本来自更少的个体。为了达到这些目标，HuBMAP联合体被设计成一个紧密相连的合作组织，并且基于“团队科学”的方式，具有开放-分享的文化。HuBMAP联合体（https://hubmapconsortium.org/）将与其它正在进行中的项目积极开展工作，这些项目包括人类细胞图谱计划 (Human Cell Atlas) 、人类蛋白图谱 (Human Protein Atlas) 、生命时间项目（LIfeTime）以及NIH资助的靶向特殊器官和组织的联合体（包括脑、肺、肾、泌尿生殖器官）以及其他新出现的程序。

The human body at cellular resolution: the NIH Human Biomolecular Atlas Program

类器官

ATCC oganoids

部分研究兴趣