tzc_fly

多任务学习用于多模态生物数据分析

目前的生物技术可以同时测量来自同一细胞的多种模态数据（例如RNA、DNA可及性和蛋白质）。这需要结合不同的分析任务（如多模态整合和跨模态分析）来全面理解这些数据，推断基因调控如何驱动生物多样性。然而，目前的分析方法被设计为执行单个任务，并且大部分仅提供多模态数据的部分图谱（比如单模态和双模态）。因此，作者提出了UnitedNet，这是一种可解释的多任务深度神经网络，能够整合不同的任务来分析单细胞多模态数据。应用于各种多模态数据集（如patch-seq、multiome ATAC+gene expression和空间转录组），与最先进的方法相比，UnitedNet在多模态整合和跨模态预测方面表现出类似或更好的准确性。此外，通过使用可解释的机器学习算法对经过训练的UnitedNet进行剖析，可以直接量化基因表达与其他具有细胞类型特异性的模式之间的关系。UnitedNet是一个全面的端到端框架，可广泛应用于单细胞多模态生物学。该框架有可能促进跨转录组学和其他模态的细胞类型特异性调节发现。

来自：Explainable multi-task learning for multimodality biological data analysis

背景概述

单细胞生物技术的最新进展使同时测量同一细胞的基因表达和其他模态成为可能。例如，patch-seq技术同时测量细胞基因表达和细胞内电活性（intracellular electrical activity），而multiome ATAC+gene expression技术联合测量细胞基因表达和DNA可及性。这种多模态组学数据同时提供了细胞的全面状态。然而，为分析单模态生物数据而开发的方法不能直接应用于多模态数据。与单模态分析相比，最近的研究确定了更多的多模态分析任务，例如：

从不同模态中识别具有生物学意义的簇，使人们能够更深入地了解不同生物系统的细胞特性和功能。
不同模态之间的跨模态预测，推断出不能容易或同时测量的模态数据。此外，为同一类型的细胞生成的多模态数据提供了发现基因表达和其他模态之间的细胞类型特异性关系的机会，有助于揭示感兴趣的生物学调控机制。

目前已经开发了几种多模态分析方法。对于joint group识别任务，已经开发了多模态数据整合方法，以将不同的模态融合到联合表示中，然后将其用于无监督或有监督分类，以识别细胞类型。对于跨模态预测任务，已经开发了基于自编码器的神经网络来预测不同模态。对于跨模态的相关性发现，Schema代表了最先进的多模态整合方法，可以识别用户定义的主模态中对其他模态重要的特征。

与上述方法相比，一种可以在统一的框架内处理所有任务、量化细胞类型特异性，跨模态相关性，并在没有先验知识的情况下，这样的方法可以简化数据分析，潜在提高每个任务的性能，并有助于从单细胞多模态数据中获得生物学见解。

尽管如此，由于以下两个原因，将多个任务组合到一个框架中可能具有挑战性：

首先，每个模态测量都具有独特的统计特征，需要不同的统计假设。虽然已经为不同的模态开发了几个统计模型，但仍然缺乏能够适应多模态未知分布的方法。
其次，joint group识别和跨模态预测通常代表单独的目标。具体而言，joint group识别的目的是惩罚错误的细胞群分配，而跨模态预测的目的是最小化重建数据和GT之间的差距。
此外，在没有先验知识的情况下，在特定细胞类型中寻找基因表达和其他模态之间的相关关系仍然是一个重大挑战。如果简单地迭代特征集的所有可能组合，对于高维数据来说，在计算上将是困难的。需要一种有效的方法来首先从对感兴趣的特定生物条件（例如细胞类型）中识别一组特征，然后量化这些特征之间的关系。

在这里，作者提出了一种可解释的多任务深度神经网络，以解决多模态数据分析的挑战。该网络具有编码器-解码器-判别器结构，并通过在两个任务之间交替进行训练：joint group识别和跨模态预测。具体而言，这种编码器-解码器-判别器结构并不假设数据分布是已知的，而是隐含地近似每个模态的统计特征。

在joint group识别和跨模态预测之间的交替训练保持并提高了这两项任务的性能。此外，应用可解释的机器学习来剖析网络，可以量化细胞类型特异性、跨模态特征与特征的相关性。作者已经将该网络应用于各种多模态数据集（图1a），包括：

带有GT标签的模拟多模态数据；
同时测量转录组和细胞内电活性（multi-sensing数据）；
同时分析转录组学和DNA可访问性（multi-omics数据）；
空间分辨转录组与蛋白质组（多模态spatial-omics数据）；

图1：利用联合网络对多模态生物数据进行多任务学习。
a：具有代表性的多模态生物学数据示意图。
b：共享隐空间的示意图。编码器可以将来自同一细胞的不同模态测量作为隐编码投影到共享空间。隐编码可以通过解码器投影回模态特定空间。在隐空间中，表示来自同一细胞的不同模态的隐编码可以被整合为用于joint group识别的单模态编码。
c：显示了基于b中设计的共享潜在空间的联合网络结构示意图。
d和e显示了联合网络在联合组识别和跨模态预测之间的多任务学习，用于分析多模态数据。
f和g显示了可解释的应用，以剖析经过训练的UnitedNet，用于识别组与特征的相关性（f）和跨模态特征与特征的关联（g）。

方法

联合网络应用于联合测量数据。联合网络UnitedNet具有跨模态预测和joint group识别的特点，这两个任务是基于学习到的不同模态的联合低维表示完成的，其包含了细胞的潜在信息。假设有 $V$ 种不同的模态。令 $n$ 表示细胞数， $p^{(v)}$ 表示第 $v$ 模态的特征维数， $X^{(v)}\in R^{n\times p^{(v)}}$ 为第 $v$ 模态的数据， $x_{i}^{(v)}$ 为数据中的第 $i$ 个细胞，对于从 $v_1$ 到 $v_2$ 的模态预测，联合网络从 $x_{i}^{(v_1)}$ 的隐空间预测 $x_{i}^{(v_2)}$ 。对于group识别，联合网络首先混合 $x_{i}^{(1)},...,x_{i}^{(V)}$ ，然后，基于共享的隐空间，返回group类别 $k_{i}\in\left\{1,...,K\right\}$ 。

UnitedNet由编码器、解码器、判别器和组识别模块组成。它是基于模态内预测损失、跨模态预测损失、生成器损失、鉴别器损失、对比损失、聚类损失（用于无监督的组识别）和分类损失（用于有监督的组识别）来训练的。关于联合网络的组成部分和损失的详细信息如下。

对于每个模态 $v = 1, ..., V$ ，UnitedNet有一个编码器 $Enc^{(v)}(\cdot)$ 用于将细胞 $i$ 对应的 $x_{i}^{(v)}$ 映射到模态特定的隐空间编码 $z_{i}^{(v)}$ ： $z_{i}^{(v)}=Enc^{(v)}(x_{i}^{(v)})$ 其中，来自不同模态的低维表示需要具有相同数量的特征数。

解码器 $Dec^{(v)}(\cdot)$ 以模态特定的隐编码作为输入，并映射到模态 $v$ 的特征上，以下表示模态 $v_{1}$ 到 $v_{2}$ 的预测： $\widetilde{x}_{i}^{(v_1,v_2)}=Dec^{(v_2)}(z_{i}^{(v_1)})$ 对于同一个模态 $v$ 下的预测，则为： $\widetilde{x}_{i}^{(v)}=Dec^{(v)}(z_{i}^{(v)})$

判别器有助于训练编码器和解码器。模态 $v$ 的判别器 $Dis^{(v)}(\cdot)$ 以模态内预测 $\widetilde{x}_{i}^{v}$ 或原始输入 $x_{i}^{v}$ 为输入，输出二元分类结果，旨在区分 $\widetilde{x}_{i}^{v}$ 和 $x_{i}^{v}$ 。

组的数量为 $K$ ，组识别模块从所有模态中获取模态特定的编码 $z_{i}^{(1)},...,z_{i}^{(V)})$ ，并将其分配给 $K$ 个组中的一个，首先融合数据： $z_{i}=\sum_{v=1}^{V}\eta_{v}z_{i}^{(v)}$ 其中， $\eta_{1},..,\eta_{V}$ 为非负的可训练权重，并且满足 $\sum_{v=1}^{V}\eta_{v}=1$ 。然后，令 $z_{i}$ 通过全连接层： $h_{i}=layer_{1}(z_{i})$ 。然后再进行softmax分配： $\alpha_{i}=layer_{2}(h_{i})=(M_{1}(h_{i}),...,M_{K}(h_{i}))^{T}\\ M_{k}(h)=\frac{exp(W_{k}h)}{\sum_{t=1}^{K}exp(W_{t}h)}$ 其中， $W_{k}(k=1,...,K)$ 是系数向量。组识别模块将索引 $k_{i}=argmax_{k=1,...,K}M_{k}(h_{i})$ 为细胞 $i$ 的簇类型。

聚类损失

聚类损失由三个部分组成。前两个组件来自基于深度散度聚类（DDC）。它们保证了所得到的组是可分离的和紧致的。第三个组成部分是基于自熵。

对于第一部分：组件1将不同组的聚类概率分配（软分配）之间的二乘二的相关性减小。它增加了组的可分性，因为这些相关性与不同组之间的相似性呈正相关。定义矩阵 $S\in R^{n\times n}$ ，元素 $s_{i,j}=exp(-||h_{i}-h_{j}||_{2}^{2}/(2\sigma^{2}))$ ，其中 $\sigma$ 是一个超参数。该矩阵测量了不同细胞之间的相似性。用 $\widetilde{\alpha}_{k}$ 记 $M_{k}(h_{1}),...,M_{k}(h_{n}))^{T}$ ，这是细胞从 $1$ 到 $n$ 并分配为组 $k$ 的概率。组件1损失为： $L_{c1}=\begin{pmatrix} K \\ 2 \end{pmatrix}^{-1}\sum_{k=1}^{K-1}\sum_{l>k}^{K}\frac{\widetilde{\alpha}_{k}^{T}S\widetilde{\alpha}_{l}}{\sqrt{\widetilde{\alpha}_{k}^{T}S\widetilde{\alpha}_{k}\widetilde{\alpha}_{l}^{T}S\widetilde{\alpha}_{l}}}$ 其中， $\widetilde{\alpha}_{k}^{T}S\widetilde{\alpha}_{l}$ 被最小化代表 $M_{k}(h)$ 和 $M_{l}(h)$ 趋近正交。

对于第二部分：组件2将不同组的软分配值推送到 $R^{K}$ 中的单纯形的不同角，这也增加了组的可分性。令 $e_{k}\in R^{K}$ 表示其第 $k$ 个元素为1，其它元素为0的向量。因此， $e_k$ 是单纯形的第 $k$ 个角。由于 $\alpha_{i}$ 是组识别模块中的第二层输出，令 $m_k\in R^{n}$ ，其第 $i$ 个元素为 $exp(-||\alpha_{i}-e_{k}||_{2}^{2})$ ，其测量了软分配 $\alpha_i$ 和 $e_k$ 之间的距离。组件2损失为： $L_{c2}=\begin{pmatrix} K \\ 2 \end{pmatrix}^{-1}\sum_{k=1}^{K-1}\sum_{l>k}^{K}\frac{m_{k}^{T}Sm_{l}}{\sqrt{m_{k}^{T}Sm_{k}m_{l}^{T}Sm_{l}}}$ 该损失加强了 $exp(-||\alpha_{i}-e_{k}||_{2}^{2})$ 和 $exp(-||\alpha_{i}-e_{l}||_{2}^{2})$ 的正交，因此，软分配输出 $M_{1}(h),...,M_{K}(h))^{T}$ 会倾向于一个单纯形角，而不是同时接近多个单纯形角。因此，同一组中的低维表示将是紧凑的，而来自不同组的低维表示将被分离。

对于第三部分：组件3旨在避免大多数细胞被分配给所有组中的一小部分。令 $\overline{\alpha}\in R^{K}$ 表示 $\alpha_{i}$ （ $i = 1, ..., n$ ）求平均，其第 $k$ 个元素为 $\overline{\alpha}_{k}$ 。组件3损失为： $L_{c3}=\sum_{k=1}^{K}\overline{\alpha}_{k}log \overline{\alpha}_{k}$ 其目的是以相等的概率分配每个组索引，比如 $\overline{\alpha}_{1}=,...,\overline{\alpha}_{K}=1/K$ 。

预测损失

模态内预测损失定义为： $L_{Wpredict}=\frac{1}{nV}\sum_{i=1}^{n}\sum_{v=1}^{V}||\widetilde{x}_{i}^{(v)}-x_{i}^{(v)}||_2$ 跨模态预测损失为： $L_{Cpredict}=\frac{1}{n\begin{pmatrix} V \\ 2 \end{pmatrix}}\sum_{i=1}^{n}\sum_{v_1LCpredict=n(V2)1i=1∑nv1<v2∑∣∣x i(v1,v2)−xi(v2)∣∣2$

生成损失和判别损失

生成器和判别器通过最小二乘损失训练，将模态内预测特征 $\widetilde{x}_{i}^{(v)}$ 分配给标签1，将原始特征 $x_{i}^{(v)}$ 分配给标签0。生成损失为： $L_{Gen}=\frac{1}{nV}\sum_{i=1}^{n}\sum_{v=1}^{V}||Dis^{(v)}(\widetilde{x}_{i}^{(v)})-1||_{2}^{2}$ 判别损失为： $L_{Dis}=\frac{1}{nV}\sum_{i=1}^{n}\sum_{v=1}^{V}||Dis^{(v)}(\widetilde{x}_{i}^{(v)})||_{2}^{2}+\frac{1}{nV}\sum_{i=1}^{n}\sum_{v=1}^{V}||Dis^{(v)}(x_{i}^{(v)})-1||_{2}^{2}$ 其目的是使鉴别器将模态内预测特征分类为0，将原始特征分类为1。这组最小二乘损失提高了训练生成器的质量，因为它符合生成器的基本目标，即生成具有与原始特征相似分布的特征数据。

对比损失

应用对比损失来对齐来自不同模态的潜在编码，定义余弦相似度为： $s_{i,j}^{(v_1,v_2)}=\frac{(z_{i}^{(v_1)})^{T}z_{j}^{(v_2)}}{||z_{i}^{(v_1)}||_2\cdot||z_{j}^{(v_2)}||_2}$ 令： $l_{i}^{(v_1,v_2)}=-log\frac{exp(\frac{s_{i,j}^{(v_1,v_2)}}{\tau})}{\sum_{s'\in Neg(z_{i}^{(v_1)},z_{i}^{(v_2)})}exp(\frac{s'}{\tau})}$ 其中， $Neg(z_{i}^{(v_1)},z_{i}^{(v_2)})$ 通过从集合 $N_{i}=\left\{s_{ij}^{(v_1,v_2)}:j=1,...,n,j\neq i,v_1,v_2=1,...,V,argmax\alpha_i\neq argmax\alpha_j\right\}$ 采样固定数量的元素获得， $\tau$ 为超参数。对比损失为： $L_{Con}=\delta\cdot\frac{1}{n\begin{pmatrix} V \\ 2 \end{pmatrix}}\sum_{i=1}^{n}\sum_{v_1LCon=δ⋅n(V2)1i=1∑nv1<v2∑li(v1,v2)$

分类损失

定义向量 $b_{i}$ ，其第 $k$ 个元素为1，其余为0，其中， $k$ 是细胞 $i$ 的观测类别标注。令 $g_i=n_{k(i)}/n$ ，其中， $n_k$ 为类别为 $k$ 的细胞数量。通过交叉熵评估分类准确率： $L_{entropy}=-\frac{1}{n}\sum_{i=1}^{n}g_{i}\cdot (log(M_1(h_i)),...,log(M_K(h_i)))^{T}b_i$

训练步骤

作者首先提出了在没有细胞标签的情况下训练UnitedNet用于跨模态预测和无监督组识别的过程。它由两个步骤迭代训练：组识别更新步骤和预测更新步骤。在组标识更新步骤中，编码器输出模态特定编码并将其送到组识别模块。然后，组识别模块将模态特定编码融合为共享潜在代码，并获得 $K$ -dimensional 软聚类分配。解码器基于模态特定编码输出模态内预测特征 $\widetilde{x}_{i}^{(v)}$ 。接下来，编码器和聚类模块通过聚类损失进行更新： $L_{group}=L_{c1}+L_{c2}+L_{c3}$ 在预测更新步骤中，编码器从不同模态输出低维表示，将它们送到解码器，并获得跨模态预测特征 $\widetilde{x}_{i}^{(v_1,v_2)}$ 和模态内预测特征 $\widetilde{x}_{i}^{(v)}$ 。然后，将预测的特征输入到鉴别器中。鉴别器由鉴别器损失 $L_{Dis}$ 更新。接下来，通过模态内预测损失、跨模态预测损失、生成器损失和对比损失之和来更新编码器和解码器： $L_{PGC}=L_{Wpredict}+L_{Cpredict}+L_{Gen}+L_{Con}$ 以上两个训练步骤分别总结在算法1和2中。

算法1

算法2

对于有监督学习，为了训练UnitedNet进行监督分类，通过以下方式修改组识别损失： $L_{group}=L_{entropy}$

使用SHAP进行特征相关性分析

为了深入了解不同特征的重要性，UnitedNet应用了常用于解释机器学习模型的SHAP（SHapley Additive exPlanations）。这种方法的思想是在固定其他特征的同时，通过线性函数近似特征对输出的影响，并且该函数的系数对应于Shapley值。SHAP的优点包括：

基于理论的可解释性
广泛的应用范围
不需要扰动模型或数据的计算过程，这是许多其他特征重要性方法所要求的。

下面将首先介绍Shapley值的计算过程，然后解释它如何应用于UnitedNet。

假设想评估特征 $x_j$ 对函数 $f (x)$ （ $x=(x_1,...,x_Q)^{T}$ ， $j\in\left\{1,...,Q\right\}$ ）的重要性。令 $F$ 为 $x$ 的特征集， $S$ 为 $F$ 的子集。 $∣ F ∣$ 和 $∣ S ∣$ 为集合元素数。Shapley值计算为： $\phi_{j}(x)=\sum_{S\subseteq F-\left\{j\right\}}\frac{|S|!(|F|-|S|-1)!}{|F|!}[f_{S\cup\left\{j\right\}}(x_{S\cup\left\{j\right\}})-f_{S}(x_{S})]$ 其中， $F-\left\{j\right\}$ 表示从 $F$ 中删除特征 $j$ 。 $f_{S}(x_S)$ 通过对 $f(x_{S},x^{(i)}_{F-S})$ 求样本均值得到， $x^{(i)}_{F-S}$ 为不在 $S$ 中的特征的第 $i$ 个观测值。Shapley值通过计算去除第 $j$ 个特征后 $f (x)$ 变化的加权平均值来衡量该特征的重要性。

对于神经网络 $f(x)=f^{(1)}\odot f^{(2)}\cdot\cdot\cdot f^{(L)}$ ，令第 $l$ 层的输出维度为 $L^{(l)}$ ，第 $l$ 层的第 $q$ 个输入特征为 $e_{q}^{(l)}$ ，其样本均值为 $\overline{e}_{q}^{(l)}$ 。可以用以下递归公式通过Deep SHAP以高效的方式估计模型的Shapley值： $\phi_{q,r}(f^{(l-1)}\odot f^{(l)},e^{(l-1)})=(e^{(l-1)}_{q}-\overline{e}^{(l-1)}_{q})\cdot \sum_{r^{(l-1)}=1}^{L^{(l-1)}}m^{(l-1)}(r^{(l-1)},q)\cdot m^{(l)}(r,r^{(l-1)})$ 其中， $\phi_{q,r}(f^{(l-1)}\odot f^{(l)},e^{(l-1)})$ 衡量了 $e_{q}^{(l-1)}$ 相对于 $f^{(l-1)}\odot f^{(l)}$ 的输出的第 $r$ 个元素的重要性。 $m^{(l)}(r,r^{(l-1)})=\phi_{r^{(l-1)},r}(f^{(l)},e^{(l)})/(e^{(l)}_{r^{(l-1)}}-\overline{e}^{(l)}_{r^{(l-1)}})$ $m^{(l-1)}(r^{(l-1)},q)=\phi_{q,r^{(l-1)}}(f^{(l-1)},e^{(l-1)})/(e^{(l-1)}_{q}-\overline{e}^{(l-1)}_{q})$ 为了识别与特定组具有高度相关性的特征，对于每个细胞，需要计算每个输入特征相对于该组的软分配的Shapley值。然后，将来自被分类为该组的细胞的所有Sharpley值作为绝对值，并用于计算平均值。具有最高平均值的前 $n$ 个特征被解释为与该组具有高度相关性（Patch-seq GABAergic数据集的 $n ＝ 7$ ，multiome ATAC+Gene expression BMMCs数据集的 $n ＝ 20$ ）。

为了量化组内跨模态特征与特征的相关性，作者考虑了在前一步中选择的该组的高相关性特征。接下来，计算每个特征相对于来自另一模态的每个其他特征的Shapley值。然后，通过平均来聚集来自不同细胞的Sharpley值的绝对值。值相对较大的特征被认为是重要的。

评价指标

无监督和有监督组识别用ARI（adjusted rand index），预测性能用 $R^2$ （coefficient of determination）和AUC（area under the ROC curve），两个任务之间的关系用Pearson’s correlation评估。

对于ARI：
将从模型中获得的簇与从细胞类型标签中获得的簇进行比较。令 $a_{k_1}$ （ $k_1=1,...,K$ ）表示来自模型的第 $k_1$ 个簇中的细胞数， $b_{k_2}$ （ $k_1=1,...,K$ ）表示来自细胞类型标签的第 $k_2$ 个簇的细胞数。 $n_{k_1,k_2}$ 表示来自模型的第 $k_1$ 个簇和来自细胞类型标签的第 $k_2$ 个簇中的观测次数。当来自模型的聚类结果接近于来自观察到的细胞类型标签的聚类结果时，ARI接近于1，并且对于随机猜测接近于0。

对于 $R^2$ ：
令 $y$ 和 $\widetilde{y}$ 表示观测数据和预测数据， $\overline{y}$ 被定义为与 $y$ 长度相同的向量，并且每个元素都是 $y$ 的样本均值。 $R^{2}$ 为： $R^{2}=1-\frac{||\widetilde{y}-y||_{2}^{2}}{||\overline{y}-y||_{2}^{2}}$ 它将来自模型的预测 $\widetilde{y}$ 的均方误差（MSE）与以常数值 $\overline{y}$ 作为预测的基线的MSE进行比较。值在负无穷到1之间，当预测等于观测时， $R^2=1$ 。

对于Pearson’s correlation：
令 $\widehat{y}$ 表示与 $\widetilde{y}$ 等长度的向量，其每个元素为 $\widetilde{y}$ 的样本均值。因此， $y$ 与 $\widetilde{y}$ 之间的Pearson’s correlation为： $r=\frac{<\widetilde{y}-\widehat{y},y-\overline{y}>}{||\widetilde{y}-\widehat{y}||_{2}\cdot||y-\overline{y}||_{2}}$ 当预测与观测数据分别具有正或负线性关系时，它取[-1,1]中的值，比如等于1或负1。当预测和观测数据没有线性关系时，它等于零。

对于AUC：
为了对multiome ATAC+Gene expression数据集进行建模，作者对DNA可及性数据进行了二值化。因此，为了评估这些数据的预测，我们采用了ROC曲线下的面积。设 $n_0$ 和 $n_1$ 分别表示来自观测数据的0和1的数目。 $p_{0,i}$ （ $i=1,..,n_0$ ）和 $p_{1,j}$ （ $j=1,..,n_1$ ）分别表示两组观测值的模型预测。AUC针对于二分类问题，AUC取0到1之间的值，1对应于完美的预测。

数据集

多任务数据集

Dyngen：
作者用Dyngen来模拟4-modality数据集。具体而言，生成500个具有模拟DNA、pre-mRNA、mRNA和蛋白质模态的细胞，每个模态包含100个维度的特征。同时，Groundtruth细胞类型注释与数据集一起生成。对于Dyngen模拟器的参数，使用Dyngen教程中线性主干模型的默认设置，函数包括backline_linear、initialize_mode和generate_dataset。

MUSE：
作者将MUSE中的模拟器应用于模拟2-modality输入，以评估具有一个低质量模态的UnitedNet的稳健性。作者模拟了11个具有1000个细胞和10种细胞类型的双模态数据集。每个模态包含500个模态特定特征。对于11个数据集中的每一个，用可控的衰减系数模拟其中一个。当与其他方法进行基准测试时，使用0.01、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1作为不同的衰减系数。

Patch-seq GAVAergic neuron 数据集：
作者使用Patch-seq数据集，该数据集同时表征了从小鼠视觉皮层中GABAergic interneurons获得的形态学（M）、电生理学（E）和转录组学（T）特征。在进行质量控制后，使用了相同的数据集，其中3395个神经元用于E-T分析，448个神经元用于M-E-T分析。作者对每个模态的输入矩阵进行标准化，使每个细胞中所有特征的平均值和标准差分别为0和1。

Multiome ATAC + gene expression BMMCs数据集：
作者使用了一个多组学ATAC+基因表达数据集，该数据集同时结合了从10个受试者和4个组织位点在BMMC（骨髓单核细胞）组织中获得的基因表达和全基因组DNA可及性。除了先前研究中的质量控制外，还使用了多组ATAC+基因表达BMMC数据集的标准预处理程序。对于基因表达模态的预处理，作者使用中值标准化和log1p变换和标准化，并通过Scanpy选择前4000个高变基因。对于DNA可及性模态的预处理，通过将所有非零值替换为1来对数据进行二值化，并通过Scanpy选择前13634个高变的DNA可及性特征。作者使用ChIPseeker和scanpy.var_names_make_unique来注释DNA可及性峰值。

空间组学数据

生成niche表达模态：
使用测量的细胞或spots的RNA表达，作者整合了每个细胞或spots的空间信息，并生成RNA的加权平均表达。在二维空间坐标 $s_{i}^{1},s_{i}^{2})$ 和模态 $v$ 的第 $i$ 行 $x_{i}^{(v)}$ 对应于细胞或spots $i$ 的情况下，可以计算模态 $v$ 的niche模态，用 $x^{(v\thinspace niche)}$ （ $v = 1, .., V$ ）。对于细胞 $i$ ， $x^{(v\thinspace niche)}_{i}$ 为： $x^{(v\thinspace niche)}_{i}=\sum_{j=1}^{J}x^{(v)}_{j}\cdot w_{ij}$ 其中， $j\in\left\{1,...,J\right\}$ 表示属于cell或spot $i$ 的 $J$ -nearest的cells或spots， $w_{ij}$ 为： $w_{ij}=\frac{1/distance\left\{(s_{i}^{1},s_{i}^{2}),(s_{j}^{1},s_{j}^{2})\right\}}{\sum_{j=1}^{J}1/distance\left\{(s_{i}^{1},s_{i}^{2}),(s_{j}^{1},s_{j}^{2})\right\}}$ 其中 $d i s t an ce$ 表示两个向量之间的欧几里得距离。

DBiT-seq embryo数据集：
作者使用DBiT-seq embryo（胚胎）数据集，其中采用了DBiT-seq 936个spots的以下三种模态：mRNA表达、蛋白质表达和niche mRNA表达。

对于mRNA表达模态，使用scanpy的函数scanpy.pp.normalize_total对原始计数矩阵进行归一化，并选择前568个差异表达基因。
对于蛋白质表达，对原始计数矩阵进行了归一化，并使用了22种蛋白质。
niche模态是基于标准化的mRNA表达产生的。

对于组织区域表征的第一项任务，从原始研究中提取真实组织区域标签，这是基于H&E图像的主要组织区域的解剖学注释。作者将UnitedNet的聚类结果与其他最先进方法的聚类结果进行了比较。通过ARI来验证它们的性能。对于跨模态预测的并行任务，尽管有三种模态被用作UnitedNet模型的输入，但作者专注于第一种和第二种模态之间的预测：mRNA表达和蛋白质表达。由于DBiT-seq公共数据集中只有一个批次，作者将DBiT-seq embryo数据集中的936个spots分为用于预测任务的训练数据集（80%，748个spots）和测试数据集（20%，188个spots）。

DLPFC数据集：
作者使用了12个批次的成人背外侧前额叶皮层（DLPFC）数据集。使用以下三种模式：mRNA表达、从H&E染色图像中提取的形态学特征和 niche mRNA。对于mRNA表达的模态，对原始计数矩阵进行归一化，并选择前2365个差异表达基因。使用预先训练的卷积神经网络从stLearn实现的H&E染色图像中提取形态学特征。50维形态特征被用作每个spots的第二模态。对于有监督组识别任务，使用11个批次及其组织区域注释来训练UnitedNet模型。然后，将训练后的模型应用于剩余批次，以识别组织区域注释，并在H&E图像特征和mRNA表达之间进行跨模态预测。作者将UnitedNet的识别性能与来自原始DLPFC论文的SpatialDE PCA和 pseudobulk PCA进行了比较。在识别任务之后，作者对最近邻居中具有35个spots的SpaGCN之后的聚类结果应用了细化步骤。

结果

特征与特征相关性

作者使用事后可解释学习（SHAP）对训练的UnitedNet进行剖析，以表明Patch-seq GABAergic数据集中的特征相关性。具体而言，使用SHAP将重要性值（称为Shapley值）分配给关于任何给定模型输出的每个输入特征，例如特定识别的细胞组或特定特征的跨模态预测。根据定义，具有高Shapley值的特征是有影响力的。因此，可以根据特征对Shapley值的排名来选择特征。

以Pvalb神经元类型（一种细胞大类）为例，作者定性地验证了SHAP选择的相关性（图2）。对于组与特征的相关性，SHAP成功地选择了Pvalb神经元差异表达的基因、电生理特征和形态学特征的子集（图2a，d–f）。

对于Pvalb神经元特异性跨模态特征与特征相关性（图2b，c），发现在使用长方电流步长的膜片钳电刺激过程中（long square current steps），基因Lrrc38与Pvalb神经细胞平均放电率的电生理特征（average firing rate）表现出更高的相关性。这一结果与之前的研究一致，表明Lrrc38相关蛋白是大钾（BK）通道最关键的调节剂之一，大钾通道对神经元放电动力学和神经递质释放至关重要。这些结果表明，UnitedNet可以潜在地用于促进Patch-seq数据的细胞类型特异性基因功能相关性的鉴定。

图2：特征相关性解释（Patch-seq GABAergic数据集）。

然后，作者探索了UnitedNet中可解释学习对ATAC+基因表达数据集的生物学价值。以CD8+T主要细胞类型（CD8+T和CD8+T naive细胞）为例（图3a），结果首先鉴定了CD8+T主细胞类型差异表达的基因亚群（例如，CD8A、A2M、LEF1和NELL2）和DNA可及性位点（例如，D8A、DPP8、KDM2B和KDM6B）（图3b、d、e）。在这些基因和DNA可及位点中，DNA可及性位点PROS1、KDM2B和KDM6B与CD8+T细胞特异性基因表现出更强的相关性，表明它们在CD8+T功能中的关键作用（图3c）。该结果与先前的研究一致，即CD8+T细胞中PROS1表达水平的升高是防止免疫反应过度活跃的关键调节信号。同时，KDM2B表达的缺乏启动了T细胞白血病的发生。值得注意的是，最近的一项研究发现，与KDM2B属于同一基因家族的KDM6B通过诱导效应相关基因中的DNA可及性直接调节CD8+T细胞的产生。结果进一步表明，KDM2B也可能在调节CD8+T细胞的产生中发挥重要作用（这是模型发现的，这一点是重要的）。

图3：特征相关性解释（ATAC+Gene表达数据集）。

空间组学上的应用

空间组学是一种重要的模态技术，可以测量完整组织中的空间分辨多组学信息。然而，在分析用于组识别任务的空间组学数据时，空间信息往往没有被充分利用。联合网络可以灵活地整合不同的模态作为输入，包括空间信息。UnitedNet可以利用细胞niche信息（每个细胞的邻域基因表达信息）作为额外的模态来识别具有生物学意义的群体，并增强跨模态预测（图4a）。

作者首先将UnitedNet应用于单批次的DBiT-seq embryo数据集，该数据集同时映射了胚胎组织上的整个转录组和22种蛋白质。具体而言，作者生成了编码空间信息的细胞niche信息（RNA表达的加权平均值），作为第三种分析模态。然后，联合网络将基因表达、蛋白质和niche模态相结合，用于组织区域的无监督联合识别以及基因表达和蛋白质之间的跨模态预测。通过将原始报告中的组织区域的解剖注释视为Ground Truth，对组织区域识别的准确性进行了基准测试。与最先进的方法相比，UnitedNet实现了更高的无监督组识别精度（图4b）。此外，联合网络使几个代表性基因和蛋白质表达之间的空间分辨跨模态预测成为可能（图第4c）。

图4：无监督组识别，joint注释转移，空间组学跨模态预测。联合网络的空间组学数据分析管道示意图。空间组学同时测量完整组织网络中的空间分辨多组学数据。UnitedNet提取细胞邻域信息作为附加模态以及用于无监督或有监督群组识别和跨模态预测的其他模态。

接下来，作者将UnitedNet应用于一个带注释的多批次空间组学数据集，用于同时有监督的联合组识别和跨模态预测。作者使用了人类背外侧前额叶皮层（DLPFC）数据集，该数据集在空间上绘制了12批次DLPFC脑切片的基因表达和H&E染色。同样，使用基因表达、基于H&E染色的形态学特征和细胞niche模态作为UnitedNet的输入。UnitedNet可以成功地注释看不见的DLPFC切片，并实现比其他基准测试方法和未使用交替训练方案或细胞小众模式的消融版UnitedNet更高或相当的精度（图4d）。

此外，作者探讨了UnitedNet是否可以减少空间DLPFC数据集中的批次效应，其方式与ATAC+基因表达BMMC数据集的分析类似。结果表明，与其他消融研究相比，UnitedNet在潜在空间中保持了良好的可分性和减少批次效应的能力，使其在组识别任务中具有更高或可比的性能。此外，UnitedNet使几个代表性基因和H&E形态特征之间的跨模态预测成为可能（图4e）。

你可能感兴趣的:(单细胞多组学分析,学习,数据分析,人工智能)

mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
字节跳动离职后，转行学起了AI大模型！该说不说，真的香！！小城哇哇人工智能 AI大模型语言模型 agi ai LLM 转行
个人自我介绍鄙人出生于南方小乡镇，为了走出小镇，在当地够拼够努力，不是自夸，确确实实也算得上“别人家的小孩”，至少在学习这件事情少，没有要家里人操过心。高考特别顺利，一个老牌985，具体哪个学校就不说了，不想给母校丢脸。毕业后，也算是“风光”地进入了字节跳动。做的是运维测试。在职期间刚入职的时候真的信心满满⛽️，但才3天就感受到了互联网头部公司的强度不是一般的大。明面上的早十晚八工作制完全不存在，
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
01.什么是MQTT？墨先森 NodeMCU与MQTT 物联网
目录00_前言01_简述02_特性03_MQTT运行机制00_前言本系列博客是基于NodeMCU平台来完成的一个物联网小项目，目的在于了解并学习MQTT协议，掌握MQTT协议的作用机制。以上。01_简述以下摘自百度百科MQTT(消息队列遥测传输)是ISO标准(ISO/IECPRF20922)下基于发布/订阅范式的消息协议。它工作在TCP/IP协议族上，是为硬件性能低下的远程设备以及网络状况糟糕的情
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
Elasticsearch 搜索引擎原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是开源分布式搜索引擎，提供搜素、分析、数据可视化等功能。它是一个基于Lucene的全文搜索服务器，能够把结构化或非结构化的数据经过索引生成一个索引库，使其可以被搜索到。在现代Web应用中，搜索功能已经成为不可或缺的一项功能。但是传统上，传统搜索方式需要依赖于数据库查询或者其他复杂的查询接口。而Elasticsearch提供了一种高效、稳
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
网安会有35岁中年危机吗，还有网安将来发展怎么样？网络安全工程师可以干到多大年龄认真写程序的强哥 web安全干货分享黑客技术网络安全渗透测试编程计算机
关于35岁中年危机这个问题，我想说，在网安行业里，这根本就不是个事儿！！与传统的IT行业不同，网安行业更加注重实战经验和技能深度，而不是单一的年龄因素。随着经验的积累，网络安全工程师在面对复杂问题时，反应更快、决策更准，这种价值是无法用年龄来衡量的。所以，只要你保持学习热情，不断提升自己的技能，35岁不仅不是终点，反而可能是你职业生涯的新起点。初入计算机行业的人或者想转行大学计算机相关专业准程序员
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
个人网站创建百度搜索框「已注销」小项目 js jsonp suggestion 百度跨域请求
需求分析点击提交按钮或者按回车键时，将输入框中的内容作为关键字进行百度搜索，在新的页面显示搜索结果。当输入框中的内容变更时，将输入框中的内容作为关键字，用jsonp跨域请求的方式获取百度的suggestion数据，实时显示出来。当鼠标移动到对应的suggestion项上时，该项高亮，并将输入框中的内容更新为该suggestion的内容。此时点击鼠标或者按回车键时，执行搜索操作。也可以按键盘上下键来
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
4G核心网的演变与创新：从传统到虚拟化的跨越爱浦路 IPLOOK 4G核心网核心网
4G核心网随着移动通信技术的不断发展，4G核心网已经经历了从传统的硬件密集型架构到现代化、虚拟化网络架构的重大转型。这一演变不仅提升了网络的灵活性和可扩展性，也为未来的5G、物联网（LOT）和边缘计算等技术的发展奠定了基础。本文将探讨4G核心网的演变过程，重点分析虚拟化技术在其中的作用，并结合我们公司IPLOOK的创新产品和解决方案，展望未来核心网的发展趋势。传统4G核心网：硬件依赖与功能分离在4
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
揭秘:矩阵短视频源码系统功能设计!!! 程序员~17734800326 短视频矩阵矩阵矩阵源码 java 前端数据库 python 算法
矩阵短视频系统源码功能设计一、原始功能设计概述矩阵系统源码系统旨在为企业提供一套全面的短视频管理解决方案，涵盖从内容创作到发布的全流程。通过集成多种先进技术和工具，支持多平台账号统一管理、高效内容剪辑与批量生成、多样化的发布方式以及详尽的数据统计分析，助力企业在短视频领域实现规模化运营。二、核心功能模块跨平台账号整合：该模块允许企业对其在抖音、快手、B站等多个主流短视频平台上的多个账户进行集中授权
【大模型学习路线】从月薪6K到年薪35W，普通二本生转行大模型的逆袭之路：我的500小时崩溃实录与实战秘籍（附保姆级学习路线） AGI大模型学习学习人工智能大模型应用程序员 AI 大模型 AI大模型
摘要：26岁机械专业零基础转大模型，被面试官羞辱“非科班别做梦”，5个月死磕源码，现拿下3个大厂offer。踩过所有新人会踩的坑，总结出普通人高效突围的4个阶段+7个杀手级项目。（文末送自研《大模型避坑指南》+120G学习资料包）一、血泪教训：这些弯路我替你走了（小白必看）2023年3月12日，我在工地上画完第108张CAD图纸后，突然收到大学班群消息：“XX同学入职字节AILab，年薪50W+”
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
目前常用的机器视觉工具库总结，选一个适合自己的机器视觉库才是最好的。 yuanpan 计算机视觉图像处理 ai AI编程
以下是常用机器视觉工具的总结，包括它们的特点、优点、缺点和是否付费：1.Halcon特点：由MVTec公司开发，专注于工业机器视觉。提供强大的图像处理、模式匹配、OCR和3D视觉功能。优点：高性能，适合复杂的工业应用。提供图形化编程界面（HDevelop），用户友好。支持多种硬件设备（如相机、采集卡）。缺点：付费：价格较高，适合企业级用户。开放性较低，定制化能力有限。学习曲线较高，文档复杂。是否付
关闭表单后再次打开时校验提示未清除松岛的枫叶 vue.js 前端 javascript
在Vue+ElementUI中，若关闭表单后再次打开时校验提示未清除，可通过以下方案解决（结合搜索结果的实践经验）：一、核心原因分析•校验状态缓存：ElementUI的表单校验状态（如红色边框和错误提示）不会随对话框关闭自动重置，需手动清理。•数据残留：若表单数据未正确初始化，旧数据可能触发残留校验规则。•DOM更新时序：直接调用resetFields()时，若表单DOM未完全渲染，可能导致方法失
JavaWeb学习笔记时间会给答案scidag java java-ee servlet 笔记学习数据库
一.刨析JDBC1.概念：JDBC就是java语言操作关系型数据库的一套API2.常用API2.1DriverManager:作用1.注册驱动2.获取数据库连接;都是静态方法，直接类名.方法2.2Connection:作用1.获取sql执行对象2.事务管理《《关于管理事务回滚常用方法setAutoCommit（）commit(),rollback()2.3Statement:作用执行SQL语句《《
CSS3学习教程，从入门到精通，CSS3 布局语法知识点及案例代码（15）知识分享小能手编程语言如门前端开发网页开发 css3 学习 css 前端 html5 html Java后端开发
CSS3布局知识点及案例代码一、盒模型知识点CSS盒模型是理解CSS布局的基础，它包括内容（content）、内边距（padding）、边框（border）和外边距（margin）四个部分。content：盒子的内容区域，定义宽度和高度。padding：内容与边框之间的空间，可控制内容与边框的距离。border：围绕内容和内边距的边框，可设置边框的样式、宽度和颜色。margin：边框与其他元素之间
CSS3学习教程，从入门到精通，CSS3 盒子模型语法知识点及案例代码（13）知识分享小能手编程语言如门前端开发网页开发 css3 学习前端 css html5 html Java后端开发
CSS3盒子模型语法知识点及案例代码CSS3盒子模型概述CSS3盒子模型是用于控制网页元素布局和外观的重要工具。它包括标准盒子模型、IE盒子模型以及CSS3引入的弹性盒子模型和网格布局模型。一、标准盒子模型（StandardBoxModel）语法selector{width:value;height:value;padding:value;border:value;margin:value;}wi
CSS3学习教程，从入门到精通，CSS3 背景样式语法知识点及案例代码（11）知识分享小能手编程语言如门前端开发网页开发 css3 学习前端 css html5 Java Java后端开发
CSS3背景样式语法知识点及案例代码一、背景颜色（background-color）/*设置元素的背景颜色*/selector{background-color:color-value;}selector：选择器，指定要设置背景颜色的元素。color-value：颜色值，可以是颜色名称、十六进制颜色代码、RGB颜色值或HSL颜色值等。案例：.box{width:200px;height:200px
10初识Spring MVC框架 TechLens JAVA EE笔记 servlet spring java
学习内容一、回顾1.JSPModel2架构模型采用JSP+Servlet+JavaBean技术实现了页面显示、流程控制和业务逻辑的分离Jsp负责生成动态网页，只用做显示页面；Servlet负责流程控制，用来处理各种请求的分派；JavaBeans负责业务逻辑，对数据库的操作流程控制等通用逻辑以硬编码的方式实现，每次开发新的Web应用程序均需重新编写流程控制、通用逻辑代码2.WebMVC应用框架Spr
跨域自监督学习：打破数据壁垒的创新突破 mslion 学习人工智能跨模态学习深度学习计算机视觉自监督表示学习
近年来，跨域学习和跨模态学习在多个应用领域中取得了显著的进展。尽管不同领域和模态之间的数据分布差异和标注数据稀缺常常带来挑战，但越来越多的研究集中在如何通过自监督学习和无监督领域适应技术来解决这些问题。自监督学习作为一种无需大量标注数据的方法，能够有效地从未标注数据中提取有用特征，并在跨域或跨模态设置中增强模型的迁移能力和泛化能力。此外，如何处理源域和目标域之间的差异，使得模型能够在多领域或跨模态
【BUAA S4 OS】Lab2 内存管理 Roisy++ OS BUAA 笔记 linux
文章目录指导书梳理内核程序启动物理内存管理链表宏虚拟内存管理两级页表结构访问内存与TLB重填EntryHi、EntryLo0、EntryLo1TLB相关指令TLB的维护时纪exam前准备提醒参数、宏、函数缩写对照地址相互转换相关从地址中获取信息函数作用Exam翻车分析题目理解出现偏差——理解错题意&以为实现了自映射机制【疑问】页表在虚拟内存中不应该是连续的吗，这样怎么保证其连续性？【延伸】页表到底
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Spring MVC +Spring 框架学习总结-入门必学知识点柚子味* Java spring spring mvc java spring mvc
Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。然而，Spring的用途不仅仅限于服务器端的开发。从简单性、可测试性和松耦合性角度而言，绝大部分Java应用都可以从Spring中受益。spring相关视频教程：https://www.bilibili.com/video/BV1nz4y1d7uySpringMVC是Spr
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开