NLP菜鸟

MolTrans: Molecular Interaction Transformer for drug–target interaction prediction

1. Introduction

随着大量生物医学数据和知识的收集与利用以及在许多应用领域取得巨大成功的深度学习技术的进步，药物发现过程，特别是DTI预测得到了显著增强。最近，各种深度模型在DTI预测中显示出令人鼓舞的表现。它们通常将药物和蛋白质数据作为输入，将DTI视为一个分类问题，并通过深度学习模型对输入进行预测。尽管做出了这些努力，一下挑战仍然存在：

交互机制建模不足。现有的研究学习分子表征并基于药物和蛋白质的整个分子结构进行预测，忽略了相互作用是只涉及药物和蛋白质的相关子结构的子结构。全结构分子表征引入噪声并影响预测性能。此外，学习到的表征很难解释，因为它们不能提供一条易于理解的路径来指示药物和蛋白质的哪些子结构有助于相互作用。
限于有限的标记数据。先前的工作仅关注手头的数据，将范围限制在数千种药物和蛋白质中，而忽略了大量未标记的生物医学数据。

为了解决这些挑战，我们提出了一种基于 transformer 的生物启发分子数据表征方法（MolTrans）来利用大量未标记数据进行 DTI 预测。做出了以下贡献：

知识启发的表征和交互建模，以实现更准确、更可解释的预测。受 DTI 是子结构的知识启发，MolTrans 提出了频繁连续子序列（FCS）挖掘的数据驱动方法，该方法适用于提取蛋白质和药物的高质量且尺寸合适的子结构。此外，MolTrans 还包括模拟真实生物DTI过程的生物启发交互模块。新的子结构识别使得能够通过交互模块中的显式映射来理解哪个子结构组合与结果更相关。
利用大量未标记的生物医学数据。MolTrans 挖掘来自多个未标记数据源的数百万药物和蛋白质序列以提取药物和蛋白质的高质量子结构。与单独使用小的训练数据集相比，海量数据产生了更高质量的子结构。我们还使用 Transformer 来增强特征，该 Transformer 从未标记数据生成的大序列子结构输出中捕获复杂信号。

我们提供了各种真实药物发现设置（包括未发现的药物/靶点问题）和稀缺训练数据集设置中最先进方法的综合性能比较。实验结果证明，MolTrans 的预测性能比最先进的基线水平提高了25%。MolTrans 与现有模型的不同之处在于：（i）它是基于知识驱动的模型架构而不是直接应用现有的深度学习模型；（ii）强调可解释性而不是预测性能；（iii）使用外部药物和靶点数据来补充相互作用数据集。

2. Materials and methods

2.1 Problem definition

我们将 DTI 预测作为一个分类任务来确定一对药物和靶蛋白是否会相互作用。在我们的设置中，药物 $i$ 由SMILES字符串 $S_i$ 表示。我们用 $S$ 表示药物的SMILES表征，用 $A$ 表示目标蛋白（由一系列氨基酸token表示）。DTI 预测任务定义如下：
给定 $n$ 种药物序列 $S=\{S_1,S_2,\cdots,S_n\}$ 和 $m$ 个蛋白质序列 $A=\{A_1,A_2,\cdots,A_m\}$ ，学习一个从药物-靶点对到相互作用概率分数的映射函数 $F:S\times A\rightarrow[0,1]$

2.2 The MolTrans method

给定输入的药物和蛋白质数据，FCS挖掘模块首先使用专门的分解算法将其分解为一组明确的子结构序列，然后将输出送入一个增强的 Transformer 嵌入模块中来获得每个子结构的增强的上下文嵌入，接下来在相互作用预测模块中，用成对相互作用分数来将药物子结构和蛋白质子结构配对，随后在相互作用图上用 CNN 来捕获高阶相互作用，最后用解码器模块输出概率分数。

2.2.1 FCS mining module

在子结构级别 DTI 的领域知识驱动下，MolTrans 首先将蛋白质和药物的分子序列分解为子结构。特别是，我们提出了一种称为 FCS 算法的数据驱动的序列模式挖掘算法用来发现药物和蛋白质数据库中的重复子序列。受自然语言处理领域子词单元的启发，FCS 旨在为序列生成一组频繁子序列的层次结构。

FCS 将蛋白质/药物的每个序列分层分解为子序列、更小的子序列和单个原子/氨基酸符号。

FCS 首先初始化一个由特定的氨基酸 token 或 SMILES 字符串字符和给定 token 组成的集合 $V$ ，标记整个药物/蛋白质语料库得到集合 $W$ 。然后，扫描 $W$ 并找到最频繁的连续标记 $(A, B)$ ，FCS 用 $(A B)$ 来更新集合 $W$ 中的 $(A, B)$ ，并将新 token 添加到集合 $V$ 中。然后重复扫描、识别和更新过程，直到没有频繁标记超过阈值 $\theta$ 或 $V$ 的大小达到了预定义的最大值 $l$ 。

通过此操作，足够频繁的子序列被合并为一个 token，而不够频繁的子序列被分解为一组较短的 token。最终，对于每个药物/蛋白质，FCS产生大小为 $k$ 的药物/靶点子结构序列 $C=\{C_1,C_2,\cdots,C_k\}$ ，其中 $C_i$ 来自集合 $V$ 。
使用 FCS 算法，MolTrans 将输入药物和靶点分别转换成一系列显示子结构 $C_d$ 和 $C_p$ 。它有如下两点意义：

与以前的子结构识别方法相比其更容易解释。FCS药物编码能够提供明确的提示，因为它将每个药物分子分解为离散的中等大小的子结构分区。它允许利用大量未标记的数据来改进子结构挖掘。例如，我们使用的 Uniprot 数据集由560 823个独特的蛋白质序列组成，ChEMBL数据库包括1870 461个药物SMILES字符串。我们观察到，挖掘的子结构的质量来源于我们使用的大量未标记数据。在小数据集中，许多有用的子结构的出现频率低于合理的最小频率，而大的聚集数据集可以用更大的序列池成功地识别它们。
可以捕获基本且有意义的生物医学语义。产生的子结构与药物和蛋白质频繁出现的基本单位有关。我们发现，在给定不同数据集特征（如蛋白质数据集的不同生物类型和药物数据集的药物相似性）的情况下，FCS算法识别了相似的基本生化子结构集，这表明FCS算法的鲁棒性。通常，我们应用更通用的数据集。

2.2.1 Augmented transformer embedding module

为了捕获子结构的化学语义，MolTrans 包括一个增强嵌入模块（它首先初始化一个可学习的子结构查找字典，然后通过 transformer 编码器用上下文子结构信息增强嵌入）。我们用 transformer 进行分子表征学习。在我们的设置中，transformer 编码器中的自注意力机制通过学习来自同一分子的所有子结构来修改每个输入子结构嵌入。这样得到的子结构嵌入更好，因为它通过考虑相邻子结构之间的复杂化学关系而具有上下文意义。

具体而言，对于每个输入药物-靶点对，我们将相应的子结构序列 $C_p$ 和 $C_d$ 转换为两个矩阵 $M^p\in R^{k\times \theta_p}$ 和 $M^d\in R^{l\times \theta_d}$ ，其中 $k / l$ 是药物/蛋白质子结构的总大小， $\theta_p$ 和 $\theta_d$ 是蛋白质和药物的子结构序列的最大长度，并且每列 $M^p_i$ 和 $M^d_j$ 是对应于蛋白质序列的第 $i$ 个子结构和药物序列的第 $j$ 个子结构的子结构索引的一个 one-hot 向量。每个蛋白质和药物的上下文嵌入 $E_{cont}^p$ 和 $E_{cont}^d$ 由一个可学习的词汇查找矩阵 $W^p_{cont}\in R^{v\times k}$ 和 $W^d_{cont}\in R^{v\times l}$ 生成： $E_{cont_i}^p=W^p_{cont}M^p_i,E_{cont_j}^d=W^d_{cont}M^d_j$ 其中 $v$ 每个子结构的潜在嵌入的大小。
由于 MolTrans 使用了序列子结构，我们也包括一个由可学习的词汇查找矩阵 $W^p_{pos}\in R^{v\times \theta_p}$ 和 $W^d_{pos}\in R^{v\times \theta_d}$ 生成位置嵌入 $E_{pos_i}^p$ 和 $E_{pos_j}^d$ ： $E_{pos_i}^p=W^p_{pos}I^p_i,E_{pos_j}^d=W^d_{pos}I^d_j$ 其中 $I^p_i\in R^{\theta_p},I^d_j\in R^{\theta_d}$ 是第 $i$ 个位置和第 $j$ 个位置为 1 的 one-hot 向量。
最终的嵌入向量 $E^p_i,E^d_j$ 是上下文嵌入和位置嵌入的和： $E^p_i=E^p_{cont_i}+E^p_{pos_i},E^d_j=E^d_{cont_j}+E^d_{pos_j}\tag{1}$ 上述模型输出一组独立的子结构嵌入。然而，这些子结构之间有化学关系来捕获这些上下文信息，我们进一步使用 transformer 编码器层来增强嵌入： $\widetilde{E}^p=\text{Transformer}_{\text{Protein}}(E^p),\widetilde{E}^d=\text{Transformer}_{\text{Drug}}(E^d)\tag{2}$

2.2.3 Interaction prediction module

MolTrans 包括一个由两层组成的交互模块：① 一个用于对成对子结构相互作用进行建模的相互作用张量。② 一个用于提取邻域相互作用的相互作用映射的 CNN 层。

成对作用
为了对成对作用进行建模，对于蛋白质中的每个子序列 $i$ 和药物中的每个子序列 $j$ ，有： $I_{i,j}=F(\widetilde{E}_i^p,\widetilde{E}_j^d)\tag{3}$ 其中 $F$ 是衡量对间相互作用的函数，可以是和、平均值、点积等。因此，在这个层之后，我们得到一个张量 $I\in R^{\theta_d\times \theta_p\times \Phi}$ ，其中 $\theta_d/\theta_p$ 分别是药物/蛋白质子序列的长度， $\Phi$ 是函数 $F$ 的输出的大小，这个张量的每列考虑了药物和蛋白质的单个子结构的相互作用。为了提供可解释性，我们倾向于将点积作为聚集函数，因为它生成一个可以明确衡量单个药物-靶点子结构对之间的相互作用强度的标量。由于每对点积输出是一维的，所以 $I$ 变成了二维作用图。如果图中的某个值很高，它将在下游层中激活并且具有更高的DTI相互作用可能性。通过端到端的学习，如果一对子结构确实相互作用，它们将在相互作用图中相应的子结构对位置上具有较高的相互作用分数。因此，通过检查此图，我们可以直接看到哪些子结构对有助于最终结果。
邻域作用
蛋白质和药物的邻近子结构在触发相互作用时相互影响。因此，除了对单独的成对作用进行建模外，还需要对附近区域的相互作用进行建模。通过作用图 $I$ 顶部的CNN层来实现这一点。直觉是，通过应用几个有序不变的局部卷积核，附近区域的交互可以被捕获并聚合。最终得到输入药物-靶点对的输出表征 $O$ ： $O=CNN(I)\tag{4}$ 该互作用模块的灵感来自深度交互推理网络，由于这种显示互作用建模，我们可以从互作用图中可视化各个子结构互作用对的强度。为了输出指示互作用可能性的概率，我们首先将 $O$ 展开为向量，并使用由权重矩阵 $W_o$ 和偏置向量 $b_o$ 参数化的线性层： $P=\sigma(W_o·\text{FLATTEN}(O)+b_o)\tag{5}$ 其中 $\sigma$ 是 $\text{sigmoid}$ 函数。
二分类的损失函数为： $L=Y·\log(P)+(1-Y)·\log(1-P)\tag{6}$ 其中 $Y$ 是标签值。

2.3 Implementation

对于 FCS 算法，我们将数据集中药物和蛋白质子结构的最小出现次数设置为 500，得到 23532 个药物子结构和 16693 个蛋白质子结构。对于 transformer 编码器，我们为药物和蛋白质使用两层 transformer 编码器。输入嵌入的大小为 384，我们为每个中间维度为 1536 的 transformer 编码器设置了 12 个注意头。我们将药物的最大序列长度设置为 50，将蛋白质的最大序列长设置为 545，以覆盖数据集中 95% 的序列。对于CNN，我们使用三个内核大小为三的过滤器。对于优化超参数，我们使用学习率为 0.00001 的Adam优化器，batch_size 设置为64，并允许它运行30个 epochs。dropout 设为0.1。

3. Result

我们的实验回答了如下问题：

Q1：MolTrans 是否提高了 DTI 预测性能？
Q2：MolTrans 如何处理未知的药物/靶点案例？
Q3：MolTrans 如何应对大量丢失的数据？
Q4：不同蛋白质系列的性能如何变化？
Q5：MolTrans 是否提供了关于 DTI 的有用知识？
Q6：MolTrans 的各个组件如何对预测性能增益做出贡献？

3.1 Experimental setup

（1）数据集
我们使用 BIOSNAP 收集的 MINER DTI 数据集作为我们的主要实验数据集。它包括 4510 个药物节点和 2181 个蛋白质靶点，以及来自 DrugBank 的 13741 个DTI对。BIOSNAP 数据集仅包含正 DTI 对。对于负 DTI 对，我们按照常见做法从未发现的对中进行采样，获得了具有相等正负样本的平衡数据集。除了BIOSNAP，我们的预测性能比较实验中还包括两个基准数据集。DAVIS 由 68 种药物和 379 种蛋白质的相互作用数据组成，BindingDB 由 10665 种药物和 1413 种蛋白质的互作用数据构成。

（2）指标
我们使用ROC-AUC和PR-AUC作为度量二元分类性能的指标。此外，我们使用敏感性和特异性指标，其中阈值是验证集中F1得分最好的一个。
（3）评估策略
我们以 7:1:2 的比例将数据集分为训练集、验证集和测试集。对于每个实验，我们使用不同的数据集随机拆分进行五次独立运行。然后，我们根据 ROC-AUC 性能从验证集中选择性能最佳的模型。然后，通过验证选择的模型在测试集上进行评估。

3.2 Baselines

我们将 MolTrans 与以下基线进行了比较。我们专注于最先进的深度学习模型，因为它们表现出了优于浅层模型的性能。

LR：对连接的药物和蛋白质特征向量应用逻辑回归模型。我们对药物的 ECFP4 和 PubChem 以及蛋白质的 PSC 和 CTD 的所有组合进行了实验。我们发现药物的 ECFP4 和蛋白质的 PSC 具有最高的性能。
DNN：在 ECFP4 和 PSC 连接向量的顶部使用隐藏单元大小为 1024 的三层DNN。
GNN-CPI：使用图神经网络对药物进行编码，并使用 CNN 对蛋白质进行编码。然后将潜在向量连接到神经网络中用于化合物-蛋白质相互作用预测。我们遵循论文中描述的相同超参数设置。
DeepDTI：使用 DBN 对 DTI 进行建模，DBN 是一组受限玻尔兹曼机器。它使用 ECFP2、ECFP4、ECFP6 的串联作为药物特征，并使用 PSC 作为蛋白质特征。我们基于验证集性能优化了论文中描述的超参数。
DeepDTA：将 CNN 应用于原始SMILES字符串和蛋白质序列以提取局部残基模式，任务是预测结合亲和力值。我们在最后添加了一个 Sigmoid 激活函数，将其改为二进制分类问题，并进行超参数搜索以确保公平性。
DeepConv-DTI：使用CNN和全局最大池层提取蛋白质序列中的各种长度的局部模式，并在ECFP4上应用全连接层。它在不同的数据集上进行了广泛的实验，是 DTI 二进制预测任务中最先进的模型。我们遵循论文中描述的相同超参数设置。

3.3 Q1: MolTrans achieves superior predictive performance

为了回答问题1，我们随机选择20%的药物-靶点对对作为测试集。结果显示，MolTrans 在所有数据集的 ROC-AUC 和 PR-AUC 的 DTI 预测设置中始终具有更好的预测基线。MolTrans 比最佳表现基线（DAVIS PR-AUC）增加了25%。注意，由于不同方法的阈值不同，敏感性和特异性可能不同。

3.4 Q2: MolTrans has competitive performance in unseen drug and target setting

为了模拟未知的药物/靶点任务，我们随机选择 20% 的药物/靶点蛋白以及与这些药物和靶点相关的所有DTI对作为测试集。我们观察到 KronRLS 的性能在不同的设置中有所不同。这是因为 KronRLS 是一种基于相似性的方法；因此，它容易受到手头的数据属性的影响。在未知的药物设置中，我们发现单层 LR 比多层 DNN 更好，并且比具有更复杂深度模型设计的 SOTA 方法更差。这表明了精心设计模型架构的必要性。我们还看到，MolTrans 在这两种情况下都具有与SOTA深度学习基线相比的竞争力。

3.5 Q3: MolTrans performs best with scarce data

我们发现 MolTrans 是最稳健的方法。相反，SOTA基线如 DeepDTI 和 DeepConv DTI 随着缺失分数的增加而下降。MolTrans 在稀缺环境中表现良好的一个原因是，与使用整个药物和蛋白质的其他方法相比，MolTrans 使用了相对丰富的子结构，因此迁移性比较好。

3.6 Q4: MolTrans is robust in various protein families

靶蛋白来自不同的蛋白质家族。重要的是，预测算法不偏向于一个特定的蛋白质家族。在本实验中，我们测试了对四个最大的药物靶点的预测性能：酶、离子通道、G蛋白偶联受体（GPCR）和核受体。我们检索一个 BIOSNAP 测试集，并使用 GtoPdb 数据库将目标蛋白映射到四个蛋白家族。我们发现 1908 个酶相互作用、533 个GPCR相互作用、496 个离子通道相互作用和 104 个核受体相互作用。我们发现 MolTrans 在上述所有单个蛋白质家族中都是稳健的。特别是，酶、GPCR和离子通道具有比总体蛋白质类更高的性能。

3.7 Q5: MolTrans allows model understanding

相互作用图中的高值细胞代表药物和靶点子结构之间的潜在激活的相互作用，这对最终的相互作用结果很重要。因此，为了可视化，我们生成一张热图，让我看看哪些细胞具有高值。然后，我们选择一个阈值来遮蔽大多数具有低值的细胞。然后我们检查文献，看看剩余的细胞是否包含相互作用结果的线索。

3.8 Q6: Ablation study

我们使用以下设置对全数据设置进行消融研究：

-CNN：删除了CNN，并展开互作用图 $I$ 输出并送入解码器。
-AugEmbed：移除增强嵌入模块中的转换器，并向互作用模块提供位置和内容嵌入。
-Interaction：进一步从 AugEmbed 中删除了交互模块。它退化为FCS指纹顶部的解码器。请注意，单独移除交互模块不是有效的模型设计。
Small：使用较小的数据集来训练FCS：DrugBank用于药物，BindingDB用于蛋白质。我们调整最小频率，以输出与FCS大的相似数量的子结构。
-FCS：用药物的 ECFP4 和蛋白质的 PSC 描述符替换FCS嵌入。其余模型保持不变，即它们随后被馈入变压器、交互模块和解码器。

我们可以看到CNN、transformer 和交互模块对模型最终性能的贡献。仅FCS指纹就具有很强的交互预测性能。此外，从Small中，我们看到大量未标记的数据是有用的，因为它丰富了输入并提高了性能。从-FCS中，我们看到我们的模型能够适应其他具有类似强大性能的流行指纹。

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方