JackCrum

【学习笔记】ICML2022-GraphBP

一. 代码

Git: https://github.com/divelab/GraphBP

二. 摘要

药物发现的一个基本问题是设计与特定蛋白质结合的分子。为了使用机器学习方法解决这个问题，我们在这里提出了一个名为GraphBP的新颖而有效的框架，通过将特定类型和位置的原子逐个放置在给定的结合位点来生成与给定蛋白质结合的3D分子。特别是，在每个步骤中，我们首先使用3D图形神经网络，从中间上下文信息中获得几何感知和化学信息表示。此类上下文包括给定的绑定位点和放置在前面步骤中的原子。其次，为了保持理想的等方差特性，我们根据设计的辅助分类器选择一个局部参考原子，然后构建一个局部球坐标系。最后，为了放置一个新的原子，我们通过流模型生成其原子类型和相对位置w.r.t.构造的局部坐标系。我们还考虑按顺序生成感兴趣的变量，以捕获它们之间的基本依赖关系。实验表明，我们的GraphBP可以有效地生成具有结合能力的3D分子，以靶向蛋白质结合位点。我们的实现可在https://github.com/divelab/GraphBP上找到

三. 引言

设计可以与特定目标蛋白质结合的分子（又名基于结构的药物设计）是药物发现中一个基本且具有挑战性的问题（Anderson，2003年）。开发解决这个问题的机器学习方法是很有希望的，因为最近有蛋白质-配体复合结构的大规模数据集，例如PDB-bind（Liu等人，2017年）和CrossDocked2020（Francoeur等人，2020年）。此外，机器学习方法已被证明对从生物化学结构丰富的数据中学习是有效的。最有代表性的例子是AlphaFold（Jumper等人，2021年），它从氨基酸序列预测3D蛋白质结构的问题上实现了显著的准确性，这是几十年来的长期挑战。

然而，很少有人探索机器学习方法来生成与特定蛋白质结合位点结合的分子。我们用三个方面总结主要挑战或考虑因素。（i）复杂的有条件信息。在产生能够与特定靶蛋白结合的分子时，3D几何结构和结合位点的化学特征都是重要的考虑因素。考虑如何有效地捕捉这种信息背景至关重要。（ii）巨大的化学空间和连续的3D空间。所有可能的分子的化学空间都是巨大的（估计大于1060），而与特定目标具有结合能力的分子数量非常少。此外，绑定站点周围的3D空间本质上是连续的。换句话说，我们的生成模型最好能够在不离散空间的情况下在任何连续位置生成分子。（iii）等方差性质。直觉上，如果我们旋转或翻译结合位点，生成的分子预计将以同样的方式旋转或翻译。也就是说，我们的机器学习方法产生的分子应该等变于结合位点的任何刚性变换。

在这里，我们介绍了GraphBP，这是一个基于结构的药物设计的新颖而有效的生成框架，它考虑到了所描述的挑战。特别是，我们通过将原子逐个放置到特定的3D结合位点来生成3D分子。在每个步骤中，首先使用3D图神经网络，通过考虑3D几何结构和化学相互作用来提取中间上下文信息。之后，我们根据设计的辅助分类器选择的局部参考原子构建了一个局部坐标系。在这个局部坐标系中生成一个新的原子可以确保等方差性质。最后，为了放置一个新的原子，我们生成其原子类型和相对连续位置w.r.t.，用流模型构造的局部坐标系。此外，感兴趣的变量是按顺序生成的，旨在捕获潜在的依赖项。

据我们所知，在基于结构的药物设计中，我们的GraphBP是第一个满足以下三个特征的机器学习方法；也就是说，它可以感知蛋白质-配体复合物的三维几何结构和化学相互作用，将原子放置在任何连续位置，并保持理想的等方差特性。与之前作品（Ragoza等人，2021年；Luo等人，2021年a）的更多讨论包含在第2节中。实验表明，我们的方法在生成与目标3D蛋白结合位点具有结合亲和力的3D分子方面明显优于基线。

四. 相关工作

1. 1D/2D分子生成

分子可以表示为1D SMILES字符串（Weininger，1988年）或2D分子图。几部作品提议生成SMILES字符串（Gomez-Bombarelli等人，2018年；Kusner等人，2017年；Dai等人，2018年）与序列方法。或者，许多作品通过利用先进的深度生成模型生成二维图。他们要么直接生成节点类型矩阵和邻接矩阵（Simonovsky & Komodakis，2018年；De Cao & Kipf，2018年；Zang & Wang，2020年；Liu等人，2021年b），要么通过逐个添加节点、边缘或图案来生成节点、边缘或图案（Li等人，2018年；You等人，2018年；Jin等人，2018年；Shi等人，2019年；Luo等人，2021年c）。这些方法在不感知3D空间信息的情况下生成1D或2D分子。因此，它们不能直接用于生成用于靶蛋白结合的3D分子。

2. 3D分子生成。

最近，许多作品建议从给定的2D图（Mansimov等人，2019年；Simm和Hernandez-Lobato，2020年；Gogineni等人，2020年；Xu等人，2021年；Shi等人，2021年；Ganea等人，2021年；Luo等人，2021年b），从给定的原子袋（Simm等人，2020年）或从头开始（Gebauer等人，2019年；Hoffmann和Noe ́，2019年；Neserov等人，2020年；Satorras等人，2021年；Luo & Ji，2022年）生成3D分子几何形状。然而，在基于结构的药物设计中，对二维图或原子袋的先前了解是未知的。此外，这些方法通常考虑小有机分子（Luo等人，2021a），因此仍然不足以产生与给定结合位点相互作用的3D类药物分子。为了全面审查分子生成，我们建议参考最近的调查（Du等人，2022年）

3. 基于结构的药物设计

使用机器学习方法生成与特定结合位点的3D分子具有挑战性，探索不足。LiGAN（Ragoza等人，2021年）将蛋白质配体复合物转换为3D原子密度网格，即3D图像。然后，它将基于结构的药物设计视为3D图像生成任务，从而允许使用GAN（Goodfellow等人，2014年）和VAE（Kingma & Welling，2013年）。在生成密度网格后，它执行原子拟合算法来获得3D分子几何形状。作为一项初步工作，它未能保持理想的等方差属性，因为在原子密度网格上执行3D CNN（Ji等人，2012年）不是等变的。此外，它必须离散连续的3D空间来构建网格。最近的另一项工作（Luo等人，2021a）通过建模结合位点周围3D空间中原子发生的分布，然后使用采样算法根据学到的分布放置原子来解决这个问题。在采样过程中，它还将3D空间离散到网格上，并评估原子在网格上发生的概率密度。相比之下，我们的方法可以将原子放置在任何连续位置，从而实现更灵活的原子放置。

4. 自回归流模型

流模型（Dinh等人，2014年；Rezende & Mohamed，2015年；Weng，2018年）定义了一个参数化的可逆变换函数：从潜在空间 $\sim p_{Z}$ 中采样获得数据变量x， $f_{\theta}: \boldsymbol{z} \in$ $\mathbb{R}^{D} \rightarrow \boldsymbol{x} \in \mathbb{R}^{D}$ ，其中pZ是已知的先验分布。数据点x的对数可能性可以通过以下方式计算

$\log p_{X}(\boldsymbol{x})=\log p_{Z}\left(f_{\theta}^{-1}(\boldsymbol{x})\right)+\log \left|\operatorname{det} \frac{\partial f_{\theta}^{-1}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|$ (1)

因此，fθ必须是可逆的，其雅可比行列式应该很容易计算。自回归流模型（Papamakarios等人，2017年）是一种特定的流法，其中变换函数被公式化为自回归模型；也就是说，x的每个维度都取决于之前的维度。形式上，它通常被定义为仿射变换为

$\boldsymbol{x}_{i}=\sigma_{i}\left(\boldsymbol{x}_{1: i-1}\right) \odot \boldsymbol{z}_{i}+\mu_{i}\left(\boldsymbol{x}_{1: i-1}\right), \quad i=1, \cdots, D$ (2)

其中标度因子σi(·) 2 R和平移因子μi(·) 2 R是 $x_{1:i-1}$ 的函数。$\bigodot $ 表示按元素乘法。这个变换函数很容易逆，因为 $\boldsymbol{z}_{i}=\frac{\boldsymbol{x}_{i}-\mu_{i}}{\sigma_{i}}$ 。此外，雅可比矩阵的行列式可以线性计算，因为它是一个三角形矩阵，具体而言 $\frac{\partial f_{\theta}^{-1}(\boldsymbol{x})}{\partial \boldsymbol{x}}=\prod_{i=1}^{D} \frac{1}{\sigma_{i}}$

五. 模型框架

0. 符号和问题：

我们将分子（即配体）的三维几何形状表示为 $\mathcal{M}=\left\{\left(\boldsymbol{a}_{i}, \boldsymbol{r}_{i}\right)\right\}_{i=1}^{n}$ 以及蛋白质（即受体）的相应结合位点 $\mathcal{P}=\left\{\left(\boldsymbol{b}_{j}, \boldsymbol{s}_{j}\right)\right\}_{j=1}^{m}$ , n和m分别表示分子和结合位点中的原子数， $\boldsymbol{a}_{i} \in\{0,1\}^{p}$ 是指示分子中第i个原子的原子类型的单热矢量，此外 $\boldsymbol{r}_{i} \in \mathbb{R}^{3}$ 是它的3D笛卡尔坐标。同样，结合位点中第j个原子的原子类型和坐标表示为 $\boldsymbol{b}_{j} \in\{0,1\}^{q}$ 和 $\boldsymbol{s}_{j} \in \mathbb{R}^{3}$ 。 P和q分别表示分子和结合位点中原子类型的总数，它们可以从训练集的统计数据中获得。我们考虑了在给定结合位点生成3D分子的问题。因此，我们的目标是学习一个生成模型，以捕获观察到的蛋白质-配体对的条件分布 $p(\mathcal{M} \mid \mathcal{P})$ 。

图1. GraphBP一代步骤的插图。详情见第3.1节。

1. 分子生成：

1.0 总览

在GraphBP中，我们将给定结合位点中3D分子的生成作为顺序生成过程；也就是说，我们逐个将原子放置到给定的3D结合位点。在第t步，我们根据中间上下文信息C（t-1）生成第t个原子，包括其在和坐标rt处的原子类型。请注意，上下文C（t-1）不仅包含绑定位点，还包含放置在前t − 1步骤中的原子，即 $\mathcal{C}^{(t-1)}=$ $\mathcal{P} \cup\left\{\left(\boldsymbol{a}_{i}, \boldsymbol{r}_{i}\right)\right\}_{i=1}^{t-1}$ 。当t ≥ 2时。在第一步（t = 1），上下文是绑定站点本身 $\text { i.e., } \mathcal{C}^{(0)}=\mathcal{P}$ 。

在每个步骤中，我们首先根据上下文生成原子类型。之后，通过考虑上下文和生成的原子类型信息来生成其坐标。因此，我们生成过程的每个步骤 $t (t = 1 ； 2 ； \cdot\cdot\cdot\cdot ； n)$ 都可以表述为

$\begin{array}{l} \boldsymbol{a}_{t}=g^{a}\left(\mathcal{C}^{(t-1)} ; \boldsymbol{z}_{t}^{a}\right) \\ \boldsymbol{r}_{t}=g^{r}\left(\mathcal{C}^{(t-1)}, \boldsymbol{a}_{t} ; \boldsymbol{z}_{t}^{r}\right) \\ \mathcal{C}^{(t)} \leftarrow \mathcal{C}^{(t-1)} \cup\left\{\left(\boldsymbol{a}_{t}, \boldsymbol{r}_{t}\right)\right\} \end{array}$

生成器 $g^{a}$ 和 $g^{r}$ 是自回归函数。 ${z}_{t}^{a}$ 和 ${z}_{t}^{r}$ 表示步骤t时流模型中使用的潜在变量，这些变量将在稍后详细介绍。

在下面，我们描述了一代步骤的细节，即自回归函数 $g^{a}$ 和 $g^{r}$ 是如何参数化的。此外，我们还解释了GraphBP如何考虑第1节中总结的关键挑战。特别是，一个生成步骤中主要有三个部分，即编码上下文、选择局部参考原子和放置新原子，如图1所示。细节阐明如下。

1.1 编码上下文

1.2 选择本地参考原子

1.3 放置一个新原子

1.4 整体生成过程

2. 训练

为了训练我们的自回归生成模型，我们需要将配体-蛋白质对中的3D分子分解为原子放置步骤的轨迹。受G-SphereNet（Luo & Ji，2022）的启发，我们预计新原子在生成过程中应放置在参考原子的局部区域。因此，我们选择结合位点中离配体最近的原子作为第一个局部参考原子，即接触原子，将配体中离结合位点最近的原子作为第一个生成的原子。然后，从配体中的这个选定原子开始，我们将Prim算法应用于3D分子几何，以获得配体中原子的放置顺序及其相应的局部参考原子。该策略可以保证每个步骤的新原子始终位于相应参考原子的局部区域。通过这种获得的轨迹，GraphBP通过随机梯度下降使用以下三个损失函数进行训练。

2.1 原子放置损失

2.2 相联原子分类器损失

2.3 中心原子分类器损失

六. 实验

我们首先评估我们的GraphBP生成能够与给定蛋白质靶点结合的3D分子的能力。实验表明，GraphBP的表现显著优于基线。之后，我们进行消融研究，以验证第3.1.3节中提议的顺序生成的有效性。

1. 数据集

我们使用CrossDocked2020数据集（Francoeur等人，2020年），其中包含超过2200万个对接蛋白配体晶体结构，来评估GraphBP的基于结构的药物设计。在LiGAN（Ragoza等人，2021年）之后，我们忽略了任何根均方偏差（RMSD）大于2A的姿势，从而获得具有约50万蛋白配体复合物的数据集̊。我们使用与LiGAN相同的训练集和测试集，以进行公平比较。配体和结合位点中的原子类型总数分别为27种和19种。原子类型汇总于附录B

2. 设置

我们使用与LiGAN相同的10种目标蛋白质进行测试评估。它们中的每个都可以有多个相关的配体，导致测试集中有90个蛋白质配体对作为参考。根据LiGAN，我们为测试集中的每个参考结合位点生成100个带有GraphBP的分子。这种评估设置具有挑战性，因为测试目标从不同的袖珍集群中选择多种多样，参考配体通常与目标绑定位点紧密结合（Ragoza等人，2021年）。我们通过两个指标定量测量生成性能：（i）有效性是所有生成分子中化学上有效的分子的百分比。如果一个分子可以被RDkit消毒，它就是有效的（Landrum等人，2006年）。（ii）∆结合测量比相应的参考分子具有更高预测结合亲和力的生成分子的百分比。请注意，我们无法进行湿实验室实验分析来评估生成分子的结合亲和力。此外，没有可以作为评估绑定亲和力的黄金标准的计算指标。因此，继LiGAN之后，结合亲和力是由在CrossDocked2020数据集上训练的CNN评分函数（Ragoza等人，2017年）预测的。事实证明，这种CNN预测的亲和力比使用Autodock Vina经验评分功能更准确（Trott & Olson，2010年）。因此，它可以作为评估生成分子结合亲和力的合理和令人信服的指标。在LiGAN之后，我们首先通过通用力场最小化（Rappe等人）来细化生成的3D分子。，1992年）。之后，通过使用分子对接程序gnina将Vina最小化和CNN评分应用于生成的分子和参考分子（McNutt等人，2021年）。

3. 基线

我们认为最近LiGAN（Ragoza等人，2021年）方法的两个变体作为基线。LiGANprior在给定的结合位点上生成条件分子，其条件信息与我们的GraphBP相同。LiGAN-posterior将整个参考蛋白质配体复合物编码为条件信息，从而产生偏向参考分子的分子。请注意，LiGAN-posterior比GraphBP和LiGAN-prior包含更多的条件信息

4. 结果

我们在表1中列出了定量结果。我们的GraphBP可以产生比基线更多的有效分子，包括LiGAN后验分子，LiGAN后方甚至包括有效的参考配体作为条件信息。更重要的是，GraphBP生成的分子中有27:0%的预测结合亲和力高于参考分子。这以11:1%的绝对优势优于LiGAN。这些比基线的重大改进表明，结合了图表示和更灵活的原子放置策略的GraphBP可以更有效地捕获结合位点条件的3D分子几何的基本分布

我们在图2中进一步提供了∆Binding亲和力的详细分布。请注意，LiGAN-posterior的平均∆Binding亲和力高于LiGAN-prior和GraphBP，但方差更低。这表明LiGANposterior将参考分子编码为条件，可能会对参考分子进行轻微修改。尽管与LiGAN-posterior相比，我们的GraphBP仍然产生比参考分子更强的分子（27:0%对15:4%），这表明GraphBP可以通过有效捕获潜在的条件分布来产生更多样化的分子来与目标蛋白质结合

在图3中，我们提供了几个生成的3D分子的例子，这些3D分子预计将比其相应的参考分子更强烈地与目标蛋白质结合。可以观察到，我们生成的具有更高预测结合亲和力的分子与参考分子大不相同，这进一步表明我们的模型能够产生多样化和新颖的分子来结合目标蛋白质，而不仅仅是记忆或修改已知分子

5. 消融实验

在第3.1.3节中，我们建议按顺序生成感兴趣的变量，以捕获其基本依赖项。具体来说，给定上下文C(t−1)，我们以C(t−1)的形式生成at、dt、θt和’t一个接一个！在！Dt！Θt！'T。为了验证该策略的有效性，我们采用了以下两种变体。（i）没有依赖性。at、dt、θt和’t的变量独立于上下文生成，如C(t−1)！在，C（t-1）！dt，C（t-1）！θt和C（t−1）！'T。因此，我们省略了原子类型嵌入（Eq.（12））、距离嵌入（Eq.（14））和距离角嵌入（Eq.（16））。（ii）部分依赖。在生成dt、θt和’t时，我们会考虑生成的原子类型信息。然而，dt、θt和’t是独立处理的。它可以表示为C（t-1）！在，（C（t-1）；在）！dt，（C（t-1）；at）！θt和（C（t−1）；at）！不会，导致与GSphereNet类似的模型（Luo和Ji，2022年）。为了提高效率，我们选择进行随机分子几何生成实验，避免编码大型结合位点。根据G-SphereNet，我们训练QM9的3D分子模型（Ramakrishnan等人，2014年），并评估生成的分子几何形状。评估指标是生成分子的有效性和生成的3D分子和训练3D分子之间键长分布的最大平均差异（MMD）（Gretton等人，2012年）。图5附录C说明了不同模型和训练分子产生的分子的键长分布。

表2总结了比较情况。它表明，添加依赖项可以持续提高生成性能。我们的顺序生成方法表现最佳，证明它可以通过捕获变量之间的潜在依赖关系来更有效地模拟分子几何分布。由于原子放置的损失（等式（18））可以分别分为w.r.t.原子类型、距离、角度和扭转的损失，我们可以通过观察这些变量相应的训练损失来进一步分析它们的建模能力。我们在图4中说明了训练损失的比较。通过观察每个变量的损失，我们可以得出结论，添加依赖项有助于更好地适应训练数据

七. 结论

在这项工作中，我们提出了GraphBP，一种机器学习方法，用于生成用于靶蛋白结合的3D分子。GraphBP能够捕获蛋白质-配体复合物的3D几何结构和化学相互作用，在不离散3D空间的情况下放置原子，并在生成过程中保持等方差特性。GraphBP被证明是有效的，在生成与目标蛋白质紧密结合的3D分子方面明显优于最近的基线。

图4。我们的方法和消融模型之间训练损失的比较

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi