wufeil

知识引导的分子生成扩散模型 - KGDiff 评测

一、背景介绍

KGDiff模型是一个基于口袋的知识引导的3D分子生成的扩散模型，来源于上海交通大学计算机学院涂仕奎教授的文章：

《KGDiff: towards explainable target-aware molecule generation with knowledge guidance》。文章链接：*KGDiff: towards explainable target-aware molecule generation with knowledge guidance (silverchair.com)。该文章发表在《Briefings in Bioinformatics》期刊上。

基于口袋的分子生成模型之前有介绍过targetdiff，FLAG等。其中，KGDiff与TargetDiff类似，KGDiff模型也是一个扩散模型，应针对的是口袋条件下的3D分子生成。KGDiff的创新点在于：KGDiff模型利用领域知识，例如，vina score，指引分子生成过程中的去噪过程，可生成高结合力的分子。此外，KGDiff还是一个原子层级可解释性的模型，在生成分子时，同时给出生成分子预测score，原子层面的score。

二、模型介绍

KGDiff的模型结构如下图：

在扩散过程中，分子在 T 个时间步长内逐渐添加预定义的噪声。模型 φ(θ) 被训练为从噪声分子中重建分子，并预测完整分子 M0 和固定蛋白质 P 之间跨反向 T 步骤的结合亲和力 v，即在每一步去噪过程中，神经网络除了预测上一步分子中原子的位置还有原子类型以外，还要预测蛋白和分子的结合力 V；在模型中，蛋白口袋P事固定的，即其嵌入向量不会被更新。生成分子时，进一步利用预测的 V 来引导去噪过程实现高结合亲和力，通过梯度更新分子的坐标和节点类型。在整个过程中保持蛋白质结构固定。

因此，KGDiff与TargetDiff的区别是：

KGDiff的神经网络 φ(θ)，除了要预测去噪后分子原子的坐标与类型，还要预测分子与口袋的结合力，因此，此时的神经网络不单单是一个去噪网络，还是领域知识的专家网络。TargetDiff的神经网络仅仅预测去噪后原子的坐标和类型。此外，在分子生成过程中，KGDiff会使用预测的分子与口袋的结合力的梯度（结合力对原子坐标X和原子类型H的梯度）更新原子坐标和原子类型，以实现生成的分子具有更高亲和力。当然，模型还可以简单的改装为clogP等。这也就是为什么KGDiff是一个knowledge guidance知识引导的扩散模型。

传统基于口袋的分子生成扩散模型，往往仅仅是从数据角度拟合分子和蛋白质之间的联合分布，而忽略了它们之间的结合亲和力，因此生成分子与口袋的结合力并不是很好，体现在生成分子的vina score均值与参考分子vina score相近。如下图（来源于TargetDiff文章）：

三、模型性能

3.1 专家网络性能

KGDiff的神经网络 φ(θ)能否预测噪音状态下分子与口袋的结合力是该方法能否生成高亲和力分子的关键。作者给出神经网络 φ(θ)对亲和力预测的结果，如下图：

上图中，作者比较了含噪音状态下（每个10个step），专家网络预测值与真实vina score之间的相关性。皮尔森相关系数为0.94，说明专家网络了可以从含噪音的分子中学习到vina score，这也奠定了梯度引导的基础。

3.2 生成分子的QED，SA 以及 Vina score

作者对比了liGAN， GraphBP， AR， Pocket2Mol， TargetDiff与KGDiff模型。结果见下表：

作者分别比较了生成的3D分子与口袋的结合力打分，即vina score生成的3D分子与口袋进行局部最小化以后的结合力打分，即Vina Minimize，以及生成的3D分子经过重对接（全局优化，构象生成，位置采样，结合力打分）后的打分，即Vina Dock。不管是原味打分下的vina score，局部优化的Vina Minimize，还是全局优化的Vina Dock， KGDiff的打分都会优于其他模型。

各同体系下，vina score的对比见下图。可以看出，KGDiff生成的分子的vina score, 远低于TargetDiff等模型，效果非常明显。说明生成分子的结合力更强。

3.3 案例研究-可解释性

对于可解释性，作者给了三个例子。为了分析分子生成的结果，作者将生成的分子及其目标蛋白可视化，并将分子中每个原子的打分机型0-100的归一化，见下图。

作者定义了pocket hole interface，即指蛋白质口袋表面与外界环境相连的区域。大多数得分较低的原子通常位于“pocket hole interface”附近，并且自身周围的蛋白质原子数量较少。

3.4 不同蛋白的案例

在GPCR, Kinase等靶点上，KGDiff也展示出了类似的结果，见下图。效果仍然是非常明显，对比参考分子的vina score等打分明显下降。

3.5 其他测试

作者工作非常丰富，除了上述的案列测试。还有大量关于影响梯度引导对生成分子因素的测试，包括：vina socre与口袋提及的关系，见下图：

生成分子中原子打分与周围蛋白原子数量之间的关系，如下图：

这两个结果都说明，KGDiff更倾向于大口袋，在口袋内部生长分子，以达到提高蛋白-分子结合力的目标。

此外，作者对同源的体系（TNKS1和 TNKS2）生成的分子，进行了测试，比较两个体系生成分子交叉对接的结果，以及交叉相似性的结果。结果如下表。结果说明，KGDiff生成的分子具有一定的口袋亚型选择性。

此外，作者还测试了平坦口袋生成分子的效果，如下图。平坦口袋时，可能是生长位置识别出错，导致两边生长的情况。

作者还研究了，不同坐标和原子类型的引导强度，会对生成分子结合力的影响，如下图：

同时，作者测试了不同去噪步数下，预测vina score的变化情况，可以看出，去噪步数>100以后，vina score基本稳定，如下图。

还有就是关于生成分子价键长度的统计与比较。

四、模型测评

3.1 环境安装

创建环境，安装pytorch，scipy, numpy等

conda create -n KGDiff python=3.9
conda activate KGDiff

conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 -c pytorch
conda install pytorch-scatter pytorch-cluster pytorch-sparse==0.6.13 pyg==2.0.4 -c pyg

pip install pyyaml easydict lmdb
pip install numpy==1.21.6 pandas==1.4.1 tensorboard==2.9.0 seaborn==0.11.2
pip install Pillow==9.0.1
pip install scipy==1.7.3

conda install -c conda-forge openbabel
pip install meeko==0.1.dev3 vina==1.2.2 pdb2pqr rdkit

安装autodocktools，Linux版本

# install autodocktools
# for linux
python -m pip install git+https://github.com/Valdes-Tresanco-MS/AutoDockTools_py3

安装autodocktools，Windows版本

# install autodocktools
# for windows
python.exe -m pip install git+https://github.com/Valdes-Tresanco-MS/AutoDockTools_py3

复制项目代码

git clone https://github.com/CMACH508/KGDiff.git

复制完成后，目录如下：

.
├── configs
│   ├── sampling.yml
│   └── training.yml
├── datasets
│   ├── __init__.py
│   ├── pl_data.py
│   └── pl_pair_dataset.py
├── LICENSE
├── MANIFEST.in
├── models
│   ├── common.py
│   ├── molopt_score_model.py
│   └── uni_transformer.py
├── README.md
├── reproduction.ipynb
├── scripts
│   ├── cross_dock.py
│   ├── data_preparation
│   │   ├── clean_crossdocked.py
│   │   ├── extend_protein_extract.py
│   │   ├── extract_pockets.py
│   │   ├── __init__.py
│   │   ├── inject_affinity.py
│   │   └── split_pl_dataset.py
│   ├── dock_extended_baseline.py
│   ├── evaluate_diffusion.py
│   ├── evalueate_valnet.py
│   ├── __init__.py
│   ├── sample_diffusion.py
│   ├── sample_for_pocket.py
│   └── train_diffusion.py
├── setup.py
└── utils
    ├── data.py
    ├── evaluation
    │   ├── analyze.py
    │   ├── atom_num_config.py
    │   ├── atom_num.py
    │   ├── docking_qvina.py
    │   ├── docking_vina.py
    │   ├── eval_atom_type.py
    │   ├── eval_bond_length_config.py
    │   ├── eval_bond_length.py
    │   ├── fpscores.pkl.gz
    │   ├── sascorer.py
    │   ├── scoring_func.py
    │   └── similarity.py
    ├── misc.py
    ├── reconstruct.py
    ├── train.py
    ├── transforms.py
    ├── vina_rules.py
    ├── visualize.py
    └── warmup.py

7 directories, 47 files

4.2 下载训练数据集

数据下载链接：KGDiff

其中，data.zip是数据集，logs_diffusion.zip为模型的checkpoint。将下载的zip文件放置在./项目主目录下，然后均解压。

解压数据集

unzip data.zip
unzip benchmark.zip
unzip logs_diffusion.zip
unzip misc_results.zip

注：在解压data.zip的时候，可能会出现以下报错：

error: invalid zip file with overlapped components (possible zip bomb)
 To unzip the file anyway, rerun the command with UNZIP_DISABLE_ZIPBOMB_DETECTION=TRUE environmnent variable

此时，在~/.bashrc文件中添加如下内容，然后 bash ~/.bashrc即可正常解压。

UNZIP_DISABLE_ZIPBOMB_DETECTION=TRUE
export UNZIP_DISABLE_ZIPBOMB_DETECTION

注：我们下载完成的文件，是经过处理以后的，里面已经包含了vina score。

4.3 复现分子生成部分代码

（1）针对CrossDocked2020验证集中的第一个体系，采样

python scripts/sample_diffusion.py \
  --config ./configs/sampling.yml \
  -i 0 \
  --guide_mode joint \
  --type_grad_weight 100 \
  --pos_grad_weight 25 \
  --result_path ./cd2020_pro_0_res

运行输出：

但是，运行过程中遇到报错：

Traceback (most recent call last):
  File "./KGDiff-main/scripts/sample_diffusion.py", line 259, in 
    main()
  File "./KGDiff-main/scripts/sample_diffusion.py", line 230, in main
    pred_pos, pred_v, pred_exp, pred_pos_traj, pred_v_traj, pred_exp_traj, pred_v0_traj, pred_vt_traj, pred_exp_atom_traj, time_list = sample_diffusion_ligand(
  File "./KGDiff-main/scripts/sample_diffusion.py", line 134, in sample_diffusion_ligand
    all_pred_exp_traj = torch.stack(all_pred_exp_traj,dim=0).numpy()
RuntimeError: stack expects each tensor to be equal size, but got [4] at entry 0 and [2] at entry 2000

（2）针对PDBBind2020验证集中的第一个体系，采样：

更改--guide_mode joint参数为--guide_mode pdbbind_random，让模型针对PDBBind2020的第一个体系采样分子，也发生一样的报错。

（3）对文章中S4表格（如下图）的蛋白，进行分：子生成。尝试按照，github中的如下命令：

python scripts/sample_for_pocket.py  \
  --pdb_idx 0 \
  --protein_root ./data/extended_poc_proteins/  \
  --guide_mode joint \
  --type_grad_weight 100 \
  --pos_grad_weight 25 \
  --result_path ./extended_pro_0_res

出现报./data/extended_poc_proteins/index.pkl文件缺失错误：

File "./KGDiff-main/scripts/sample_for_pocket.py", line 102, in main
    with open(os.path.join(args.protein_root, 'index.pkl'), 'rb') as f:
FileNotFoundError: [Errno 2] No such file or directory: './data/extended_poc_proteins/index.pkl'

此时，需要解压./data目录下的extended_poc_proteins.zip文件，可以解决这个错误。

再次运行，则出现如下与之前类似的错误：

File "./KGDiff-main/scripts/sample_diffusion.py", line 134, in sample_diffusion_ligand
    all_pred_exp_traj = torch.stack(all_pred_exp_traj,dim=0).numpy()
RuntimeError: stack expects each tensor to be equal size, but got [4] at entry 0 and [2] at entry 2000

至此，作者提供的github中的分子生成方式，均指向同一错误。此处错误，简单处理后，即可正常运行。

解决该问题后，可以运行分子生成。

另外，在查看了KGDiff的代码后，发现最后生成的分子会被torch保存成pt文件，而不是我们熟悉的sdf或者xyz文件。生成分子的文件目录为：

.
├── log.txt
├── result_8a1z_C_KVU_pocket10_0.pt
└── sample.yml

0 directories, 3 files

log.txt为log日志文件，pt文件为生成分子，sample为生成分子使用的参数。

生成100个分子，大约花费1个小时10分钟，生成效率挺慢的。

4.4 评估生成的分子

python scripts/evaluate_diffusion.py \
  --sample_path ./extended_pro_0_res \
  --protein_root ./data/extended_poc_proteins/

在对evaluate_diffusion.py 修改以后，可以产生部分重构成功的分子，保存成sdf格式（保存了生成分子的构象，未经优化）。结果见下图：

从生成的分子的有效性上看，KGDiff生成分子的有效率非常的低，存在大量断裂的分子，存在离散的原子类型。有可能是作者提供的checkpoint训练程度不够，也有可能模型的性能就是如此。更有可能是，能达到那么强结合力的分子数量本来就很少，少于100个，KGDiff模型在不断尝试，尽量给出正确的分子。

同时我们保存相应的smiles，结果中的几个例子如下：

C=C(O)CC.C=CC(=C)C(CC)C(CCC)CCCCC(=O)C(N)=O
C=CC.C=CCC.C=CCCCCC1CC(C(N)C(=O)F)CC1O.COCO.F.O.O
C=CC1CCC2CC(C(O)C(O)CCC(O)(CC(=C)PC(C)=O)C(O)CC)C12
CC1(C2CC=CCCCCC2)C(O)C(O)(C(=O)C=O)C1C(=O)O
C.C#C.C=CCOC.CC(O)(O)C(=O)O.CC1=CCC(COCC2=CC=NC3CNCCC23)=CC1.CC=CCC(O)(O)C(O)CC(N)=O.CCCC(=O)O.CCO.Cc1ccc(O)cc1
C=C(C(C)CCCC(C)C)C(F)CF.CC(O)=C=CC=CC1=NCCC1.F.O
C=CCC(CPPC1(C)OC2CC(=N)C21)C(=C)CC(=CO)CCCC.CC=O.F
C#CC1CC2(C)CC(C)(C3CCCC3)CCCCC12.CNC(=O)C(=O)C(O)C(O)CF
N=CC1=CCC(NOCCN=CC(O)C2C(=O)OC(C3CCC=CC3N)C(=O)C2O)=CC1

从中可以看出生成分子中存在大量分子片段。

另一方面，也注意到作者并不是通过xyz以及原子类型，使用obabel软件生成分子的sdf文件，而是使用了XXX函数，这个函数在diffusion相关的模型中比较少见。这也可能是导致生成分子有效率低的原因。

非常可惜，作者的文章中并没有提供关于分子有效率的数据，所以，并不清楚这里面的有效率是否与作者的结果相符合。

4.5 复现训练模型部分代码

尝试按照github的方法训练模型

python scripts/train_diffusion.py \
  --config configs/training.yml

会遇上以下错误：

TypeError: Descriptors cannot be created directly.
If this call came from a _pb2.py file, your generated code is out of date and must be regenerated with protoc >= 3.19.0.
If you cannot immediately regenerate your protos, some other possible workarounds are:
 1. Downgrade the protobuf package to 3.20.x or lower.
 2. Set PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python (but this will use pure-Python parsing and will be much slower).

此时，升级tensorboard即可。

 pip install tensorboard -U

再次运行

python scripts/train_diffusion.py \
  --config configs/training.yml

输出：

[2024-01-03 21:22:47,440::train::INFO] Namespace(config='configs/training.yml', device='cuda', logdir='./logs_diffusion', ckpt='', tag='', value_only=False, train_report_iter=200)
[2024-01-03 21:22:47,440::train::INFO] {'data': {'name': 'pl', 'path': './data/crossdocked_v1.1_rmsd1.0_pocket10', 'split': './data/crossdocked_pocket10_pose_split.pt', 'transform': {'ligand_atom_mode': 'add_aromatic', 'random_rot': False}}, 'model': {'model_mean_type': 'C0', 'beta_schedule': 'sigmoid', 'beta_start': 1e-07, 'beta_end': 0.002, 'v_beta_schedule': 'cosine', 'v_beta_s': 0.01, 'num_diffusion_timesteps': 1000, 'loss_v_weight': 100.0, 'loss_exp_weight': 1.0, 'sample_time_method': 'symmetric', 'affinity_with_diffusion': False, 'use_classifier_guide': True, 'time_emb_dim': 0, 'time_emb_mode': 'simple', 'center_pos_mode': 'protein', 'node_indicator': True, 'model_type': 'uni_o2', 'num_blocks': 1, 'num_layers': 9, 'hidden_dim': 128, 'n_heads': 16, 'edge_feat_dim': 4, 'num_r_gaussian': 20, 'knn': 32, 'num_node_types': 8, 'act_fn': 'relu', 'norm': True, 'cutoff_mode': 'knn', 'ew_net_type': 'global', 'num_x2h': 1, 'num_h2x': 1, 'r_max': 10.0, 'x2h_out_fc': False, 'sync_twoup': False, 'pred_exp_from_all': False}, 'train': {'seed': 2021, 'batch_size': 4, 'num_workers': 1, 'n_acc_batch': 1, 'max_iters': 10000000, 'val_freq': 1000, 'pos_noise_std': 0.1, 'max_grad_norm': 8.0, 'bond_loss_weight': 1.0, 'optimizer': {'type': 'adam', 'lr': 0.001, 'weight_decay': 0, 'beta1': 0.95, 'beta2': 0.999}, 'scheduler': {'type': 'plateau', 'factor': 0.95, 'patience': 15, 'min_lr': 1e-05}}}
[2024-01-03 21:22:47,440::train::INFO] Loading dataset...
[2024-01-03 21:22:47,446::train::INFO] Training: 99990 Validation: 100 Test: 0
[2024-01-03 21:22:47,446::train::INFO] Building model...
[2024-01-03 21:22:49,121::train::INFO] protein feature dim: 27 ligand feature dim: 13
[2024-01-03 21:22:49,122::train::INFO] # trainable parameters: 2.8413 M
[2024-01-03 21:22:49,789::train::INFO] [Train] Iter 0 | Loss 1.590827 (pos 1.234858 | v 0.003544 | exp 0.001567) | Lr: 0.001000 | Grad Norm: 5.512002
Validate: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.53it/s]
Traceback (most recent call last):

之后，会遇到如下错误：

Traceback (most recent call last):
  File "/home/KGDiff-main/scripts/train_diffusion.py", line 371, in 
    main()
  File "/home/KGDiff-main/scripts/train_diffusion.py", line 349, in main
    val_loss = validate(it)
  File "/home/KGDiff-main/scripts/train_diffusion.py", line 238, in validate
    atom_auroc = get_auroc(np.concatenate(all_true_v), np.concatenate(all_pred_v, axis=0),
  File "/home/KGDiff-main/scripts/train_diffusion.py", line 42, in get_auroc
    logger.info(f'atom: {mapping[feat_mode][c]} \t auc roc: {auroc:.4f}')
NameError: name 'logger' is not defined

在修改代码以后，即可正常运行训练部分的代码。再次运行

python scripts/train_diffusion.py \
  --config configs/training.yml

输出：

[2024-01-03 21:51:21,921::train::INFO] atom: (6, False)          auc roc: 0.8272
[2024-01-03 21:51:21,924::train::INFO] atom: (6, True)   auc roc: 0.9142
[2024-01-03 21:51:21,927::train::INFO] atom: (7, False)          auc roc: 0.5819
[2024-01-03 21:51:21,930::train::INFO] atom: (7, True)   auc roc: 0.8044
[2024-01-03 21:51:21,932::train::INFO] atom: (8, False)          auc roc: 0.8133
[2024-01-03 21:51:21,935::train::INFO] atom: (8, True)   auc roc: 0.6877
[2024-01-03 21:51:21,938::train::INFO] atom: (9, False)          auc roc: 0.8247
[2024-01-03 21:51:21,940::train::INFO] atom: (15, False)         auc roc: 0.8127
[2024-01-03 21:51:21,943::train::INFO] atom: (16, False)         auc roc: 0.6230
[2024-01-03 21:51:21,946::train::INFO] atom: (16, True)          auc roc: 0.7472
[2024-01-03 21:51:21,948::train::INFO] atom: (17, False)         auc roc: 0.7618
[2024-01-03 21:51:21,948::train::INFO] [Validate] Iter 01000 | Loss 1.075903 | Loss pos 0.953521 | Loss v 1.011946 e-3 | Loss exp 21.187793 e-3 | Avg atom auroc 0.828030
[2024-01-03 21:51:22,058::train::INFO] [Validate] Best val loss achieved: 1.075903
[2024-01-03 21:51:42,173::train::INFO] [Train] Iter 1200 | Loss 0.973956 (pos 0.870810 | v 0.000796 | exp 0.023551) | Lr: 0.001000 | Grad Norm: 0.910338
[2024-01-03 21:52:02,200::train::INFO] [Train] Iter 1400 | Loss 0.963688 (pos 0.839717 | v 0.001212 | exp 0.002788) | Lr: 0.001000 | Grad Norm: 0.657970
[2024-01-03 21:52:22,156::train::INFO] [Train] Iter 1600 | Loss 0.445534 (pos 0.377464 | v 0.000584 | exp 0.009639) | Lr: 0.001000 | Grad Norm: 1.112845
[2024-01-03 21:52:42,524::train::INFO] [Train] Iter 1800 | Loss 1.414450 (pos 1.331138 | v 0.000740 | exp 0.009311) | Lr: 0.001000 | Grad Norm: 1.786610
[2024-01-03 21:53:02,609::train::INFO] [Train] Iter 2000 | Loss 0.257379 (pos 0.114499 | v 0.001375 | exp 0.005397) | Lr: 0.001000 | Grad Norm: 0.729617
Validate: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:06<00:00,  3.67it/s]

训练过程保存在，logs_diffusion目录下以运行时间为名的文件夹内，例如：training_2024_01_03__21_49_24，文件夹内目录如下：

.
├── checkpoints
│   ├── 0.pt
│   ├── 10000.pt
│   ├── 1000.pt
│   ├── 2000.pt
│   ├── 3000.pt
│   ├── 5000.pt
│   ├── 7000.pt
│   └── 8000.pt
├── events.out.tfevents.1704336564.a01.2547340.0
├── log.txt
├── models
│   ├── common.py
│   ├── molopt_score_model.py
│   ├── __pycache__
│   │   ├── common.cpython-39.pyc
│   │   ├── molopt_score_model.cpython-39.pyc
│   │   └── uni_transformer.cpython-39.pyc
│   └── uni_transformer.py
├── training.yml
└── vis

注意：作者这一部分包含了vina score打分等的评价，但是由于生成分子的质量较差，同时修改代码内容越来越多，比较费力，还要配置环境，我就不在这里详细描述了。这一部分的工作，可以自行使用其他工具代替。

4.6 不同引导强度下生成分子的有效性和结合力

使用4.3中生成分子的方法，按照4.4中的处理方法，测试了不同pos_grad_weight 参数下，生成分子的有效率。pos_grad_weight 参数是在分子生成过程中，坐标部分的引导强度。测试pos_grad_weight 参数的值分别为：0, 25, 50, 100，每个参数分别生成100个分子，各需要1个小时。

有效率分子统计如下：

可以清晰的看到，随着坐标部分的引导强度的增加，生成分子的有效率是显著降低的。当然，关于不同引导强度的效果，作者做过测试的，所以才设定为25。

奇怪的是，在重新进行ligpr和docking以后，pos_grad_weight 参数的值为0, 25, 50, 100，最后获得的分子数分别为：8， 12， 12， 9。似乎大部分的生成的分子都无法对接。这种情况，在之前的分子生成模型中，不常见。

下图是一些对接失败分子的示例：

这些分子就算对接成功似乎也没有任何的意义，距离类药差距非常明显。

下图分别为最优打分分子的pose，及打分。

pos_grad_weight = 0， docking_score = -7.376。

pos_grad_weight = 25， docking_score = -7.157。

pos_grad_weight = 50， docking_score = -7.157。

pos_grad_weight = 100， docking_score = -6.423。

但是，晶体口袋中的分子，docking_score仅为：-4.369。

进一步查看了，其他对接成功的分子，还是有很多分子的打分优于参考分子。从这一点来说，KGDiff达到了文章中宣称的作用，Vina score 的知识引导，提升了生成分子与口袋的结合力。但是，从图中可以看到生成分子的质量，远远不能说是一个类药分子。生成的分子要比TargetDiff更差，也说明知识引导走向了极端，生成了更多的极性基团。

五、总结

KGDiff提出了一种知识引导的分子生成的扩散模型。与传统的分子生成的扩散模型不同，KGDiff的SE3等变网络的训练目标不仅是预测分子的去噪过程，而且还是预测含噪音小分子和口袋之间的结合力。在分子生成过程中，利用SE3等变网络预测的结合力，计算结合力对于原子坐标和原子类型的梯度引导分子的原子坐标和原子类型，逐步去噪，实现生成的分子与口袋之间强结合力。

测评结果显示，KGDiff在知识引导下，确实生成了结合力明显优于参考分子的分子。但是，生成分子的有效率很低，且引导强度越强，生成分子有效率越低。此外，为了增强结合力，模型不断尝试生成极性的分子，导致生成分子的类药性极差。

因此，总的来说，KGDiff是一个概念验证的文章，证明了知识引导可以生成结合力更强的分子，启发意义强，值得借鉴。

六、代码修改位置

6.1 train_diffusion.py

将get_auroc函数和get_pearsonr函数放置到main函数里面，放在main函数中trian函数之前，即157 行以后。

6.2 evaluate_diffusion.py

增加保存mol对象为sdf格式的函数，放在import 模块之后。

def save_sdf(mol, path):
    writer = SDWriter(path)
    writer.write(mol)
    writer.close()

在 mol = reconstruct.reconstruct_from_generated(pred_pos, pred_atom_type, pred_aromatic, pred_exp_atom_weight)之后添加保存mol对象为sdf文件的代码

####################################
# wufeil
# 将mol对象保存到sdf文件中
path = os.path.join(sdf_path, str(sample_idx)+'.sdf')、
save_sdf(mol, path)
###################################

增加了保存smiles相关的代码，已保存生成的smiles。

smiles_list = [] # 添加的
for example_idx, r_name in enumerate(tqdm(results_fn_list, desc='Eval')):

smiles = Chem.MolToSmiles(mol)
smiles_list.append(smiles) # 添加的

保存smiles，成txt文件，添加的

    smile_txt_path = os.path.join(sdf_path, 'generated_molecules_smiles.txt')
        with open(smile_txt_path, 'w') as file:
            for line in smiles_list:
                file.write(line + '\n')


    logger.info(f'Evaluate done! {num_samples} samples in total.')

你可能感兴趣的:(药物设计,扩散模型,分子生成,药物设计,分子生成,深度学习,扩散模型)

小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
软考中级软件设计师考点知识点笔记总结 day06 莫问alicia 软考中级软件设计师笔记数据结构算法
文章目录6、树和二叉树6.1、树的基本概念6.2、二叉树的基本概念6.3、二叉树的遍历6.4、查找二叉树（二叉排序树）BST6.5、构造霍夫曼树+6.6、线索二叉树6.7、平衡二叉树7、图7.1、存储结构-邻接矩阵7.2、存储结构-邻接表7.3、图的遍历7.4、拓扑排序7.5、最小生成树普利姆算法7.6、克鲁斯卡尔算法6、树和二叉树6.1、树的基本概念结点的度：一个结点的度是指该结点拥有的子树数量
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
炫酷的HTML5粒子动画特效实现详解木木黄木木 html5 前端 html
炫酷的HTML5粒子动画特效实现详解这里写目录标题炫酷的HTML5粒子动画特效实现详解项目介绍技术栈项目架构1.HTML结构2.样式设计核心实现1.粒子类设计2.动画效果实现星空效果烟花效果雨滴效果3.鼠标交互性能优化效果展示总结项目介绍本文将详细介绍如何使用HTML5Canvas技术实现一个炫酷的粒子动画特效系统。该系统包含三种不同的动画效果：星空、烟花和雨滴，并支持鼠标交互功能，能够为网页增添
SQL自学：怎么创建视图 m0_74823471 面试学习路线阿里巴巴 sql 数据库
在SQL中，视图是一种虚拟表，它是基于一个或多个表的查询结果集。视图并不实际存储数据，而是在每次查询时动态生成结果。一、创建视图的语法（以MySQL为例）CREATEVIEWview_nameASSELECTcolumn1,column2,...FROMtable_nameWHEREcondition;view_name：是要创建的视图的名称。column1,column2,...：要在视图中显示
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
systemd-networkd NetworkManager 介绍追心嵌入式 linux
systemd-networkd和NetworkManager的详细介绍systemd-networkd和NetworkManager都是Linux系统中常用的网络管理工具，但它们的设计目标和使用场景不同。以下是它们的详细介绍、功能、使用场景和差异。1.systemd-networkdsystemd-networkd是一个由systemd提供的网络管理工具，旨在为Linux系统提供网络配置和管理的
租赁APP开发的全攻略和市场潜力分析红点聊租赁其他
内容概要在当今快节奏的生活中，租赁APP似乎成为了我们日常生活的“新宠”。它不仅为个人提供了便利，也为商家开辟了一片广阔的蓝海。要想在这一领域取得成功，首先得做好市场调研。了解用户需求、竞争对手和市场动态是必不可少的。接下来是核心功能设计，我们需要考虑如何让用户更方便地找到、租赁商品，同时优化用户体验，让每一位潜在用户都能心甘情愿地停留与互动。为了更直观地理解市场，我们可以参考以下表格：行业增长率
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
如何在 Bash 中不依赖 curl 或 wget 发出 HTTP 请求并实现文件传输——/dev/tcp的妙用 vortex5 bash http tcp/ip
1.前言在Bash脚本编程中，发送HTTP请求通常依赖于像curl或wget这样的外部工具。然而，Bash本身隐藏着一个鲜为人知的功能：通过内置的/dev/tcp或/dev/udp伪设备，可以直接与网络进行交互，而无需额外安装任何工具。这个特性最初由KornShell(ksh)引入，后来被Bash继承，其设计初衷是为了方便用户通过网络发送数据，例如生成报告或执行简单的网络操作。然而，这个功能也因其
Description of a Poisson Imagery Super Resolution Algorithm 论文阅读青铜锁00 论文阅读 Radar 论文阅读
DescriptionofaPoissonImagerySuperResolutionAlgorithm1.研究目标与意义1.1研究目标1.2实际意义2.创新方法与模型2.1核心思路2.2关键公式与推导2.2.1贝叶斯框架与概率模型2.2.2MAP估计的优化目标2.2.3超分辨率参数α2.3对比传统方法的优势3.实验验证与结果3.1实验设计3.2关键结果4.未来研究方向（实波束雷达领域）4.1挑战
DeepSeek 如何处理多模态数据（如文本、图像、视频）？借雨醉东风人工智能
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
zynq设计学习笔记2——GPIO之MIO控制LED实验墨漓_lyl FPGA之zynq设计学习笔记嵌入式 fpga
vivado软件操作步骤与学习笔记1——helloworld差不多，这里不再过多赘述，不同点是在zynq的设置中添加上GPIO的设置即可。进入SDK软件后，程序如下：#include"stdio.h"#include"xparameters.h"#include"xgpiops.h"#include"sleep.h"#defineGPIO_DEVICE_IDXPAR_XGPIOPS_0_DEVIC
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
Sklearn.model_selection.GridSearchCV kakak_ Machine Learning
sklearn.model_selection.GridSearchCV具体在scikit-learn中，主要是使用网格搜索，即GridSearchCV类。estimator:即调整的模型param_grid：即要调参的参数列表，以dict呈现。cv:S折交叉验证的折数，即将训练集分成多少份来进行交叉验证。默认是3,。如果样本较多的话，可以适度增大cv的值。scoring:评价标准。获取最好的模型
SassScript：Sass中的编程特性详解 jiajia651304 sass 前端 css
Sass（SyntacticallyAwesomeStylesheets）是一种强大的CSS预处理器，它允许开发者使用类似于编程语言的语法来编写CSS，然后通过编译生成标准的CSS代码。SassScript是Sass中的编程特性集合，它包含了变量、嵌套规则、混合、函数以及控制指令等，极大地提高了CSS的开发效率和可维护性。1.变量SassScript中的变量允许开发者在样式表中存储和重复使用值。变
探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
向量数据库技术系列三-Chroma介绍恰恰虎 chromadb 数据库向量
一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。它提供了简单易用的API，支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。主要有以下特点:轻量级：Chroma是一个基于向量检索库实现的轻量级向量数据库，不需要复杂的配置和大规模基础设施支持，非常适合小型或中型项目。易用性：提供简单的API，易
Windows程式开发设计指南（二十三）领略Internet 干了这一碗BUG WINDOWS编程
23.领略InternetInternet－全世界电脑透过不同协定交换资讯的大型连结体－近几年重新定义了个人计算的几个领域。虽然拨接资讯服务和电子邮件系统在Internet流行开来之前就已经存在，但它们通常局限於文字模式，并且根本没有连结而是各自分隔的。例如，每一种资讯服务都需要拨不同的电话号码，用不同的使用者ID和密码登录。每一种电子邮件系统仅允许在特定系统的缴款使用者之间发送和接收邮件。现在，
索骥馆－编程语言之《网络编程实用教程（第2版）》扫描版[PDF] cinnarnia 面壁区 windows编程程序设计 TCPIP 网络
内容介绍：本书主要介绍基于tcp/ip协议栈的套接字网络编程技术。全书分为10章，第1章介绍网络编程基础，第2章介绍套接字网络编程接口，第3章介绍windows环境的网络编程，第4章介绍mfc编程，第5章介绍mfcwinsock类的编程，第6章介绍wininet编程，第7章介绍winsock的多线程编程，第8章介绍winsock的输入/输出模型，第9章介绍http及高级编程，第10章介绍电子邮件协
Windows下重叠I/O模型智驾 Windows开发 windows开发重叠IO模型
目录一.Windows下重叠I/O模型二．重叠模型的优点三．重叠模型的基本原理五、实现重叠模型的步骤六.客户端情况的注意事项七．已知问题原文链接：https://blog.csdn.net/zhongguoren666/article/details/1827928在此感谢原作者。一.Windows下重叠I/O模型重叠模型的优点重叠模型的基本原理关于重叠模型的基础知识重叠模型的实现步骤多客户端情况
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
【第22节】windows网络编程模型(WSAAsyncSelect模型) 攻城狮7号 Windows编程(C++)windows 网络编程 windows编程 windows sdk c++
目录引言一、WSAAsyncSelect模型概述二、WSAAsyncSelect模型流程2.1自定义消息2.2创建窗口例程2.3初始化套接字2.4注册网络事件2.5绑定和监听2.6消息循环三、完整示例代码引言在网络编程的广袤天地中，高效处理网络事件是构建稳定应用的关键。WSAAsyncSelect模型作为一种独特且实用的网络编程模型，为开发者提供了异步处理网络事件的有力手段。它巧妙地将Window
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓