ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)


Paper:Convolutional 2D Knowledge Graph Embeddings


准备工作

GitHub地址,打开如下,下拉按照说明来复现模型
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第1张图片
克隆项目到本地

git clone [email protected]:TimDettmers/ConvE.git

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第2张图片


操作步骤

一. 安装与配置

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第3张图片

1. Install PyTorch using Anaconda.

参照我的两篇博文:

1. WIN 11 安装 Ubuntu 20.04 (双系统)(2022.02.28)
2. Ubuntu 20.04 系统下(子系统)深度学习环境配置(Pytorch + GPU)

对于anaconda的安装,可以参考如下博文中安装anaconda3环境变量部分的内容,其他不要多看,因为我的环境是双系统下的Ubuntu系统,而不是在虚拟机中进行的:

VMware 中 Ubuntu 20.04 安装 和 Pytorch 1.10.2 环境配置(2022.02.10)


2. Install the requirements pip install -r requirements.txt

执行以下命令:

cd ConvE
pip install -r requirements.txt

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第4张图片出现错误,执行以下命令,大家根据自己情况而定:

pip install --upgrade pip
pip install PyHamcrest
pip install --upgrade pip

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第5张图片
再转头来执行命令:pip install -r requirements.txt,显示安装成功,图太长,截最后一部分:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第6张图片


3. Download the default English model used by spaCy, which is installed in the previous step python -m spacy download en_core_web_sm

首先,手动下载需要的语言模型:点击进入,如下图所示,点击 tag
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第7张图片使用 next 翻页找到 en_core_web_sm-3.2.0 这个包,点进去:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第8张图片选择 en_core_web_sm-3.2.0.tar.gz 下载:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第9张图片
下载后,执行命令:pip install en_core_web_sm-3.2.0.tar.gz,如下图所示
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第10张图片


然后,对应下载合适的 spacy 版本, 我安装的是3.2.0版本,在自己的 conda 虚拟环境中执行命令(我默认的清华源安装,其他的应该也可以):
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第11张图片

pip install spacy==3.2.0

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第12张图片


4. Run the preprocessing script for WN18RR, FB15k-237, YAGO3-10, UMLS, Kinship, and Nations: sh preprocess.sh

执行以下命令:

cd ConvE
sh preprocess.sh

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第13张图片


二. 在 FB15k-237 数据集上跑 ConvE 模型

执行以下命令:

CUDA_VISIBLE_DEVICES=0 python main.py --model conve --data FB15k-237 \
                                      --input-drop 0.2 --hidden-drop 0.3 --feat-drop 0.2 \
                                      --lr 0.003 --preprocess

报错:
在这里插入图片描述原因:

Spacy V3.0 开始,该导入模块的方式已被弃用,因此要使用 spacy 模型,需要更改代码

解决:

import spacy 替换为 from spacy.lang.en import English
nlp=spacy.load('en') 替换为 nlp = English()

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第14张图片
再次执行以下命令,成功:

CUDA_VISIBLE_DEVICES=0 python main.py --model conve --data FB15k-237 \
                                      --input-drop 0.2 --hidden-drop 0.3 --feat-drop 0.2 \
                                      --lr 0.003 --preprocess

中间部分过程,截图如下:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第15张图片历经最少 12 小时吧,结果如下:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第16张图片


三. 在其它数据集上跑 ConvE 及其它两个模型

CUDA_VISIBLE_DEVICES=0 python main.py --model conve --data FB15k-237 \
                                      --input-drop 0.2 --hidden-drop 0.3 --feat-drop 0.2 \
                                      --lr 0.003 --preprocess

改变 --data 后的 FB15k-237 为下列数据集的任何一个:

WN18RR
YAGO3-10
umls
kinship
nations

改变 --model 后的 convE 为下列数据集的任何一个:

distmult
complex

四. 参数使用和注意事项

关于知识图谱的链接预测任务,在训练时的可选参数及含义:

 -h, --help            show this help message and exit
  --batch-size BATCH_SIZE
                        input batch size for training (default: 128)
  --test-batch-size TEST_BATCH_SIZE
                        input batch size for testing/validation (default: 128)
  --epochs EPOCHS       number of epochs to train (default: 1000)
  --lr LR               learning rate (default: 0.003)
  --seed S              random seed (default: 17)
  --log-interval LOG_INTERVAL
                        how many batches to wait before logging training
                        status
  --data DATA           Dataset to use: {FB15k-237, YAGO3-10, WN18RR, umls,
                        nations, kinship}, default: FB15k-237
  --l2 L2               Weight decay value to use in the optimizer. Default:
                        0.0
  --model MODEL         Choose from: {conve, distmult, complex}
  --embedding-dim EMBEDDING_DIM
                        The embedding dimension (1D). Default: 200
  --embedding-shape1 EMBEDDING_SHAPE1
                        The first dimension of the reshaped 2D embedding. The
                        second dimension is infered. Default: 20
  --hidden-drop HIDDEN_DROP
                        Dropout for the hidden layer. Default: 0.3.
  --input-drop INPUT_DROP
                        Dropout for the input embeddings. Default: 0.2.
  --feat-drop FEAT_DROP
                        Dropout for the convolutional features. Default: 0.2.
  --lr-decay LR_DECAY   Decay the learning rate by this factor every epoch.
                        Default: 0.995
  --loader-threads LOADER_THREADS
                        How many loader threads to use for the batch loaders.
                        Default: 4
  --preprocess          Preprocess the dataset. Needs to be executed only
                        once. Default: 4
  --resume              Resume a model.
  --use-bias            Use a bias in the convolutional layer. Default: True
  --label-smoothing LABEL_SMOOTHING
                        Label smoothing value to use. Default: 0.1
  --hidden-size HIDDEN_SIZE
                        The side of the hidden layer. The required size
                        changes with the size of the embeddings. Default: 9728
                        (embedding size 200).

注意事项:--preprocess 只执行一次就可以了。例如,第二步的命令执行时,已经带上了这个参数,以后的训练就不必再添加这个参数了:

--preprocess          Preprocess the dataset. Needs to be executed only
                        once. Default: 4

五. 关于论文复现

执行下列命令,选择数据集替换 DATASET_NAME,其余使用默认值,可还原论文:

CUDA_VISIBLE_DEVICES=0 python main.py --data DATASET_NAME

六. 论文复现中还可能遇到的问题

ModuleNotFoundError: No module named ‘sklearn’

原因:sklearn 和 scikit-learn 不一样,这个报错的 sklearn 是机器学习库 scikit-learn 缩写,安装 sklearn 没用:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第17张图片解决办法:执行以下命令

​pip install scikit-learn

ModuleNotFoundError: No module named ‘bashmagic’/‘spodernet’

把 ConvE-master/src/bashmagic 下的 bashmagic 拷贝到 ConvE-master 目录下
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第18张图片
把 ConvE-master/src/spodernet下的 spodernet 拷贝到 ConvE-master 目录下:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第19张图片

ModuleNotFoundError: No module named ‘past’

缺失这个包的话,安装 future,而不是 past

pip install future

其余的缺什么包,pip直接安装即可


本文展示了 自己在复现 ConvE 模型可能遇到的问题及解决办法,如有疑问,请参考 ConvE 文件夹下的readme.md文件或访问文首的 Github 地址,欢迎评论区交流指正


七. 评论区回答更新(2022.4.27)

ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第20张图片出现原因:pip install -r requirements.txt 中出现问题

我重新去复现了下模型,也遇到同样的错误:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第21张图片
按以下方法, 问题成功解决:

① 解决 9418 端口上未经身份验证的 git 协议错误,执行如下命令,9418错误消失:

git config --global url."https://".insteadOf git://

然后再执行 pip install -r requirements.txt,可能依旧无法访问:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第22张图片
② 更换 pip 源:
在这里插入图片描述在 pip.conf 中添加:

[global]
 timeout = 6000
 index-url = https://pypi.doubanio.com/simple
 trusted-host = pypi.doubanio.com

更新:

 sudo apt-get update

再去执行命令就好了:
ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第23张图片ConvE,知识图谱嵌入(KGE)论文复现(Ubuntu 20.04)_第24张图片

八、2022.5.16 更新

由于工作需要再次用到 convE 模型,中间这段时间没有改变和配置环境,但今天再次运行时却报错:

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED 

解决方案可参考博文:

《玄学错误:RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED 解决方案——cuDNN 卸载并重装》

你可能感兴趣的:(知识图谱嵌入(KGE),Ubuntu,论文复现,深度学习,ConvE,知识图谱,KGE模型,论文复现)