学习使用deepke

只是一个不会编程的人学着怎么用这个模型。。。
不知到这个predict.py输出是什么东西。。到现在没跑通。

22-6-28更新
555大家给我评论问的问题我没法解答
因为我totally不会编程。
然后之前跑出来结果和作者给的视频完全对不上。
学习使用deepke_第1张图片
也有很多人这个情况。
后来我就没用过这个框架了。
有大佬路过的话可以在评论区答疑解惑一下哈哈。

Model&Setting

deepKE文档
由于我要构建的是中文的数据集。所以就看中文的内容。

task setting model
NER standard BERT
RE standard CNN/RNN/Capsule/GCN/Transformer/BERT
AE standard CNN/RNN/Capsule/GCN/Transformer/BERT

NER

需要的数据格式

学习使用deepke_第2张图片
3个文件。test\train\valid

test.txt 223832个字符。 22w
train.txt 1000043个字符。100w
valid.txt 112187个字符。 11w

我目前的获取方法

label-studio打标。导出json文件。
依据json文件格式用python程序转成需要的这个BIO格式。

RE

需要的数据格式

4个文件。
学习使用deepke_第3张图片
relation.csv定义有哪几种关系。
学习使用deepke_第4张图片
学习使用deepke_第5张图片
数据长这样。
学习使用deepke_第6张图片
head_offset 是头实体第一个词的位置。然后各种标点符号也是算一个位置的。tail_offset是尾实体第一个词的位置。
train.csv 3001个句子。
test.csv 1001个句子。
valid.csv 1001个句子。

我目前的获取方法

AE

需要的数据格式

学习使用deepke_第7张图片
学习使用deepke_第8张图片
提供的数据集里定义了6种属性。
学习使用deepke_第9张图片
再来一句。offset是这个entity的第一字的位置。
train.csv 有13816个句子。
test.csv有5922个句子。
valid.csv有3132个句子。

你可能感兴趣的:(学习,自然语言处理)