文本数据数据增广

在处理nlp任务时经常会遇到文本增广,现在提供一个库来解决这个问题


keras==2.3.1
bert4keras==0.7.7
# tensorflow==1.13.1
tensorflow-gpu==1.13.1
from nlpcda import Simbert
config = {
        'model_path': '/xxxx/chinese_simbert_L-12_H-768_A-12',
        'CUDA_VISIBLE_DEVICES': '0,1',
        'max_len': 32,
        'seed': 1
}
simbert = Simbert(config=config)
sent = '把我的一个亿存银行安全吗'
synonyms = simbert.replace(sent=sent, create_num=5)
print(synonyms)
'''
[('我的一个亿,存银行,安全吗', 0.9871675372123718), 
('把一个亿存到银行里安全吗', 0.9352194666862488), 
('一个亿存银行安全吗', 0.9330801367759705), 
('一个亿的存款存银行安全吗', 0.92387855052948),
 ('我的一千万存到银行安不安全', 0.9014463424682617)]
'''

在这个过程中需要下载一个模型
名称 训练数据大小 词表大小 模型大小 下载地址
SimBERT Tiny 2200万相似句组 13685 26MB 百度网盘(1tp7)
SimBERT Small 2200万相似句组 13685 49MB 百度网盘(nu67)
SimBERT Base 2200万相似句组 13685 344MB 百度网盘(6xhq)

你可能感兴趣的:(tensorflow,深度学习,自然语言处理)