BERT的vocabulary字典

在pytorch-pretrained-BERT/pytorch_pretrained_bert/tokenization.py文件中可以看到BERT使用的vocabulary链接,但是不用特殊的上网方式打不开。

PRETRAINED_VOCAB_ARCHIVE_MAP = {
    'bert-base-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt",
    'bert-large-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-vocab.txt",
    'bert-base-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-vocab.txt",
    'bert-large-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-vocab.txt",
    'bert-base-multilingual-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-uncased-vocab.txt",
    'bert-base-multilingual-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-vocab.txt",
    'bert-base-chinese': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt",
}

打开后是这样的:

在这里插入图片描述
然后我通过审查元素,把他们都存了下来(除了两个multilingual)。

百度网盘
链接:https://pan.baidu.com/s/18l53W7UcFA1Amk8MbSnchg
提取码:7gjy

你可能感兴趣的:(BERT,NLP,pytorch,深度学习)