Subwords Tokenizer方法介绍: BPE, Byte-level BPE, WordPiece, Unigram, SentencePiece
参考于transformerstokenizer的文档目录Byte-PairEncoding(BPE)[^1]出发点原理应用Byte-levelBPE[^2]出发点原理应用WordPiece[^3]原理应用Unigram[^4]原理SentencePiece[^5]出发点原理应用ReferencesByte-PairEncoding(BPE)1出发点把每一个单词加入词表的话导致词表过大,因此可以把