怎么让英文大预言模型支持中文?(一)构建自己的tokenization

代码地址:https://github.com/taishan1994/sentencepiece_chinese_bpe Part1前言 目前,大语言模型呈爆发式的增长,其中,基于llama家族的模型占据了半壁江山。而原始的llama模型对中文的支持不太友好,接下来本文将讲解如何去扩充vocab里

你可能感兴趣的:(怎么让英文大预言模型支持中文?(一)构建自己的tokenization)