[论文笔记] tiktoken中的gpt4 tokenizer

亲测可用!!!!!

        注意是bytelevel的BPE!!

        只有vocab.json是不ok的,只能encode单字节的字符,对于中文这种会encode之后tokens,ids都是[]。 

gpt-tokenizer - npm

GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.

GitHub - weikang-wang/ChatGPT-Vocabulary: cl100k_base Vocabulary of ChatGPT and GPT-4

ChatGPT 与 GPT-4 tokenizer 揭秘 - 知乎

你可能感兴趣的:(论文笔记,论文阅读)