对于LLM来说,token何必是表广义token时代 大词表时代

何必是表广义token

  • 摘要:
  • 引言:
  • 方法:
  • 结论:
  • 分析:

摘要:

本论文主要探讨了语言模型(LLM)中词表的作用以及与数据处理方式的关系。首先,我们介绍了词表作为存储信息的表和数据库或数据中心的角色,然后讨论了增加词表大小的影响。接下来,我们从两个角度出发,一是从token_id层面将数字分解为嵌入向量和输出头,二是从信息本身层面使用多个表和字段处理数据。最后,我们总结了这两种处理方式的特点和适用场景。

引言:

语言模型是自然语言处理(NLP)领域的重要模型,其核心是词表。词表不仅作为存储信息的表,还可以看作是一个数据库或数据中心。在LLM中,随着词表大小的增加,需要相应增加嵌入向量的维度和计算资源。本文旨在探讨LLM中词表与数据处理方式的关系,并分析它们的优缺点。

方法:

本文主要以LLM为研究对象,从两个角度探讨数据处理方式。首先,从token_id层面出发,将数字12分解为两个大小为10的嵌入向量和两个输出头。其次,从信息本身层面出发,使用10个表中的10个字段来处理数据,同样有两个嵌入向量和两个输出头。
结果与讨论:
从token_id层面

你可能感兴趣的:(人工智能,人工智能,自然语言处理)