【Token系列】11|Embedding维度到底是什么意思?语言模型中的向量结构入门

文章目录

  • 11|Embedding维度到底是什么意思?语言模型中的向量结构入门
    • 一、语言模型不是词典,而是坐标系
    • 二、“768维”是什么意思?
    • 三、维度并不等于“关联词数量”
    • 四、Embedding空间的运作方式
    • 五、每一维有意义吗?
    • 六、可视化理解:维度压缩成图
    • 七、总结
    • 八、结语

11|Embedding维度到底是什么意思?语言模型中的向量结构入门

副标题:一个词为什么被表示成768维的数字,而不是一个词条?


一、语言模型不是词典,而是坐标系

在传统词典里,“词”是条目,是语义单位;

但在语言模型(如GPT)中,“词”被映射为一个向量

token → vector ∈ ℝ^d

比如:“英语” → [0.23, -1.02, ..., 0.15](共768个数字)

这些数字表示什么?——模型学出来的抽象结构坐标。


二、“768维”是什么意思?

维度是指一个向量中数字的个数

如果说:

  • 一张图片是二维的(高×宽);
  • 一个三维点是 (x, y, z);

那么:

  • 一个token的768维向量,就是一个在768维空间中定位的点
  • 它不是“表示768个词”,而是每一维都是一个抽象特征方向

三、维度并不等于“关联词数量”

很多人误以为:

“一个词和400个词有关联,那是不是就有400维?”

不是。

  • 向量维度固定(如768、1024、4096);
  • 一个词可以和成千上万个词有关,但都映射在这同一个空间中
  • 关系的体现,是通过向量间的距离、夹角、投影方向

四、Embedding空间的运作方式

想象:

  • 所有词都变成了高维空间的点;
  • 意义相近的词会靠得近,比如:
    • “开心”“高兴”“愉快” → 聚在一块;
    • “苹果”“香蕉”“水果” → 聚在另一块;

而意义相反的词 → 方向相反;
不同类别的词 → 距离远、不共线。

模型并不懂“高兴”,但它知道“高兴”和‘开心’距离很近。


五、每一维有意义吗?

单独一维通常没具体含义,但可以统计分析出:

  • 某些维度与情感强度相关;
  • 某些维度与时态结构相关;
  • 某些维度组合后可以形成“性别”、“专业术语”等方向;

整体看,这些维度是模型从数据中自动学习出的信息表达通道


六、可视化理解:维度压缩成图

我们可以使用t-SNE、UMAP等方法,把768维的词向量“降维”成2D平面:

  • 类似词自然聚类;
  • 异类词自动远离;
  • 形成“语言地图”。

这说明:向量维度虽抽象,但它确实学会了语言结构。


七、总结

问题 回答
一个词有多少维? 由模型结构决定,如GPT-3为12288维
每维对应一个词吗? 不。每维是抽象特征,不具备人类语义
维度越高模型越好吗? 不一定,高维带来表达力,但也增加训练/推理成本
怎么看两个词的关系? 看它们在向量空间的夹角、距离、方向差

八、结语

Embedding维度不是秘密,它只是语言模型用来表示“词与语境关系”的编码方式。

一组数字,一片空间,一张模型构建的语义地图。

理解这个结构,你就理解了:语言在模型眼中,从来不是“词”,而是“点”。


你可能感兴趣的:(AI智能,embedding,语言模型,人工智能,深度学习,机器学习)