第十节:通过Debug解析ChatGLMModel的数据流,理解视觉与语言模型结合架构

文章目录

  • 前言
  • 一、forward的参数解读
  • 二、图像编码token数量值方法解读
  • 三、input_ids的embedding方法解读
    • 1、embedding编码方法
    • 2、Embedding源码
  • 四、视觉编码方法解读
  • 五、inputs_embeds与position_ids编码加工方法解读
    • 1、inputs_embeds与position_ids编码方法
    • 2、图示解读编码方法
    • 3、inputs_embeds与position_ids结果
  • 六、output_hidden_states获取方法
  • 七、旋转位置RoPE编码方法
    • 1、GLM调用旋转位置编码方法
    • 2、旋转位置编码源码
    • 3、旋转位置编码初始化
    • 4、旋转位置编码调用
    • 5、旋转位置编码与Q K V结合
  • 八、文本编码方法
  • 九、输出结果

前言

清华智普的GLM-4v-9b模型,作为优化的多模态大模型,特别适用于国内应用场景,解决了国外模型本地化不足的问题。本专栏提供环境安装、数据处理、视觉与语言模型源码理解,并基于Hugging Face重构GLM模型搭建教程,帮助理解、修改和应用GLM模型,指导搭建多模态大模型,帮助读者自由搭建与修改大模型。本节基于debug方式给出GLM-4-9B模型ChatGLMModel,理解视觉与语言模型结合架构。

第一节:GLM-4v-9B大模型安装、推理与训练详细教程
第二节:GLM-4v-9B数据加载源码解读
第三节:GLM-4v-9B数据加载之huggingface数据加载方法教程(通用大模型数据加载实列)
第四节:GLM-4v-9b模型的tokenizer源码解读
第五节:GLM-4v-9b模型model加载源码解读(模型相关参数方法解读)
第六节:GLM-4v-9b模型加载源码解读(模型加载方法解读)
第七节:GLM-4v-9b模型的视觉模型源码解读
第八节:GLM-4v-9b模型的大语言模型源码解读(ChatGLMForConditionalGeneration)
第九节:通过Debug解析ChatGLMForConditionalGeneration的数据流,理解GLM-4v-9b模型架构
第十节&#

你可能感兴趣的:(语言模型,人工智能,自然语言处理,GLM-4v-9B,多模态大模型教程,ChatGLMModel)