【大模型AIGC系列课程 5-1】视觉编解码模型原理

重磅推荐专栏: 《大模型AIGC》;《课程大纲》
本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经验分享,旨在帮助读者更好地理解和应用这些领域的最新进展

Vision Encoder Decoder Models 是一种用于将图像转换为文本的模型架构。该架构的核心思想是将预训练的基于 Transformer 架构的视觉模型用作编码器(如 ViT、BEiT、DeiT、Swin),将预训练的基于语言模型的文本生成模型用作解码器(如 RoBERTa、GPT-2、BERT、DistilBERT),从而实现图像到文本的转换。
这个模型的作用类似于图像描述(image captioning)任务,其中编码器将图像转换为一种表示,然后解码器使用这种表示生成与图像相关的文本描述。另一个应用是光学字符识别(optical character recognition,OCR),其中编码器将图像中的字符信息编码成特定表示,解码器则生成对应的文本字符。

1. ViT

ViT 论文:https://arxiv.org/pdf/2010.11929.pdf

你可能感兴趣的:(大模型AIGC,自然语言处理,计算机视觉,AIGC,人工智能)