三、OpenAI所有模型介绍

三、OpenAI所有模型介绍_第1张图片

1. 综述

OpenAI API开发了具有各种能力的模型。可以根据不同的需求选择不同的模型并进行精调。

模型 描述
GPT-4、GPT-4 Turbo 一组从GPT-3.5升级后的模型,能够生成自然语言和代码
GPT-3.5 Turbo 一组从GPT-3.5升级后的模型,能够生成自然语言和代码
DALL.E 能够根据自然语言提示词生成和编辑图片的模型
TTS 一组可以将文本转换成自然语音语言的模型
Whisper 可以将语音转换成文本的模型
Embeddings 一组可以将文件转换成数字形式的模型
Moderation 检测文本是否敏感或安全的审核模型
GPT base 一组没有指令的情况下也能生成自然语言和代码的模型

其它开源模型:Point_E, Whisper, Jukebox, CLIP

gpt-3.5-turbo, gpt-4, gpt-4-turbo-preview是目前最新版本。可以通过调用API,响应中可获得版本信息。

2. GPT-4 GPT-4-Turbo

GPT-4是1个多模态的大语言模型(可以接受文本或图片,然后输出文本),对于解决相对较困难的问题超过之前所有的模型。并对聊天进行了优化。

模型 描述 上下文令牌
gpt-4-0125-preview 最新的GPT-4模型旨在减少模型
无法完成任务的“偷懒”情况,返回最大4096令牌
128,000 tokens
gpt-4-turbo-preview 当前指向gpt-4-0125-preview 128,000 tokens
gpt-4-1106-preview GPT-4 Turbo模型的主要特征:改进指令跟随,JSON模式,
重复输出,并行函数调用等功能。返回最多4,096个输出令牌。
这个预览模型不适合应用于生产。
128,000 tokens
gpt-4-vision-preview 除了具有GPT-4 Turbo功能外,GPT-4还具有理解图像的能力。
返回最多4,096个输出令牌。
这个预览模型不适合应用于生产。
128,000 tokens
gpt-4 当前指向gpt-4-0613 8192tokens
gpt-4-0613 gpt-4从2023年6月13日起的快照,改进了函数调用支持 8192tokens

对于基本的任务,GPT-4和GPT-3.5模型没有显著的区别。然而,在更复杂的推理情况下,GPT-4超过以往的模型

多语言能力:
GPT-4比之前的大语言模型和到2023年为止最优秀的系统都要强(通常有特定的基准训练或手工工程)。在MMLU(Multi-Modal Large-scale Language Understanding)基准测试中,GPT-4不仅在英文方面大大优于现有的模型,而且在其他语言方面也表现出色。MMLU是一套涵盖57个科目的英文多选题

3. GPT-3.5-Turbo

GPT-3.5 Turbo模型可以理解和生成自然语言或代码,并且使用”聊天补全“API对聊天进行了优化,但也能很好地应用于非聊天任务。

模型 描述 上下文令牌
gpt-3.5-turbo-0125 最新的GPT-3.5 Turbo模型在响应请求格式时具有更高的准确性,并修复了导致非英语语言函数调用的文本编码问题的错误。返回最多4,096个输出令牌 16,385 tokens
gpt-3.5-turbo 目前指向gpt-3.5-turbo-0613。gpt-3.5-turbo模型别名将于2月16日自动从gpt-3.5-turbo-0613升级为gpt-3.5-turbo-0125 4096 tokens
gpt-3.5-turbo-1106 GPT-3.5 Turbo模型特点:改进指令跟随,JSON模式,可重复输出,并行函数调用等。返回最多4,096个输出令牌。 16,385 tokens
gpt-3.5-turbo-instruct 类似于GPT-3时代模型的功能。兼容旧的补全端点,但不是聊天补全 4096 tokens

4. DALL·E

DALL·E是一个AI系统,可以通过自然语言的描述创造逼真的图像和艺术。目前提供3个功能:通过提示词生成指定大小的图片;编辑现有图片;生成同用户提供图片的关联图片
DALL·e3可通过图像API与DALL·e2一起使用

模型 描述
dall-e-3 最新的DALL·E型号于2023年11月发布
dall-e-2 上一款DALL·E车型于2022年11月发布。DALL·E的第二次迭代,
具有比原始模型更真实,更准确,分辨率提高4倍的图像。

TTS(Text to Speech)

TTS是一种基于AI模型的技术,能够将文本转换成自然流畅的口语音频。我们提供两种不同的模型:ts-1针对实时文本到语音场景进行了优化,ts-1-hd则专注于提升语音质量。这些模型可以与Speech端点在Audio API中配合使用。

模型 描述
tts-1 最新的文本转语音模型,对速度进行了优化
tts-1-hd 最新的文本转语音模型,对质量进行了优化

Whisper

Whisper是一个通用的语音识别模型。它由一个包含多种音频的大数据集训练而成,也是一种多任务模型,能够进行多语言语音识别、语音翻译和语言识别。Whisper v2大型模型目前可通过我们的API使用Whisper -1模型。

当前,开源的Whisper版本和通过API调用的版本没有区别。但调用进行了推理优化的、开放的API,比其它调用方式会更快。

Embeddings

Embedding是文本用数字表示,可用于衡量两段文本之间的相关性。Embedding对于搜索、聚类、推荐、异常检测和分类任务非常有用。

模型 描述
text-embedding-3-large 最强大的英语和非英语任务嵌入模型
text-embedding-3-small 在第二代ada嵌入模型的基础上提高了性能
text-embedding-ada-002 最强大的第二代嵌入模型,取代16个第一代模型

Moderation

内容审核模型(Moderation models)旨在检查内容是否符合OpenAI的使用政策。这些模型提供分类功能,用于查找以下类别的内容:仇恨、仇恨/威胁、自残、色情、色情/未成年人、暴力和暴力/血腥。
内容审核模型可以接受任意大小的输入,该输入会自动被切分为大小为4,096个token的块。当输入超过32,768个token时,会使用截断技术,这可能会罕见地导致一小部分token在审核检查中被省略。

向内容审核端点发送的每个请求的最终结果,显示为每个类别的最大值。例如,如果一个4K token的块在某个类别的得分为0.9901,而另一个块的得分为0.1901,那么API响应中将显示0.9901,因为它更高。

模型 描述 最大tokens
text-moderation-latest 当前指向 text-moderation-007. 32,768
text-moderation-stable text-moderation-007. 32,768
text-moderation-007 所有类别中最强大的审核模型。 32,768

GPT base

GPT基座模型可以理解并生成自然语言或代码,但不需要按照指令进行训练。这些模型可以替代原有的GPT-3基座模型,并使用传统的补全API。大多数客户应该使用GPT-3.5或GPT-4。

模型 描述 最大tokens
babbage-002 替换GPT-3 ada和babbage基础模型 16,384
davinci-002 替换GPT-3居里和达芬奇基础模型 16,384

模型数据使用

你的数据就是你的数据。
截至2023年3月1日,发送到OpenAI API的数据将不会用于训练或改进OpenAI模型(除非您明确选择加入)。选择加入的一个好处是,随着时间的推移,模型可能会在您的用例中变得更好。
为了帮助识别滥用,API数据可能会保留最多30天,之后将被删除(除非法律另有要求)。对于具有敏感应用程序的受信任客户,可以使用零数据保留。在零数据保留的情况下,请求和响应体不会被持久化到任何日志机制中,只按顺序存在于内存中。
请注意,此数据策略不适用于OpenAI的非api消费者服务,如ChatGPT或DALL·E 实验室。

你可能感兴趣的:(#,大模型入门,gpt-3,DALL·E,2)