语言类大模型: GPT-3、GPT-3.5、GPT-4系列模型。并且,OpenAl在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型 (基座模型),用于不同场景的应用;
其中,A、B、C、D模型的全称分别是ada、babbage、curie(居里)和davinci(达芬奇),四个模型并不是GPT-3的微调模型,而是独立训练的四个模型;
四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增
虽不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型却是目前OpenAI大模型生态中功能最丰富、API种类最多的四个模型。
谷歌PaLM2 Models:四项大模型:Gecko (壁虎) 、Otter(水獭) 、Bison (野牛) 、Unicorn(独角兽),最小的Gecko模型可以在移动端运行,并计划在下一代安卓系统中集成;
图像多模态大模型: 最新版为DALL·E (达利)V2,是DALL·E模型的第二版训练版,能够根据描述生成图像;
DALL·E模型为基于GPT-3开发的模型,总共包含120亿个参数,不难看出DALL·E对图像的理解能力源于大语言模型;
OpenAI将大语言模型的理解能力“复制”到视觉领域的核心方法: 图像类大模型底层都是基于语言类大模型,基于语义关系,将图像视作一种一种语言,将其转化为Token,并和文本Token一起进行训练;
最新版为Whisper v2-large model,是Whisper模型的升级版,能够执行
多语言语音识别以及语音翻译和语言识别;
Whisper模型是为数不多的OpenAl的开源模型,改模型通过68万小时的多语言和多任务监督数据进行的训练,目前提供了原始论文进行方法介绍;
Whisper模型可以本地部署,也可以像其他OpenAI大模型一样通过调用API进行在线使用,并且根据官网介绍,Whisper在线模型会有额外运行速度上的优化,通过调用API进行使用,效率更高 (当然也需要支付一定的费用) ;
Embedding文本嵌入模型,用于将文本转化为词向量,即用-个数组 (向量)来表示一个文本,该文本可以是短语、句子或者文章;最新一代Embedding模型是基于ada模型微调的text-embedding-ada-002模型;通过将文本转化为词向量,就可以让计算机进一步的“读懂文本”,通过词向量的计算和分析和相似度计算,可以对其背后的文本进行搜索、聚类、推荐、异常检测和分类等;
语言结构,映射到高维空间的向量中,使得语义上相近的词或者句子在向量空间中的距离也较近;例如Embedding后的句子,“老鼠在找吃的”将和“奶酪”词向量接近,因为二者表意类似。而与之句式格式与之相近的“猫在找食物”,则距离更远;GPT模型的Embedding层往往是在与训练过程中通过自回归训练完成,同时在微调时,也往往会修改Embedding层;
Moderation模型,旨在检查内容是否符合 OpenAl 的使用政策。这些模型提供了查找以下类别内容的分类功能:仇恨、仇恨/威胁、自残、性、性未成年人、暴力和暴力/图片等。
Codex大模型,用GitHub数十亿行代码训练而成,能够“读懂”代码,并且能够根据自然语言描述进行代码创建;
Codex最擅长Python, 同时精通JavaScript、Go、Perl、PHP、Ruby、Swift、 TypeScript、SQL,甚至 Shell 等十几种编程语言;
该模型发布于2021年8月10日,目前代码编写功能已经合并入GPT-3.5,官网显示该模型为已弃用(deprecated)状态,意为后续不再单独维护,但并不表示OpenAl已放弃编程大模型,相反越来越多的编程功能被集成到语言大模型中;
目前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAl Service等产品中,用于提供自动编程功能支持;
在个人中心->API速率限制查看中可以一次性看到目前账户可用的全部API地址: https://platform.openai.com/account/rate-limits
通用模型API:如GPT-3.5-turbo,GPT-4,ada…
停止维护但仍可使用的API:如GPT-3.5-turbo-0301 (3月1号停止维护)GPT-4-0314 (3月14号停止维护)
面向特定功能的微调模型API: 如ada-code-search-code (基于ada微调的编程大模型),babbage-similarity (基于babbage微调的的文本相似度检索模型)…
多版本编号模型API:如text-davinci-001 (达芬奇文本模型1号)、text-embedding-ada-002 (基于ada的Embedding模型2号)
更大的微调空间:相比在线大模型,开源大模型可以使用更多微调框架进行模型微调,微调空间更大,更有可能快速完成定制化大模型训练;
更加灵活的AI应用开发: 相比封闭的在线模型,开源模型可以更加灵活便捷的嵌入到AI应用中,同时也可以更加方便的搭配其他开源框架进行使用,从而实现更高效率的AI应用开发;
更低的资费、更安全的数据保障: 此外,不同于在线大模型需要根据API调用情况付费开源大模型开源本地部署,仅需支付相应算力费用即可;此外,数据可以直接本地训练模型,无需在线提交数据进行在线模型微调,数据安全也将更有保障;
Hugging Face @:
Open LLM Leaderboard地址: https://huggingface.co/spaces/HuggingFaceH4/open Im leaderboard
Falcon大模型大杀四方: Falcon模型为阿联酋阿布扎比创新研究所 (TII)开源的大模型号称“史上最强开源大模型”,总共400亿参数,模型在1万亿个高质量Token上完成训练,性能超过拥有650亿参数的LLaMA。遗憾的是Falcon并不支持中文。
LMSYS组织 (UC伯克利背景) : LLM Leaderboard地址: https://chat.Imsys.org/?arena
通过匿名PK进行模型性能比较,同时纳入开源大模型和在线大模型进行PK,其中GPT-4排名第一国内清华大学团队ChatGLM-6B模型位列14。该榜单实时更新较慢,目前Falcon尚未参赛。
ChatGLM模型是由清华大学团队开发的大语言模型,该模型借鉴了ChatGPT 的设计思路,在千亿基座模型GLM-130B 中注入了代码预训练,通过有监督微调 (Supervised Fine-Tuning) 等技术实现人类意图对齐。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAl、谷歌大脑、微软、英伟达、脸书的各大模型对比中评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。
清华大学团队同时开源 ChatGLM-6B 模型。ChatGLM-6B是一个具有62亿参数的中英双语语言模型。通过使用与 ChatGLM (chatglm.cn)相同的技术,ChatGLM-6B 初具中文问答和对话功能,并支持在单张 2060s 上进行推理使用。具体来说ChatGLM-6B 有如下特点:
充分的中英双语预训练: ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的token 量,兼具双语能力;
较低的部署门槛: FP16 精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理结合模型量化技术,这一需求可以进一步降低到 10GB (INT8) 和6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上;
硬件要求:
其中,FP16指的是高精度模式,该模式下推理 (即模型运行)需要至少13G显存,微调需要至少14G显存;多轮对话则需要20G 8090级别的显卡。
INT4(保留4位参数)、INT8则是量化模式,所谓量化模式,指的是模型会限制参数的精度,INT4表示保留4位参数精度,INT8则表示保留8位参数精度,此时相应的推理显存占用和微调显存占用都会明显减少。最低精度INT4模式下,可以在单卡2060上运行,也是目前硬件要求最低的开源大模型;
根据实际测试,在高精度模式下,多轮对话最低显存占用为20G,微调显存占用为22G左右。
微调框架: ChatGLM 6B + P Tuning微调,
项目地址: https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md微调框架: ChatGLM 6B + LORA微调,项目地址: https://github.com/mymusise/ChatGLM-Tuning
本地知识库: ChatGLM 6B + LangChain,
项目地址: https://github.com/imClumsyPanda/langchain-ChatGLM
多轮对话前端: ChatGLM 6B多轮对话的Web UI展示,
项目地址: https://github.com/Akegarasu/ChatGLM-webui
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。
Dall·E: 将图像视作一种语言,将其转化为离散化的Token并进行训练,优势在于能够非常详细的描述一张图片,但缺点在于图像的Token利用率较低,需要1000以上的Token才能描述一张256分辨率的图;
VisualGLM: 考虑到人类在认识图片的时候,往往只对少量视觉语意信息感兴趣,因此可以不用将整个图片全部离散化为图片,只将图片特征对其到预训练语言模型即可,这也是BLIP-2的视觉语言与训练方法实现策略。优势在于能够充分语言模型,缺点在于会缺失图像部分底层信息 (细节信息)
医学影像诊断大模型XrayGLM 6B
项目地址:https://github.com/WangRongsheng/XrayGLM
基于VisualGLM模型,在UI-XRay医学诊断报告数据集上进行微调而来报告翻译借助OpenAI GPT模型完成翻译,微调框架为LORA;
低门槛上手使用,最低2060即可运行:中英双语大模型,其中中文提示效果更佳;较为丰富的对话UI、微调、AI开发项目生态;大神云集的项目开发和维护团队;率先提出多模态大模型VisualGLM;非常活跃的开源社区,已经越来越多的微调和实践应用场景,未来发展极具潜力;
在美国技术封锁和中美技术竞争的大背景下,支持中文、支持国产芯片进行计算的国产开源大模型,毫无疑问是更佳值得长期关注并进行技术学习的;
第一类方法: 借助OpenAI提供的在线微调工具进行微调;
第二类方法:借助开源微调框架进行微调;
微调, Fine-Tuning,一般指全参数的微调 (全量微调) ,指是一类较早诞生的微调方法,全参数微调需要消耗大量的算力,实际使用起来并不方便,因此不久之后又诞生了只围绕部分参数进行微调的高效微调方法;
高效微调,State-of-the-art Parameter-Efficient Fine-Tuning (SOTA PEFT),特指部分参数的微调方法,这种方法算力功耗比更高,也是目前最为常见的微调方法;除此之外,Fine-Tuning也可以代指全部微调方法,同时OpenAI中模型微调API的名称也是需要注意的是,OpenAI提供的在线微调方法也是一种高效微调方法,并不Fine-Tuning,是全量微调;
第三类方法:基于强化学习的进阶微调方法RLHF方法:RLHF: Reinforcement Learning from HumanFeedback,即基于人工反馈机制的强化学习。最早与2022年4月,由OpenAI研究团队系统总结并提出,并在GPT模型的对话类任务微调中大放异彩,被称为ChatGPT“背后的功臣”;
RLHF也是目前为止常用的、最为复杂的基于强化学习的大语言模型微调方法,目前最好的端到端RLHF实现是DeepSpeedChat库,由微软开源并维护;
高效微调方法一: LORA
Github地址: https://github.com/microsoft/LoRA
论文地址: https://arxiv.org/abs/2106.09685
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS (2021)基于低阶自适应的大语言模型微调方法
原理简述:基于大模型的内在低秩特性,增加旁路矩阵来模拟全参数微调;。LoRA最早由微软研究院发布的一项微调技术;
简而言之,是通过修改模型结构进行微调,是一种四两拨千斤的微调方法是目前最通用、同时也是效果最好的微调方法之一;课程将详细介绍LoRA微调实践方法;
概念辨析: 大模型微调LoRA与通信技术LoRa,二者相差一个字母的大小写,是完全两种不同的技术;
LoRA除了可以用于微调大语言模型 (LLM)外,目前还有一个非常火爆的应用场景: 围绕diffusion models (扩散模型) 进行微调,并在图片生成任务中表现惊艳;
高效微调方法二 : Prefix Tuning
论文地址: https://aclanthology.org/2021.acl-long.353/
Prefix-Tuning: Optimizing Continuous Prompts for Generation (2021)基于提示词前缀优化的微调方法
来源于斯坦福大学的一种高效微调方法;
原理简述: 在原始模型基础上,增加一个可被训练的Embedding层,用于给提示词增加前缀,从而让模型更好的理解提示词意图,并在训练过程中不断优化这些参数;
Prefix Tuning既能够在模型结构上增加一些新的灵活性,又能够在模型使用上提供一种自动的、能够改进模型表现的提示机制;
高效微调方法三:Prompt Tuning
论文地址: https://arxiv.org/abs/2104.08691
The Power of Scale for Parameter-Efficient Prompt Tuning (2021)
由谷歌提出的一种轻量级的优化方法;
原理简述: 该方法相当于是Prefix Tuning的简化版本,即无需调整模型参数,而是在已有的参数中,选择一部分参数作为可学习参数,用于创建每个Prompt的前缀,从而帮助模型更好地理解和处理特定的任务;不同于Prefix方法,Prompt Tuning训练得到的前缀是具备可解释性的,我们可以通过查看这些前缀,来查看模型是如何帮我们优化prompt的该方法在参数规模非常大的模型微调时效果很好,当参数规模达到100亿时和全量微调效果一致;
领取方式在文末
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
⑤AI+零售:智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为,提供个性化商品推荐,同时优化库存,减少浪费。
⑥AI+交通:自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶,并优化交通信号控制,减少拥堵。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。
如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
整个学习分为7个阶段
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
从入门到进阶这里都有,跟着老师学习事半功倍。
如果二维码失效,可以点击下方链接,一样的哦
【CSDN大礼包】最新AI大模型资源包,这里全都有!无偿分享!!!
朋友们如果有需要的话,可以V扫描下方二维码联系领取~