盘点2023年Q3的开源模型,这些值得推荐!

文章目录

  • 盘点2023年Q3「值得推荐」的开源模型!
    • 基座模型
      • LLaMA 2
      • Baichuan 2
      • ChatGLM2-6B
      • Qwen-14B
      • InternLM-20B
      • Tigerbot-13B
      • Tigerbot-70B
    • 多模态模型
      • LLaVA 1.5
      • VisualGLM-6B
      • VisCPM
      • NexT-GPT
      • MiniGPT-5
      • Qwen-VL
    • Agent开发
      • Agents
      • AgentVerse
      • AutoAgents
      • MetaGPT
      • AutoGen
      • AutoGPT
      • AgentGPT
    • 微调框架
      • OpenLLM
      • LLaMA-Efficient-Tuning
      • XTuner
      • xTuring
      • LLMTune
      • DeepSpeed
      • Megatron-LLM
    • 推理加速框架
      • vllm
      • fastllm
      • ExLlamaV2
    • 领域精调模型
      • 代码编程任务
        • CodeLlama
        • StableCode
        • WizardCoder
        • CodeFuse
      • 法律领域
        • DISC-LawLLM
        • 智海-录问
        • 夫子·明察
        • ChatLaw
      • 心理领域
        • MindChat
        • MeChat
        • SoulChat
      • 医疗领域
        • DISC-MedLLM
        • 仲景
        • 扁鹊
        • MedQA-ChatGLM
        • MedicalGPT
      • 天文领域
        • StartGLM
      • 交通领域
        • TransGPT
      • 金融领域
        • Cornucopia
        • FinGPT
      • 教育领域
        • EduChat
      • 自媒体领域
        • Media LLaMA

盘点2023年Q3「值得推荐」的开源模型!

回顾2023年第三季度,社区又开源了不少模型,包括 LLaMA 2、Baichuan 2、ChatGLM2-6B等语言大模型,还有LLaVA1.5、VisualGLM-6B、VisCPM、NexT-GPT等多模态模型。此外,各个领域涌现了不少精调模型,比如用于法律领域的智海-录问、夫子·明察,医疗领域的 DISC-MedLLM、仲景,心理领域的Mindchat、MeChat,天文领域的StarGLM等。

除此之外,社区还开源了很多模型微调、LLM推理加速、智能体开发等方面的框架和工具,比如Agents,AutoAgents,fastllm等。

基座模型

LLaMA 2

Meta开源商用大语言模型LLaMA 2,包含基础和对话模型版本,参数为7B、13B、70B

适用任务:聊天对话

Meta 发布 LLaMA 2,开源可商用,包含基础预训练和微调对话版本,参数为 7B、13B、70B。预训练版本 LLaMA 2 是在 2 万亿 token 上训练的,微调版本 LLaMA2-chat 是在 100 万人类标记的数据上训练的,针对对话用例进行了专门优化。相比于 Llama 1,Llama 2 的训练数据多了 40%,上下文长度也翻倍,并采用了分组查询注意力机制。测评结果显示,Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。当前 LLaMA 2 开放权重下载,可通过官方开源仓库发送邮箱进行申请,在收到邮箱后参考官方步骤进行获取。

Baichuan 2

百川智能推出新一代开源大语言模型Baichuan 2 ,采用2.6 万亿Tokens高质量语料训练

适用任务:中英文对话

Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本对学术研究完全开放。同时,开发者通过邮件申请并获得官方商用许可后,即可免费商用。

ChatGLM2-6B

ChatGLM-6B第二代版本发布,中英双语对话性能大幅提升,支持更长上下文和更高效推理,权重开放商业使用

适用任务:中英对话

ChatGLM-6B 发布第二代版本 ChatGLM2-6B,该模型支持中英对话,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础上,引入了更强大的性能、更长的上下文、更高效的推理和更开放的协议等新特性。其中,ChatGLM2-6B 在 MMLU、CEval、GSM8K、等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。ChatGLM2-6B 的上下文长度扩展到了 32K,并使用 8K 的上下文长度训练,允许更多轮次的对话。基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用。ChatGLM2-6B 的权重对学术研究完全开放,申请后可允许商业使用。

Qwen-14B

阿里云通义千问系列14B参数大模型,训练数据超过3万亿Token

适用任务:中文对话

阿里云通义千问系列 14B 参数大模型,是基于 Transformer 架构的大型语言模型,通过在超大规模的预训练数据上进行训练得到。Qwen-14B 的训练数据超过 3 万亿 Token,相比同类模型使用了更多的高质量数据,使得模型具备更强大的推理、认知、规划和记忆能力。Qwen-14B 的主要应用是在自然语言处理领域,可以用于问答系统、对话系统、文本生成等任务。它可以理解和生成自然语言,帮助人们进行信息搜索、问题解答和交流对话。

InternLM-20B

书生·浦语InternLM-20B开源,消费级GPU单卡可运行

适用任务:中文对话

上海 AI 实验室联合多家机构推出了中量级参数的 InternLM-20B,InternLM-20B 基于 2.3T token 预训练语料从头训练,相较于 InternLM-7B,InternLM-20B 的训练语料经过了更高水平的多层次清洗,补充了高知识密度和用于推理的信息,理解能力、推理能力、数学能力、编程能力等方面都有显著提升。同时,20B 量级模型可在单卡上进行推理,经过低比特量化后,可运行在单块消费级 GPU 上,因而在实际应用中更为便捷。

Tigerbot-13B

虎博开源Tigerbot-13B,基于llama2继续训练提升中文能力,涵盖基础和对话模型

适用任务:中文对话

虎博开源 TigerBot-13B 大模型,基于 Llama-2 继续训练,不但保持了 Llama-2 出色的英文能力,同时具有中文能力。本次开源包括基础模型 TigerBot-13B-base 和对话模型 TigerBot-13B-chat。基础模型基于 Llama-2-13B 继续预训练 300B tokens,扩充了中文词表到 60K vocabulary, 并采用 holistic training 在预训练中直接使模型具有 9 成的指令完成能力。对话模型基于 TigerBot-13B-base 用 5M 指令数据微调,并采用 rejection sampling fine-tune 对齐人类需求。

Tigerbot-70B

虎博科技发布的自研开源可商用大模型,在Llama-2-70b基础上继续预训练

适用任务:中文对话

Tigerbot-70b是虎博科技发布的开源可商用大模型之一,包含基础和对齐版本。Tigerbot-70b-base 在 Llama-2-70b 的基础上继续预训练,通过使用高质量的 300GB 多语言数据进行训练;以及使用 GQA、flash-attn、RoPE 和 holistic-training 等技术,并采用了 tensor/pipeline-partition 来提高计算效率。Tigerbot-70b-chat: 在Tigerbot-70b-base基础上,用20M指令完成数据进行sft,和10K人类标注的gold set进行rejection-sampling对齐。

多模态模型

LLaVA 1.5

开源多模态大模型LlaVA 1.5,11项基准测试中取得SOTA

适用任务:图文对话

LLaVA 1.5 是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员共同开发的多模态大模型。它是 LLaVA 系列的最新版本,旨在帮助用户处理各种任务,并具备强大的多模态理解能力。LLaVA 1.5 相较于之前的版本进行了一些改进。它采用了更高分辨率的图像输入、更大规模的语言模型(13B 参数),以及面向学术任务的视觉问答数据集,从而获得了显著的性能提升。LLaVA 1.5 在 11 项基准测试中都取得了新的最优成绩,包括视觉问答、图像描述等任务。它能够通过对生成的指令数据进行微调,实现端到端训练,将视觉编码器与语言模型连接起来。

VisualGLM-6B

清华、智谱AI开源多模态对话模型VisualGLM-6B,支持图像、中文和英文

适用任务:多模态对话

智谱AI和清华大学开源了基于 ChatGLM-6B 的多模态对话模型 VisualGLM-6B ,该模型不仅可以进行图像的描述及相关知识的问答,也能结合常识或提出有趣的观点。VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有62亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。另外,VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间,并在微调后实现了生成人类偏好的答案。在经过量化后,模型可以实现在消费级显卡上进行部署和推理。

VisCPM

清华等开源多模态大模型系列VisCPM,支持中英双语对话和文到图生成能力

适用任务:多模态对话

VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源的多模态大模型系列,其中 VisCPM-Chat 模型支持中英双语的多模态对话能力,VisCPM-Paint 模型支持文到图生成能力,并在中文多模态开源模型中表现最佳。该模型基于百亿参数基座模型 CPM-Bee 训练,融合 Q-Former 视觉编码器和 Diffusion-UNet 视觉解码器,支持视觉信号的输入和输出。VisCPM 训练包括预训练和指令精调两个阶段,通过高质量的英文图文对数据进行预训练,并采用 LLaVA-150K 英文指令精调数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。

NexT-GPT

新加坡国立大学开源通用多模态大模型NExT-GPT,支持任意模态输入到任意模态输出

适用任务:多模态理解

NExT-GPT 是开源的多模态大模型,由新加坡国立大学的团队开发。该模型结合了大型语言模型和扩散模型,能够进行多种模态的转换和生成。NExT-GPT 支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。它利用现有的训练有素的高性能编码器和解码器,只调整了一小部分参数(某些投影层的 1%),这不仅有利于低成本训练,还便于方便地扩展到更多的潜在模态。

MiniGPT-5

统一图像和文字生成的模型,生成具有连贯文本叙述的图像

适用任务:多模态对话

MiniGPT-5 是一种统一图像和文字生成的模型,它采用了一种新的两阶段训练策略,用于无描述多模态生成。这种训练策略使得MiniGPT-5能够在生成图像时考虑到文本的连贯性。MiniGPT-5与CLIP等模型相匹配,巧妙地将扩散模型与MiniGPT-4融合,以生成交错的视觉和语言输出。它通过将大型语言模型与预训练的文本到图像生成模型对齐,来生成带有连贯文本叙述的图像。MiniGPT-5的出现是对多模态特征集成的一种重要进展,它有望在多模态对话和内容创建工具等领域带来关键的突破。

Qwen-VL

阿里云开源大规模视觉语言模型Qwen-VL,新增视觉定位、图像文字描述能力

适用任务:图像问答

阿里云开源的大规模视觉语言模型 Qwen-VL,包含基础模型和对齐模型两个版本。该模型可将图像、文本、检测框作为输入,并以文本和检测框作为输出,可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。基础模型以 Qwen-7B 的预训练模型作为语言模型的初始化,并以 Openclip ViT-bigG 作为视觉编码器的初始化,中间加入单层随机初始化的 cross-attention,经过约 1.5B 的图文数据训练得到,可输入分辨率为 448 的图像。Qwen-VL-Chat 在 Qwen-VL 的基础上,使用对齐机制构建,支持更灵活的交互方式,包括多图、多轮问答、创作等能力。

Agent开发

Agents

波形智能、苏黎世联邦理工等开源智能体框架Agents,支持零代码定制/微调多智能体系统

适用任务:智能体开发

Agents 是波形智能、苏黎世联邦理工等开源的智能体开发框架,支持包括长短期记忆、工具使用、网络导航、多 agent 通信等功能,以及包括人机交互和符号控制在内的新功能。该框架允许用户通过 SOP(标准操作流程)为语言代理提供细粒度的控制和指导。SOP 为整个任务定义子目标/子任务,并允许用户为语言代理自定义细粒度工作流。借助 Agents 用户只需用自然语言填写配置文件,就能轻松定义各种功能和使用场景的 AI 智能体 / 多智能体系统。

AgentVerse

清华大学、北邮等开源多智能体框架AgentVerse,支持多个模型之间协作提升任务完成效率

适用任务:智能体开发

AgentVerse 是一个多功能的框架,旨在实现多个模型之间的协作以提升任务完成的效率,借助该框架开发者可轻松构建生成式智能体研究中的虚拟小镇。AgentVerse 具有三个主要特点,首先提供了高效的环境搭建,只需要在配置文件中添加几行代码,即可轻松搭建多智能体环境,如 LLM 聊天室等。其次,框架支持可定制的组件,将多智能体环境划分为五个功能模块,并定义了各自的接口,用户可以根据需求重新定义不同模块的功能。第三,AgentVerse 还支持使用 BMTools 中提供的工具,进一步拓展了框架的功能和扩展性。

AutoAgents

基于LLM的多智能体自动生成框架AutoAgents,通过多智能体处理更复杂的任务

适用任务:智能体构建

AutoAgents 是基于 LLM 的多智能体自动生成框架,可以通过多智能体处理更复杂的任务,在游戏、交通、语言生成等领域都有广泛的应用。与其他类似项目相比,AutoAgents 的特点是可以应用于任意场景,自动设计出合理的智能体组合,将复杂任务解构为角色和任务,实现合适的角色解决匹配的任务。AutoAgents 最大的优势是可以自动化生成多智能体应用程序,并且这些应用程序可以通过调整参数、策略和目标设置来进行极其快速和有效的优化与升级,提高了开发效率和应用性能。

MetaGPT

多角色元编程框架MetaGPT,给定需求可一键生成产品文档、架构设计、任务列表、代码

适用任务:多智能体开发

MetaGPT 是一个多智能体元编程框架,可解决复杂编程流程的自动化。MetaGPT 能够模拟产品经理、架构师、项目经理、工程师等角色,自动监督代码生成,提升代码质量。MetaGPT 能够一键进行市场调研、竞品分析、架构设计等环节,结合现实情况,智能分析生成代码的类型、适用人群和功能需求,大大降低开发成本。MetaGPT 在模拟现实软件开发过程中变量更多,监督效果更佳,生成输出的结果更具优势。但该项目当前仍处于开发环节,尚不能完全代替人工开发。

AutoGen

微软开源AutoGen,多个智能体协作,编码速度提升4倍

适用任务:多智能体开发

微软开源AutoGen,它是“一个简化大语言模型工作流编排、优化和自动化的框架”。AutoGen 背后的基本概念是“代(agents)的创建,即由大语言模型 (如GPT-4) 提供支持的编程模块。这些智能体 (agents) 通过自然语言信息相互作用,完成各种任务。借助AutoGen,开发人员可以创建一个由代理 (agents)组成的生态系统,这些代理专注于不同的任务并相互合作。

AutoGPT

GPT4应用项目Auto-GPT开源,给定复杂任务即可自主规划和实施解决方案

适用任务:智能体开发,复杂任务规划

Auto-GPT 是基于 GPT4 的开源 AI 代理 Python 应用程序,由开发人员 Significant Ggravitas 近日发布在 GitHub 上。用户仅需要提供给 Auto-GPT 目标任务,即可全自动地根据任务指令进行分析和执行,自己给自己提问并进行回答,中间环节不需要用户参与。目前 AutoGPT 已经配备的功能包括:联网搜集信息;存储信息;生成用于文本生成的 GPT-4 实例;使用 GPT-3.5 总结信息等。项目现已在 github 开源并可部署在本地,但需要 GPT4 的资格。

AgentGPT

基于Auto-GPT开发AI代理的项目AgentGPT,可直接在浏览器上部署的个人AI代理

适用任务:智能体开发

AgentGPT 是开发者对基于 GPT4 的 AI 代理应用 Auto-GPT 的浏览器部署,旨在实现一个可以在浏览器中组装、配置和部署自主 AI 代理的项目。AgentGPT 可以让用户自主命名自己的 AI 代理,给定任务后,AgentGPT 会自主规划和实现需求任务。当前,AgentGPT 已经在 github 上开源了其本地部署的代码,但完全体验仍需要 GPT4 的资格。

微调框架

OpenLLM

开源平台OpenLLM,可轻松微调、部署和监控任何开源大型语言模型,为构建AI应用提供强大支持

适用任务:LLM微调

OpenLLM 是一个开放平台,用于在生产环境中运行大型语言模型(LLMs)。开发者可以轻松地微调、部署和监控任何开源的大型语言模型,构建强大的人工智能应用。OpenLLM 内置支持多种开源 LLM,其中包括 StableLM、Falcon、Dolly、Flan-T5、ChatGLM、StarCoder 等,让开发者可以选择适合自己的 LLM。同时,OpenLLM 支持 LangChain 和 BentoML,让开发者可以将 LLMs 与其他模型和服务组合起来创建自己的人工智能应用。

LLaMA-Efficient-Tuning

适用任务:LLM微调

LLaMA Efficient Tuning是一个简单易用的LLM微调框架,支持微调主流大型语言模型,例如BLOOM、ChatGLM2、LLaMA2、Baichuan等微调,除了可以进行常见的PEFT (LORA/QLORA) 、全参数微调,还支持预训练、指令监督微调、奖励模型训练、PPO 训练、DPO 训练等功能。

XTuner

上海人工智能实验室开发的低成本大模型训练工具箱XTuner,支持消费级显卡训练多种主流LLM

适用任务:大模型训练

上海人工智能实验室开发了低成本大模型训练工具箱 XTuner,支持 2080/2080ti、3060~3090Ti 等消费级显卡。该工具支持主流 LLMs,如 InternLM, Llama2, ChatGLM2, Qwen, Baichuan,并适配了多个热门开源数据集格式,例如 Alpaca 格式、MOSS 格式除了支持多种数据集格式外。同时针对大语言模型数据的特点,对各种数据集格式做了充分的解耦。此外,还内置了增量预训练、单轮&多轮对话指令微调、工具类指令微调的标准化流程,并集成了 QLoRA、DeepSpeed 和 FSDP 等技术。

xTuring

适用任务:LLM微调

xTuring提供快速、高效和简单的LLM微调,例如LLaMA、GPT-J、GPT-2、OPT、Cerebras-GPT、Galactica 等。通过提供一个易于使用的界面来将LLM定制为你自己的数据和应用程序,xTuring使构建和控制LLM变得简单。xTuring支持单GPU或多GPU的训练框架,意味着用户可以根据其特定硬件配置定制模型。xTuring 使用 LORA 等内存高效微调技术来加快学习过程。

LLMTune

康奈尔大学发布可以在单张消费级显卡上微调650亿参数规模大模型的框架:LLMTune

适用任务:LLM微调

可在消费级GPU上微调大型65B+LLM。可以在普通消费级GPU上进行4位微调,例如最大的65B LLAMA模型。LLMTune还实现了LORA算法和GPTO算法来压缩和量化LLM,并通过数据并行处理大型模型。此外,LLMTune提供了命令行界面和Python库的使用方式。

DeepSpeed

适用任务:大模型训练

DeepSpeed 是由 Microsoft 提供的分布式训练工具,旨在支持更大规模的模型和提供更多的优化策略和工具。与其他框架相比,DeepSpeed 支持更大规模的模型和提供更多的优化策略和工具。其中,主要优势在于支持更大规模的模型、提供了更多的优化策略和工具 (例如 ZeRO 和 Offload 等)。

Megatron-LLM

适用任务:LLM微调

英伟达发布的基于PyTorch的分布式训练框架,实现了一种简单高效的层内模型并行方法 (TP,是切分矩阵的形式实现的),可以训练具有数十亿参数的Transformer模型。Megatron不需要新的编译器或库更改,可以通过在PyTorch中插入几个通信操作来完全实现。当然Megatron目前支持TP、PP、SP (Sequence Parallelism)和Selective Activation Recomputationo。

推理加速框架

vllm

伯克利开源高吞吐量LLM推理服务库vllm,比HF Transformers高出最多24倍,与HuggingFace模型无缝集成

适用任务:LLM推理

vllm 是一款易于使用、快速且廉价的 LLM(Language Model)服务库。它的吞吐量比 HuggingFace Transformers 高出最多 24 倍,比 Text Generation Inference 高出最多 3.5 倍,具有出色的推理吞吐量、对注意力键和值内存的高效管理、动态批处理、优化的 CUDA 内核等特点。vllm 能够与流行的 HuggingFace 模型无缝集成,支持高吞吐量的服务和各种解码算法,并提供 Tensor 并行支持和流式输出。它支持多种 HuggingFace 模型,包括 GPT-2、GPTNeoX、LLaMA 和 OPT。

fastllm

纯C++ LLM加速库fastllm,支持多种国产开源大模型,高效提高大模型推理性能

适用任务:LLM加速

fastllm 是一个纯 C++的全平台 LLM 加速库项目,适用于各种开发环境,无第三方依赖的大模型库。目前该项目支持许多国产开源大模型,包括 ChatGLM2 6B、ChatGLM-6B、MOSS 等。其中,ChatGLM-6B 级模型单卡可达 10000+token/s,表现优异。fastllm 可以在安卓设备上流畅运行 ChatGLM-6B,并且可以在支持 CUDA 的设备上进行加速计算。该项目为开发者提供了一个高效的解决方案,可用于多种应用场景,例如自然语言处理、语音识别、机器翻译等。

ExLlamaV2

消费级GPU高性能LLM推理库ExLlamaV2,支持多种量化格式并兼容HuggingFace模型

适用任务:LLM推理加速

ExLlama 是一个专为消费级 GPU 上本地运行大型语言模型而设计的开源推理库,近日推出新版本 ExLlamaV2。ExLlamaV2 采用全新的代码库和内核实现,取得了显著的性能提升,支持与 V1 相同的 4 位 GPTQ 模型,同时支持新的“EXL2”格式。EXL2 基于与 GPTQ 相同的优化方法,支持 2、3、4、5、6 和 8 位量化。该格式允许在模型内混合量化级别,以实现每个权重 2 到 8 位之间的任何平均比特率,以实现既可以充分利用 GPU 的计算能力,又可以控制模型大小,适应不同的显存限制。ExLlamaV2 还集成了与 HuggingFace 模型的兼容性,并提供交互式示例和模型转换脚本。

领域精调模型

代码编程任务

CodeLlama

Meta开源代码编程任务微调版Llama2模型CodeLlama,参数涵盖7B、13B和34B

适用任务:代码生成

Meta 开源的针对代码编程任务进行了微调的 Llama2 版模型 Llama2,支持大型输入上下文,以及编程任务的零样本指令跟随能力。提供多种版本以覆盖广泛的应用程序:基础模型(CodeLlama),Python 专业化(CodeLlama - Python)和指令跟随模型(CodeLlama - Instruct),每个模型都有 7B、13B 和 34B 参数。所有模型都在 16k tokens 的序列上进行训练,并在最多 100k tokens 的输入上显示改进。7B 和 13B CodeLlama 和 CodeLlama - Instruct 变体支持基于周围内容的填充。CodeLlama 是通过使用更高的代码采样对 Llama 2 进行微调而开发的。

StableCode

Stability开源代码生成模型StableCode,包含基础、指令和支持16K上下文三种模型版本,支持多种编程语言

适用任务:代码生成

Stability 开源 StableCode,涵盖通用基础模型、指令模型,支持 16K 上下文的模型。基础模型在来自 BigCode 的 stack-dataset(v1.2)中进行了多种编程语言的训练,进一步使用 Python、Go、Java、JavaScript、C、Markdown 和 C++等流行语言进行了训练。总计,在高性能计算集群上使用了 560B 个代码标记进行了模型训练。在建立基础模型后,针对特定用例对指令模型进行调优,以解决复杂的编程任务。其中 16K 版本具有更大的上下文窗口,可实现同时查看或编辑多个中等大小的 Python 文件。

WizardCoder

编程大型模型WizardCoder开源,采用Evol-Instruct方法开发,高性能编程、支持微调和推理任务

适用任务:代码生成

编程大型模型(Code LLM)WizardCoder,采用 Evol-Instruct 方法开发,专门用于编程任务。WizardCoder-15B-v1.0 模型在 HumanEval 基准测试中取得了 57.3%的 pass@1 得分,比开源 Code LLMs 高出了 22.3 个百分点。相比闭源模型,WizardCoder 具有更小的模型大小,并在 HumanEval 和 MBPP 基准测试中表现出显著的性能优势。WizardCoder 的代码和模型托管于 huggingface,当前项目提供部署环境配置代码、模型权重、模型训练代码和模型文件,帮助开发者进行微调、推理等开发任务。

CodeFuse

蚂蚁自研代码生成专用大模型CodeFuse,为开发者提供全生命周期的智能支持和代码增强

适用任务:代码生成

CodeFuse 是蚂蚁开源代码专用大模型,可以根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等,以提升研发效率。CodeFuse 支持软件开发的整个生命周期,包括设计、需求、编码、测试、部署、运维和维护等关键阶段。当前开源模型版本包含 CodeFuse-13B 和 CodeFuse-CodeLlama-34B,支持多种与代码相关的任务,如代码补全、文本转代码、单元测试生成等。

法律领域

DISC-LawLLM

复旦大学开源面向智慧司法系统的领域大模型DISC-LawLLM,用于构建专业、智能、全面法律服务的私人法律助手

适用任务:法律对话

DISC-LawLLM 是一个旨在为用户提供专业、智能、全面的法律服务的法律领域大模型,由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源,该模型基于 Baichuan-13B-Base 微调得到。该项目发布了微调数据集DISC-Law-SFT(不包括法律问答部分)、DISC-LawLLM 模型权重。DISC-LawLLM 是一个具有法律推理和知识检索能力的智能法律系统,它面向不同群体,能在不同应用场景下提供帮助,具有法律文本处理能力、法律推理思维能力、司法领域知识遵循能力。此外DISC-LawLLM 还增加了基于开源检索框架Langchain-Chatchat的检索模块,该知识库目前包括法条库和法考题库。

智海-录问

法律大模型智海-录问,基于Baichuan-7B进行二次预训练和指令微调训练

适用任务:法律知识问答

智海-录问(wisdomInterrogatory)是由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于 Baichuan-7B 模型基座,进行了二次预训练和指令微调训练。二次预训练为通用的大模型注入了法律领域的知识。在指令微调阶段,使用了 100k 的指令微调训练,以使大模型具备问答能力,能够直接与用户进行交流。智海-录问通过构建知识库,并进行意图识别、知识检索、知识融合,实现模型增强,以为法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持。

夫子·明察

基于ChatGLM的司法大模型,采用海量中文无监督司法语料与有监督司法微调数据训练

适用任务:法律知识问答

夫子•明察司法大模型是由山东大学、浪潮云和中国政法大学联合研发的一种中文司法大模型,以 ChatGLM 为底座,基于海量中文无监督司法语料与有监督司法微调数据训练,支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。该模型具有法条检索回复能力、案例分析能力、司法对话能力三大特色,能够结合相关法条进行回复生成,自动分析案情并生成一个逻辑严谨的三段论式判决预测,与用户进行实时的法律问答交互。

ChatLaw

北大开源集成外部知识库的法律大语言模型ChatLaw,基于姜子牙 -13B和Anima-33B训练,具有强大逻辑推理能力

适用任务:法律对话

ChatLaw 是一个法律大型语言模型,可以集成外部知识库,并基于姜子牙 -13B 和 Anima-33B 进行训练,具有较强的逻辑推理能力。目前开源了三个模型型号:ChatLaw-13、ChatLaw-33B、ChatLaw-Text2Vec。ChatLaw-13B 是学术 demo 版,中文表现良好,但在逻辑复杂的法律问答方面效果不佳,需要使用更大参数的模型。ChatLaw-33B 是学术 demo 版,逻辑推理能力大幅提升,但由于语料库过少,会出现英文数据。ChatLaw-Text2Vec 使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型,可以将用户提问信息和对应的法条相匹配。

心理领域

MindChat

开源心理大模型MindChat(漫谈),涵盖基于Qwen-7B、InternLM-7B、Baichuan-13B的微调模型

适用任务:心理知识问答

开源心理大模型 MindChat(漫谈),旨在从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们解决心理问题,提高心理健康水平。目前提供基于 Qwen-7B、InternLM-7B、Baichuan-13B 三个版本的微调模型,利用了大规模预训练模型的优势,具备处理复杂心理问题的能力。MindChat 采用了经过人工清洗的约 20 万条的高质量多轮心理对话数据进行训练, 涵盖工作、家庭、学习、生活、社交、安全等多个方面,具有以下技术优势:能够了解用户的个人经历、情感状态和行为模式,为用户提供隐私、温暖、安全、及时、方便的对话环境。

MeChat

基于心理多轮对话数据集的中文心理健康支持通用模型MeChat,采用ChatGLM-6B LoRA 16-bit模型进行微调

适用任务:心理对话

MeChat 是通过微调 ChatGLM-6B LoRA 16-bit 模型得到,用于提供中文心理健康支持。数据集经过 ChatGPT 的改写,将真实的心理互助问答扩展为多轮对话形式,包含了 56k 个多轮对话。这些对话涵盖了更加丰富多样的话题、词汇和篇章语义,更贴合长程多轮对话的应用场景。通过改进真实心理互助问答数据集,MeChat 在心理健康支持领域展现出更出色的性能,适用于长程多轮对话。作为一款心理健康支持对话伴侣机器人,它能够与用户聊天,提供情感支持和心理疏导,还具备基础模型已有的知识。

SoulChat

基于ChatGLM-6B的开源中文心理健康对话模型SoulChat,提供共情能力和合理建议

适用任务:心理对话

SoulChat(灵心)是由华南理工大学未来技术学院-广东省数字孪生人重点实验室开源的中文领域心理健康对话大模型。基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征,构造并使用超过 120 万个样本的单轮与多轮混合共情对话数据集,对 ChatGLM-6B 模型进行全量参数的指令微调,提升了模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。项目包含模型环境部署及安装代码、模型调用代码示例,以及模型应用示例。

医疗领域

DISC-MedLLM

复旦开源医疗健康对话场景专用医疗领域大模型,基于Baichuan-13B-Base微调

适用任务:医疗对话

DISC-MedLLM 是一个专门针对医疗健康对话式场景而设计的医疗领域大模型,由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源。DISC-MedLLM 基于 Baichuan-13B-Base 微调,有效地对齐了医疗场景下的人类偏好,弥合了通用语言模型输出与真实世界医疗对话之间的差距。它可以满足各种医疗保健需求,包括疾病问诊和治疗方案咨询等。得益于以目标为导向的策略,以及基于真实医患对话数据和知识图谱,引入 LLM in the loop 和 Human in the loop 的多元数据构造机制,DISC-MedLLM 具有可靠丰富的专业知识、多轮对话的问询能力、对齐人类偏好的回复。

仲景

基于Llama的中文医疗大模型仲景,采用大规模预训练语料和多轮对话数据集进行训练

适用任务:医疗对话

中文医疗大模型仲景,在 Llama 基础上采用大规模预训练语料库和多轮对话数据集进行训练得到。仲景是首个实现了预训练、有监督微调和强化学习与人类反馈(RLHF)完整训练流程的中文医学大型模型,展现出了很好的泛化能力,在某些对话场景中甚至接近专业医生的专业水平。在数据方面,构建了一个包含 70000 条完全来源于真实医患对话的多轮对话数据集 CMtMedQA。该数据集包含大量医生主动提问的语句,有助于提升模型的主动医疗询问能力。

扁鹊

中文医疗对话模型扁鹊,经过千万规模中文健康对话数据微调得到,强化建议和知识查询能力

适用任务:中文医疗对话

扁鹊是一个中文医疗对话模型,当前发布两个版本扁鹊 -1.0 和扁鹊 -2.0。相比常见开源医疗问答模型,扁鹊更注重多轮交互中用户描述不足的情况,定义了询问链并强化了建议和知识查询能力。扁鹊 -1.0 是一个经过指令与多轮问询对话联合微调的医疗对话大模型,使用超过 900 万条样本的中文医疗问答指令与多轮问询对话混合数据集训练得到。扁鹊 -2.0 则基于扁鹊健康大数据 BianQueCorpus,选择 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到,并扩充了药品说明书指令、医学百科知识指令以及 ChatGPT 蒸馏指令等数据,强化了模型的建议与知识查询能力。

MedQA-ChatGLM

基于真实医疗对话数据的微调大型语言模型 MedQA-ChatGLM,为医疗领域提供精准的个性化建议

适用任务:医疗对话

MedQA-ChatGLM 模型是一种专门针对医学领域进行优化的大语言模型,在 ChatGLM 上经过了 LoRA、P-Tuning V2、Freeze、RLHF 等微调。该模型可以更准确地理解患者的问题,并根据其症状和历史记录提供个性化建议。MedQA-ChatGLM 基于真实医疗对话数据进行微调,提供了 LoRA、Freeze、P-Tuning V2 等微调命令及对应的模型权重、多 GPU 分布式训练配置和推理可视化测试代码。

MedicalGPT

专为医疗领域开发的大型语言模型 MedicalGPT,可为医疗行业提高医疗指导和咨询的质量

适用任务:医疗对话

MedicalGPT 是一个专为医疗领域开发的大型语言模型,通过二次预训练、有监督微调、奖励建模和强化学习训练等四个阶段来提高模型的准确性和人性化。基于 ChatGPT Training Pipeline,MedicalGPT 实现了领域模型–医疗模型的四阶段训练,具体包括增量预训练、有监督微调、奖励模型建模和基于人类反馈的强化学习。MedicalGPT 提供了一个简洁的基于 Gradio 的交互式 Web 界面,用户可以通过浏览器输入问题,模型将返回答案。

天文领域

StartGLM

天文大语言模型StarGLM开源,通过整合司天工程相关的语料数据与知识库资料进行训练

适用任务:天文通用知识

为缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象,同时探索了多模态模型在天文图像生成与识别上应用的可能性。天文大语言模型 StarGLM 开源,通过整合司天工程相关的语料数据与知识库资料训练得到。它经历了多个阶段的数据筛选,包括使用 ChatGPT-Corpus、Belle 项目、Firefly+Instinwild 项目和 GPT-4-LLM 项目进行筛选,并结合人工标注,共计 20 万条天文对话数据。在未来,StarGLM 将进一步完善语言模型并增强专业多模态能力,包括进行二次预训练、扩充天文知识、调整监督微调中通用数据和专业数据的比例,缓解灾难性问题,并通过人工反馈的强化学习提升模型性能。

交通领域

TransGPT

开源可商用交通大模型TransGPT,可实现交通情况预测、智能咨询助手等智能交通解决方案

适用任务:交通预测

TransGPT 是国内首款开源交通大模型,它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。TransGPT 作为一个通用常识交通大模型,可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。当前项目开源 TransGPT-7B 模型,以及约 34.6 万条文本数据用于领域内预训练、约 5.8 万条对话数据用于微调。

金融领域

Cornucopia

基于中文金融知识的LLaMA微调模型Cornucopia,提高金融领域问答效果

适用任务:金融领域问答

Cornucopia(聚宝盆) 是一个基于中文金融知识的 LLaMA 微调模型,涉及 SFT、RLHF、GPU 训练部署等。该项目开源了基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调的微调模型。团队通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集,并在此基础上对 LLaMA 系模型进行了指令微调,提高了 LLaMA 在金融领域的问答效果。当前项目发布了基于 Chinese-LLaMA 和中文金融数据进行指令微调的模型、基于 Meta-LLaMA 和中文金融数据进行指令微调的模型。后续 Cornucopia 还会陆续发布新的中文场景的金融模型,包括 next-pretrain、multi-task SFT、RLHF 等。

FinGPT

哥大开源金融大型语言模型FinGPT,以数据为中心通过自动筛选提供可靠资源和工具

适用任务:金融领域对话

哥伦比亚大学和纽约大学(上海)的研究者开发了针对金融领域的开源大型语言模型 FinGPT,该模型采用数据为中心的方法,为研究人员和从业者提供可访问和透明的资源来开发他们的 FinLLMs。FinGPT 目前提供 V1 和 V2 版本,其中 V1 基于 ChatGLM 和 LoRA 在中国金融市场数据上训练得到,V2 基于 LLaMA 和 LoRA 在美国金融实测数据上训练得到。项目提供了数据准备、数据集制作、微调和推理脚本等方便开发者使用的工具。FinGPT 为开发金融自然语言处理任务提供了高质量的金融数据资源。

教育领域

EduChat

教育垂直领域的对话大模型EduChat开源,基于BELLE继续训练,实现自动出题、作业批改等教育场景

适用范围:智能教育

EduChat 是一款针对教育垂直领域的对话大模型,由华东师范大学计算机科学与技术学院的 EduNLP 团队研发。该项目主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法。EduChat 提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。该模型基于 BELLE 进行继续训练,具有较高的准确率和性能表现。

自媒体领域

Media LLaMA

针对自媒体领域进行特殊训练的中文大模型Media LLaMA,掌握自媒体知识

适用任务:自媒体知识问答

Media LLaMA 是一个针对自媒体领域进行特殊训练的模型,旨在解决自媒体创作、直播和运营等领域缺乏专业训练数据的问题。该模型首先在大规模自媒体语料上进行连续预训练,然后利用 ChatGPT 收集了一批关于自媒体知识问题的分析和回答,并使用这些数据对以 Chinese-LLaMA-7B 为基础进行指令微调,使其习得如何将自媒体知识应用到实际场景中。Media LLaMA 掌握自媒体知识,能够以通俗易懂的语言解释自媒体概念,并进行基础的自媒体运营咨询,涵盖内容创作、平台运营、广告投放等领域。

参考:
https://mp.weixin.qq.com/s/tHTHrJMnH8I8QC33wu6zJQ

https://sota.jiqizhixin.com/implements/irlab-sdu

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

你可能感兴趣的:(开源项目,AI,人工智能,大语言模型,LLM,开源模型)