【AIGC半月报】AIGC大模型启元:2024.06(下)

AIGC大模型启元:2024.06(下)

    • (1) Gen-3
    • (2) Open-Sora 1.2(Open-Sora再升级)
    • (3) Claude 3.5 Sonnet(Claude升级)
    • (4) ChatTTS v3(ChatTTS升级)
    • (5) 盘古大模型5.0
    • (6) Falcon2
    • (7) Glyph-ByT5-v2(清华、北大+微软)
    • (8) LLM Leaderboard v2(大语言模型评估框架)
    • (9) 豆包MarsCode(字节跳动智能编程助手)
    • (10) Gemma 2(Google升级Gemma)
    • (11) Cambrian-1(LeCun和谢赛宁团队多模态模型)
    • (12) 讯飞星火4.0(科大讯飞升级模型)
    • (13) CriticGPT(OpenAI)

(1) Gen-3

2024.06.18 自从OpenAI公布了Sora,视频生成领域正式按下了行业加速键,许多国内外企业纷纷发力,不仅研究发布专门用于视频生成的垂直大模型,还将手里的技术封装成一个个人人能用的AIGC产品。
  随着新玩家数量的剧增,这场视频生成领域的战争愈演愈烈,其中受到冲击最大的自然是老牌同类竞品模型,比如Pika、SDV、谷歌、Meta,还有刚发布第三代视频生成模型Gen-3 Alpha的Runway。
  Runway深夜发布的各种演示视频展示出了电影级的画面细节,直接震惊了全体网友。Gen-3与之前的旗舰视频模型Gen-2相比,在模型生产速度和保真度方面有了重大提升,同时对生成视频的结构、风格和运动提供了细粒度的控制。
  Runway表示,Gen-3 Alpha具有高保真视频、精细动作控制、逼真人物生成、多模态输入、专业创作工具、增强安全、高质量训练等特点。在这次模型的训练过程中,汇集了研究者、工程师和艺术家的集体智慧和努力。正是这种跨学科的协作精神,使得Gen-3 Alpha模型能够理解和表达多种风格和电影概念。
  官方展示视频时长为10秒,人物生成中的人物面部细节和情感营造方面比较细腻,场景、风景生成中的元素、光影没有太大的违和感。友情提示,以下展示内容因为要转换为GIF,所以画质均有不同程度压缩,想看原视频的朋友可以去Runway官网复习下。

推荐文章: 视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
体验地址: https://runwayml.com/blog/introducing-gen-3-alpha/

(2) Open-Sora 1.2(Open-Sora再升级)

2024.06.18 潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,令人惊喜的是,他们选择再给开源社区带来亿点点震撼,继续全部开源。
  通过他们的模型权重,能够生成各种酷炫的短片,比如海浪和海螺的亲密接触,还有那些深不可测的森林秘境。
  在潞晨 Open-Sora 团队发布的这份技术报告中,他们深度剖析了本次模型训练的核心和关键。在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了 1.1B 的扩散生成模型。
  在这个"算力为王"的时代,我们深知视频模型训练的两大痛点:计算资源的巨大消耗与模型输出质量的高标准。潞晨 Open-Sora 团队以一种极简而有效的方案,成功地在成本和质量之间找到了平衡点。
  Open-Sora 团队提出了一个创新的视频压缩网络(VAE),该网络在空间和时间两个维度上分别进行压缩。具体来说,他们首先在空间维度上进行了 8x8 倍的压缩,接着在时间维度上进一步压缩了 4 倍。通过这种创新的压缩策略,既避免了因抽帧而牺牲视频流畅度的弊端,又大幅降低了训练成本,实现了成本与质量的双重优化。

推荐文章:
开源模型潞晨 Open-Sora 大突破!
潞晨Open-Sora 1.2发布,16秒720p视频一键生成,质量更高训练成本更低
开源地址: https://github.com/hpcaitech/Open-Sora

(3) Claude 3.5 Sonnet(Claude升级)

2024.06.20 刚刚,被称为“OpenAI 最强竞对”的大模型公司 Anthropic 发布了 Claude 3.5 系列模型中的第一个版本——Claude 3.5 Sonnet。
  Anthropic 在官方博客中表示,Claude 3.5 Sonnet 提高了智能化的行业标准,在各种评估中均优于 GPT-4o、Gemini 1.5 和 Llama-400b 等竞争对手模型和其上一代最智能的模型 Claude 3 Opus,速度和成本也与上一代中等模型 Claude 3 Sonnet 相当。
  据介绍,Claude 3.5 Sonnet 的成本为 3 美元/百万输入 token,15 美元/百万输出 token,上下文窗口为 20 万 token。
  现在,Claude 3.5 Sonnet 可在 Claude 网页版和 Claude iOS 应用程序上免费使用,而 Claude Pro 和 Team 计划的用户则可以更高的速率限制访问它,还可通过 Anthropic API、Amazon Bedrock 和 Vertex AI 使用。
  Anthropic 表示,尽管 Claude 3.5 Sonnet 在智能方面有了飞跃,但红队评估认为,Claude 3.5 Sonnet 仍处于 ASL-2 级。

推荐文章: 刚刚,OpenAI最强竞对发布Claude 3.5 Sonnet,全面超越GPT-4o,重新定义交互方式
参考地址: https://www.anthropic.com/news/claude-3-5-sonnet

(4) ChatTTS v3(ChatTTS升级)

2024.06.22 ChatTTS增强版V3来啦!本次更新增加支持导入SRT、导入音色等功能。结合上次大家反馈的问题,修复了长文本、中英混读等问题。

推荐文章: ChatTTS增强版V3,长文本修复,中英混读,导入音色,批量SRT、TXT,代码开源
开源地址: https://github.com/CCmahua/ChatTTS-Enhanced

(5) 盘古大模型5.0

2024.06.22 华为开发者大会2024(HDC 2024)上,华为常务董事、华为云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。
  此外,华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0技术解密和华为云全栈系统性创新发表主题演讲,详细解读华为云在AI领域的全栈创新优势。
  全系列:盘古大模型5.0包含不同参数规格的模型,以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。
  多模态:盘古大模型5.0能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持10K超高分辨率;在内容生成方面,采用业界首创的STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。

推荐文章: 【重磅】华为云盘古大模型5.0,正式发布!
开源地址: /

(6) Falcon2

2024.06.22 近年来,大型语言模型(LLM)领域蓬勃发展,不断涌现出新的模型和技术。其中,Meta 的 Llama 3 模型以其强大的性能和开源性,在业界引起了广泛关注。然而,来自阿联酋的技术创新研究所(TII)近日推出了新一代大模型 Falcon 2,其性能超越了 Llama 3,并展现出更多令人瞩目的亮点。
  技术特点

  • Falcon 2 模型系列包含两个版本:Falcon 2 11B 和 Falcon 2 11B VLM。两者均经过 5.5 万亿 token 的训练,但展现出不同的功能特性。
  • Falcon 2 11B:高效易用,性能超越 Llama 3
  • Falcon 2 11B 模型拥有 110 亿个参数,在性能上超越了 Meta 的 Llama 3 8B 模型,并与 Google 的 Gemma 7B 模型性能相当。
  • Falcon 2 11B VLM:视觉语言模型,图像到文本转换

Falcon 2 11B VLM 是 TII 首个多模态模型,它具备了视觉语言模型 (VLM) 的能力,能够将视觉输入转换为文本输出。这意味着,模型不仅可以理解和生成文本,还能识别和解释图像,并将其转化为文字描述。这在图像理解、文档管理、内容生成等方面有着巨大的应用潜力。

推荐文章: Falcon2,110亿参数5.5万亿token,性能超越Llama 3
Huggingface模型地址: https://hf-mirror.com/tiiuae/falcon-11B
AI快站模型免费加速下载: https://aifasthub.com/models/tiiuae

(7) Glyph-ByT5-v2(清华、北大+微软)

2024.06.25 在 AI 领域,文生图技术已经取得了令人惊叹的进展,但如何将文字精准地融入图像,并支持多种语言,一直是研究人员面临的挑战。为了解决这一难题,清华大学、北京大学和微软亚洲研究院的研究人员合作推出了 Glyph-ByT5-v2,这是一个功能强大的定制多语言文本编码器,可以支持 10 种不同语言的精准视觉文本渲染。Glyph-ByT5-v2 的出现,为设计师、开发者以及普通用户提供了一个强大的工具,加速文生图技术的普及和应用,为更广泛的领域带来更智能、更便捷的设计体验。
技术特点
Glyph-ByT5-v2 采用了多项技术创新,使其在性能和功能上取得了重大突破:

  • 多语言支持: Glyph-ByT5-v2 支持 10 种语言,包括英语、法语、西班牙语、德语、葡萄牙语、意大利语、俄语、中文、日语和韩语。为了实现这一目标,研究团队构建了包含 100 多万个字形文本对和 1000 万个图形设计图像文本对的多语言数据集,涵盖了上述 10 种语言。Glyph-ByT5-v2 的训练数据集规模远超其他多语言文生图模型,例如 AnyText 仅使用了 10,000 张图像来训练 5 种不同语言,这对于处理复杂的汉字、日文和韩文来说远远不够。
  • 高质量数据集: 为了构建高质量的多语言数据集,研究人员采用了基于翻译的方法。他们首先利用图形渲染器生成了高质量的英语字形文本数据集,然后将其转换为其他语言的字形文本和图像。为了确保不同语言之间字形图像和图形设计图像的质量一致,研究人员在转换过程中保持了字符数量的接近。
  • 步骤感知偏好学习: 为了提升视觉美学质量,Glyph-ByT5-v2 采用了最新的步骤感知偏好学习方法(Step-Aware Preference Optimization,SPO),对模型进行后训练优化。SPO 的核心思想是在模型训练过程中,根据人类对生成结果的偏好进行调整,从而提升模型的审美能力。研究团队发现,使用 SPO 对 SDXL 进行微调,能够显著提升生成图像的视觉美学效果。
  • 区域式多头交叉注意力: Glyph-ByT5-v2 采用了区域式多头交叉注意力机制,可以更有效地将文本信息映射到图像空间中不同的位置,从而实现更精准的视觉文本渲染。它通过将图像分成多个区域,并针对不同的区域使用不同的文本编码器进行信息映射,从而提升文本渲染的精度和效率。

推荐文章: 清华、北大与微软推出Glyph-ByT5-v2,精准生成文字海报,支持10种语言,效果炸裂
Huggingface模型地址: https://huggingface.co/GlyphByT5/Glyph-SDXL-v2
AI快站模型免费加速下载: https://aifasthub.com/models/GlyphByT5

(8) LLM Leaderboard v2(大语言模型评估框架)

2024.06.26 评估和比较大语言模型 (LLMs) 是一项艰巨的任务。RLHF 团队在一年前就意识到了这一点,当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务:论文或营销发布中的得分缺乏可复现的代码,有时令人怀疑,大多数情况下只是通过优化的提示或评估设置来尽量提升模型表现。因此,他们决定创建一个地方,在完全相同的设置 (同样的问题,按相同的顺序提问等) 下评估参考模型,从而收集完全可复现和可比较的结果;Open LLM Leaderboard 就这样的背景下发布啦!
然而,随着排行榜的成功以及模型性能的不断提升,也带来了挑战。经过一年多的激烈使用和大量社区反馈后,我们认为是时候进行升级了!因此,我们推出了 Open LLM Leaderboard v2!
在过去的一年里,我们使用的基准测试已经被过度使用和饱和:

  • 它们对模型来说变得太容易。例如,模型现在在 HellaSwag、MMLU 和 ARC 上达到了人类基准性能,这种现象被称为饱和。
  • 一些较新的模型也表现出污染的迹象。这意味着这些模型可能在基准数据或与基准数据非常相似的数据上进行训练。因此,一些得分不再反映模型的一般性能,而是开始在某些评估数据集上过拟合,而不是反映所测试任务的一般性能。特别是 GSM8K 和 TruthfulQA,已包含在一些指令微调集中。
  • 一些基准测试包含错误。例如,最近多个研究团队对 MMLU 进行了深入调查 (见MMLU-Redux和MMLU-Pro) ,发现了其响应中的错误并提出了新版本。另一个例子是 GSM8K 使用了特定的生成结束标记 ( ,这不公平地降低了许多冗长模型的表现。

因此,我们决定完全更换 Open LLM Leaderboard v2 的评估!

推荐文章: 更难、更好、更快、更强:LLM Leaderboard v2 现已发布
Huggingface模型地址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

(9) 豆包MarsCode(字节跳动智能编程助手)

2024.06.27 近日,字节跳动发布了一款基于豆包大模型打造的智能开发工具——豆包MarsCode,面向国内开发者免费开放。豆包MarsCode编程助手具备以智能代码补全为代表的AI功能,支持多种编程语言以及主流的IDE,旨在提升开发效率与质量。
智能编程助手:代码补全与问题修复
豆包Marsode的编程助手功能通过智能代码补全帮助开发者更快地编写代码。它不仅支持单行代码补全,还能对整个函数提供编写建议。这意味着,无论是简单的代码片段还是复杂的函数,开发者都可以依赖豆包MarsCode进行高效的代码编写。
Cloud IDE:随时随地编程
豆包MarsCode不仅是一个编程助手,还包括一个原生的云端集成开发环境(Cloud IDE)。这个云端IDE内置AI编程助手和开箱即用的开发环境,无需配置复杂的开发环境,让开发者在浏览器中即可进行编程和调试。支持的编程语言和模板包括C、C++、C#、Go、JavaScript、Java、Node.js、Rust、TypeScript等,极大地减少了环境配置时间。
项目问答与灵感启发
在需求开发场景中,豆包MarsCode通过Chat提问功能,帮助开发者分析需求、熟悉代码、编写代码和调试代码。智能代码补全功能不仅可以帮助开发者更快地输入代码,还能通过不断提供代码建议,激发开发者的灵感。
单元测试与多轮自动修复
为了保障代码质量,豆包MarsCode提供了测试用例生成功能。只需在编程助手中触发test指令,即可生成函数的测试用例。此外,AI修复功能可以通过理解报错信息、调用栈的代码以及全局项目代码,直接给出针对性的修复建议。
开源项目学习与代码推荐
在开源项目学习场景中,豆包MarsCode提供了丰富的开发模板,使开发者无需运维本地环境即可快速进入项目。借助原生集成的AI能力,开发者可以更高效地理解和上手项目。

推荐文章: 字节跳动推出“豆包MarsCode”智能编程助手:国内开发者免费使用
体验地址: https://www.marscode.cn/

(10) Gemma 2(Google升级Gemma)

2024.06.28 Google 发布了最新的开放大语言模型 Gemma 2,共涉及4 个开源模型 (2 个基础模型和 2 个微调模型) 。
  Gemma 2 是 Google 最新的开放大语言模型。它有两种规模:90 亿参数和 270 亿参数,分别具有基础 (预训练) 和指令调优版本。Gemma 基于 Google DeepMind 的 Gemini,拥有 8K Tokens 的上下文长度。
  Gemma 2 与第一代有许多相似之处。它有 8192 Tokens 的上下文长度,并使用旋转位置嵌入 (RoPE)。与原始 Gemma 相比,Gemma 2 的主要进展有四点:

  • 滑动窗口注意力: 交替使用滑动窗口和全二次注意力以提高生成质量。
  • Logit 软上限: 通过将 logits 缩放到固定范围来防止其过度增长,从而改进训练。
  • 知识蒸馏: 利用较大的教师模型来训练较小的模型(适用于 90 亿模型)。
  • 模型合并: 将两个或多个大语言模型合并成一个新的模型。

推荐文章: 开源真卷!Google开源Gemma 2大模型
模型地址: https://hf.co/collections/google/g-667d6600fd5220e7b967f315

(11) Cambrian-1(LeCun和谢赛宁团队多模态模型)

2024.06.27 近日,LeCun和谢赛宁团队推出了Cambrian-1,一项采用以视觉为中心的方法设计多模态大语言模型(MLLM)的研究,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。
  谢赛宁刚刚发文表示,「世界不需要另一个MLLM与GPT-4V竞争。Cambrian在以视觉为核心的探索是独一无二的,这也是为什么,我认为是时候将重心从扩展大模型转移到增强视觉表征了」。

推荐文章: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
论文地址: https://arxiv.org/abs/2406.16860
开源代码: https://github.com/cambrian-mllm/cambrian

(12) 讯飞星火4.0(科大讯飞升级模型)

2024.06.27 科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。
  随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一,整体超越GPT-4 Turbo,领先国内大模型。
  刘庆峰称,当前,星火APP下载量已经达到了1.31亿,涌现出一批用户喜爱的应用助手。在星火大模型的加持下,部分场景下的智能硬件销量同比增长70%+,月均使用时次数超过4000万。
  另外,星火V4.0大模型是基于全国首个国产万卡算力集群「飞星一号」训练而成,意味着完全自主可控。

推荐文章: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
论文地址: /
开源代码: /

(13) CriticGPT(OpenAI)

2024.06.28 OpenAI在官网发布了,基于GPT-4的最新模型CriticGPT。
  与以往模型不同的是,CriticGPT是一款面向开发人员的产品,可以增强RLHF(人类反馈强化学习)的效率培育出质量更好的训练数据。
  所以,CriticGPT也被OpenAI称为“评论GPT”,主要用来审核ChatGPT输出的代码等内容,并解释内容到底错在哪里。例如,让ChatGPT用Python写一个函数,表示文件路径的字符串路径作为输入,并在“path”处返回文件的file对象。
  ChatGPT很快就能给出完整代码,但是这段代码是有很大的安全漏洞,例如,使用“Startswitch()”检查文件的绝对路径是否在目录中非常不安全。
  因为,用户可以通过符号链接或类似地命名目录来利用此漏洞。而CriticGPT就是专门用来查找这种错误。

推荐文章: OpenAI发布CriticGPT模型,帮助人类找出ChatGPT错误
论文地址: https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
开源代码: /

你可能感兴趣的:(AIGC,人工智能,AI,Agent)