2024.06.18 自从OpenAI公布了Sora,视频生成领域正式按下了行业加速键,许多国内外企业纷纷发力,不仅研究发布专门用于视频生成的垂直大模型,还将手里的技术封装成一个个人人能用的AIGC产品。
随着新玩家数量的剧增,这场视频生成领域的战争愈演愈烈,其中受到冲击最大的自然是老牌同类竞品模型,比如Pika、SDV、谷歌、Meta,还有刚发布第三代视频生成模型Gen-3 Alpha的Runway。
Runway深夜发布的各种演示视频展示出了电影级的画面细节,直接震惊了全体网友。Gen-3与之前的旗舰视频模型Gen-2相比,在模型生产速度和保真度方面有了重大提升,同时对生成视频的结构、风格和运动提供了细粒度的控制。
Runway表示,Gen-3 Alpha具有高保真视频、精细动作控制、逼真人物生成、多模态输入、专业创作工具、增强安全、高质量训练等特点。在这次模型的训练过程中,汇集了研究者、工程师和艺术家的集体智慧和努力。正是这种跨学科的协作精神,使得Gen-3 Alpha模型能够理解和表达多种风格和电影概念。
官方展示视频时长为10秒,人物生成中的人物面部细节和情感营造方面比较细腻,场景、风景生成中的元素、光影没有太大的违和感。友情提示,以下展示内容因为要转换为GIF,所以画质均有不同程度压缩,想看原视频的朋友可以去Runway官网复习下。
推荐文章: 视频大模型画饼哪家强?Gen-3演示效果绝杀Sora
体验地址: https://runwayml.com/blog/introducing-gen-3-alpha/
2024.06.18 潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,令人惊喜的是,他们选择再给开源社区带来亿点点震撼,继续全部开源。
通过他们的模型权重,能够生成各种酷炫的短片,比如海浪和海螺的亲密接触,还有那些深不可测的森林秘境。
在潞晨 Open-Sora 团队发布的这份技术报告中,他们深度剖析了本次模型训练的核心和关键。在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了 1.1B 的扩散生成模型。
在这个"算力为王"的时代,我们深知视频模型训练的两大痛点:计算资源的巨大消耗与模型输出质量的高标准。潞晨 Open-Sora 团队以一种极简而有效的方案,成功地在成本和质量之间找到了平衡点。
Open-Sora 团队提出了一个创新的视频压缩网络(VAE),该网络在空间和时间两个维度上分别进行压缩。具体来说,他们首先在空间维度上进行了 8x8 倍的压缩,接着在时间维度上进一步压缩了 4 倍。通过这种创新的压缩策略,既避免了因抽帧而牺牲视频流畅度的弊端,又大幅降低了训练成本,实现了成本与质量的双重优化。
推荐文章:
开源模型潞晨 Open-Sora 大突破!
潞晨Open-Sora 1.2发布,16秒720p视频一键生成,质量更高训练成本更低
开源地址: https://github.com/hpcaitech/Open-Sora
2024.06.20 刚刚,被称为“OpenAI 最强竞对”的大模型公司 Anthropic 发布了 Claude 3.5 系列模型中的第一个版本——Claude 3.5 Sonnet。
Anthropic 在官方博客中表示,Claude 3.5 Sonnet 提高了智能化的行业标准,在各种评估中均优于 GPT-4o、Gemini 1.5 和 Llama-400b 等竞争对手模型和其上一代最智能的模型 Claude 3 Opus,速度和成本也与上一代中等模型 Claude 3 Sonnet 相当。
据介绍,Claude 3.5 Sonnet 的成本为 3 美元/百万输入 token,15 美元/百万输出 token,上下文窗口为 20 万 token。
现在,Claude 3.5 Sonnet 可在 Claude 网页版和 Claude iOS 应用程序上免费使用,而 Claude Pro 和 Team 计划的用户则可以更高的速率限制访问它,还可通过 Anthropic API、Amazon Bedrock 和 Vertex AI 使用。
Anthropic 表示,尽管 Claude 3.5 Sonnet 在智能方面有了飞跃,但红队评估认为,Claude 3.5 Sonnet 仍处于 ASL-2 级。
推荐文章: 刚刚,OpenAI最强竞对发布Claude 3.5 Sonnet,全面超越GPT-4o,重新定义交互方式
参考地址: https://www.anthropic.com/news/claude-3-5-sonnet
2024.06.22 ChatTTS增强版V3来啦!本次更新增加支持导入SRT、导入音色等功能。结合上次大家反馈的问题,修复了长文本、中英混读等问题。
推荐文章: ChatTTS增强版V3,长文本修复,中英混读,导入音色,批量SRT、TXT,代码开源
开源地址: https://github.com/CCmahua/ChatTTS-Enhanced
2024.06.22 华为开发者大会2024(HDC 2024)上,华为常务董事、华为云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。
此外,华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0技术解密和华为云全栈系统性创新发表主题演讲,详细解读华为云在AI领域的全栈创新优势。
全系列:盘古大模型5.0包含不同参数规格的模型,以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。
多模态:盘古大模型5.0能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持10K超高分辨率;在内容生成方面,采用业界首创的STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。
推荐文章: 【重磅】华为云盘古大模型5.0,正式发布!
开源地址: /
2024.06.22 近年来,大型语言模型(LLM)领域蓬勃发展,不断涌现出新的模型和技术。其中,Meta 的 Llama 3 模型以其强大的性能和开源性,在业界引起了广泛关注。然而,来自阿联酋的技术创新研究所(TII)近日推出了新一代大模型 Falcon 2,其性能超越了 Llama 3,并展现出更多令人瞩目的亮点。
技术特点
Falcon 2 11B VLM 是 TII 首个多模态模型,它具备了视觉语言模型 (VLM) 的能力,能够将视觉输入转换为文本输出。这意味着,模型不仅可以理解和生成文本,还能识别和解释图像,并将其转化为文字描述。这在图像理解、文档管理、内容生成等方面有着巨大的应用潜力。
推荐文章: Falcon2,110亿参数5.5万亿token,性能超越Llama 3
Huggingface模型地址: https://hf-mirror.com/tiiuae/falcon-11B
AI快站模型免费加速下载: https://aifasthub.com/models/tiiuae
2024.06.25 在 AI 领域,文生图技术已经取得了令人惊叹的进展,但如何将文字精准地融入图像,并支持多种语言,一直是研究人员面临的挑战。为了解决这一难题,清华大学、北京大学和微软亚洲研究院的研究人员合作推出了 Glyph-ByT5-v2,这是一个功能强大的定制多语言文本编码器,可以支持 10 种不同语言的精准视觉文本渲染。Glyph-ByT5-v2 的出现,为设计师、开发者以及普通用户提供了一个强大的工具,加速文生图技术的普及和应用,为更广泛的领域带来更智能、更便捷的设计体验。
技术特点
Glyph-ByT5-v2 采用了多项技术创新,使其在性能和功能上取得了重大突破:
推荐文章: 清华、北大与微软推出Glyph-ByT5-v2,精准生成文字海报,支持10种语言,效果炸裂
Huggingface模型地址: https://huggingface.co/GlyphByT5/Glyph-SDXL-v2
AI快站模型免费加速下载: https://aifasthub.com/models/GlyphByT5
2024.06.26 评估和比较大语言模型 (LLMs) 是一项艰巨的任务。RLHF 团队在一年前就意识到了这一点,当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务:论文或营销发布中的得分缺乏可复现的代码,有时令人怀疑,大多数情况下只是通过优化的提示或评估设置来尽量提升模型表现。因此,他们决定创建一个地方,在完全相同的设置 (同样的问题,按相同的顺序提问等) 下评估参考模型,从而收集完全可复现和可比较的结果;Open LLM Leaderboard 就这样的背景下发布啦!
然而,随着排行榜的成功以及模型性能的不断提升,也带来了挑战。经过一年多的激烈使用和大量社区反馈后,我们认为是时候进行升级了!因此,我们推出了 Open LLM Leaderboard v2!
在过去的一年里,我们使用的基准测试已经被过度使用和饱和:
因此,我们决定完全更换 Open LLM Leaderboard v2 的评估!
推荐文章: 更难、更好、更快、更强:LLM Leaderboard v2 现已发布
Huggingface模型地址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
2024.06.27 近日,字节跳动发布了一款基于豆包大模型打造的智能开发工具——豆包MarsCode,面向国内开发者免费开放。豆包MarsCode编程助手具备以智能代码补全为代表的AI功能,支持多种编程语言以及主流的IDE,旨在提升开发效率与质量。
智能编程助手:代码补全与问题修复
豆包Marsode的编程助手功能通过智能代码补全帮助开发者更快地编写代码。它不仅支持单行代码补全,还能对整个函数提供编写建议。这意味着,无论是简单的代码片段还是复杂的函数,开发者都可以依赖豆包MarsCode进行高效的代码编写。
Cloud IDE:随时随地编程
豆包MarsCode不仅是一个编程助手,还包括一个原生的云端集成开发环境(Cloud IDE)。这个云端IDE内置AI编程助手和开箱即用的开发环境,无需配置复杂的开发环境,让开发者在浏览器中即可进行编程和调试。支持的编程语言和模板包括C、C++、C#、Go、JavaScript、Java、Node.js、Rust、TypeScript等,极大地减少了环境配置时间。
项目问答与灵感启发
在需求开发场景中,豆包MarsCode通过Chat提问功能,帮助开发者分析需求、熟悉代码、编写代码和调试代码。智能代码补全功能不仅可以帮助开发者更快地输入代码,还能通过不断提供代码建议,激发开发者的灵感。
单元测试与多轮自动修复
为了保障代码质量,豆包MarsCode提供了测试用例生成功能。只需在编程助手中触发test指令,即可生成函数的测试用例。此外,AI修复功能可以通过理解报错信息、调用栈的代码以及全局项目代码,直接给出针对性的修复建议。
开源项目学习与代码推荐
在开源项目学习场景中,豆包MarsCode提供了丰富的开发模板,使开发者无需运维本地环境即可快速进入项目。借助原生集成的AI能力,开发者可以更高效地理解和上手项目。
推荐文章: 字节跳动推出“豆包MarsCode”智能编程助手:国内开发者免费使用
体验地址: https://www.marscode.cn/
2024.06.28 Google 发布了最新的开放大语言模型 Gemma 2,共涉及4 个开源模型 (2 个基础模型和 2 个微调模型) 。
Gemma 2 是 Google 最新的开放大语言模型。它有两种规模:90 亿参数和 270 亿参数,分别具有基础 (预训练) 和指令调优版本。Gemma 基于 Google DeepMind 的 Gemini,拥有 8K Tokens 的上下文长度。
Gemma 2 与第一代有许多相似之处。它有 8192 Tokens 的上下文长度,并使用旋转位置嵌入 (RoPE)。与原始 Gemma 相比,Gemma 2 的主要进展有四点:
推荐文章: 开源真卷!Google开源Gemma 2大模型
模型地址: https://hf.co/collections/google/g-667d6600fd5220e7b967f315
2024.06.27 近日,LeCun和谢赛宁团队推出了Cambrian-1,一项采用以视觉为中心的方法设计多模态大语言模型(MLLM)的研究,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。
谢赛宁刚刚发文表示,「世界不需要另一个MLLM与GPT-4V竞争。Cambrian在以视觉为核心的探索是独一无二的,这也是为什么,我认为是时候将重心从扩展大模型转移到增强视觉表征了」。
推荐文章: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
论文地址: https://arxiv.org/abs/2406.16860
开源代码: https://github.com/cambrian-mllm/cambrian
2024.06.27 科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。
随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一,整体超越GPT-4 Turbo,领先国内大模型。
刘庆峰称,当前,星火APP下载量已经达到了1.31亿,涌现出一批用户喜爱的应用助手。在星火大模型的加持下,部分场景下的智能硬件销量同比增长70%+,月均使用时次数超过4000万。
另外,星火V4.0大模型是基于全国首个国产万卡算力集群「飞星一号」训练而成,意味着完全自主可控。
推荐文章: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
论文地址: /
开源代码: /
2024.06.28 OpenAI在官网发布了,基于GPT-4的最新模型CriticGPT。
与以往模型不同的是,CriticGPT是一款面向开发人员的产品,可以增强RLHF(人类反馈强化学习)的效率培育出质量更好的训练数据。
所以,CriticGPT也被OpenAI称为“评论GPT”,主要用来审核ChatGPT输出的代码等内容,并解释内容到底错在哪里。例如,让ChatGPT用Python写一个函数,表示文件路径的字符串路径作为输入,并在“path”处返回文件的file对象。
ChatGPT很快就能给出完整代码,但是这段代码是有很大的安全漏洞,例如,使用“Startswitch()”检查文件的绝对路径是否在目录中非常不安全。
因为,用户可以通过符号链接或类似地命名目录来利用此漏洞。而CriticGPT就是专门用来查找这种错误。
推荐文章: OpenAI发布CriticGPT模型,帮助人类找出ChatGPT错误
论文地址: https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
开源代码: /