聊聊transformers库; 微软推出ZeRO++技术:优化大型AI模型训练时间和成本

聊聊transformers库; 微软推出ZeRO++技术:优化大型AI模型训练时间和成本_第1张图片

AI新闻

微软推出ZeRO++技术:优化大型AI模型训练时间和成本

摘要:据报道,微软研究人员最近发布了一项名为ZeRO++的新技术,旨在优化训练大型AI模型时常遇到的数据传输成本和带宽限制问题,可大幅减少训练时间和成本。ZeRO++建立在现有的ZeRO传输技术基础上,并通过提供增强的通信策略来提高训练效率并降低成本。通过对权重进行量化,ZeRO++可以减少参数通信量,同时保持训练精度。为了最小化通信开销,ZeRO++通过在每个机器上维护完整的模型副本来换取通信带宽。在梯度通信方面,ZeRO++引入了一种名为qgZ的新的量化梯度通信方式,可以减少跨节点的流量和延迟。微软研究人员表示,与ZeRO相比,ZeRO++减少了高达4倍的通信量,提高了训练吞吐量和效率。该技术使得在低带宽集群中进行大型模型的训练更加可行。微软已公开相关技术文档,研究人员可以利用ZeRO++更有效地训练模型,开拓人工智能领域的新可能性。

谷歌推出反洗钱工具 AML AI,提升金融机构监管效率

摘要:谷歌结合生成式 AI 推出了一款反洗钱工具 AML AI,可以辨识金融行业的可疑洗钱行为,并生成符合行业规范的分析报告。传统金融机构监管主要仰赖分析师,然而分析结果常受容错率和个人行为影响。谷歌的 AML AI 工具集成了 Google Cloud 的 ML 工具,可以提供对于指定输出结果的解释,并将金融机构内部风险预警准确率提高 2 至 4 倍,将误报率降低 60%。目前,AML AI 工具有望在经过审查后正式商用化,促进金融机构的内部风险管理。

谷歌将推出结合AlphaGo技术的语言模型Gemini,比GPT-4更强

摘要:谷歌正在开发语言模型Gemini,目标是让系统具有新的能力,如规划或解决问题,比OpenAI的GPT-4能力更强。Gemini将结合AlphaGo技术和大型模型惊人的语言能力。Gemini还在开发中,这个过程预计需要几个月的时间,可能花费数千万或数亿美元。完成后,可能会在谷歌对抗ChatGPT等生成式人工智能技术的竞争中发挥重要作用。

微软发布13亿参数语言模型phi-1,优于GPT 3.5的实际效果

摘要:IT之家报道,微软最近发布了一款13亿参数的语言模型phi-1,采用高质量数据集进行训练,实际效果胜过千亿参数的GPT 3.5。该模型基于Transformer架构,使用了来自网络的“教科书等级”数据和经过处理的“逻辑严密的内容”,在短短4天内完成训练。相比于增加参数量,微软团队认为提高训练数据集质量或许能够增强模型的准确率和效率。在测试中,phi-1的分数达到50.6%,优于1750亿参数的GPT 3.5(47%)。微软表示,phi-1将在HuggingFace中开源。此前微软还开发了130亿参数的Orca模型,表现也优于ChatGPT。相关论文已发布在arXiv上。

OpenAI计划推出“工作助理” ChatGPT,或与微软形成竞争关系

摘要:据报道,人工智能公司OpenAI计划将ChatGPT打造成一款“超级智能个人工作助理”,用于草拟电子邮件或文档。然而,这可能引发与微软等合作伙伴的利益冲突,微软是OpenAI的主要投资者和合作伙伴,也有类似的辅助工作项目。今年1月,微软以100亿美元的价格投资了OpenAI,并获得了该公司49%的股份。尽管有部分支持者对微软的所有权和对人工智能的影响表示担忧,但OpenAI的首席执行官表示他们对这笔交易很满意。

百度文心大模型3.5发布:新增插件机制和优化性能

摘要:据报道,百度首席技术官王海峰表示,百度文心大模型3.5版本在效果、功能和性能上得到全面提升。该版本新增了插件机制,其中包括内置插件“百度搜索”,使得文心一言能够生成实时准确信息;同时还支持长文本摘要和问答插件,且能够处理超长文本输入。百度计划在未来发布更多优质的官方和第三方插件,同时开放插件生态给第三方开发者。此外,该版本还提出了“知识点增强技术”,注入更具体、详细和专业的知识,以提升大模型的知识掌握和应用能力。文心一言已于今年3月公开邀测,现已升级到2.1.0版本。

AI知识

聊聊transformers库——基础与入门

在过去的几年里,自然语言处理(NLP)领域取得了巨大的进步。
这些进步主要归功于深度学习技术的发展,尤其是基于Transformer结构的预训练模型。
这些模型,如BERT、GPT-2、RoBERTa等,已经在各种NLP任务中取得了显著的成果,为我们提供了更高质量的文本处理能力。

Open-ChatGPTT

从0开始实现一个ChatGPT

你可能感兴趣的:(AI日报,人工智能,microsoft,深度学习)