摘要:阿里云峰会・粤港澳大湾区上,阿里云宣布推出最新产品“通义听悟”,该产品能用于会议讨论、教学培训、调研访谈、视频观看等场景,依托大模型,可帮助用户高效完成对音视频内容的转写、检索、摘要和整理。
摘要:Adobe Photoshop上线了一个名为“Generative Fill”的AI图像合成工具,使用“Adobe Firefly”图像合成模型,根据给定的图像生成合理的扩展延伸部分,用户还可以通过输入文字提示来指导AI生成特定的场景。目前已有许多网友用这款工具扩展经典音乐专辑的封面,生成了很多极具创意的作品。如果想尝试这款工具,用户需要订阅Creative Cloud并下载Adobe Photoshop测试版。
摘要:谷歌推出 PaLM2 模型,其训练数据量达到 3.6 万亿,是上一代的 5 倍。基于 PaLM2 的 Bard 聊天机器人相较于 ChatGPT 有 8 项优势。谷歌选择了增加训练文本的大小作为提升模型性能的主要路径。PaLM2 经过 100 种语言的训练,可以执行广泛任务,为 25 个功能和产品提供支持。Bard 的优势包括访问网络、图像生成、语音输入、编码能力、高度整合 Gmail、分享输出内容、支持图像提示和网页摘要等。
摘要:Stable Diffusion的工具近日在网上爆火,可以将物品、人物等图像使用二次元风格渲染,效果逼真,充满动漫的画风。网友们纷纷表示惊叹和赞叹,并体验过程分享了创作方法。有网友认为,这样的技术可以将现实世界变成一个异世界,呈现出人们想要的视觉效果,创造出新奇的感官体验。
摘要:谷歌与 Runway 公司签署了一项云合同,提供云服务和相关信贷支持,以帮助 Runway 公司加速其在影视创作领域的 AI 技术进展。Runway 公司利用 AI 生产超现实的视频作品,其技术在备受瞩目的科幻电影中表现出色。据流出的文件显示,谷歌与 Runway 的云合同总价值为7500万美元,为期三年,将于今年8月30日开始实施。同时,谷歌拥有为初创公司提供云服务和信用额度的投资计划,而与 Runway 的合作将为该公司提供更多的信贷额度。
这次一口气直接推出了三门课,主题包括LangChain、扩散模型,以及用ChatGPT API搭建系统。
介绍了如何使用AI模型训练声音数据集,以及如何在本地进行推理模型重绘歌曲。作者提到,声音模型对数据集的要求比较苛刻,因为声音越优质,越干净,效果一定越好。所以没有杂音、没有乱七八糟的混响等等的干声是必须的,而且音域越广越好。整个AI声音教程相比AI绘图会比较难一些,需要准备声音数据集、租云算力、上传数据集、在云上训练模型、本地进行推理模型重绘歌曲等四个步骤。作者还提供了一个优质数据集,来自原神派蒙的近2小时的语音文件,以及一个整合包,方便读者使用。
这篇文章是一份由A16z整理的最全AI学习资料,包括了当前AI浪潮的关键技术、人工智能的现状报告、大型语言模型的研究成果等方面的内容。文章强调了人工智能的潜在风险和利益,提出了让人工智能造福人类的原则。此外,文章还介绍了一些深度学习的基础知识、大型语言模型的应用程序堆栈、反向传播等方面的内容。最后,文章列举了一些具有里程碑意义的研究成果,包括BERT、GPT-3、LaMDA等大型语言模型,以及FlashAttention、饥饿的河马等图像生成模型。