日报合辑 | 电子月刊 | 资料下载 | @韩信子
https://ca.la/
CALA 是一个领先的时装设计界面,可以将设计师的创意快速转化为设计草图、原型和产品,并将整个完整流程统一到了自己的数字平台。作为第一个基于 OpenAI 的 DALL-E API 的服务,CALA 新的生成 AI 工具已上线并可免费试用。
设计人员先从 25 个列表中选择基础款式(例如毛衣、衬衫、手提包等),然后输入提示文本来描述整体的设计创意并选择材质,最后输入提示文本来修改装饰细节(如袖口或拉链等)。下方『万圣节毛衣』的整个设计过程不到一分钟。需要注意的是,CALA 并不是一键式设计工具,CALA 平台的使用过程仍需设计师的技能和经验储备。但它显著降低了新设计师的进入门槛,并为资深设计师提供海量创意提升工作效率。
https://github.com/7thSamurai/steganography
Image Steganography Tool 是一个 Linux 下的 C++ 加密和隐写工具,使用密码加密来保护文件的内容,然后使用最小显著位编码将其嵌入图像的像素数据中。
以下是工具库的使用示例,左图为原图,右图为嵌入了《Dr Jekyll and Mr Hyde》一书的全部内容 ZIP 的图像。
https://github.com/VoltaML/voltaML
https://voltaml.com/
voltaML 是一个开源的轻量级库,用于加速你的机器学习和深度学习模型。只需要一行代码,VoltaML就可以优化、编译和部署你的模型到目标 CPU 和 GPU 设备。
https://github.com/automl/DeepCAVE
DeepCAVE 是一个用于 AutoML(尤其是子问题超参数优化)运行的可视化和分析工具。该框架是在 Dash的基础上编程的,具备极好的交互性。丰富的插件给大家的数据洞察提供强大的支撑,强大的运行界面和模块化的插件结构使得大家可以轻松地扩展该工具。
https://github.com/gwgundersen/anno
Anno 是一个简单、便携的笔记软件,拥有基于浏览器的本地用户界面,可编辑本地目录中的任意 Markdown 文件。Anno 坚持模块化软件的 Unix 哲学,即简单、简短、清晰和可扩展。
https://github.com/SamirPaul1/DSAlgo
https://samirpaul.in/DSAlgo
作者以结构化的方式存储了 Python3 数据结构与算法各种问题的解决方案。Repo 涵盖以下主题:
此外,『30-Days-SDE-Sheet-Practice』文件夹包含问题、解决方案及简短注释,对正在准备 Striver SDE 面试的读者会很有帮助。『Questions-Sheet』文件夹列有顶级产品公司提出的问题。『BOOKS-and-PDFs』文件中包含计算机科学基础的重要书籍 PDF。
https://github.com/walker-hyf/MnTTS
传统蒙古语语音合成语料库来自内蒙古大学蒙古文信息处理技术重点实验室。数据集包含大约8小时的数据,其中采样率为44.1kHz,每采样点进行16bit量化。音频由一位22岁母语为蒙古语的专业蒙古语女播音员在标准化录音室内录制完成。
数据库包含wavs文件夹以及metadata.csv文件。其中wavs文件夹下包含所有后缀为.wav格式的语音文件,metadata.csv文件包含每条语音对应的蒙古文文本(格式为id|transcription),所有文本都编码为UTF8。
科研进展
- 2022.10.13 『自监督学习』 On the Utility of Self-supervised Models for Prosody-related Tasks
- 2022.10.11 『图像生成』 GENIE: Higher-Order Denoising Diffusion Solvers
- 2022.10.06 『基于模型描述的搜索』 Content-Based Search for Deep Generative Models
论文时间:13 Oct 2022
领域任务:Prosody Prediction, Self-Supervised Learning, 韵律预测,自监督学习
论文地址:https://arxiv.org/abs/2210.07185
代码实现:https://github.com/jsalt-2022-ssl/superb-prosody
论文作者:Guan-Ting Lin, Chi-Luen Feng, Wei-Ping Huang, Yuan Tseng, Tzu-Han Lin, Chen-An Li, Hung-Yi Lee, Nigel G. Ward
论文简介:We find that 13 of the 15 SSL models outperformed the baseline on all the prosody-related tasks.
论文摘要:来自语音数据的自监督学习 (SSL) 已经产生了在许多任务中取得显着性能的模型,并且已知这些模型隐含地表示了语音信号中潜在存在的信息的许多方面。然而,关于此类模型对韵律相关任务的适用性或它们编码韵律信息的程度知之甚少。我们提出了一个新的评估框架,SUPERB-prosody,由三个与韵律相关的下游任务和两个伪任务组成。我们发现 15 个 SSL 模型中有 13 个在所有与韵律相关的任务上都优于基线。我们还在两个伪任务上表现出良好的性能:韵律重建和未来韵律预测。我们进一步分析了 SSL 模型的分层贡献。总的来说,我们得出结论,SSL 语音模型对于韵律相关的任务非常有效。
论文时间:11 Oct 2022
领域任务:Denoising, Image Generation, 去噪,图像生成
论文地址:https://arxiv.org/abs/2210.05475
代码实现:https://github.com/nv-tlabs/GENIE
论文作者:Tim Dockhorn, Arash Vahdat, Karsten Kreis
论文简介:Synthesis amounts to solving a differential equation (DE) defined by the learnt model.
论文摘要:去噪扩散模型 (DDM) 已成为一类强大的生成模型。前向扩散过程会缓慢地扰动数据,而深度模型会学习逐渐去噪。合成相当于求解由学习模型定义的微分方程 (DE)。求解 DE 需要慢速迭代求解器以实现高质量生成。在这项工作中,我们提出了高阶去噪扩散求解器 (GENIE):基于截断的泰勒方法,我们推导出了一种新的高阶求解器,可以显着加速合成。我们的求解器依赖于扰动数据分布的高阶梯度,即高阶得分函数。在实践中,只需要雅可比向量积(JVP),我们建议通过自动微分从一阶得分网络中提取它们。然后,我们将 JVP 提炼成一个单独的神经网络,使我们能够在合成过程中为我们的新型采样器有效地计算必要的高阶项。我们只需要在一阶得分网络之上训练一个小的额外头部。我们在多个图像生成基准上验证 GENIE,并证明 GENIE 优于所有以前的求解器。与最近从根本上改变 DDM 生成过程的方法不同,我们的 GENIE 解决了真正的生成 DE,并且仍然支持编码和引导采样等应用。项目页面和代码:https://nv-tlabs.github.io/GENIE
论文时间:6 Oct 2022
领域任务:Image and Sketch based Model Retrieval, Model Description Based Search, 基于图像和草图的模型检索,基于模型描述的搜索
论文地址:https://arxiv.org/abs/2210.03116
代码实现:https://github.com/generative-intelligence-lab/modelverse
论文作者:Daohan Lu, Sheng-Yu Wang, Nupur Kumari, Rohan Agarwal, David Bau, Jun-Yan Zhu
论文简介:The growing proliferation of pretrained generative models has made it infeasible for a user to be fully cognizant of every model in existence.
论文摘要:预训练生成模型的日益普及使得用户无法完全了解存在的每个模型。为了满足这一需求,我们引入了基于内容的模型搜索任务:给定一个查询和大量生成模型,找到与查询最匹配的模型。因为每个生成模型都会产生图像分布,所以我们将搜索问题表述为优化,以最大化在给定模型的情况下生成查询匹配的概率。当查询是图像、草图、文本描述、另一个生成模型或上述的组合时,我们开发近似值以使这个问题易于处理。我们在一组生成模型上对我们的方法的准确性和速度进行了基准测试。我们证明我们的模型搜索检索到适合图像编辑和重建、小样本迁移学习和潜在空间插值的模型。最后,我们将搜索算法部署到我们的在线生成模型共享平台 https://modelverse.cs.cmu.edu
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!
◉ 点击 日报合辑,订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。
◉ 点击 电子月刊,快速浏览月度合辑。