大模型论文周报丨清华大学、CMU、华盛顿大学、莱斯大学、亚马逊等机构前沿科研动态

大模型又可以称为Foundation Model模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现的提升。

本周精选了10篇大模型领域的优秀论文,分别来自清华大学、CMU、华盛顿大学、莱斯大学、亚马逊等机构。

为了方便大家阅读,只列出了论文标题、作者、AI华同学综述等信息,如果感兴趣可点击论文详情页查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

1. AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head 论文详情页

作者:Rongjie Huang,Mingze Li,Dongchao Yang,Jiatong Shi,Xuankai Chang,Zhenhui Ye,Yuning Wu,Zhiqing Hong,Jiawei Huang,Jinglin Liu,Yi Ren,Zhou Zhao,Shinji Watanabe

链接:https://www.aminer.cn/pub/6448967c71ac66d2cbd88151

AI综述(大模型驱动):本文提出了一种名为 AudioGPT的多向机器学习系统,它与基本模型结合起来处理复杂语音信息和解决许多理解和生成任务。同时,该系统还提供了输入/输出通路(ASR、TTS)来支持口语对话。实验结果表明, AudioGPT在语音、音乐、声音和讲话头理解和生成中发挥了重要作用。这项研究旨在评估多向机器学习系统的一致性、能力和鲁棒性。

2. Scaling Transformer to 1M tokens and beyond with RMT 论文详情页

作者:Aydar Bulatov,Yuri Kuratov,Mikhail S. Burtsev

链接:https://www.aminer.cn/pub/6445e60d9cc4bd5454c03e52

AI综述(大模型驱动):本文介绍了如何使用Recurrent Memory Transformer来扩展BERT模型的上下文长度,从而提高自然语言处理中长期依赖处理的能力,并能够处理大规模上下文信息的需求。同时,文章还介绍了该方法的实验结果证明了其有效性。

3. ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation 论文详情页

作者:Jiazheng Xu,Xiao Liu,Yuchen Wu,Yuxuan Tong,Qinkai Li,Ming Ding,Jie Tang,Yuxiao Dong

链接:https://www.aminer.cn/pub/64377347eb3a372744c80fc8

AI综述(大模型驱动):本文介绍了一种名为ImageReward的通用文本到图像人类偏好奖励模型,旨在解决生成模型中存在的各种问题,并与人类价值和偏好保持一致。该模型的训练基于作者的系统注释流程,包括评分和排名组件,并收集了迄今为止137k专家比较的数据集。在人类评价方面,ImageReward表现优于现有的评分方法(例如比CLIP高38.6%),使它成为一个有希望用于评估和改进文本到图像合成的自动度量标准。

4. Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond 论文详情页

作者:Jingfeng Yang,Hongye Jin,Ruixiang Tang,Xiaotian Han,Qizhang Feng,Haoming Jiang,Bing Yin,Xia Hu

链接:https://www.aminer.cn/pub/6449e7ff582c1376bbfc6879

AI综述(大模型驱动):本文主要介绍了大型语言模型(LLMs)在实践中的潜力和应用,并提供了从模型、数据和下游任务的角度对LLMs的使用进行讨论和洞见。文章探讨了预训练数据、训练数据和测试数据的影响,以及在各种自然语言处理任务中使用和不使用LLMs的使用案例和非使用案例。此外,还介绍了数据的重要性和各种NLP任务所面临的挑战,以及Spurious bias对LLMs的影响以及其他一些必要的注意事项,如效率、成本和延迟等。该文章旨在为研究人员和从业者提供有价值的洞见和最佳实践,以便在各种NLP任务中成功实现LLMs的应用。

5. Inducing anxiety in large language models increases exploration and bias 论文详情页

作者:Julian Coda-Forno,Kristin Witte,Akshay K. Jagadish,Marcel Binz,Zeynep Akata,Eric Schulz

链接:https://www.aminer.cn/pub/6445f39371ac66d2cbc1b54a

AI综述(大模型驱动):本研究旨在探究大型语言模型的行为与计算精神病学之间的联系。研究发现,Generative Pre-Trained Transformer 3.5 对焦虑问卷的响应强烈,产生的焦虑得分比人类受试者高;情感诱导能够预测性地改变GPT-3.5的响应,不仅会影响其在测量探索性决策的认知任务中的行为,而且还会影响其在先前已建立的测量偏见(如种族主义和残疾主义)的任务中的行为。关键的是,GPT-3.5在遭受焦虑诱发文本时显示出强烈的偏见增加。因此,如何向大型语言模型传达提示对它们在应用场景中的行为具有很强的影响。这些结果推进了我们对提示工程的理解,并展示了从计算精神病学中采用的方法用于研究各种算法的实用性,我们日益委托这些算法具有更大的权威和自主权。

6. LLM+P: Empowering Large Language Models with Optimal Planning Proficiency 论文详情页

作者:Bo Liu,Yuqian Jiang,Xiaohan Zhang,Qiang Liu,Shiqi Zhang,Joydeep Biswas,Peter Stone

链接:https://www.aminer.cn/pub/644744fb71ac66d2cbf9b4c0

AI综述(大模型驱动):本文介绍了大型语言模型(LLM)的第一个框架LLM+P,该框架将经典规划论点与自然语言描述相结合。通过将语言描述转换为设计领域定义语言(PDDL)的文件,然后利用传统规划师快速找到解决方案,并将其翻译回自然语言。同时,LLM+P还定义了一个多样化的基准问题集,从共同规划情景中提取的不同的基准问题。通过对这些基准问题进行全面测试,我们发现,LLM+P可以为大多数问题提供最优的解决方案,而LLMs无法为大多数问题提供甚至可行的计划。

7. Stable and low-precision training for large-scale vision-language models 论文详情页

作者:Mitchell Wortsman,Tim Dettmers,Luke Zettlemoyer,Ari Morcos,Ali Farhadi,Ludwig Schmidt

链接:https://www.aminer.cn/pub/6448967c71ac66d2cbd88168

AI综述(大模型驱动):该论文介绍了在大规模语言-视觉模型训练中加速和稳定训练的新方法。其中,他们提出了SwitchBack,一个int8量化训练的线性层,可使训练加速13-25%,并且与bfloat16训练的性能相匹配。此外,该论文还分析了梯度下降中的丢失尖峰问题,并提出了一种新的梯度优化方法StableAdamW,能够避免丢失尖峰,并优于梯度剪切。

8. Answering Questions by Meta-Reasoning over Multiple Chains of Thought 论文详情页

作者:Ori Yoran,Tomer Wolfson,Ben Bogin,Uri Katz,Daniel Deutch,Jonathan Berant

链接:https://www.aminer.cn/pub/6448967c71ac66d2cbd8815d

AI综述(大模型驱动):本文介绍了一种多链推理(MCR)方法,通过对多个逻辑序列进行推理,而不是结合它们的答案。MCR研究不同逻辑序列,融合信息,在生成解释并预测答案方面选择最相关的事实,从而生成解释和预测答案。MCR在7个多链问答数据集上的表现优于基线。此外,我们分析表明,MCR解释具有很高的质量,能够帮助人类验证其答案。

9. LaMP: When Large Language Models Meet Personalization 论文详情页

作者:Alireza Salemi,Sheshera Mysore,Michael Bendersky,Hamed Zamani

链接:https://www.aminer.cn/pub/644744fa71ac66d2cbf9b26e

AI综述(大模型驱动):本文强调了个性化对当前自然语言理解和生成的重要性,并介绍了LaMP基准测试——一种用于训练和评估语言模型生成个性化输出的新型基准测试。LaMP提供了一个综合评估框架,包括各种语言任务和多个用户配置文件输入。它包括七个个性化任务,涵盖了三个分类任务和四个文本生成任务。作者还提出一种检索增强方法,该方法从用户配置文件中检索个性化项目,以构建大型语言模型的个性化提示。基线零-shot和微调模型的结果表明,利用配置文件增强的LM比没有考虑配置文件信息的LM表现更优秀。

10. Can GPT-4 Perform Neural Architecture Search? 论文详情页

作者:Mingkai Zheng,Xiu Su,Shan You,Fei Wang,Chen Qian,Chang Xu,Samuel Albanie

链接:https://www.aminer.cn/pub/6445f39071ac66d2cbc1a895

AI综述(大模型驱动):本文研究了GPT 4~\cite{gpt4}进行神经结构搜索(NAS)的潜力,通过使用其生成能力作为黑盒优化器来快速导航神经结构搜索空间,寻找有希望的候选人,并迭代提高这些候选人以提高性能。我们在多个基准测试中评估了Genius,并与现有最先进的Nas技术进行了比较,以说明其有效性。此外,我们认为我们的初步结果表明,该方法可以帮助研究利用通用语言模型进行各种优化任务。此外,我们还指出了一些重要界限和研究影响。

你可能感兴趣的:(人工智能,深度学习,大模型,学术论文,机器学习)