实时追踪科研动态丨谷歌、马克斯·普朗克光科学研究所等机构精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。
实时追踪科研动态丨谷歌、马克斯·普朗克光科学研究所等机构精选新论文_第1张图片

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain

2023年9月14日精选新论文列表:

1.MagiCapture: High-Resolution Multi-Concept Portrait Customization

当前面部图像生成领域的个性化方法存在的问题:生成的图像质量常常不足以商业化,并且存在不真实的瑕疵。特别是在人像图像生成中,由于人类的先入为主的偏见,对人脸中的任何不自然痕迹都很敏感。为了解决这个问题,介绍了一种名为MagiCapture的个性化方法,它结合了主题和风格的概念,使用少量的主题和风格参考图像生成高分辨率的人像图像。其中的主要挑战是缺乏用于生成组合概念的真实数据,这导致最终输出的质量降低,并且源主题的身份发生变化。为了解决这些问题,提出了一种新的关注力重新聚焦损失和辅助先验的方法,两者都有助于在这种弱监督学习环境中进行稳健的学习。该方法还包括额外的后处理步骤,以确保生成高度逼真的结果。MagiCapture在定量和定性评估中优于其他基线方法,并且还可以推广到其他非人类对象。

https://www.aminer.cn/pub/65026d513fda6d7f06474c11/?f=cs

2.Large Language Models for Compiler Optimization

论文描述了使用大型语言模型对编译器优化进行创新应用的研究。研究人员提出了一个从头开始训练的包含7B个参数的Transformer模型,用于优化LLVM汇编的代码大小。模型的输入是未经优化的汇编代码,输出是最佳优化程序的编译器选项列表。在训练过程中,通过让模型预测优化前后的指令计数以及优化后的代码本身,这些辅助学习任务显著提高了模型的优化性能和理解深度。研究者们在一组大型测试程序上进行了评估。他们的方法在减少指令计数方面比编译器提高了3.0%,优于两种需要进行成千上万次编译的最先进基线方法。此外,该模型展现了出人意料的强大的代码推理能力,91%的时间生成可编译的代码,并且在70%的时间内完全模拟了编译器的输出。因此,该论文涵盖了使用大型语言模型进行编译器优化所面临的问题以及在该领域取得的一些重要进展。

https://www.aminer.cn/pub/65026d513fda6d7f06474cc3/?f=cs

3.Statistical Rejection Sampling Improves Preference Optimization

论文指出了在语言模型与人类偏好的对齐方面存在的问题,并介绍了现有方法的局限性。先前的方法主要使用了强化学习,通过在线强化学习方法(如Proximal Policy Optimization (PPO))从人类反馈中进行训练。但是,最大似然估计器(MLE)需要从目标最优策略中采样标记的偏好对,而DPO缺乏奖励模型,限制了它采样从最优策略中采样偏好对的能力。为了解决这些问题,该论文引入了一种名为Statistical Rejection Sampling Optimization(RSO)的新方法,它使用拒绝采样从目标最优策略中源数据,从而更准确地估计最优策略。此外,该论文还提出了一个统一的框架,从偏好建模的角度改进了SLiC和DPO的损失函数。通过在三个不同任务上进行的广泛实验,论文证明了RSO在Large Language Model (LLM)和人类评估中的优越性。

https://www.aminer.cn/pub/65026d513fda6d7f06474b0e/?f=cs

4.Text-Guided Generation and Editing of Compositional 3D Avatars

研究指出现有的方法在创建和编辑逼真的3D面部角色时存在一些问题。现有方法要么缺乏真实感,要么产生不真实的形状,要么不支持编辑,例如修改发型。研究者认为现有的方法受限于使用单一的建模方法,即为头部、脸部、头发和配饰使用相同的表示方法,而事实上这些部位具有不同的结构特征,需要使用不同的表示方法来更好地表现。基于这一观察,研究者采用了组合模型来生成面部角色,其中头部、脸部和上半身使用传统的3D网格表示,而头发、服装和配饰使用神经辐射场(NeRF)表示。基于模型的网格表示为面部区域提供了强大的几何先验信息,提高了真实感,并使得人物外观可以进行编辑。通过使用NeRF来表示其他组件,该方法能够对具有复杂几何和外观特征的部件进行建模和合成,例如卷发和蓬松围巾。该研究介绍了他们从文本描述中综合这些高质量的组合角色的新系统。实验结果表明,他们的方法产生的角色比现有方法更加真实,并且由于其组合性质,具有可编辑性。例如,他们的方法能够无缝地在不同角色之间转移组合特征,如发型、围巾和其他配饰,支持虚拟试穿等应用。

https://www.aminer.cn/pub/65026d513fda6d7f06474d08/?f=cs

5.DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models

指出了使用文本提示作为唯一限制条件时,表达艺术作品的独特特点(如笔触、色调或构图)可能会遇到限制。为了解决这个问题,引入了DreamStyler,这是一个旨在进行艺术图像合成的新框架,擅长于文本到图像合成和风格转移。DreamStyler通过上下文感知的文本提示优化多阶段的文本嵌入,从而实现出色的图像质量。此外,通过内容和风格引导,DreamStyler展示了适应一系列风格参考的灵活性。实验证明它在多个场景下具有出色的性能,表明在艺术品创作中具有巨大的潜力。

https://www.aminer.cn/pub/65026d513fda6d7f06474c3b/?f=cs

6.TrafficGPT: Viewing, Processing and Interacting with Traffic Foundation Models

文章说明了当前存在的一个问题:大型语言模型在处理交通问题方面存在困难,特别是在处理数值数据和与模拟交互方面的问题。专门的交通基础模型虽然存在,但通常只针对特定任务设计,输入输出交互有限。结合这两种模型可以增强它们解决复杂交通问题和提供有见地建议的能力。为了弥合这一差距,作者提出了TrafficGPT,将ChatGPT和交通基础模型融合在一起。通过这种集成,TrafficGPT可以具备查看、分析、处理交通数据的能力,并为城市交通系统管理提供有深度的决策支持。同时,它还可以智能地分解复杂任务,并逐步利用交通基础模型完成任务。此外,TrafficGPT还可以通过自然语言对话辅助人类的交通控制决策,并允许交互式反馈和修订结果。通过无缝融合大型语言模型和交通专业知识,TrafficGPT不仅推进了交通管理的发展,还提供了在这一领域利用人工智能能力的新方法。

https://www.aminer.cn/pub/65026d513fda6d7f06474b51/?f=cs

7.Deep Quantum Graph Dreaming: Deciphering Neural Network Insights into Quantum Experiments

文章说明了深度神经网络在解释量子光学实验结果时的不透明性所带来的挑战。虽然神经网络可以帮助科学家发现新的科学发现,但是其内部逻辑的理解却非常困难。为了解决这一问题,作者使用了一种名为深度梦境的可解释人工智能技术,该技术在计算机视觉中被发明。作者通过这种技术探索神经网络对量子光学实验的学习了解。他们首先训练了一个深度神经网络来学习量子系统的性质。训练完成后,他们对神经网络进行了“反转”操作,即询问它如何想象具有特定性质的量子系统,并且如何不断修改量子系统以改变性质。作者发现神经网络可以改变量子系统初始属性的分布,并且可以对神经网络的学习策略进行概念化。有趣的是,他们发现在神经网络的较浅层中,网络可以识别简单的性质,而在较深的层中,它可以识别复杂的量子结构甚至量子纠缠。这类似于计算机视觉中已知的长时间属性,在这篇文章中我们将其在复杂的自然科学任务中进行识别。该方法在发展基于人工智能的量子物理新的高级科学发现技术方面具有潜在应用。

https://www.aminer.cn/pub/65026d513fda6d7f06474cbc/?f=cs


如何使用AMiner AI?

使用AMiner AI的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入AMiner AI页面。

在AMiner AI页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

点击查看:AMiner AI使用教程

你可能感兴趣的:(计算机视觉,人工智能,大模型,深度学习,机器学习,谷歌)