2024年1月16日Arxiv最热NLP大模型论文:How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to C
让大语言模型轻松「越狱」,人大研究揭示AI安全新风险,攻击成功率高达92%!引言:人工智能安全的新视角——以人类沟通者的角色挑战大型语言模型(LLMs)随着大型语言模型(LLMs)的日益普及和能力提升,它们在日常互动中的安全性问题也逐渐显现。传统的人工智能(AI)安全研究多从算法角度出发,关注由安全专家开发的基于算法的攻击手段。然而,非专家用户在与LLMs的日常交互中也可能带来风险。本文提出了一种