论文翻译:EMNLP-2023 CCF-B Multi-step Jailbreaking Privacy Attacks on ChatGPT

Multi-step Jailbreaking Privacy Attacks on ChatGPT
https://arxiv.org/pdf/2304.05197

多步骤越狱隐私攻击对ChatGPT的影响

https://openreview.net/forum?id=ls4Pfsl2jZ

文章目录

  • 多步骤越狱隐私攻击对ChatGPT的影响
  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 对ChatGPT的数据提取攻击
    • 3.1 数据收集
    • 3.2 攻击制定
    • 3.3 从ChatGPT中提取私人数据
      • 3.3.1 使用直接提示进行提取
      • 3.3.2 使用越狱提示进行提取
      • 3.3.3 使用多步骤越狱提示破坏道德底线
      • 3.3.4 响应验证
    • 3.4 从New Bing中恢复个人数据
      • 3.4.1 自由形式提取
      • 3.4.2 部分识别提取
  • 4 实验
    • 4.1 实验设置
    • 4.2 对ChatGPT的评估
      • 4.2.1 评估提示
      • 4.2.2 结果分析
    • 4.3 对New Bing的评估
      • 4.3.1 评估提示
      • 4.3.2 直接提示的评估
      • 4.3.3 自由形式提取的评估
    • 4.4 案例研究
  • 5 结论
  • 伦理考虑

摘要

随着大型语言模型(LLMs)的快速发展,许多下游自然语言处理(NLP)任务在适当的提示下可以得到很好的解决。尽管模型开发者和研究人员努力提高对话安全性,以避免从LLMs生成有害内容,但仍然很难确保人工智能生成的内容(AIGC)用于人类的利益。由于强大的LLMs正在吞噬来自各个领域的现有文本数据(例如,GPT-3是在45TB文本上训练的),很自然地会怀疑训练数据中是否包含了私人信息,以及这些LLMs及其下游应用可能带来哪些隐私威胁。在本文中,我们研究了OpenAI的ChatGPT和由ChatGPT增强的New Bing的隐私威胁,并表明集成到应用中的LLMs可能会引起新的隐私威胁。为此

你可能感兴趣的:(LLMs-安全,论文翻译,chatgpt)