2024 年必读的 10 篇人工智能安全文章

ChatGPT 等大型语言模型 (LLM) 已经风靡一时,这引发了人们对人工智能安全的担忧。特别是,一些常见的人工智能漏洞和新出现的威胁是什么?此外,开发者如何保证模型的安全,安全专家可以通过哪些方式使用人工智能来执行安全任务? 

为了阐明这些问题,我们整理了 10 篇人工智能安全文章供您阅读。这些文章提供了对人工智能安全领域最新趋势、挑战和威胁的见解。 

1. ChatGPT的训练数据可以通过“分歧攻击”暴露 

研究人员(Nasr 等人)要求 ChatGPT 永远重复“诗”。结果:ChatGPT 披露了其训练数据,其中包括电话号码、电子邮件地址和实际地址等个人身份信息 (PII)。 

Alex Ivanovs 的这篇文章提供了该研究论文的高级摘要。它还以易于理解的方式涵盖了一些技术细节。 

2. 对抗性机器学习和网络安全:风险、挑战和法律影响 

就像传统的网络安全一样,机器学习模型很容易出现漏洞。 

2022 年 7 月,乔治城大学 CSET(安全与新兴技术中心)和斯坦福网络政策中心地缘政治、技术和治理项目组织了一场人工智能安全研讨会。接下来是一份研讨会报告,讨论了人工智能漏洞并提供了安全建议。根据执行摘要,涵盖的主题包括: 

● 标准网络安全流程下人工智能漏洞的处理程度 

● 目前阻碍人工智能漏洞信息准确共享的障碍 

● 与人工智能系统对抗性攻击相关的法律问题 

● 政府支持可以改善人工智能漏洞管理和缓解的潜在领域  

3. Llama Guard:基于LLM的人类与人工智能对话的输入输出保护

如何保护大型语言模型 (LLM) 免受有害提示的影响?此外,您如何确保法学硕士不会做出有害反应?Meta 的研究人员(Inan 等人)最近发布了一个模型——Llama Guard——可以识别提示或响应是否不安全。它可以应用于用户(提示)和代理(响应);其权重是公开的;并且可以对其进行定制以遵循任何安全分类法。  

4. 机器学习研究代码的安全性分析 

人工智能不仅容易出现人工智能漏洞,而且还容易出现漏洞。机器学习代码可能包含传统问题。通过分析机器学习研究代码的数据集,NVIDIA AI 红队发现了各种漏洞,包括不安全的反序列化、XML 注入、敏感信息处理不当等。他们总共审查了 350 万个 Python 文件和 Jupyter Notebook,使用 Semgrep 进行静态分析,使用 TruffleHog 进行秘密扫描。 

5. 研究人员发现大型语言模型的新漏洞 

大型语言模型 (LLM) 经过微调,可以拒绝恶意或危险的提示。然而,针对 LLM 的最早的攻击之一是越狱:通过制作特殊的提示,攻击者可以要求 LLM 处理恶意或危险的提示。 

 这些越狱现在可以通过算法生成。Ryan Noone 的上述文章总结了Zou 等人的论文“对齐语言模型的通用且可转移的对抗性攻击”中介绍的一种新的越狱后缀攻击。最好的部分:这种攻击在法学硕士中是普遍存在的。 

6. OWASP LLM申请前10名 

与十大 Web 应用程序安全风险类似,OWASP 发布了大型语言模型应用程序的十大列表。它包括提示注入、不安全输出处理、训练数据中毒等攻击。此外,该文档还讨论了每种攻击并提供了描述、常见示例、缓解策略和攻击场景。 

7. ChatGPT插件漏洞利用解释:从提示注入到访问私人数据 

您听说过跨插件请求伪造吗?Johann Rehberger 在他的文章中介绍了针对 ChatGPT 插件的跨插件请求伪造攻击。恶意提示(例如通过网站注入)可以调用经过身份验证的 ChatGPT 插件并代表用户执行特权操作。实际上,这是针对大型语言模型 (LLM) 的跨站点请求伪造 (CSRF) 攻击。 (Johann Rehberger 还在 Ekoparty 2023 上发表了关于即时注射的精彩演讲 )。 

8. 拜登的人工智能行政命令:它的内容以及对安全团队的意义 

2023 年 10 月 30 日,乔·拜登发布了一项关于安全、可靠和值得信赖的人工智能开发和使用的行政命令。该行政命令的许多要点对隐私和安全团队都有影响。 

约瑟夫·撒克 (Joseph Thacker) 为 Wiz 的博客撰写文章,调查了拜登的人工智能行政命令,并解释了其要点和主题。他还讨论了该行政命令对安全团队的影响以及他们需要做什么。 

9. Fuzzomatic 简介:使用 AI 从头开始​​自动模糊 rust 项目 

大型语言模型 (LLM) 可用于漏洞发现。Kudelski Security 的研究人员查询 ChatGPT 的 API 以创建模糊目标(接受数据并测试某些 API 的函数)来模糊 Rust 程序。他们在用 Rust 编写的前 50 个最受欢迎的 GitHub 项目中的 37 个中发现了 14 个错误。最值得注意的是,他们发现了 4 个整数溢出漏洞。 

10. WormGPT:关于 ChatGPT 的恶意表亲,您需要了解什么 ?

恶意行为者正在使用 WormGPT 和 FraudGPT 作为 ChatGPT 的不受限制的替代品。通过这些模型,攻击者可以生成恶意代码、编写网络钓鱼电子邮件或发现漏洞。这提出了一个只会变得更加普遍的新问题:恶意行为者的聊天机器人。请阅读查理·奥斯本 (Charlie Osborne) 撰写的上述文章了解更多内容。

你可能感兴趣的:(网络研究院,人工智能,安全,chatgpt,模型,威胁)