为什么难以抵御AI提示性注入攻击 - The Register

提示注入难以彻底防御，因为模型在同一语言上下文中同时接收开发者指令、外部内容和用户输入，无法可靠区分可信命令与恶意文本。攻击者可以借网页、文档或对话覆盖原任务，诱导模型泄露信息或误用工具。工程上应采用最小权限、隔离不可信内容、限制工具能力、验证输出并保留人工确认，而不能只依赖提示词。

ChatGPT网页版曾暴露出一种提示注入风险：恶意网站可以在用户复制文本时悄悄追加指令，用户把这段文本粘贴进聊天后，模型可能按隐藏指令在回答中生成一张极小的Markdown图片，并把聊天内容编码进图片地址参数。浏览器加载图片时，请求会发往攻击者服务器，提示、代码甚至密钥等敏感信息就可能随URL泄露。攻击本身不依赖传统漏洞，而是组合了剪贴板篡改、模型服从自然语言指令、前端自动渲染远程图片这几件看似正常的事。它还可能要求模型在未来回答中持续附加同类图片，从而扩大泄露范围。由于模型输出不稳定，攻击成功受上下文、注入位置、用户提问方式和目标数据类型影响，但风险足够明确：把不可信文本直接交给大模型，本质上是在执行一段自然语言程序。防护需要限制外部资源渲染、警惕粘贴内容被污染、对模型输出中的远程加载做隔离，并把提示注入视为应用层安全问题，而不是单纯的用户粗心。

为什么难以抵御AI提示性注入攻击 - The Register

对ChatGPT的提示性注入攻击窃取聊天数据 | 系统弱点