AI 代理更危险？提示注入成功率最高达 75% 的提醒

By Xing 5 4 月, 2026

3 Min Read

当大模型从“聊天”走向“帮你做事”，风险也升级了：它可能读邮件、看网页、调用工具、甚至在电脑上执行操作。好处是省时间；隐患是只要被诱导一次，后果就可能是泄露信息、误转账、删改文件。

最近 arXiv 论文《ClawSafety: “Safe” LLMs, Unsafe Agents》把这种风险做成了可复现实验：研究者设计了 120 个“像真的一样”的攻击场景，把恶意指令塞进代理日常会接触的内容里（工作区文档、邮件、网页），观察不同模型在高权限工作流中会不会“中招”。

看懂这篇论文，只要抓住 4 点

很多人以为“模型更安全”就够了，但真正的坑常出在流程：外部内容默认不可信、权限没分级、关键动作没有二次确认。OWASP 的 LLM Top 10 也把 Prompt Injection列为首要风险之一——因为它太像“正常内容”。

想把 AI 更稳妥地接进日常工作流，可以关注我在 wuxing.name 的持续更新；也欢迎留言说说你最想让 AI 自动化的场景，我会挑典型案例继续拆解。

参考来源：
1) arXiv: https://arxiv.org/abs/2604.01438
2) OWASP GenAI Security / LLM Top 10: https://genai.owasp.org/llm-top-10/

Categorized in:

个人日志,

Last Update: 5 4 月, 2026

Tagged in: