AI 开始“代你办事”后，安全规则也变了：OpenAI 上线安全悬赏计划

By Xing 30 3 月, 2026

3 Min Read

这两天，OpenAI 做了一件很“反直觉”但很重要的事：除了传统的软件漏洞悬赏（Security Bug Bounty），又单独上线了一个面向AI 安全与滥用风险的公开悬赏计划（Safety Bug Bounty）。它关注的不是“系统被黑了没有”，而是“模型和智能体会不会被诱导去做坏事”。

一句话理解：当 AI 从“会聊天”走向“会帮你点按钮、跑流程、调用外部工具”的智能体时代，安全的重点正在从“补漏洞”转向“防误用、防劫持、防泄露”。

要点解释（看懂这 4 条就够）

安全悬赏的范围变了：不只收传统漏洞，也收“能造成真实伤害的滥用路径”。比如第三方提示注入（prompt injection）导致智能体被劫持、诱导外传敏感信息（data exfiltration）。
强调可复现：这类问题往往不像软件漏洞那样“一击必杀”。官方要求可重复触发（例如达到一定成功率），更符合智能体场景的现实。
“越权”仍走安全漏洞通道：如果是绕过权限、访问不该拿到的数据或功能，仍应按传统安全漏洞上报；而新计划更偏“AI 行为层面的风险”。
背后有一套公开的“行为规则书”：OpenAI 近期也详细解释了他们的 Model Spec（模型行为规范）：当指令冲突时如何取舍、哪些是不可逾越的硬边界、哪些默认行为可以被用户显式调整。

过去我们担心的是“网站会不会被攻破”。接下来更常见的风险是：你把 AI 接进了浏览器、企业系统、工单、表格、邮件……它变成了半个“员工”。这时攻击者不一定要攻破系统，只要让 AI 相信一段看似无害的文本，就可能引导它去复制粘贴机密、发错邮件、或者触发不该执行的操作。

如果你对“智能体怎么做得更稳、更安全”感兴趣，可以逛逛 wuxing.name，我会持续把复杂的新趋势翻译成更好懂、可直接用的实践建议。也欢迎在评论区留言：你最担心 AI 自动化带来哪类风险？

来源：
OpenAI：Safety Bug Bounty；
Bugcrowd：OpenAI Safety 项目页；
OpenAI：Inside our approach to the Model Spec

Categorized in:

个人日志,

Last Update: 30 3 月, 2026

Tagged in: