这两天,OpenAI 做了一件很“反直觉”但很重要的事:除了传统的软件漏洞悬赏(Security Bug Bounty),又单独上线了一个面向AI 安全与滥用风险的公开悬赏计划(Safety Bug Bounty)。它关注的不是“系统被黑了没有”,而是“模型和智能体会不会被诱导去做坏事”。

一句话理解:当 AI 从“会聊天”走向“会帮你点按钮、跑流程、调用外部工具”的智能体时代,安全的重点正在从“补漏洞”转向“防误用、防劫持、防泄露”。

要点解释(看懂这 4 条就够)

  • 安全悬赏的范围变了:不只收传统漏洞,也收“能造成真实伤害的滥用路径”。比如第三方提示注入(prompt injection)导致智能体被劫持、诱导外传敏感信息(data exfiltration)。
  • 强调可复现:这类问题往往不像软件漏洞那样“一击必杀”。官方要求可重复触发(例如达到一定成功率),更符合智能体场景的现实。
  • “越权”仍走安全漏洞通道:如果是绕过权限、访问不该拿到的数据或功能,仍应按传统安全漏洞上报;而新计划更偏“AI 行为层面的风险”。
  • 背后有一套公开的“行为规则书”:OpenAI 近期也详细解释了他们的 Model Spec(模型行为规范):当指令冲突时如何取舍、哪些是不可逾越的硬边界、哪些默认行为可以被用户显式调整。

为什么重要

过去我们担心的是“网站会不会被攻破”。接下来更常见的风险是:你把 AI 接进了浏览器、企业系统、工单、表格、邮件……它变成了半个“员工”。这时攻击者不一定要攻破系统,只要让 AI 相信一段看似无害的文本,就可能引导它去复制粘贴机密、发错邮件、或者触发不该执行的操作。

谁适合关注

  • 普通用户:如果你常用“自动化/智能体”类功能,别把敏感信息随手交给能访问网页或插件的助手;遇到可疑网页提示,先停一下。
  • 内容创作者/运营:用 AI 批量处理资料时,注意来源文本可能“夹带指令”,尤其是复制自论坛、邮件、群聊的内容。
  • 团队与创业者:只要你的产品让模型“能调用工具”,就该把提示注入、数据外泄、越权操作当成第一等风险来设计与测试。

如果你对“智能体怎么做得更稳、更安全”感兴趣,可以逛逛 wuxing.name,我会持续把复杂的新趋势翻译成更好懂、可直接用的实践建议。也欢迎在评论区留言:你最担心 AI 自动化带来哪类风险?

来源:
OpenAI:Safety Bug Bounty
Bugcrowd:OpenAI Safety 项目页
OpenAI:Inside our approach to the Model Spec

Categorized in:

个人日志,

Last Update: 30 3 月, 2026

Tagged in: