这两天,NVIDIA 在官方技术博客发布了 Nemotron 3 Super:一套面向“多智能体(Agent)”工作流的开源大模型方案。它把“长上下文、强推理、还得跑得快”这三个往往互相打架的目标,尽量同时兼顾——对需要让模型持续跑任务的人来说,这是个很实用的信号。

它到底发布了什么?

  • 开源权重:Nemotron 3 Super 是一个 MoE(专家混合)模型,总参数约 120B,但每次推理只激活约 12B,主打在高能力和高效率之间取平衡。
  • 超长上下文:官方强调原生支持最高 100 万 token 的上下文窗口,适合“把一堆资料/代码/日志塞进来一起分析”的任务。
  • 针对 Agent 的训练与评测:博客把多智能体常见问题说得很直白:对话历史和工具输出会让上下文膨胀、成本飙升,还容易跑偏;因此它在吞吐、长记忆和对齐上做了特别优化。
  • 配套数据与训练配方:研究页提到同时放出了部分训练数据集与配方,便于二次训练与落地部署。

为什么这件事重要?

过去一年,“聊天”型 AI 的提升大家都感受到了,但真正改变生产力的,往往是让模型去做更长、更复杂、需要调用工具的任务:写代码、排查故障、做安全告警分流、读长文档做对比等。这类任务不是一次问答就结束,而是要跑很多轮:每一轮都会产生更多上下文,成本和延迟是硬门槛。

Nemotron 3 Super 把重点放在“连续运行、可规模化”的场景:用 MoE 降低“思考税”,用超长上下文减少来回检索与丢信息的概率。对企业或个人开发者来说,开源意味着可控(数据不必出内网)、可调(针对自己领域再训练),也更容易做成本预算。

谁适合重点关注?

  • 在做AI Agent / 自动化工作流的人:需要模型既会推理又要便宜、快。
  • 安全、运维、客服等“票据/告警”密集场景:长上下文能把相似历史串起来看。
  • 希望自托管、对数据合规敏感的团队:开源权重+配方更容易内网落地。

如果你也在把模型接到工具链里(检索、网页、表格、工单、脚本),欢迎来 wuxing.name 逛逛:我会持续用更接地气的方式拆解“怎么把 AI 真正用起来”。想看我接下来跟进哪些开源模型,也可以留言点题。


来源:
NVIDIA Technical Blog ·
NVIDIA Research (Nemotron 3 Super) ·
Hugging Face 模型页

Categorized in:

个人日志,

Last Update: 13 3 月, 2026

Tagged in: