NVIDIA 推出“代理式检索”方案：让企业搜索不只靠相似度

如果你用过“企业知识库+聊天机器人”，大概率遇到过这种尴尬：问题明明在文档里，但机器人就是找不到；或者找到了几段“看起来像”，却回答得不对。最近，NVIDIA NeMo Retriever 团队公开了一套更像“会思考的搜索”的做法：让大模型和检索器反复协作，逐步把答案相关的材料捞出来。

这件事发生了什么？
NVIDIA 团队在 Hugging Face 上介绍了一条“代理式检索（agentic retrieval）”流水线：不是一次性把问题丢给向量检索，而是让一个“会规划”的模型多轮发起检索、评估结果、改写查询、拆分子问题，最后再把最相关的文档汇总出来。这套架构在可视化文档检索榜单 ViDoRe v3 pipeline 拿到第 1，并在偏推理的 BRIGHT 榜单拿到第 2。

要点 1：搜索从“一次命中”变成“多轮试探”。 传统语义检索更像“相似度匹配”；代理式检索更像人类查资料：先搜一轮，看缺什么，再换关键词继续搜，直到证据够用。
要点 2：把复杂问题拆小。 面对多条件、跨文档的问题，代理会把任务拆成更小的查询，分别找证据，再合并。
要点 3：工程上把“工具调用”做轻。 他们提到早期用 MCP（模型上下文协议）把检索器当外部工具调用，但会带来额外的部署/网络开销；后来改成进程内的线程安全单例检索器，减少延迟和故障点，提升吞吐。
要点 4：承认代价，强调适用场景。 这类多轮检索会更慢、更贵（文中给出一次查询可到百秒级），更适合“高价值、错不起”的知识问答、合规检索、复杂报告核对，而不是所有搜索框都要上。

为什么重要？
过去一年大家都在做 RAG，但真正卡住产品体验的常常不是“模型会不会说”，而是“证据找得准不准”。代理式检索把“检索”当成一个可迭代的决策过程：能在不同数据形态（长文档、表格、图文混排）和不同任务（找事实、做推理）之间更稳地迁移。对企业来说，这意味着同一套管线更可能跨部门复用，少一些“为某个数据集写死的技巧”。

谁适合关注？