如果你用过“企业知识库+聊天机器人”,大概率遇到过这种尴尬:问题明明在文档里,但机器人就是找不到;或者找到了几段“看起来像”,却回答得不对。最近,NVIDIA NeMo Retriever 团队公开了一套更像“会思考的搜索”的做法:让大模型和检索器反复协作,逐步把答案相关的材料捞出来。

这件事发生了什么?
NVIDIA 团队在 Hugging Face 上介绍了一条“代理式检索(agentic retrieval)”流水线:不是一次性把问题丢给向量检索,而是让一个“会规划”的模型多轮发起检索、评估结果、改写查询、拆分子问题,最后再把最相关的文档汇总出来。这套架构在可视化文档检索榜单 ViDoRe v3 pipeline 拿到第 1,并在偏推理的 BRIGHT 榜单拿到第 2。

  • 要点 1:搜索从“一次命中”变成“多轮试探”。 传统语义检索更像“相似度匹配”;代理式检索更像人类查资料:先搜一轮,看缺什么,再换关键词继续搜,直到证据够用。
  • 要点 2:把复杂问题拆小。 面对多条件、跨文档的问题,代理会把任务拆成更小的查询,分别找证据,再合并。
  • 要点 3:工程上把“工具调用”做轻。 他们提到早期用 MCP(模型上下文协议)把检索器当外部工具调用,但会带来额外的部署/网络开销;后来改成进程内的线程安全单例检索器,减少延迟和故障点,提升吞吐。
  • 要点 4:承认代价,强调适用场景。 这类多轮检索会更慢、更贵(文中给出一次查询可到百秒级),更适合“高价值、错不起”的知识问答、合规检索、复杂报告核对,而不是所有搜索框都要上。

为什么重要?
过去一年大家都在做 RAG,但真正卡住产品体验的常常不是“模型会不会说”,而是“证据找得准不准”。代理式检索把“检索”当成一个可迭代的决策过程:能在不同数据形态(长文档、表格、图文混排)和不同任务(找事实、做推理)之间更稳地迁移。对企业来说,这意味着同一套管线更可能跨部门复用,少一些“为某个数据集写死的技巧”。

谁适合关注?

  • 正在做企业知识库/客服机器人/内部问答的产品与运营:可以用它来解释“为什么有时找不到”。
  • 做搜索、数据平台、合规检索的工程团队:可以把“多轮检索策略”当成可配置能力,而不是只调向量阈值。
  • 希望把 AI 用在“需要证据链”的工作流里的人:比如审计、投研、法务、医疗文档。

如果你想快速上手,NeMo Retriever 的仓库里已经给出了 agentic-retrieval 的评测入口(命令行可直接跑),可以先从小数据集做一次端到端验证,再决定要不要把它搬进业务。

我会在 wuxing.name 持续记录这些“能落到产品里的 AI 变化”。如果你在做知识库/RAG,欢迎把你遇到的检索难题留言,我会挑典型问题做一篇拆解。

来源:
Hugging Face 博文
ViDoRe v3 pipeline 榜单
NeMo Retriever(agentic retrieval 说明)

Categorized in:

个人日志,

Last Update: 15 3 月, 2026

Tagged in: