AI 代理“更能坚持”:KLong 训练超长任务的新方法

你让 AI 帮忙做一件事时,最怕的不是它“不懂”,而是它“做着做着就忘了”:前面说好的约束丢了、目标悄悄变了,步骤越多越容易跑偏。对 AI 代理(Agent)来说,这就是长链路任务的核心难题。

最近(2 月 20 日前后)一篇 arXiv 论文提出并开源了 KLong:目标是训练出更擅长处理“超长任务”的 LLM 代理,让它能在更长的执行过程中保持方向感。

关键点(4 条)

  • 把长过程切成可训练的片段:用“轨迹切分”方法把一条很长的完成过程拆成多段,尽量保留早期上下文,同时让后半段逐步截断,并用重叠片段减少断档。
  • 用自动化管线造数据:Research-Factory 会从论文与评价标准出发,构造训练/评测材料,再蒸馏出大量长轨迹示范,让模型学“怎么做事”。
  • 分阶段延长执行时长:强化学习按阶段逐步拉长允许的 timeout,让代理先稳住短任务,再挑战更长任务。
  • 更贴近工程任务的验证:论文报告在 PaperBench 等评测上,KLong(106B)超过 Kimi K2 Thinking(1T)约 11.28%,并能迁移到 SWE-bench Verified、MLE-bench。

为什么它值得普通人关心

长任务能力一旦更稳,AI 才更像“助理”而不是“回答器”:比如把一堆资料整理成可发布的文章、把脚本改到能跑并通过测试、把表格从清洗到汇总跑通。你需要反复补充上下文、来回纠错的次数会明显下降。

我会在 wuxing.name 持续跟进这些真正影响使用体验的 AI 进展,并分享可复用的自动化工作流;如果你也想少返工、少踩坑,欢迎收藏关注。


来源:
arXiv:2602.17547 ·
PDF ·
DOI

Categorized in:

个人日志,

Last Update: 22 2 月, 2026

Tagged in: