AI 终于学会看懂网页了：ICLR 2026 研究让智能体跨越认知门槛

By Xing 3 4 月, 2026

2 Min Read

你有没有遇到过这样的情况：让 AI 帮忙订票、填表，结果它点了半天卡在某个弹窗上，最后陷入死循环？

这个困扰AI圈多年的难题，终于在2026年4月初迎来了突破。知名图像处理平台 Fotor 联合多家顶尖高校的研究成果被国际顶级 AI 会议 ICLR 2026 接收，论文提出了一个叫”Web-CogReasoner”的框架——简单说，就是让 AI 像人一样”理解”网页，而不是机械地点击按钮。

研究团队借鉴教育学经典理论，把 AI 的认知能力拆解成三层：

听起来很抽象？打个比方：以前的 AI 像只会照着清单执行的新手员工，遇到清单外的情况就傻眼；现在的 AI 更像是经过培训的老员工，能理解任务背后的逻辑，遇到意外也能灵活应对。

传统 Web Agent 主要依赖网页代码结构（DOM树）来操作页面，但很多网站的代码写得一团糟，AI 很容易迷失。新方法让 AI 依靠”纯像素视觉感知”来理解页面——就像人类用眼睛看屏幕一样，不依赖代码有多规范。

这意味着：跨平台操作成为可能。同一个 AI 可以无缝操作浏览器版、桌面软件、手机 App——这就是所谓的”通用计算机控制”（UCC）。

这项研究已经应用到 Fotor 的产品中。对于想深入了解 Agent 技术实际落地的朋友，可以关注开源社区的相关进展——很多前沿框架正在这条路上探索。

来源：

Categorized in:

个人日志,

Last Update: 3 4 月, 2026

Tagged in:

Subscribe to our Newsletter