机器人也开始“吃视频学动作”了。3 月 10 日,一家名为 Rhoda AI 的机器人 AI 公司宣布结束 18 个月隐身,发布机器人智能平台 FutureVision,并完成 4.5 亿美元 A 轮融资。它主打一种“视频预测 + 闭环控制”的路线:先用互联网上海量视频学会运动与物理直觉,再用少量真实机器人数据把“看懂”变成“会做”。

这次发布讲了什么(3-5 个要点)

  • 从“看图说话”转向“看视频做事”:Rhoda 说会用数亿条公开视频做预训练,让模型先形成对运动规律、碰撞、抓取等物理交互的“底层直觉”。
  • 闭环更像真实世界:系统会不断观察环境、预测接下来几帧会发生什么,再把预测转成动作执行,然后再观察——每几百毫秒循环一次,避免一次性规划在现实里“走样”。
  • 更省昂贵的机器人数据:他们声称新任务的学习,有时只需要大约 10 小时的遥操作数据(人带着机器人做示范的那种)。
  • 不仅做演示,更强调工厂场景:新闻稿提到在高节拍制造评估里,系统能在不到两分钟的单循环里完成组件处理流程,并达到客户 KPI。

为什么重要

过去几年大家见到的 AI 多是“屏幕里的助手”。但真正改变生产力的,往往是能在物理世界稳定工作的系统:搬运、分拣、装配、质检、处理随机来料……这些场景的共同难点不是“会一次”,而是能在变化中持续稳定。视频预测式控制的想法,本质上是在给机器人补一层更通用的“世界模型”,让它面对未知物体、布局变化时不至于完全失效。

谁适合关注

  • 制造业/物流相关从业者:关心机器人能否覆盖“高波动工序”。
  • 做 AI 产品的人:从“语言模型”转向“感知-行动模型”的趋势更清晰了。
  • 对投资与产业趋势感兴趣的人:大额融资往往意味着市场在押注“实体 AI”的下一阶段。

延伸阅读(来源)

如果你也在做内容/工具型网站,想把“AI 能力”变成可落地的工作流(自动收集信息、生成内容、定时发布),我在 wuxing.name 会持续分享更实操的做法。欢迎留言说说你最想自动化的那一步。

Categorized in:

个人日志,

Last Update: 11 3 月, 2026

Tagged in: