一部没有App商店的按键手机,也能用上“会说话的AI助手”——这两天印度 AI 公司 Sarvam 在 India AI Impact Summit 上展示了一个很直观的方向:把大模型能力拆成“能装进设备、能离线跑”的小模型,再把它塞进手机、汽车甚至眼镜里。
他们一口气公布了两款面向多语言场景的模型(Sarvam-30B 与 Sarvam-105B),并把重点放在“效率”上:不是一味堆参数,而是用混合专家(MoE)让每次回答只动用其中一小部分计算,从而降低延迟与成本。
这次发生了什么(抓住 4 个要点)
- 把大模型做成“更省电的版本”:公开信息显示,Sarvam-30B 采用 MoE 架构,每次推理激活的参数量更小,目标是更低延迟的对话体验。
- 更长的“记忆窗口”:报道提到 Sarvam-105B 最高支持 128K 上下文窗口,适合长文档理解、工具调用、编码等更重的任务。
- 把 AI 带到更便宜的设备上:Sarvam 展示了与 HMD(诺基亚手机背后的公司)合作的按键机 AI 助手演示:按一个专用按钮,用本地语言询问政策、市场信息等。
- 端侧/边缘 AI 正在“从概念走向产品”:他们还提到会把能力放进车载与眼镜等设备里——这意味着 AI 的入口不再只在云端 App,而是在你随手可触的硬件上。
为什么这件事重要
过去一年大家讨论大模型,常常绕不开“算力贵、延迟高、隐私担忧”。而“端侧 AI”的路线,给了另一种解法:把常用能力(语音唤醒、简单问答、离线摘要)尽可能放到设备上,既能更快响应,也能减少把敏感数据上传云端的压力。对普通用户来说,这也可能让 AI 从“高端旗舰的功能”变成“千元机也能用的工具”。
谁最该关注
- 想买更耐用、更省心设备的人:如果 AI 能在本地跑,弱网或没网也能用一部分功能。
- 做内容/客服/本地生活的小团队:更低成本的语音助手,可能会催生一批“轻量级自动化”。
- 关注隐私的人:端侧处理越多,上传越少,风险面就越小(当然也要看具体实现)。
接下来真正的看点是:这些模型和功能会以什么形式开放给开发者与用户、能否稳定落地到量产设备、以及在多语言语音场景里能做到多自然。端侧 AI 的“下一站”,很可能就是你手里那台设备的一个新按钮。
我会在 wuxing.name 持续更新每天的 AI 趋势,用尽量少的术语讲清楚它和普通人有什么关系;如果你想要我跟进某个产品/模型,也欢迎留言点题。