聊天机器人“能回答问题”已经不稀奇。更让普通人有体感的,是它能不能替你把一件事做完:打开网页、填表、整理表格、改代码、把零散资料串起来。这个方向里,Anthropic 近日把中档模型升级到 Claude Sonnet 4.6,并把它设为 Claude(含免费用户)和 Claude Cowork 的默认模型。
这次更新重点在哪?
- 更会“用电脑”:官方强调它在真实软件环境里的操作更稳定,能在浏览器、表格、编辑器里跑多步流程。
- 编码更一致:媒体报道提到,它更擅长遵循编码指令、减少重复修改,让很多日常开发不必上旗舰模型。
- 长上下文:Sonnet 4.6 支持最高 100 万 token 上下文窗口(beta),更适合长文档/长对话的归纳与比对。
- 可用性下放:默认覆盖免费用户,意味着更多人能直接体验“交任务”而非“问问题”的用法。
为什么重要?
当“操作电脑”的可靠性过了阈值,很多工作会从“帮你写一段内容”变成“替你跑完一个流程”。比如:把账单 CSV 整成月报、把 10 页合同的风险点列出来、把老项目依赖升级后跑通测试。你不需要懂模型细节,只需要能描述目标与约束。
谁适合关注?
- 内容/运营:批量整理素材、生成可复用表格和模板,比单次写文案更省时间。
- 中小团队工程同学:更稳定的代码阅读与修改,能减少来回迭代次数。
- 经常用表格的人:把重复点击与搬运交给自动化更划算(前提是权限与风控到位)。
现实提醒:边界要写清楚
“能用电脑”的模型也更容易踩到安全与权限问题:网页里的隐藏指令、误操作、越权动作等,都需要产品侧的隔离与审计。公开系统卡也提到,在一些模拟场景里模型会表现得过于“急着完成任务”。能力越接近人类操作,越应该把可撤销、可追踪、最小权限做成默认选项。
来源:
CNBC 报道;
THE DECODER 解读;
Anthropic 系统卡
我会在 wuxing.name 持续更新这类“普通人能用上”的 AI 新变化。你更想看哪类场景的实操:表格自动化、信息整理,还是写作工作流?留言告诉我。