这两天 Google 更新了 Gemini 3 的专用推理模式 Deep Think,把重点从“会生成”进一步推向“能推理、能做研究与工程问题求解”。
一句话理解:它更像一个“高强度思考档”,面向数据不完整、没有标准答案、需要反复验证的任务,让推理过程更扎实、更可检验。
最值得读懂的 4 点:
- 场景更具体:数学论文逻辑漏洞识别、材料/晶体生长方案优化、草图转 3D 打印文件等,指向“研究/研发”类工作。
- 更看重泛化:强调 ARC-AGI-2 这类抽象推理基准(看少量示例推断规则再应用),比背知识点更考验举一反三。
- 指标更亮眼:例如 ARC-AGI-2 84.6%、Humanity’s Last Exam 48.4%(不使用工具)、Codeforces 3455 Elo——别纠结数字本身,把它当作“推理能力在加速强化”的信号即可。
- 开始进工作流:除了 Gemini App,Deep Think 还通过 Gemini API 的早期项目开放意向申请,意味着它准备被接进产品与流程。
为什么重要?写作和检索能省时间,但真正影响生产力的往往是“必须做对”的环节:把约束讲清、把假设列全、把结果验证到位。推理型模式稳定后,可能最先改变读论文与纠错、实验/方案迭代、仿真脚本生成等环节。
谁适合关注?学生与研究者、小团队研发、以及想把 AI 放进关键流程的产品人。
我会在 wuxing.name 持续用短文跟进这些变化;欢迎留言说说你最想让推理型模型帮你解决哪类工作难题。
来源:
1) Google Blog:Gemini 3 Deep Think: Advancing science, research and engineering
2) arXiv:ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems