Gemini 3.5 Thinking 功能是什么?——动态思考机制深度拆解
Gemini 3.5 Flash 是谷歌在2026年I/O大会上发布的新一代智能体与编程模型。它与之前所有Flash系列最大的区别在于:首次引入了多档位 Thinking(思考)模式——让模型在回答问题之前先“在脑子里过一遍”,内部进行链式推理,而不是直接“脱口而出”。结果是复杂任务的准确率大幅提升:3.5 Flash的MCP Atlas得分83.6%,直接超越了Claude Opus 4.7和GPT-5.5。
本文大纲
- 🧠 Thinking 到底是什么?
- ⚙️ 四档思考等级详解
- 🔄 跨轮次思考保留
- 📊 性能提升多少?
- 🛠️ 开发者怎么配置?
- 💰 成本代价与省钱技巧
- 🧭 什么场景该开?什么场景该省?
一、Thinking 到底是什么?
Thinking 模式的工作原理是:模型给出最终回答之前,先在内部进行一次链式推理——把问题拆解、分析、推演一遍,再输出结果。传统模式是“直觉式”的,模型基于训练数据直接输出概率最高的答案;Thinking模式则是“分析式”的,模型自己先想清楚再回答。整个过程对用户透明,但后台已完成一整套逻辑推理。
二、四档思考等级详解
Gemini 3.5 Flash 提供四档可配置的思考等级:Minimal(极简)、Low(低)、Medium(中,默认)和High(高)。
- Minimal:适合简单事实查询,几乎不思考,延迟和Token消耗最低
- Low:适用于文本润色、短代码生成等轻量任务
- Medium(默认) :覆盖大多数日常场景,兼顾速度与质量
- High:最强推理状态,谷歌官方跑分均基于此配置,适合复杂Agent和编程任务
核心价值在于:开发者不再需要在“快”和“准”之间二选一,简单任务用低档省钱,复杂任务调高档保准确率。
三、跨轮次思考保留
传统推理模型每轮对话的思考过程独立,回答完就清空。3.5 Flash 打破了这一限制:模型在多轮对话中保留之前的推理上下文,让思考在轮次之间延续。比如编程辅助中,第一轮理解的代码结构可以直接用于后续修改建议,无需重复推理。但这项功能默认开启,会增加Token消耗,成本敏感场景需评估是否必要。
四、性能提升多少?
在High配置下,3.5 Flash 多项指标大幅超越前代旗舰:
- MCP Atlas(多步骤工具调用):83.6%,超越Claude Opus 4.7(79.1%)和GPT-5.5(75.3%)
- Terminal-Bench 2.1(终端编程):76.2%,超越Opus 4.7(66.1%)
- GDPval-AA(真实编程价值):1656 Elo,远超Gemini 3.1 Pro(1314)
- 幻觉率:比Gemini 3 Flash下降31个百分点
Artificial Analysis综合智能指数给出55分,比3 Flash提升9分,与Opus 4.7仅差2分,价格仅为其三分之一。
五、开发者怎么配置?
API中将thinking参数改为thinking_level字符串枚举,支持minimal、low、medium、high四个值,默认medium。
const result = streamText({
model: "google/gemini-3.5-flash",
prompt: "把这段代码里的API调用改成并行执行。",
providerOptions: {
google: {
thinkingConfig: {
thinkingLevel: "high",
includeThoughts: true,
},
},
},
});注意:temperature、topP、topK和thinking_budget等旧参数不再受支持。API密钥获取入口:https://aistudio.google.com
六、成本代价与省钱技巧
Thinking不是免费午餐——思考过程也消耗Token。API定价为输入$1.50/百万Token、输出$9.00/百万Token,比Gemini 3 Flash涨了3倍。独立评测中,3.5 Flash总成本是3 Flash的5.5倍,甚至比3.1 Pro还高75%。
省钱技巧:
- 启用上下文缓存:缓存输入仅$0.15/百万Token,是原价的10%
- 用Batch API:批量处理享约50%折扣
- 按任务选等级:简单任务用Low/Medium,只在复杂Agent工作流切High
七、什么场景该开?什么场景该省?
开High模式:多步骤Agent工作流、复杂代码重构、金融分析、长文档深度推理、多轮工具调用。
用Medium/Low:日常对话、简单代码补全、内容润色、快速摘要。
用Minimal甚至关闭:简单事实查询、批量标准化文本处理、实时聊天机器人等对延迟敏感的应用。
核心原则:让任务复杂度决定思考深度,不要一刀切全开High。
总结
Gemini 3.5 Flash的Thinking功能本质上是用可控成本换取推理深度。四档思考等级让开发者首次可以在“快”和“准”之间做精细化调节,跨轮次思考保留则解决了多轮对话上下文断裂的问题。用好Thinking的关键:给对的任务配对的等级。
对于需要将大模型Agent推理能力与企业内部业务系统深度结合的团队,实在Agent 通过“TARS大模型+ISSUT智能屏幕语义理解+RPA引擎”三位一体架构,将推理能力直接落到跨系统操作中,不依赖软件接口,可操控各类新旧业务应用。已通过中国信通院智能体平台最高等级评估,支持私有化部署与全链路操作审计。重复性读取、填表由RPA引擎执行,不消耗大模型Token;企业可自由选用DeepSeek、智谱AI、通义千问、Kimi等国产大模型进行私有化部署。目前已服务超5000家企业,覆盖金融、电商、跨境、制造业等领域。
本文内容通过AI工具匹配关键字智能整合而成,仅供参考,实在智能不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系contact@i-i.ai进行反馈,实在智能收到您的反馈后将及时答复和处理。




