Gemini 3.5 Thinking 功能是什么？——动态思考机制深度拆解

Gemini 3.5 Flash 是谷歌在2026年I/O大会上发布的新一代智能体与编程模型。它与之前所有Flash系列最大的区别在于：首次引入了多档位 Thinking（思考）模式——让模型在回答问题之前先“在脑子里过一遍”，内部进行链式推理，而不是直接“脱口而出”。结果是复杂任务的准确率大幅提升：3.5 Flash的MCP Atlas得分83.6%，直接超越了Claude Opus 4.7和GPT-5.5。

本文大纲

🧠 Thinking 到底是什么？
⚙️ 四档思考等级详解
🔄 跨轮次思考保留
📊 性能提升多少？
🛠️ 开发者怎么配置？
💰 成本代价与省钱技巧
🧭 什么场景该开？什么场景该省？

Gemini 3.5 Thinking 功能是什么？——动态思考机制深度拆解_图1

图源：AI生成示意图

一、Thinking 到底是什么？

Thinking 模式的工作原理是：模型给出最终回答之前，先在内部进行一次链式推理——把问题拆解、分析、推演一遍，再输出结果。传统模式是“直觉式”的，模型基于训练数据直接输出概率最高的答案；Thinking模式则是“分析式”的，模型自己先想清楚再回答。整个过程对用户透明，但后台已完成一整套逻辑推理。

二、四档思考等级详解

Gemini 3.5 Flash 提供四档可配置的思考等级：Minimal（极简）、Low（低）、Medium（中，默认）和High（高）。

Minimal：适合简单事实查询，几乎不思考，延迟和Token消耗最低
Low：适用于文本润色、短代码生成等轻量任务
Medium（默认） ：覆盖大多数日常场景，兼顾速度与质量
High：最强推理状态，谷歌官方跑分均基于此配置，适合复杂Agent和编程任务

核心价值在于：开发者不再需要在“快”和“准”之间二选一，简单任务用低档省钱，复杂任务调高档保准确率。

三、跨轮次思考保留

传统推理模型每轮对话的思考过程独立，回答完就清空。3.5 Flash 打破了这一限制：模型在多轮对话中保留之前的推理上下文，让思考在轮次之间延续。比如编程辅助中，第一轮理解的代码结构可以直接用于后续修改建议，无需重复推理。但这项功能默认开启，会增加Token消耗，成本敏感场景需评估是否必要。

四、性能提升多少？

在High配置下，3.5 Flash 多项指标大幅超越前代旗舰：

MCP Atlas（多步骤工具调用）：83.6%，超越Claude Opus 4.7（79.1%）和GPT-5.5（75.3%）
Terminal-Bench 2.1（终端编程）：76.2%，超越Opus 4.7（66.1%）
GDPval-AA（真实编程价值）：1656 Elo，远超Gemini 3.1 Pro（1314）
幻觉率：比Gemini 3 Flash下降31个百分点

Artificial Analysis综合智能指数给出55分，比3 Flash提升9分，与Opus 4.7仅差2分，价格仅为其三分之一。

五、开发者怎么配置？

API中将thinking参数改为thinking_level字符串枚举，支持minimal、low、medium、high四个值，默认medium。

const result = streamText({
  model: "google/gemini-3.5-flash",
  prompt: "把这段代码里的API调用改成并行执行。",
  providerOptions: {
    google: {
      thinkingConfig: {
        thinkingLevel: "high",
        includeThoughts: true,
      },
    },
  },
});

注意：temperature、topP、topK和thinking_budget等旧参数不再受支持。API密钥获取入口：https://aistudio.google.com

六、成本代价与省钱技巧

Thinking不是免费午餐——思考过程也消耗Token。API定价为输入$1.50/百万Token、输出$9.00/百万Token，比Gemini 3 Flash涨了3倍。独立评测中，3.5 Flash总成本是3 Flash的5.5倍，甚至比3.1 Pro还高75%。

省钱技巧：

启用上下文缓存：缓存输入仅$0.15/百万Token，是原价的10%
用Batch API：批量处理享约50%折扣
按任务选等级：简单任务用Low/Medium，只在复杂Agent工作流切High

七、什么场景该开？什么场景该省？

开High模式：多步骤Agent工作流、复杂代码重构、金融分析、长文档深度推理、多轮工具调用。

用Medium/Low：日常对话、简单代码补全、内容润色、快速摘要。

用Minimal甚至关闭：简单事实查询、批量标准化文本处理、实时聊天机器人等对延迟敏感的应用。

核心原则：让任务复杂度决定思考深度，不要一刀切全开High。

总结

Gemini 3.5 Flash的Thinking功能本质上是用可控成本换取推理深度。四档思考等级让开发者首次可以在“快”和“准”之间做精细化调节，跨轮次思考保留则解决了多轮对话上下文断裂的问题。用好Thinking的关键：给对的任务配对的等级。

对于需要将大模型Agent推理能力与企业内部业务系统深度结合的团队，实在Agent 通过“TARS大模型+ISSUT智能屏幕语义理解+RPA引擎”三位一体架构，将推理能力直接落到跨系统操作中，不依赖软件接口，可操控各类新旧业务应用。已通过中国信通院智能体平台最高等级评估，支持私有化部署与全链路操作审计。重复性读取、填表由RPA引擎执行，不消耗大模型Token；企业可自由选用DeepSeek、智谱AI、通义千问、Kimi等国产大模型进行私有化部署。目前已服务超5000家企业，覆盖金融、电商、跨境、制造业等领域。

金融服务商

通信运营商

零售电商

跨境电商

政府及公共服务

能源及制造业

医药行业

更多行业客户

Gemini 3.5 Thinking 功能是什么？——动态思考机制深度拆解

本文大纲

一、Thinking 到底是什么？

二、四档思考等级详解

三、跨轮次思考保留

四、性能提升多少？

五、开发者怎么配置？

六、成本代价与省钱技巧

七、什么场景该开？什么场景该省？

总结

热门文章推荐

相关新闻

多源数据合并去重，实在Agent如何成就智能决策

亚马逊无货源模式需要投资多少钱？亚马逊无货源模式投资所需介绍

违规文本内容智能识别

立即领取行业头部企业 AI 应用案例