Gemini 3.5 能够生成视频吗？——分清 Flash、Pro、Omni，答案比你想的更具体

Gemini 3.5 是谷歌在2026年Google I/O大会上发布的新一代模型体系，包含三个定位不同的成员：Gemini 3.5 Flash、Gemini 3.5 Pro 和 Gemini Omni。其中，Flash 和 Pro 是文本/多模态理解模型，输出形式为文本，不具备视频生成能力；视频生成任务由全新独立模型 Gemini Omni 承担，它融合了谷歌的Veo视频生成技术、Nano Banana图像技术与Genie世界模型，专攻“任意输入→视频输出”的全模态创作方向。

本文大纲

🧬 分清三位成员：Flash、Pro、Omni 各自是什么
🎬 Gemini Omni：谷歌给 Gemini 装上“视频引擎”
📥 Omni 怎么“投喂”：支持哪些输入组合
✂️ 对话式编辑：改视频像聊天一样简单
🧠 不只是生成：理解物理世界的“世界模型”
🚪 Omni 在哪里能用？订阅与平台速查
🆚 Omni vs Veo：一张表看懂关系

Gemini 3.5 能够生成视频吗？——分清 Flash、Pro、Omni，答案比你想的更具体_图1

图源：AI生成示意图

一、分清三位成员：Flash、Pro、Omni 各自是什么

Gemini 3.5 系列在 I/O 大会上共亮相了三款模型，它们的职责完全不同：

Gemini 3.5 Flash：即日起向全球用户开放的日常主力模型，输出为文本，具备代码生成、UI图形生成和多模态理解能力，生成速度是其他前沿模型的4倍。
Gemini 3.5 Pro：更强大的版本，目前仅在谷歌内部使用，计划下月对外发布，同样不涉及视频生成。
Gemini Omni：本次发布的视频生成专用模型，首发版本为 Gemini Omni Flash。它整合了谷歌的Gemini推理能力与Veo视频生成、Nano Banana图像生成、Genie世界模型三大技术底座，是一个全新的多模态生成系统。

结论很明确：能生成视频的只有 Gemini Omni，Flash 和 Pro 不具备视频生成能力。

二、Gemini Omni：谷歌给 Gemini 装上“视频引擎”

Gemini Omni 并不是在Gemini 3.5 Flash基础上“加个视频功能”，而是一个从架构层面就面向多模态生成设计的独立模型。谷歌CEO桑达尔·皮查伊将它描述为“可以从任何输入生成任何输出”的全模态系统，首发落地的是视频输出，图像与音频生成将在后续版本中推出。

从技术架构看，Omni 背后融合了谷歌多条生成式AI技术线：Veo提供视频生成基础能力，Nano Banana处理图像理解与生成，Genie提供世界模型与物理模拟能力。三者的整合让Omni不仅能“画”出画面，还能理解画面中的物体关系、运动规律和场景逻辑。

Omni 首发版本 Gemini Omni Flash 的生成规格：单次生成10秒视频，支持同步音频，所有输出自动嵌入SynthID数字水印。

三、Omni 怎么“投喂”：支持哪些输入组合

Gemini Omni 支持四种模态的任意组合输入：

纯文本：只给一句提示词即可生成视频。发布会上展示的案例包括“用粘土动画风格解释蛋白质折叠”，生成的视频中氨基酸链折叠成α螺旋和β折叠的每一步都科学准确。
文本 + 图片：上传一张静态图片，配一句描述，Omni将图片转化为动态视频。例如上传产品照片，生成展示视频。
文本 + 图片 + 音频：组合图片、音乐和文字描述，生成带有同步音频的视频。目前音频输入仅支持语音录音，更广泛的音频支持将在后续版本推出。
文本 + 视频：上传一段已有视频，Omni在此基础上进行风格迁移或场景重构。

注意：Omni当前的输出形式仅为视频（含同步音频），文本和图像的生成/输出功能将在后续版本中陆续推出。

四、对话式编辑：改视频像聊天一样简单

传统视频编辑需要时间轴、关键帧、遮罩等专业操作。Gemini Omni 的核心交互方式是自然语言对话式编辑——生成视频后，用户可以在聊天中继续提出修改需求，Omni 在保持画面整体逻辑的前提下完成局部调整。

实测中已验证的编辑能力包括：

场景替换：“把背景换成黑洞附近的空间站”，保留人物动作不变
风格迁移：“把这段视频变成复古未来主义风格”
元素替换：“把画面里的狗换成猫”
多轮迭代：基于上一次结果继续优化，而非每次从头生成

从工程视角看，对话式编辑背后是一套编辑图谱机制：输入解析→视频理解→编辑规划→生成执行→一致性校验→多轮迭代。这种设计让视频创作从“一次性生成”进入“交互式迭代”阶段。

五、不只是生成：理解物理世界的“世界模型”

Gemini Omni 的核心差异化能力之一，是它对物理世界的理解与模拟。谷歌强调，Veo、Nano Banana等模型已经能生成视频和图片，但Gemini Omni更进一步——它开始处理动能、重力、流体动力学等更接近真实物理世界的问题。

这意味着Omni生成的视频不仅仅是视觉上好看，而是在物理逻辑上更加合理。例如，一个“弹珠落地”的视频中，弹珠的弹跳高度、滚动速度、碰撞音效都符合物理规律；蛋白质折叠动画中，分子结构的空间关系准确无误。

谷歌DeepMind CEO德米斯·哈萨比斯将Omni定位为迈向“世界模型”的关键一步——模型不仅生成画面，还要理解画面中的物理关系、运动规律 and 场景逻辑。

六、Omni 在哪里能用？订阅与平台速查

消费者入口：

Gemini App：Google AI Plus（$7.99/月）、Pro及Ultra订阅用户可直接使用
YouTube Shorts：免费向所有用户开放
YouTube Create App：免费向所有创作者开放
Google Flow：面向订阅用户开放

开发者入口：

未来数周内通过API向开发者及企业客户开放

地域与语言：

目前已覆盖230个国家和地区，支持70多种语言

免费体验途径：

YouTube Shorts 和 YouTube Create App 中的Omni功能对全部用户免费开放，无需付费订阅即可体验

七、Omni vs Veo：一张表看懂关系

Gemini Omni 与谷歌此前推出的Veo视频生成模型之间存在明确的定位差异：

对比维度	Gemini Omni	Veo
产品定位	面向多模态创作与编辑的“世界模型”	文本/图像转视频的生成工具
输入方式	文本、图片、音频、视频任意组合	以文本 and 图片为主
编辑能力	对话式多轮编辑，可替换单元素	主要为一次性生成
物理模拟	具备动能、重力等物理理解	基础物理一致性
技术关系	整合Veo + Nano Banana + Genie	作为Omni的技术底座之一
输出规格	10秒，同步音频	Veo 3.1支持1080p/4K，最长8秒

总结

回答最初的问题——“Gemini 3.5能生成视频吗？”——答案分三层：Gemini 3.5 Flash和Pro不能，它们的输出是文本；能生成视频的是Gemini Omni，它是一个全新架构的多模态生成模型，首发版本Omni Flash已向订阅用户和YouTube创作者开放。Omni支持文本、图片、音频、视频的任意组合输入，生成10秒带同步音频的视频，并可通过自然语言对话进行多轮编辑修改，所有输出自动嵌入SynthID水印。对普通用户来说，最简单的免费体验方式是打开YouTube Shorts；对开发者来说，API将在未来数周内开放。

对于需要将大模型的视频生成、多模态理解与业务自动化深度结合的团队，模型选型只是第一步。真正落地的瓶颈往往在于“思考”与“执行”之间的断层。实在Agent 通过“TARS大模型+ISSUT智能屏幕语义理解+RPA引擎”三位一体架构，将大模型的推理能力直接落到跨系统操作中，不依赖软件接口，可操控各类新旧业务应用。已通过中国信通院智能体平台最高等级评估，支持私有化部署与全链路操作审计。重复性读取、填表由RPA引擎执行，不消耗大模型Token；企业可自由选用DeepSeek、智谱AI、通义千问、Kimi等国产大模型进行私有化部署，从源头控制AI支出。目前已服务超5000家企业，覆盖金融、电商、跨境、制造业等领域。

金融服务商

通信运营商

零售电商

跨境电商

政府及公共服务

能源及制造业

医药行业

更多行业客户

Gemini 3.5 能够生成视频吗？——分清 Flash、Pro、Omni，答案比你想的更具体

本文大纲

一、分清三位成员：Flash、Pro、Omni 各自是什么

二、Gemini Omni：谷歌给 Gemini 装上“视频引擎”

三、Omni 怎么“投喂”：支持哪些输入组合

四、对话式编辑：改视频像聊天一样简单

五、不只是生成：理解物理世界的“世界模型”

六、Omni 在哪里能用？订阅与平台速查

七、Omni vs Veo：一张表看懂关系

总结

热门文章推荐

相关新闻

提单打印能全自动触发吗？Agent怎么提取打印任务？

提单确认效率提升3-60倍：Agent如何重塑企业流程

提单打印时遇到卡纸或缺纸，Agent会怎么提醒？

立即领取行业头部企业 AI 应用案例