首页行业百科Gemini 3.5 能够生成视频吗?——分清 Flash、Pro、Omni,答案比你想的更具体

Gemini 3.5 能够生成视频吗?——分清 Flash、Pro、Omni,答案比你想的更具体

2026-05-21 15:07:14阅读 21
AI文摘
此内容由实在 Agent 根据文章内容自动生成
谷歌Gemini 3.5系列中,只有Gemini Omni具备视频生成能力,Flash和Pro侧重于文本。Omni支持文本、图像等多种输入生成10秒带音频的视频,并具备物理理解与对话式编辑能力。

Gemini 3.5 是谷歌在2026年Google I/O大会上发布的新一代模型体系,包含三个定位不同的成员:Gemini 3.5 Flash、Gemini 3.5 Pro 和 Gemini Omni。其中,Flash 和 Pro 是文本/多模态理解模型,输出形式为文本,不具备视频生成能力;视频生成任务由全新独立模型 Gemini Omni 承担,它融合了谷歌的Veo视频生成技术、Nano Banana图像技术与Genie世界模型,专攻“任意输入→视频输出”的全模态创作方向。

本文大纲

  • 🧬 分清三位成员:Flash、Pro、Omni 各自是什么
  • 🎬 Gemini Omni:谷歌给 Gemini 装上“视频引擎”
  • 📥 Omni 怎么“投喂”:支持哪些输入组合
  • ✂️ 对话式编辑:改视频像聊天一样简单
  • 🧠 不只是生成:理解物理世界的“世界模型”
  • 🚪 Omni 在哪里能用?订阅与平台速查
  • 🆚 Omni vs Veo:一张表看懂关系
Gemini 3.5 能够生成视频吗?——分清 Flash、Pro、Omni,答案比你想的更具体_图1 图源:AI生成示意图

一、分清三位成员:Flash、Pro、Omni 各自是什么

Gemini 3.5 系列在 I/O 大会上共亮相了三款模型,它们的职责完全不同:

  • Gemini 3.5 Flash:即日起向全球用户开放的日常主力模型,输出为文本,具备代码生成、UI图形生成和多模态理解能力,生成速度是其他前沿模型的4倍。
  • Gemini 3.5 Pro:更强大的版本,目前仅在谷歌内部使用,计划下月对外发布,同样不涉及视频生成。
  • Gemini Omni:本次发布的视频生成专用模型,首发版本为 Gemini Omni Flash。它整合了谷歌的Gemini推理能力与Veo视频生成、Nano Banana图像生成、Genie世界模型三大技术底座,是一个全新的多模态生成系统。

结论很明确:能生成视频的只有 Gemini Omni,Flash 和 Pro 不具备视频生成能力

二、Gemini Omni:谷歌给 Gemini 装上“视频引擎”

Gemini Omni 并不是在Gemini 3.5 Flash基础上“加个视频功能”,而是一个从架构层面就面向多模态生成设计的独立模型。谷歌CEO桑达尔·皮查伊将它描述为“可以从任何输入生成任何输出”的全模态系统,首发落地的是视频输出,图像与音频生成将在后续版本中推出。

从技术架构看,Omni 背后融合了谷歌多条生成式AI技术线:Veo提供视频生成基础能力,Nano Banana处理图像理解与生成,Genie提供世界模型与物理模拟能力。三者的整合让Omni不仅能“画”出画面,还能理解画面中的物体关系、运动规律和场景逻辑。

Omni 首发版本 Gemini Omni Flash 的生成规格:单次生成10秒视频,支持同步音频,所有输出自动嵌入SynthID数字水印。

三、Omni 怎么“投喂”:支持哪些输入组合

Gemini Omni 支持四种模态的任意组合输入:

  • 纯文本:只给一句提示词即可生成视频。发布会上展示的案例包括“用粘土动画风格解释蛋白质折叠”,生成的视频中氨基酸链折叠成α螺旋和β折叠的每一步都科学准确。
  • 文本 + 图片:上传一张静态图片,配一句描述,Omni将图片转化为动态视频。例如上传产品照片,生成展示视频。
  • 文本 + 图片 + 音频:组合图片、音乐和文字描述,生成带有同步音频的视频。目前音频输入仅支持语音录音,更广泛的音频支持将在后续版本推出。
  • 文本 + 视频:上传一段已有视频,Omni在此基础上进行风格迁移或场景重构。

注意:Omni当前的输出形式仅为视频(含同步音频),文本和图像的生成/输出功能将在后续版本中陆续推出。

四、对话式编辑:改视频像聊天一样简单

传统视频编辑需要时间轴、关键帧、遮罩等专业操作。Gemini Omni 的核心交互方式是自然语言对话式编辑——生成视频后,用户可以在聊天中继续提出修改需求,Omni 在保持画面整体逻辑的前提下完成局部调整。

实测中已验证的编辑能力包括:

  • 场景替换:“把背景换成黑洞附近的空间站”,保留人物动作不变
  • 风格迁移:“把这段视频变成复古未来主义风格”
  • 元素替换:“把画面里的狗换成猫”
  • 多轮迭代:基于上一次结果继续优化,而非每次从头生成

从工程视角看,对话式编辑背后是一套编辑图谱机制:输入解析→视频理解→编辑规划→生成执行→一致性校验→多轮迭代。这种设计让视频创作从“一次性生成”进入“交互式迭代”阶段。

五、不只是生成:理解物理世界的“世界模型”

Gemini Omni 的核心差异化能力之一,是它对物理世界的理解与模拟。谷歌强调,Veo、Nano Banana等模型已经能生成视频和图片,但Gemini Omni更进一步——它开始处理动能、重力、流体动力学等更接近真实物理世界的问题。

这意味着Omni生成的视频不仅仅是视觉上好看,而是在物理逻辑上更加合理。例如,一个“弹珠落地”的视频中,弹珠的弹跳高度、滚动速度、碰撞音效都符合物理规律;蛋白质折叠动画中,分子结构的空间关系准确无误。

谷歌DeepMind CEO德米斯·哈萨比斯将Omni定位为迈向“世界模型”的关键一步——模型不仅生成画面,还要理解画面中的物理关系、运动规律 and 场景逻辑。

六、Omni 在哪里能用?订阅与平台速查

消费者入口

  • Gemini App:Google AI Plus($7.99/月)、Pro及Ultra订阅用户可直接使用
  • YouTube Shorts:免费向所有用户开放
  • YouTube Create App:免费向所有创作者开放
  • Google Flow:面向订阅用户开放

开发者入口

  • 未来数周内通过API向开发者及企业客户开放

地域与语言

  • 目前已覆盖230个国家和地区,支持70多种语言

免费体验途径

  • YouTube Shorts 和 YouTube Create App 中的Omni功能对全部用户免费开放,无需付费订阅即可体验

七、Omni vs Veo:一张表看懂关系

Gemini Omni 与谷歌此前推出的Veo视频生成模型之间存在明确的定位差异:

对比维度Gemini OmniVeo
产品定位面向多模态创作与编辑的“世界模型”文本/图像转视频的生成工具
输入方式文本、图片、音频、视频任意组合以文本 and 图片为主
编辑能力对话式多轮编辑,可替换单元素主要为一次性生成
物理模拟具备动能、重力等物理理解基础物理一致性
技术关系整合Veo + Nano Banana + Genie作为Omni的技术底座之一
输出规格10秒,同步音频Veo 3.1支持1080p/4K,最长8秒

总结

回答最初的问题——“Gemini 3.5能生成视频吗?”——答案分三层:Gemini 3.5 Flash和Pro不能,它们的输出是文本;能生成视频的是Gemini Omni,它是一个全新架构的多模态生成模型,首发版本Omni Flash已向订阅用户和YouTube创作者开放。Omni支持文本、图片、音频、视频的任意组合输入,生成10秒带同步音频的视频,并可通过自然语言对话进行多轮编辑修改,所有输出自动嵌入SynthID水印。对普通用户来说,最简单的免费体验方式是打开YouTube Shorts;对开发者来说,API将在未来数周内开放。

对于需要将大模型的视频生成、多模态理解与业务自动化深度结合的团队,模型选型只是第一步。真正落地的瓶颈往往在于“思考”与“执行”之间的断层。实在Agent 通过“TARS大模型+ISSUT智能屏幕语义理解+RPA引擎”三位一体架构,将大模型的推理能力直接落到跨系统操作中,不依赖软件接口,可操控各类新旧业务应用。已通过中国信通院智能体平台最高等级评估,支持私有化部署与全链路操作审计。重复性读取、填表由RPA引擎执行,不消耗大模型Token;企业可自由选用DeepSeek、智谱AI、通义千问、Kimi等国产大模型进行私有化部署,从源头控制AI支出。目前已服务超5000家企业,覆盖金融、电商、跨境、制造业等领域。

本文内容通过AI工具匹配关键字智能整合而成,仅供参考,实在智能不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系contact@i-i.ai进行反馈,实在智能收到您的反馈后将及时答复和处理。

立即领取行业头部企业 AI 应用案例

资深 AI Agent 技术专家将为您定制数字员工解决方案

立即获取方案