上线 · 在 Google I/O 2026 上宣布 · 2026 年 5 月 19 日

Gemini Omni——谷歌的统一多模态人工智能视频模型

今天在 Google I/O 2026 上发布。一种模型可以在单个提示中获取文本、图像、音频和视频，并返回视频、编辑后的照片或数字头像 - Sundar Pichai 称之为“根据任何输入创建任何内容”。 Gemini Omni Flash 今天推出（10 秒剪辑、Gemini 应用程序 + YouTube Shorts）。 API 访问将在未来几周内完成。

尝试 Vovoo 多模型代理 Vovoo 的运作方式

Now live on VO3 AI

Try Gemini Omni on VO3 AI today

We've integrated Gemini Omni Video into the VO3 AI workspace — generate from text, animate from an image, or edit an existing clip. 720p · 1080p · 4–10s. No waitlist.

Generate (Text / Image → Video)Video Edit Or chat with Vovoo

什么是Gemini Omni？

直到今天，Google 的 AI 媒体堆栈针对每种模式使用单独的模型：用于视频的 Veo 3.1、用于图像的 Imagen 3、用于编辑的 Nano Banana Pro 和用于音乐的 Lyria。制作完成的视频意味着将它们分开链接。

Gemini Omni 将其折叠成一个多模态模型——一个跨文本、图像、音频和视频输入进行推理并返回视频、编辑后的照片或头像的系统，并在每种模态中共享上下文。谷歌正在将生成视频从独立的 Veo 系列转移到核心 Gemini 系统中，而 Omni 是新的重心。

官方演示 · Google I/O 2026 主题演讲

Gemini Omni 在行动

Google I/O 2026 主题演讲的六个演示：主题演讲、物理 + 原生音频、文本转视频、对话式编辑、场景感知物理和多轮细化。

主题演讲嘶嘶声卷轴

主题演讲蒙太奇

Range of styles, characters, environments and motion.

Google 的 I/O 2026 热闹卷轴——在更深入的按功能演示之前，快速调查了 Gemini Omni Flash 可以跨流派制作的内容。

🔊 原生音频

物理+原生音频

大理石连锁反应

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Google 展示了 Omni“对重力、动能和流体动力学等力的直观理解”——通过同步音频一次性生成。

文本转视频

宇航员场景

Astronaut prompt-to-video generation.

经典 AI 视频基准主题 — 用于展示 Omni 对复杂环境、材料（头盔玻璃、织物）和运动的处理，无需输入素材。

对话编辑

雕塑 → 泡沫

"Make the sculpture out of bubbles."

输入：球体雕塑的视频。一项对话指令会重写整个剪辑的材料，同时保留动作和灯光。

场景感知物理编辑

镜面波纹+镀铬臂

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

输入：一个人触摸镜子的视频。 Omni 通过由接触时刻触发的两个物理正确的编辑来重新运行场景。

对话细化

多转小提琴

Series of sequential edits, each building on the last.

谷歌的框架：“每条指令都建立在上一条指令的基础上。你的角色保持一致，物理原理保持不变，场景会记住之前发生的事情。”

视频来源于 blog.google · Gemini Omni 公告 · 所有 Omni 输出均带有 SynthID 水印。

在 Google I/O 2026 上确认

Gemini Omni 可以做什么

摘自 2026 年 5 月 19 日的主题演讲。 Gemini Omni Flash 今天上线； Gemini Omni Pro 被嘲笑没有约会。

统一多模态输入

将文本、图像、音频和视频合并在一个提示中。该模型对所有输入进行推理，而不仅仅是将它们拼接在一起。

“根据任何输入创建任何内容”

Pichai 的 I/O 2026 框架。主要输出是视频；同一模型还返回编辑过的照片和自定义数字化身。

对话细化

生成剪辑，然后在聊天中不断迭代 - 更改镜头、交换道具、重做摄像机移动，而无需从头开始。

长上下文一致性

继承Gemini的长上下文窗口。角色在镜头中保留他们的面孔、服装和道具——这是竞争模型的已知弱点。

10 秒剪辑（Flash）

Gemini Omni Flash 今天将剪辑限制为 10 秒。谷歌将此称为部署选择，而不是模型限制。 Omni Pro 预计持续时间更长。

SynthID 水印 + 自定义头像

每个 Omni 输出都带有 SynthID，用于 AI 验证。几代人中都没有真正的人——用户通过记录数字序列来创建自己的数字化身。

链式模型与 Gemini Omni（统一）

现在工作流程发生了怎样的变化，由一个 Gemini 系列模型处理每一步。

步	Omni 之前（单独型号）	Gemini Omni Flash（一种型号）
脚本	Gemini 3 / 克劳德 / GPT	内置
概念图	Imagen / Nano Banana Pro	内置
视频动画	维奥 3.1 / 索拉 2	内置
音频+语音	路利亚 / ElevenLabs	内置，与视频同步
字符一致性	很难跨工具维护	共享长上下文状态
输出格式	缝合+导出	原生社交/宽屏

翻译：Gemini Omni Flash 将 4-6 个工具链整合为单一的端到端生成 — 如今上限为 10 秒，通过对话式细化而不是从头开始编辑。

特征对齐

VO3 AI 如何与 Gemini Omni 的新视频创建工作流程保持一致

Gemini Omni 展示了人工智能视频创作的发展方向：对话式编辑、多输入参考、一致的字符、音频感知生成和更长的创意工作流程。 VO3 AI 已经通过多模型工作流程支持其中许多需求。

Gemini Omni能力	这意味着什么	VO3人工智能支持	地位
对话视频工作流程	通过聊天来规划、完善和继续视频创作	Vovoo AI视频代理帮助指导提示、场景、模型和修订	通过工作流程支持
视频到视频编辑	使用文本说明编辑现有视频	人工智能视频编辑器 — 通过 WAN 2.7 和 Seedance 2.0 (720p/1080p) 进行文本指令编辑	支持
图像参考输入	使用图像作为风格或角色指导	图像转视频参考视频（最多 9 张参考图像）	支持
音频感知创作	生成音频和视觉效果	画外音+BGM合并长视频工作流程	通过工作流程支持
原生音频生成	一个模型通道内的同步音频	可用于维奥 3 / 维奥 3.1	依赖于模型
字符一致性	不同镜头中的角色、服装和道具相同	参考视频用于字符锁+ 继续场景 + 多场景规划	支持
多圈细化	跨回合迭代同一场景	继续场景人工智能代理环形	支持
具有物理意识的一代	真实的运动、材料和力	通过 Veo / Sora / Seedance 按任务路由多型号选择	依赖于模型
多输入创建	文字+图片+音频+视频一次提示	参考视频通过 Seedance 2.0 / WAN 2.7 支持文本、图像、视频和音频参考	支持
短视频生成	15秒以内的快速剪辑	穿过所有集成型号	支持
更长的视频工作流程	多镜头、多场景视频	故事到视频、广告、故事板技巧与合并	通过工作流程支持
头像/个人视频	Personal digital avatar generation	保留用于安全审查	有限/安全第一
内容透明度	水印和出处元数据	每个模型的出处处理	依赖于模型
开发者/API访问	程序化生成	现已通过 VO3 AI 工作流程提供	通过工作流程支持

状态反映了当前 VO3 AI 工作流程。 Vovoo 有助于指导模型和工作流程选择。

VO3 AI 今日直播

Vovoo 已经协调多模型工作流程

目前，三个真实的工作流程在 VO3 AI 上运行，每个工作流程在一次聊天后链接多个模型。统一输出的未来令人兴奋 - 但您现在就可以像这样构建。

电影故事板

GPT Image 2 计划 8 个面板 → Seedance 2 将它们动画化为一个 15 秒的电影剪辑。

尝试这个工作流程 →

产品资产 → 广告视频

简介 → 脚本 → 4 面板故事板 → 每段动画 → 合并 30 年代的广告。

尝试这个工作流程 →

C2Story URL → 动画电影

故事分析→场景分割→视觉提示→动画→合并短片。

尝试这个工作流程 →

Gemini Omni 已上线，但 API 还需要数周时间

Flash 非常适合在 Gemini 应用或 YouTube Shorts 中制作 10 秒的剪辑。对于较长的视频、广告工作流程、多个镜头的角色一致性或程序化生成，VO3 AI 上的 Vovoo 现在精心编排了多模型工作流程 - Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro - 每一步自动选择。当 Gemini Omni API 发布时，它会加入同一个代理。

打开 Vovoo 代理阅读：Veo 4 — 我们所知道的

常见问题解答

什么是Gemini Omni？+

Gemini Omni 是 Google 的统一多模式模型，于 2026 年 5 月 19 日在 Google I/O 2026 上宣布。它在单个提示中接受文本、图像、音频和视频，并解释所有这些内容以生成一个输出 - 主要是视频，加上编辑后的照片和自定义数字化身。 CEO Sundar Pichai 的定位是：“从任何输入中创造任何东西”。 Omni 没有将 Veo 3.1（视频）+ Imagen（图像）+ Lyria（音频）链接在一起，而是在一个 Gemini 系列模型中处理它们。

Gemini Omni 现在有售吗？+

是的——部分。该系列的首款型号 Gemini Omni Flash 于 2026 年 5 月 19 日开始通过 Gemini 应用和 Google Flow 创意工作室向 AI Plus / Pro / Ultra 订阅者推出，并且在 YouTube Shorts 和 YouTube Create 中免费。 API 访问承诺“在未来几周内”。更高端的 Gemini Omni Pro 被预告，但没有发布日期。

Gemini Omni 视频可以多长？+

Gemini Omni Flash 每个剪辑的时长上限为 10 秒。谷歌表示，这是一个部署决策（在计算需求较高时扩大早期访问范围），而不是该模型的技术限制。预计 Omni Pro 或更高版本的 Flash 更新会生成更长的格式。

Gemini Omni 与 Veo 3.1 或 Sora 2 有何不同？+

Veo 3.1 和 Sora 2 是视频优先模型，也可以生成音频。 Gemini Omni 是跨输入和输出的多模式：它在一个提示中接收文本 + 图像 + 音频 + 视频，并且同一模型可以返回视频、编辑的照片或头像。它还继承了 Gemini 的长上下文窗口，因此镜头中的角色、服装和道具的一致性是内置的，而不是固定的。谷歌还将生成视频从独立的 Veo 系列转移到核心 Gemini 系统中——Omni 是新的重心。

Gemini Omni 还不能做什么？+

谷歌在发布时故意保留了三项功能：从音频生成图像、从视频生成音频以及编辑现有视频的语音/语音轨道。这些都是长期愿景，但因安全审查而暂停。 Gemini Omni 也没有描绘真实的人，而是使用定制的数字化身，这需要一个引导流程，用户在其中记录自己所说的一系列数字。所有 Omni 输出均带有 Google 的 SynthID 水印。

现在如何使用多模型人工智能工作流程？+

Vovoo 是 VO3 AI 内部的 AI 视频代理，它已经在一次聊天中协调了多个最先进的模型——Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan 和 Nano Banana Pro。它为每个步骤选择正确的模型（文本到视频、图像到视频、广告工作流程、故事板、故事到视频）。现在很有用，而 Gemini Omni Flash 仅限于 10 秒的剪辑，而且 API 还需要几周的时间。

VO3 AI会集成Gemini Omni吗？+

是的。一旦公共 API 可用，VO3 AI 就会集成新的 Google 模型 - Veo 3、Veo 3.1、Veo 3.1 Lite 和 Nano Banana Pro 已经上线。当 Gemini Omni API 在未来几周内发布时，它将与其他模型一起在同一个 Vovoo 聊天代理中使用。

Gemini Omni——谷歌的 统一多模态人工智能视频模型

Try Gemini Omni on VO3 AI today

什么是Gemini Omni？

Gemini Omni 在行动

主题演讲蒙太奇

大理石连锁反应

宇航员场景

雕塑 → 泡沫

镜面波纹+镀铬臂

多转小提琴

Gemini Omni 可以做什么

统一多模态输入

“根据任何输入创建任何内容”

对话细化

长上下文一致性

10 秒剪辑（Flash）

SynthID 水印 + 自定义头像

链式模型与 Gemini Omni（统一）

VO3 AI 如何与 Gemini Omni 的新视频创建工作流程保持一致

Vovoo 已经协调多模型工作流程

电影故事板

产品资产 → 广告视频

C2Story URL → 动画电影

Gemini Omni 已上线，但 API 还需要数周时间

常见问题解答

Gemini Omni——谷歌的统一多模态人工智能视频模型