上线 · 在 Google I/O 2026 上宣布 · 2026 年 5 月 19 日

Gemini Omni——谷歌的 统一多模态人工智能视频模型

今天在 Google I/O 2026 上发布。一种模型可以在单个提示中获取文本、图像、音频和视频,并返回视频、编辑后的照片或数字头像 - Sundar Pichai 称之为“根据任何输入创建任何内容”。 Gemini Omni Flash 今天推出(10 秒剪辑、Gemini 应用程序 + YouTube Shorts)。 API 访问将在未来几周内完成。

什么是Gemini Omni?

直到今天,Google 的 AI 媒体堆栈针对每种模式使用单独的模型:用于视频的 Veo 3.1、用于图像的 Imagen 3、用于编辑的 Nano Banana Pro 和用于音乐的 Lyria。制作完成的视频意味着将它们分开链接。

Gemini Omni 将其折叠成一个多模态模型——一个跨文本、图像、音频和视频输入进行推理并返回视频、编辑后的照片或头像的系统,并在每种模态中共享上下文。谷歌正在将生成视频从独立的 Veo 系列转移到核心 Gemini 系统中,而 Omni 是新的重心。

官方演示 · Google I/O 2026 主题演讲

Gemini Omni 在行动

Google I/O 2026 主题演讲的六个演示:主题演讲、物理 + 原生音频、文本转视频、对话式编辑、场景感知物理和多轮细化。

主题演讲嘶嘶声卷轴

主题演讲蒙太奇

Range of styles, characters, environments and motion.

Google 的 I/O 2026 热闹卷轴——在更深入的按功能演示之前,快速调查了 Gemini Omni Flash 可以跨流派制作的内容。

🔊 原生音频
物理+原生音频

大理石连锁反应

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Google 展示了 Omni“对重力、动能和流体动力学等力的直观理解”——通过同步音频一次性生成。

文本转视频

宇航员场景

Astronaut prompt-to-video generation.

经典 AI 视频基准主题 — 用于展示 Omni 对复杂环境、材料(头盔玻璃、织物)和运动的处理,无需输入素材。

对话编辑

雕塑 → 泡沫

"Make the sculpture out of bubbles."

输入:球体雕塑的视频。一项对话指令会重写整个剪辑的材料,同时保留动作和灯光。

场景感知物理编辑

镜面波纹+镀铬臂

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

输入:一个人触摸镜子的视频。 Omni 通过由接触时刻触发的两个物理正确的编辑来重新运行场景。

对话细化

多转小提琴

Series of sequential edits, each building on the last.

谷歌的框架:“每条指令都建立在上一条指令的基础上。你的角色保持一致,物理原理保持不变,场景会记住之前发生的事情。”

视频来源于 blog.google · Gemini Omni 公告 · 所有 Omni 输出均带有 SynthID 水印。

在 Google I/O 2026 上确认

Gemini Omni 可以做什么

摘自 2026 年 5 月 19 日的主题演讲。 Gemini Omni Flash 今天上线; Gemini Omni Pro 被嘲笑没有约会。

统一多模态输入

将文本、图像、音频和视频合并在一个提示中。该模型对所有输入进行推理,而不仅仅是将它们拼接在一起。

“根据任何输入创建任何内容”

Pichai 的 I/O 2026 框架。主要输出是视频;同一模型还返回编辑过的照片和自定义数字化身。

对话细化

生成剪辑,然后在聊天中不断迭代 - 更改镜头、交换道具、重做摄像机移动,而无需从头开始。

长上下文一致性

继承Gemini的长上下文窗口。角色在镜头中保留他们的面孔、服装和道具——这是竞争模型的已知弱点。

10 秒剪辑(Flash)

Gemini Omni Flash 今天将剪辑限制为 10 秒。谷歌将此称为部署选择,而不是模型限制。 Omni Pro 预计持续时间更长。

SynthID 水印 + 自定义头像

每个 Omni 输出都带有 SynthID,用于 AI 验证。几代人中都没有真正的人——用户通过记录数字序列来创建自己的数字化身。

链式模型与 Gemini Omni(统一)

现在工作流程发生了怎样的变化,由一个 Gemini 系列模型处理每一步。

Omni 之前(单独型号)Gemini Omni Flash(一种型号)
脚本Gemini 3 / 克劳德 / GPT内置
概念图Imagen / Nano Banana Pro内置
视频动画维奥 3.1 / 索拉 2内置
音频+语音路利亚 / ElevenLabs内置,与视频同步
字符一致性很难跨工具维护共享长上下文状态
输出格式缝合+导出原生社交/宽屏

翻译:Gemini Omni Flash 将 4-6 个工具链整合为单一的端到端生成 — 如今上限为 10 秒,通过对话式细化而不是从头开始编辑。

特征对齐

VO3 AI 如何与 Gemini Omni 的新视频创建工作流程保持一致

Gemini Omni 展示了人工智能视频创作的发展方向:对话式编辑、多输入参考、一致的字符、音频感知生成和更长的创意工作流程。 VO3 AI 已经通过多模型工作流程支持其中许多需求。

Gemini Omni能力这意味着什么VO3人工智能支持地位
对话视频工作流程通过聊天来规划、完善和继续视频创作Vovoo AI视频代理 帮助指导提示、场景、模型和修订通过工作流程支持
视频到视频编辑使用文本说明编辑现有视频人工智能视频编辑器 — 通过 WAN 2.7 和 Seedance 2.0 (720p/1080p) 进行文本指令编辑支持
图像参考输入使用图像作为风格或角色指导图像转视频 参考视频 (最多 9 张参考图像)支持
音频感知创作生成音频和视觉效果画外音+BGM合并 长视频工作流程通过工作流程支持
原生音频生成一个模型通道内的同步音频可用于 维奥 3 / 维奥 3.1依赖于模型
字符一致性不同镜头中的角色、服装和道具相同参考视频 用于字符锁+ 继续场景 + 多场景规划支持
多圈细化跨回合迭代同一场景继续场景 人工智能代理 环形支持
具有物理意识的一代真实的运动、材料和力通过 Veo / Sora / Seedance 按任务路由 多型号选择依赖于模型
多输入创建文字+图片+音频+视频一次提示参考视频 通过 Seedance 2.0 / WAN 2.7 支持文本、图像、视频和音频参考支持
短视频生成15秒以内的快速剪辑穿过 所有集成型号支持
更长的视频工作流程多镜头、多场景视频故事到视频、广告、故事板技巧 与合并通过工作流程支持
头像/个人视频Personal digital avatar generation保留用于安全审查有限/安全第一
内容透明度水印和出处元数据每个模型的出处处理依赖于模型
开发者/API访问程序化生成现已通过 VO3 AI 工作流程提供通过工作流程支持

状态反映了当前 VO3 AI 工作流程。 Vovoo 有助于指导模型和工作流程选择。

Gemini Omni 已上线,但 API 还需要数周时间

Flash 非常适合在 Gemini 应用或 YouTube Shorts 中制作 10 秒的剪辑。对于较长的视频、广告工作流程、多个镜头的角色一致性或程序化生成,VO3 AI 上的 Vovoo 现在精心编排了多模型工作流程 - Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro - 每一步自动选择。当 Gemini Omni API 发布时,它会加入同一个代理。

常见问题解答

什么是Gemini Omni?+

Gemini Omni 是 Google 的统一多模式模型,于 2026 年 5 月 19 日在 Google I/O 2026 上宣布。它在单个提示中接受文本、图像、音频和视频,并解释所有这些内容以生成一个输出 - 主要是视频,加上编辑后的照片和自定义数字化身。 CEO Sundar Pichai 的定位是:“从任何输入中创造任何东西”。 Omni 没有将 Veo 3.1(视频)+ Imagen(图像)+ Lyria(音频)链接在一起,而是在一个 Gemini 系列模型中处理它们。

Gemini Omni 现在有售吗?+

是的——部分。该系列的首款型号 Gemini Omni Flash 于 2026 年 5 月 19 日开始通过 Gemini 应用和 Google Flow 创意工作室向 AI Plus / Pro / Ultra 订阅者推出,并且在 YouTube Shorts 和 YouTube Create 中免费。 API 访问承诺“在未来几周内”。更高端的 Gemini Omni Pro 被预告,但没有发布日期。

Gemini Omni 视频可以多长?+

Gemini Omni Flash 每个剪辑的时长上限为 10 秒。谷歌表示,这是一个部署决策(在计算需求较高时扩大早期访问范围),而不是该模型的技术限制。预计 Omni Pro 或更高版本的 Flash 更新会生成更长的格式。

Gemini Omni 与 Veo 3.1 或 Sora 2 有何不同?+

Veo 3.1 和 Sora 2 是视频优先模型,也可以生成音频。 Gemini Omni 是跨输入和输出的多模式:它在一个提示中接收文本 + 图像 + 音频 + 视频,并且同一模型可以返回视频、编辑的照片或头像。它还继承了 Gemini 的长上下文窗口,因此镜头中的角色、服装和道具的一致性是内置的,而不是固定的。谷歌还将生成视频从独立的 Veo 系列转移到核心 Gemini 系统中——Omni 是新的重心。

Gemini Omni 还不能做什么?+

谷歌在发布时故意保留了三项功能:从音频生成图像、从视频生成音频以及编辑现有视频的语音/语音轨道。这些都是长期愿景,但因安全审查而暂停。 Gemini Omni 也没有描绘真实的人,而是使用定制的数字化身,这需要一个引导流程,用户在其中记录自己所说的一系列数字。所有 Omni 输出均带有 Google 的 SynthID 水印。

现在如何使用多模型人工智能工作流程?+

Vovoo 是 VO3 AI 内部的 AI 视频代理,它已经在一次聊天中协调了多个最先进的模型——Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan 和 Nano Banana Pro。它为每个步骤选择正确的模型(文本到视频、图像到视频、广告工作流程、故事板、故事到视频)。现在很有用,而 Gemini Omni Flash 仅限于 10 秒的剪辑,而且 API 还需要几周的时间。

VO3 AI会集成Gemini Omni吗?+

是的。一旦公共 API 可用,VO3 AI 就会集成新的 Google 模型 - Veo 3、Veo 3.1、Veo 3.1 Lite 和 Nano Banana Pro 已经上线。当 Gemini Omni API 在未来几周内发布时,它将与其他模型一起在同一个 Vovoo 聊天代理中使用。