Gemini Omni——谷歌的 统一多模态人工智能视频模型
今天在 Google I/O 2026 上发布。一种模型可以在单个提示中获取文本、图像、音频和视频,并返回视频、编辑后的照片或数字头像 - Sundar Pichai 称之为“根据任何输入创建任何内容”。 Gemini Omni Flash 今天推出(10 秒剪辑、Gemini 应用程序 + YouTube Shorts)。 API 访问将在未来几周内完成。
什么是Gemini Omni?
直到今天,Google 的 AI 媒体堆栈针对每种模式使用单独的模型:用于视频的 Veo 3.1、用于图像的 Imagen 3、用于编辑的 Nano Banana Pro 和用于音乐的 Lyria。制作完成的视频意味着将它们分开链接。
Gemini Omni 将其折叠成一个多模态模型——一个跨文本、图像、音频和视频输入进行推理并返回视频、编辑后的照片或头像的系统,并在每种模态中共享上下文。谷歌正在将生成视频从独立的 Veo 系列转移到核心 Gemini 系统中,而 Omni 是新的重心。
官方演示 · Google I/O 2026 主题演讲
Gemini Omni 在行动
Google I/O 2026 主题演讲的六个演示:主题演讲、物理 + 原生音频、文本转视频、对话式编辑、场景感知物理和多轮细化。
视频来源于 blog.google · Gemini Omni 公告 · 所有 Omni 输出均带有 SynthID 水印。
在 Google I/O 2026 上确认
Gemini Omni 可以做什么
摘自 2026 年 5 月 19 日的主题演讲。 Gemini Omni Flash 今天上线; Gemini Omni Pro 被嘲笑没有约会。
统一多模态输入
将文本、图像、音频和视频合并在一个提示中。该模型对所有输入进行推理,而不仅仅是将它们拼接在一起。
“根据任何输入创建任何内容”
Pichai 的 I/O 2026 框架。主要输出是视频;同一模型还返回编辑过的照片和自定义数字化身。
对话细化
生成剪辑,然后在聊天中不断迭代 - 更改镜头、交换道具、重做摄像机移动,而无需从头开始。
长上下文一致性
继承Gemini的长上下文窗口。角色在镜头中保留他们的面孔、服装和道具——这是竞争模型的已知弱点。
10 秒剪辑(Flash)
Gemini Omni Flash 今天将剪辑限制为 10 秒。谷歌将此称为部署选择,而不是模型限制。 Omni Pro 预计持续时间更长。
SynthID 水印 + 自定义头像
每个 Omni 输出都带有 SynthID,用于 AI 验证。几代人中都没有真正的人——用户通过记录数字序列来创建自己的数字化身。
链式模型与 Gemini Omni(统一)
现在工作流程发生了怎样的变化,由一个 Gemini 系列模型处理每一步。
翻译:Gemini Omni Flash 将 4-6 个工具链整合为单一的端到端生成 — 如今上限为 10 秒,通过对话式细化而不是从头开始编辑。
特征对齐
VO3 AI 如何与 Gemini Omni 的新视频创建工作流程保持一致
Gemini Omni 展示了人工智能视频创作的发展方向:对话式编辑、多输入参考、一致的字符、音频感知生成和更长的创意工作流程。 VO3 AI 已经通过多模型工作流程支持其中许多需求。
状态反映了当前 VO3 AI 工作流程。 Vovoo 有助于指导模型和工作流程选择。
VO3 AI 今日直播
Vovoo 已经协调多模型工作流程
目前,三个真实的工作流程在 VO3 AI 上运行,每个工作流程在一次聊天后链接多个模型。统一输出的未来令人兴奋 - 但您现在就可以像这样构建。
Gemini Omni 已上线,但 API 还需要数周时间
Flash 非常适合在 Gemini 应用或 YouTube Shorts 中制作 10 秒的剪辑。对于较长的视频、广告工作流程、多个镜头的角色一致性或程序化生成,VO3 AI 上的 Vovoo 现在精心编排了多模型工作流程 - Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro - 每一步自动选择。当 Gemini Omni API 发布时,它会加入同一个代理。
常见问题解答
什么是Gemini Omni?+
Gemini Omni 是 Google 的统一多模式模型,于 2026 年 5 月 19 日在 Google I/O 2026 上宣布。它在单个提示中接受文本、图像、音频和视频,并解释所有这些内容以生成一个输出 - 主要是视频,加上编辑后的照片和自定义数字化身。 CEO Sundar Pichai 的定位是:“从任何输入中创造任何东西”。 Omni 没有将 Veo 3.1(视频)+ Imagen(图像)+ Lyria(音频)链接在一起,而是在一个 Gemini 系列模型中处理它们。
Gemini Omni 现在有售吗?+
是的——部分。该系列的首款型号 Gemini Omni Flash 于 2026 年 5 月 19 日开始通过 Gemini 应用和 Google Flow 创意工作室向 AI Plus / Pro / Ultra 订阅者推出,并且在 YouTube Shorts 和 YouTube Create 中免费。 API 访问承诺“在未来几周内”。更高端的 Gemini Omni Pro 被预告,但没有发布日期。
Gemini Omni 视频可以多长?+
Gemini Omni Flash 每个剪辑的时长上限为 10 秒。谷歌表示,这是一个部署决策(在计算需求较高时扩大早期访问范围),而不是该模型的技术限制。预计 Omni Pro 或更高版本的 Flash 更新会生成更长的格式。
Gemini Omni 与 Veo 3.1 或 Sora 2 有何不同?+
Veo 3.1 和 Sora 2 是视频优先模型,也可以生成音频。 Gemini Omni 是跨输入和输出的多模式:它在一个提示中接收文本 + 图像 + 音频 + 视频,并且同一模型可以返回视频、编辑的照片或头像。它还继承了 Gemini 的长上下文窗口,因此镜头中的角色、服装和道具的一致性是内置的,而不是固定的。谷歌还将生成视频从独立的 Veo 系列转移到核心 Gemini 系统中——Omni 是新的重心。
Gemini Omni 还不能做什么?+
谷歌在发布时故意保留了三项功能:从音频生成图像、从视频生成音频以及编辑现有视频的语音/语音轨道。这些都是长期愿景,但因安全审查而暂停。 Gemini Omni 也没有描绘真实的人,而是使用定制的数字化身,这需要一个引导流程,用户在其中记录自己所说的一系列数字。所有 Omni 输出均带有 Google 的 SynthID 水印。
现在如何使用多模型人工智能工作流程?+
Vovoo 是 VO3 AI 内部的 AI 视频代理,它已经在一次聊天中协调了多个最先进的模型——Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan 和 Nano Banana Pro。它为每个步骤选择正确的模型(文本到视频、图像到视频、广告工作流程、故事板、故事到视频)。现在很有用,而 Gemini Omni Flash 仅限于 10 秒的剪辑,而且 API 还需要几周的时间。
VO3 AI会集成Gemini Omni吗?+
是的。一旦公共 API 可用,VO3 AI 就会集成新的 Google 模型 - Veo 3、Veo 3.1、Veo 3.1 Lite 和 Nano Banana Pro 已经上线。当 Gemini Omni API 在未来几周内发布时,它将与其他模型一起在同一个 Vovoo 聊天代理中使用。
