Live · Anunciado en Google I/O 2026 · 19 de mayo de 2026

Géminis Omni: de Google Modelo de vídeo de IA multimodal unificado

Anunciado hoy en Google I/O 2026. Un modelo que toma texto, imagen, audio y video en un solo mensaje y devuelve video, fotos editadas o un avatar digital, lo que Sundar Pichai llamó "crear cualquier cosa a partir de cualquier entrada". Gemini Omni Flash se lanza hoy (clips de 10, aplicación Gemini + cortos de YouTube). Acceso API en las próximas semanas.

Pruebe el agente multimodelo Vovoo Cómo funciona Vovoo

Now live on VO3 AI

Try Gemini Omni on VO3 AI today

We've integrated Gemini Omni Video into the VO3 AI workspace — generate from text, animate from an image, or edit an existing clip. 720p · 1080p · 4–10s. No waitlist.

Generate (Text / Image → Video)Video Edit Or chat with Vovoo

¿Qué es Géminis Omni?

Hasta hoy, la pila de medios de inteligencia artificial de Google utilizaba modelos separados por modalidad: Veo 3.1 para video, Imagen 3 para imágenes, Nano Banana Pro para edición y Lyria para música. Crear un vídeo terminado significaba encadenarlos por separado.

Gemini Omni colapsa esto en un único modelo multimodal: un sistema que razona a través de entradas de texto, imágenes, audio y video y devuelve videos, fotos editadas o avatares, con contexto compartido en cada modalidad. Google está trasladando el vídeo generativo de la línea independiente Veo al sistema central Gemini, y Omni es el nuevo centro de gravedad.

Demostraciones oficiales · Keynote de Google I/O 2026

Géminis Omni en acción

Seis demostraciones de la conferencia magistral de Google I/O 2026: chisporroteo de la conferencia magistral, física + audio nativo, conversión de texto a video, edición conversacional, física con reconocimiento de escenas y refinamiento de múltiples turnos.

Carrete chisporroteante de Keynote

Montaje de discurso de apertura

Range of styles, characters, environments and motion.

El chisporroteo I/O 2026 de Google: una revisión rápida de lo que Gemini Omni Flash puede producir en todos los géneros, antes de las demostraciones más profundas por función.

🔊Audio nativo

Física + Audio Nativo

Reacción en cadena de mármol

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

El escaparate de Google para la "comprensión intuitiva de fuerzas como la gravedad, la energía cinética y la dinámica de fluidos" de Omni, generada con audio sincronizado en una sola pasada.

Texto a vídeo

Escena del astronauta

Astronaut prompt-to-video generation.

Tema clásico de referencia de video de IA: se utiliza para mostrar el manejo de Omni de entornos complejos, materiales (vidrio de casco, tela) y movimiento sin necesidad de imágenes de entrada.

Edición conversacional

Escultura → Espuma

"Make the sculpture out of bubbles."

Entrada: vídeo de una escultura orbe. Una instrucción conversacional reescribe el material a lo largo de todo el clip preservando el movimiento y la iluminación.

Física consciente de la escena Editar

Espejo ondulado + brazo cromado

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Entrada: vídeo de una persona tocando un espejo. Omni vuelve a ejecutar la escena con dos ediciones físicamente correctas provocadas por el momento del contacto.

Refinamiento conversacional

Violín multivuelta

Series of sequential edits, each building on the last.

Encuadre de Google: "Cada instrucción se basa en la anterior. Tus personajes se mantienen consistentes, la física se mantiene y la escena recuerda lo que vino antes".

Vídeos procedentes de blog.google · Anuncio Géminis Omni · Todas las salidas Omni llevan la marca de agua SynthID.

Confirmado en Google I/O 2026

Lo que Géminis Omni puede hacer

Del discurso de apertura del 19 de mayo de 2026. Gemini Omni Flash está disponible hoy; Gemini Omni Pro es objeto de burlas sin fecha.

Entrada multimodal unificada

Combine texto, imagen, audio y video en un solo mensaje. El modelo razona a través de todas las entradas en lugar de simplemente unirlas.

"Crea cualquier cosa a partir de cualquier entrada"

Encuadre de Pichai I/O 2026. La salida principal es vídeo; el mismo modelo también devuelve fotografías editadas y avatares digitales personalizados.

Refinamiento conversacional

Genere un clip y luego siga iterando en el chat: cambie una toma, intercambie un accesorio, rehaga el movimiento de la cámara sin reiniciar desde cero.

Consistencia a largo plazo

Hereda la ventana de contexto largo de Géminis. Los personajes mantienen sus rostros, atuendos y accesorios en todas las tomas, un conocido punto débil de los modelos competidores.

Clips de 10 segundos (flash)

Gemini Omni Flash limita los clips a 10 segundos hoy. Google llama a esto una opción de implementación, no un límite de modelo. Se esperan duraciones más largas de Omni Pro.

Marca de agua SynthID + Avatares personalizados

Cada salida Omni lleva SynthID para la verificación de IA. No habrá personas reales en generaciones: los usuarios crean su propio avatar digital grabando una secuencia numérica.

Modelos encadenados vs Gemini Omni (unificados)

Cómo cambia el flujo de trabajo ahora que un modelo de la familia Gemini se encarga de cada paso.

Paso	Antes de Omni (modelos separados)	Gemini Omni Flash (un modelo)
Guion	Géminis 3 / Claude / GPT	Incorporado
Imagen conceptual	Imagen / Nano Banana Pro	Incorporado
Animación de vídeo	Veo 3.1 / Sora 2	Incorporado
Audio + voz	Lyria/ElevenLabs	Integrado, sincronizado con vídeo
Consistencia del carácter	Difícil de mantener entre herramientas.	Estado compartido de contexto largo
Formato de salida	Puntada + exportar	Social nativo/pantalla ancha

Traducción: Gemini Omni Flash consolida lo que era una cadena de 4 a 6 herramientas en una única generación de extremo a extremo, con un límite actual de 10, con refinamiento conversacional en lugar de ediciones reiniciadas desde cero.

Alineación de características

Cómo se alinea VO3 AI con el nuevo flujo de trabajo de creación de videos de Gemini Omni

Gemini Omni muestra hacia dónde se dirige la creación de videos con IA: edición conversacional, referencias de entradas múltiples, personajes consistentes, generación con reconocimiento de audio y flujos de trabajo creativos más prolongados. VO3 AI ya respalda muchas de estas necesidades a través de flujos de trabajo multimodelo.

Capacidad Géminis Omni	lo que significa	Soporte de IA VO3	Estado
Flujo de trabajo de vídeo conversacional	Planifique, refine y continúe la creación de videos a través del chat	Agente de vídeo Vovoo AI ayuda a guiar indicaciones, escenas, modelos y revisiones	Soportado a través del flujo de trabajo
Edición de video a video	Editar un video existente con una instrucción de texto	Editor de vídeo con IA — ediciones de instrucciones de texto a través de WAN 2.7 y Seedance 2.0 (720p/1080p)	Apoyado
Entrada de referencia de imagen	Utilice imágenes como guía de estilo o carácter.	Imagen a vídeo Referencia a vídeo (hasta 9 imágenes de referencia)	Apoyado
Creación con reconocimiento de audio	Genera audio junto con imágenes	Voz en off + música de fondo se fusionan flujo de trabajo de video largo	Soportado a través del flujo de trabajo
Generación de audio nativo	Audio sincronizado dentro de un pase de modelo	Disponible en Veo 3 / Veo 3.1	Dependiente del modelo
Consistencia del carácter	Mismo personaje, vestimenta y accesorios en todas las tomas.	Referencia a vídeo para bloqueo de caracteres + Continuar escena + planificación multiescena	Apoyado
Refinamiento de múltiples vueltas	Iterar en la misma escena a lo largo de los turnos.	Continuar escena Agente de IA bucle	Apoyado
Generación consciente de la física	Movimiento, materiales y fuerzas realistas.	Enrutado por tarea a través de Veo / Sora / Seedance vía selección multimodelo	Dependiente del modelo
Creación de múltiples entradas	Texto + imagen + audio + vídeo en un solo mensaje	Referencia a vídeo admite referencias de texto, imágenes, video y audio con Seedance 2.0 / WAN 2.7	Apoyado
Generación de videos cortos.	Clips rápidos de menos de 15 segundos	Al otro lado de todos los modelos integrados	Apoyado
Flujo de trabajo de vídeo más largo	Vídeos de varias tomas y escenas	Habilidades de historia a video, publicidad y guión gráfico con fusion	Soportado a través del flujo de trabajo
Avatar/vídeo personal	Generación de avatar digital personal	Reservado para revisión de seguridad	Limitado/la seguridad es lo primero
Transparencia de contenido	Metadatos de marca de agua y procedencia	Manejo de procedencia por modelo	Dependiente del modelo
Acceso de desarrollador/API	Generación programática	Disponible a través de los flujos de trabajo de VO3 AI hoy	Soportado a través del flujo de trabajo

El estado refleja los flujos de trabajo actuales de VO3 AI. Vovoo ayuda a guiar la selección de modelos y flujos de trabajo.

En vivo hoy en VO3 AI

Vovoo ya organiza flujos de trabajo multimodelo

Tres flujos de trabajo reales que se ejecutan hoy en VO3 AI, cada uno de los cuales encadena múltiples modelos detrás de un chat. El futuro de la producción unificada es apasionante, pero se puede construir así ahora mismo.

Guión gráfico cinematográfico

GPT Image 2 planifica 8 paneles → Seedance 2 los anima en un clip cinematográfico de 15 segundos.

Pruebe este flujo de trabajo →

Activos del producto → Vídeo publicitario

Breve → guión → guión gráfico de 4 paneles → animación por segmento → anuncio fusionado de los años 30.

Pruebe este flujo de trabajo →

URL de C2Story → Película animada

Análisis de la historia → división de escena → indicaciones visuales → animación → corto fusionado.

Pruebe este flujo de trabajo →

Gemini Omni está disponible, pero aún faltan semanas para la API

Flash es ideal para clips de 10 segundos dentro de la aplicación Gemini o YouTube Shorts. Para videos más largos, flujos de trabajo publicitarios, coherencia de personajes en múltiples tomas o generación programática, Vovoo en VO3 AI organiza hoy un flujo de trabajo multimodelo (Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro) seleccionados automáticamente por paso. Cuando se envía la API Gemini Omni, se une al mismo agente.

Agente Vovoo abierto Leer: Veo 4 - Lo que sabemos

Preguntas frecuentes

¿Qué es Géminis Omni?+

Gemini Omni es el modelo multimodal unificado de Google, anunciado en Google I/O 2026 el 19 de mayo de 2026. Acepta texto, imagen, audio y video en un solo mensaje y razones en todos ellos para producir una salida, principalmente video, además de fotos editadas y avatares digitales personalizados. El posicionamiento del CEO Sundar Pichai: "crear cualquier cosa a partir de cualquier aportación". En lugar de encadenar Veo 3.1 (video) + Imagen (imagen) + Lyria (audio), Omni los maneja dentro de un modelo de la familia Gemini.

¿Gemini Omni está disponible ahora?+

Sí, en parte. El primer modelo de la familia, Gemini Omni Flash, comenzó a implementarse el 19 de mayo de 2026 para los suscriptores de AI Plus/Pro/Ultra a través de la aplicación Gemini y el estudio creativo Flow de Google, y es gratuito en YouTube Shorts y YouTube Create. Se promete acceso a la API "en las próximas semanas". Se adelanta un Gemini Omni Pro de gama alta, pero no tiene fecha de lanzamiento.

¿Qué duración pueden tener los vídeos de Gemini Omni?+

Gemini Omni Flash tiene un límite de 10 segundos por clip. Google dice que se trata de una decisión de implementación (para ampliar el acceso temprano mientras la demanda informática es alta), no un límite técnico del modelo. Se espera una generación de formato más largo a partir de Omni Pro o actualizaciones Flash posteriores.

¿En qué se diferencia Gemini Omni de Veo 3.1 o Sora 2?+

Veo 3.1 y Sora 2 son modelos de video que también generan audio. Gemini Omni es multimodal en entradas y salidas: toma texto + imagen + audio + video en un mensaje, y el mismo modelo puede devolver video, fotos editadas o avatares. También hereda la ventana de contexto largo de Gemini, por lo que la consistencia de personajes, vestimenta y accesorios en todas las tomas está integrada en lugar de ser un complemento. Google también está trasladando el video generativo de la línea independiente Veo al sistema central Gemini: Omni es el nuevo centro de gravedad.

¿Qué NO puede hacer Gemini Omni todavía?+

Google deliberadamente retuvo tres capacidades en el lanzamiento: generar imágenes a partir de audio, generar audio a partir de video y editar la pista de voz/habla de un video existente. Estos se enmarcan como una visión a largo plazo, pero se detienen en la revisión de seguridad. Gemini Omni tampoco representa a personas reales; en cambio, utiliza avatares digitales personalizados, que requieren un flujo de incorporación en el que los usuarios se graban a sí mismos diciendo una serie de números. Todas las salidas de Omni llevan la marca de agua SynthID de Google.

¿Cómo puedo utilizar un flujo de trabajo de IA multimodelo hoy?+

Vovoo, el agente de vídeo de IA dentro de VO3 AI, ya organiza múltiples modelos de última generación (Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan y Nano Banana Pro) en un solo chat. Elige el modelo correcto para cada paso (texto a video, imagen a video, flujos de trabajo publicitarios, guiones gráficos, historia a video). Útil en este momento mientras Gemini Omni Flash está cerrado a clips de 10 y aún faltan semanas para la API.

¿VO3 AI integrará Gemini Omni?+

Sí. VO3 AI integra nuevos modelos de Google tan pronto como la API pública esté disponible: Veo 3, Veo 3.1, Veo 3.1 Lite y Nano Banana Pro ya están disponibles. Cuando la API Gemini Omni se envíe en las próximas semanas, estará disponible dentro del mismo agente de chat de Vovoo, junto con los otros modelos.