Live · Anunciado en Google I/O 2026 · 19 de mayo de 2026

Géminis Omni: de Google Modelo de vídeo de IA multimodal unificado

Anunciado hoy en Google I/O 2026. Un modelo que toma texto, imagen, audio y video en un solo mensaje y devuelve video, fotos editadas o un avatar digital, lo que Sundar Pichai llamó "crear cualquier cosa a partir de cualquier entrada". Gemini Omni Flash se lanza hoy (clips de 10, aplicación Gemini + cortos de YouTube). Acceso API en las próximas semanas.

¿Qué es Géminis Omni?

Hasta hoy, la pila de medios de inteligencia artificial de Google utilizaba modelos separados por modalidad: Veo 3.1 para video, Imagen 3 para imágenes, Nano Banana Pro para edición y Lyria para música. Crear un vídeo terminado significaba encadenarlos por separado.

Gemini Omni colapsa esto en un único modelo multimodal: un sistema que razona a través de entradas de texto, imágenes, audio y video y devuelve videos, fotos editadas o avatares, con contexto compartido en cada modalidad. Google está trasladando el vídeo generativo de la línea independiente Veo al sistema central Gemini, y Omni es el nuevo centro de gravedad.

Demostraciones oficiales · Keynote de Google I/O 2026

Géminis Omni en acción

Seis demostraciones de la conferencia magistral de Google I/O 2026: chisporroteo de la conferencia magistral, física + audio nativo, conversión de texto a video, edición conversacional, física con reconocimiento de escenas y refinamiento de múltiples turnos.

Carrete chisporroteante de Keynote

Montaje de discurso de apertura

Range of styles, characters, environments and motion.

El chisporroteo I/O 2026 de Google: una revisión rápida de lo que Gemini Omni Flash puede producir en todos los géneros, antes de las demostraciones más profundas por función.

🔊Audio nativo
Física + Audio Nativo

Reacción en cadena de mármol

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

El escaparate de Google para la "comprensión intuitiva de fuerzas como la gravedad, la energía cinética y la dinámica de fluidos" de Omni, generada con audio sincronizado en una sola pasada.

Texto a vídeo

Escena del astronauta

Astronaut prompt-to-video generation.

Tema clásico de referencia de video de IA: se utiliza para mostrar el manejo de Omni de entornos complejos, materiales (vidrio de casco, tela) y movimiento sin necesidad de imágenes de entrada.

Edición conversacional

Escultura → Espuma

"Make the sculpture out of bubbles."

Entrada: vídeo de una escultura orbe. Una instrucción conversacional reescribe el material a lo largo de todo el clip preservando el movimiento y la iluminación.

Física consciente de la escena Editar

Espejo ondulado + brazo cromado

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Entrada: vídeo de una persona tocando un espejo. Omni vuelve a ejecutar la escena con dos ediciones físicamente correctas provocadas por el momento del contacto.

Refinamiento conversacional

Violín multivuelta

Series of sequential edits, each building on the last.

Encuadre de Google: "Cada instrucción se basa en la anterior. Tus personajes se mantienen consistentes, la física se mantiene y la escena recuerda lo que vino antes".

Vídeos procedentes de blog.google · Anuncio Géminis Omni · Todas las salidas Omni llevan la marca de agua SynthID.

Confirmado en Google I/O 2026

Lo que Géminis Omni puede hacer

Del discurso de apertura del 19 de mayo de 2026. Gemini Omni Flash está disponible hoy; Gemini Omni Pro es objeto de burlas sin fecha.

Entrada multimodal unificada

Combine texto, imagen, audio y video en un solo mensaje. El modelo razona a través de todas las entradas en lugar de simplemente unirlas.

"Crea cualquier cosa a partir de cualquier entrada"

Encuadre de Pichai I/O 2026. La salida principal es vídeo; el mismo modelo también devuelve fotografías editadas y avatares digitales personalizados.

Refinamiento conversacional

Genere un clip y luego siga iterando en el chat: cambie una toma, intercambie un accesorio, rehaga el movimiento de la cámara sin reiniciar desde cero.

Consistencia a largo plazo

Hereda la ventana de contexto largo de Géminis. Los personajes mantienen sus rostros, atuendos y accesorios en todas las tomas, un conocido punto débil de los modelos competidores.

Clips de 10 segundos (flash)

Gemini Omni Flash limita los clips a 10 segundos hoy. Google llama a esto una opción de implementación, no un límite de modelo. Se esperan duraciones más largas de Omni Pro.

Marca de agua SynthID + Avatares personalizados

Cada salida Omni lleva SynthID para la verificación de IA. No habrá personas reales en generaciones: los usuarios crean su propio avatar digital grabando una secuencia numérica.

Modelos encadenados vs Gemini Omni (unificados)

Cómo cambia el flujo de trabajo ahora que un modelo de la familia Gemini se encarga de cada paso.

PasoAntes de Omni (modelos separados)Gemini Omni Flash (un modelo)
GuionGéminis 3 / Claude / GPTIncorporado
Imagen conceptualImagen / Nano Banana ProIncorporado
Animación de vídeoVeo 3.1 / Sora 2Incorporado
Audio + vozLyria/ElevenLabsIntegrado, sincronizado con vídeo
Consistencia del carácterDifícil de mantener entre herramientas.Estado compartido de contexto largo
Formato de salidaPuntada + exportarSocial nativo/pantalla ancha

Traducción: Gemini Omni Flash consolida lo que era una cadena de 4 a 6 herramientas en una única generación de extremo a extremo, con un límite actual de 10, con refinamiento conversacional en lugar de ediciones reiniciadas desde cero.

Alineación de características

Cómo se alinea VO3 AI con el nuevo flujo de trabajo de creación de videos de Gemini Omni

Gemini Omni muestra hacia dónde se dirige la creación de videos con IA: edición conversacional, referencias de entradas múltiples, personajes consistentes, generación con reconocimiento de audio y flujos de trabajo creativos más prolongados. VO3 AI ya respalda muchas de estas necesidades a través de flujos de trabajo multimodelo.

Capacidad Géminis Omnilo que significaSoporte de IA VO3Estado
Flujo de trabajo de vídeo conversacionalPlanifique, refine y continúe la creación de videos a través del chatAgente de vídeo Vovoo AI ayuda a guiar indicaciones, escenas, modelos y revisionesSoportado a través del flujo de trabajo
Edición de video a videoEditar un video existente con una instrucción de textoEditor de vídeo con IA — ediciones de instrucciones de texto a través de WAN 2.7 y Seedance 2.0 (720p/1080p)Apoyado
Entrada de referencia de imagenUtilice imágenes como guía de estilo o carácter.Imagen a vídeo Referencia a vídeo (hasta 9 imágenes de referencia)Apoyado
Creación con reconocimiento de audioGenera audio junto con imágenesVoz en off + música de fondo se fusionan flujo de trabajo de video largoSoportado a través del flujo de trabajo
Generación de audio nativoAudio sincronizado dentro de un pase de modeloDisponible en Veo 3 / Veo 3.1Dependiente del modelo
Consistencia del carácterMismo personaje, vestimenta y accesorios en todas las tomas.Referencia a vídeo para bloqueo de caracteres + Continuar escena + planificación multiescenaApoyado
Refinamiento de múltiples vueltasIterar en la misma escena a lo largo de los turnos.Continuar escena Agente de IA bucleApoyado
Generación consciente de la físicaMovimiento, materiales y fuerzas realistas.Enrutado por tarea a través de Veo / Sora / Seedance vía selección multimodeloDependiente del modelo
Creación de múltiples entradasTexto + imagen + audio + vídeo en un solo mensajeReferencia a vídeo admite referencias de texto, imágenes, video y audio con Seedance 2.0 / WAN 2.7Apoyado
Generación de videos cortos.Clips rápidos de menos de 15 segundosAl otro lado de todos los modelos integradosApoyado
Flujo de trabajo de vídeo más largoVídeos de varias tomas y escenasHabilidades de historia a video, publicidad y guión gráfico con fusionSoportado a través del flujo de trabajo
Avatar/vídeo personalGeneración de avatar digital personalReservado para revisión de seguridadLimitado/la seguridad es lo primero
Transparencia de contenidoMetadatos de marca de agua y procedenciaManejo de procedencia por modeloDependiente del modelo
Acceso de desarrollador/APIGeneración programáticaDisponible a través de los flujos de trabajo de VO3 AI hoySoportado a través del flujo de trabajo

El estado refleja los flujos de trabajo actuales de VO3 AI. Vovoo ayuda a guiar la selección de modelos y flujos de trabajo.

En vivo hoy en VO3 AI

Vovoo ya organiza flujos de trabajo multimodelo

Tres flujos de trabajo reales que se ejecutan hoy en VO3 AI, cada uno de los cuales encadena múltiples modelos detrás de un chat. El futuro de la producción unificada es apasionante, pero se puede construir así ahora mismo.

Gemini Omni está disponible, pero aún faltan semanas para la API

Flash es ideal para clips de 10 segundos dentro de la aplicación Gemini o YouTube Shorts. Para videos más largos, flujos de trabajo publicitarios, coherencia de personajes en múltiples tomas o generación programática, Vovoo en VO3 AI organiza hoy un flujo de trabajo multimodelo (Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro) seleccionados automáticamente por paso. Cuando se envía la API Gemini Omni, se une al mismo agente.

Preguntas frecuentes

¿Qué es Géminis Omni?+

Gemini Omni es el modelo multimodal unificado de Google, anunciado en Google I/O 2026 el 19 de mayo de 2026. Acepta texto, imagen, audio y video en un solo mensaje y razones en todos ellos para producir una salida, principalmente video, además de fotos editadas y avatares digitales personalizados. El posicionamiento del CEO Sundar Pichai: "crear cualquier cosa a partir de cualquier aportación". En lugar de encadenar Veo 3.1 (video) + Imagen (imagen) + Lyria (audio), Omni los maneja dentro de un modelo de la familia Gemini.

¿Gemini Omni está disponible ahora?+

Sí, en parte. El primer modelo de la familia, Gemini Omni Flash, comenzó a implementarse el 19 de mayo de 2026 para los suscriptores de AI Plus/Pro/Ultra a través de la aplicación Gemini y el estudio creativo Flow de Google, y es gratuito en YouTube Shorts y YouTube Create. Se promete acceso a la API "en las próximas semanas". Se adelanta un Gemini Omni Pro de gama alta, pero no tiene fecha de lanzamiento.

¿Qué duración pueden tener los vídeos de Gemini Omni?+

Gemini Omni Flash tiene un límite de 10 segundos por clip. Google dice que se trata de una decisión de implementación (para ampliar el acceso temprano mientras la demanda informática es alta), no un límite técnico del modelo. Se espera una generación de formato más largo a partir de Omni Pro o actualizaciones Flash posteriores.

¿En qué se diferencia Gemini Omni de Veo 3.1 o Sora 2?+

Veo 3.1 y Sora 2 son modelos de video que también generan audio. Gemini Omni es multimodal en entradas y salidas: toma texto + imagen + audio + video en un mensaje, y el mismo modelo puede devolver video, fotos editadas o avatares. También hereda la ventana de contexto largo de Gemini, por lo que la consistencia de personajes, vestimenta y accesorios en todas las tomas está integrada en lugar de ser un complemento. Google también está trasladando el video generativo de la línea independiente Veo al sistema central Gemini: Omni es el nuevo centro de gravedad.

¿Qué NO puede hacer Gemini Omni todavía?+

Google deliberadamente retuvo tres capacidades en el lanzamiento: generar imágenes a partir de audio, generar audio a partir de video y editar la pista de voz/habla de un video existente. Estos se enmarcan como una visión a largo plazo, pero se detienen en la revisión de seguridad. Gemini Omni tampoco representa a personas reales; en cambio, utiliza avatares digitales personalizados, que requieren un flujo de incorporación en el que los usuarios se graban a sí mismos diciendo una serie de números. Todas las salidas de Omni llevan la marca de agua SynthID de Google.

¿Cómo puedo utilizar un flujo de trabajo de IA multimodelo hoy?+

Vovoo, el agente de vídeo de IA dentro de VO3 AI, ya organiza múltiples modelos de última generación (Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan y Nano Banana Pro) en un solo chat. Elige el modelo correcto para cada paso (texto a video, imagen a video, flujos de trabajo publicitarios, guiones gráficos, historia a video). Útil en este momento mientras Gemini Omni Flash está cerrado a clips de 10 y aún faltan semanas para la API.

¿VO3 AI integrará Gemini Omni?+

Sí. VO3 AI integra nuevos modelos de Google tan pronto como la API pública esté disponible: Veo 3, Veo 3.1, Veo 3.1 Lite y Nano Banana Pro ya están disponibles. Cuando la API Gemini Omni se envíe en las próximas semanas, estará disponible dentro del mismo agente de chat de Vovoo, junto con los otros modelos.