En direct · Annoncé lors de Google I/O 2026 · 19 mai 2026

Gemini Omni – Google Modèle vidéo IA multimodal unifié

Annoncé aujourd'hui lors de Google I/O 2026. Un modèle qui prend du texte, des images, de l'audio et de la vidéo en une seule invite et renvoie une vidéo, des photos modifiées ou un avatar numérique – ce que Sundar Pichai a appelé « créer n'importe quoi à partir de n'importe quelle entrée ». Gemini Omni Flash est déployé aujourd'hui (clips 10s, application Gemini + YouTube Shorts). Accès API dans les semaines à venir.

Qu’est-ce que Gemini Omni ?

Jusqu'à aujourd'hui, la pile multimédia IA de Google utilisait des modèles distincts par modalité : Veo 3.1 pour la vidéo, Imagen 3 pour les images, Nano Banana Pro pour l'édition et Lyria pour la musique. Construire une vidéo terminée impliquait de les enchaîner séparément.

Gemini Omni regroupe cela en un seul modèle multimodal : un système qui raisonne à travers les entrées de texte, d'image, audio et vidéo et renvoie des vidéos, des photos modifiées ou des avatars, avec un contexte partagé dans chaque modalité. Google déplace la vidéo générative de la gamme autonome Veo vers le système Gemini principal, et Omni est le nouveau centre de gravité.

Démos officielles · Keynote Google I/O 2026

Gémeaux Omni en action

Six démos du discours d'ouverture de Google I/O 2026 : grésillement du discours, physique + audio natif, texte en vidéo, édition conversationnelle, physique sensible à la scène et raffinement multi-tours.

Bobine grésillante Keynote

Montage principal

Range of styles, characters, environments and motion.

La bobine grésillante I/O 2026 de Google — un aperçu rapide de ce que Gemini Omni Flash peut produire dans tous les genres, avant les démos plus approfondies par fonctionnalité.

🔊 Audio natif
Physique + Audio Natif

Réaction en chaîne de marbre

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Présentation de Google pour la « compréhension intuitive des forces telles que la gravité, l'énergie cinétique et la dynamique des fluides » d'Omni, générée avec un son synchronisé en un seul passage.

Texte vers vidéo

Scène d'astronaute

Astronaut prompt-to-video generation.

Sujet de référence vidéo IA classique : utilisé pour présenter la gestion par Omni d'environnements, de matériaux complexes (verre de casque, tissu) et de mouvements sans qu'aucune séquence d'entrée ne soit requise.

Modification conversationnelle

Sculpture → Mousse

"Make the sculpture out of bubbles."

Entrée : vidéo d’une sculpture d’orbe. Une instruction conversationnelle réécrit le matériel sur l’ensemble du clip tout en préservant le mouvement et l’éclairage.

Physique sensible à la scène Modifier

Miroir Ripple + Bras Chromé

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Entrée : vidéo d'une personne touchant un miroir. Omni relance la scène avec deux montages physiquement corrects déclenchés par le moment de contact.

Raffinement conversationnel

Violon multitours

Series of sequential edits, each building on the last.

Cadrage de Google : "Chaque instruction s'appuie sur la précédente. Vos personnages restent cohérents, la physique tient le coup et la scène se souvient de ce qui précède."

Vidéos provenant de blog.google · Annonce Gemini Omni · Toutes les sorties Omni portent le filigrane SynthID.

Confirmé à Google I/O 2026

Ce que Gemini Omni peut faire

À partir de la keynote du 19 mai 2026. Gemini Omni Flash est en ligne aujourd'hui ; Gemini Omni Pro est taquiné sans date.

Entrée multimodale unifiée

Combinez du texte, une image, de l'audio et de la vidéo dans une seule invite. Le modèle raisonne sur toutes les entrées plutôt que de simplement les assembler.

"Créez n'importe quoi à partir de n'importe quelle entrée"

Cadrage I/O 2026 de Pichai. La sortie principale est la vidéo ; le même modèle renvoie également des photos retouchées et des avatars numériques personnalisés.

Raffinement conversationnel

Générez un clip, puis continuez à itérer dans le chat : modifiez une prise de vue, échangez un accessoire, refaites le mouvement de la caméra sans recommencer à zéro.

Cohérence du contexte long

Hérite de la fenêtre à contexte long de Gemini. Les personnages conservent leurs visages, leurs tenues et leurs accessoires sur toutes les prises de vue – un point faible connu des modèles concurrents.

Clips de 10 secondes (Flash)

Gemini Omni Flash limite les clips à 10 secondes aujourd'hui. Google appelle cela un choix de déploiement et non une limite de modèle. Des durées plus longues attendues d’Omni Pro.

Filigrane SynthID + Avatars personnalisés

Chaque sortie Omni contient SynthID pour la vérification de l'IA. Aucune personne réelle depuis des générations : les utilisateurs créent leur propre avatar numérique en enregistrant une séquence de chiffres.

Modèles chaînés vs Gemini Omni (unifié)

Comment le flux de travail change maintenant qu'un modèle de la famille Gemini gère chaque étape.

ÉtapeAvant Omni (modèles séparés)Gemini Omni Flash (un modèle)
ScénarioGémeaux 3 / Claude / GPTIntégré
Image conceptuelleImage / Nano Banana ProIntégré
Animation vidéoVéo 3.1 / Sora 2Intégré
Audio + voixLyria / OnzeLabsIntégré, synchronisé avec la vidéo
Cohérence des personnagesDifficile à maintenir entre les outilsÉtat de contexte long partagé
Format de sortiePoint + exportationSocial/écran large natif

Traduction : Gemini Omni Flash consolide ce qui était une chaîne d'outils de 4 à 6 en une seule génération de bout en bout – limitée à 10 secondes aujourd'hui, avec un raffinement conversationnel au lieu de redémarrage à partir de zéro.

Alignement des fonctionnalités

Comment VO3 AI s'aligne sur le nouveau flux de travail de création vidéo de Gemini Omni

Gemini Omni montre où va la création vidéo IA : montage conversationnel, références multi-entrées, caractères cohérents, génération sensible à l'audio et flux de travail créatifs plus longs. VO3 AI répond déjà à bon nombre de ces besoins grâce à des flux de travail multimodèles.

Capacité Gemini OmniCe que cela signifiePrise en charge de l'IA VO3Statut
Flux de travail vidéo conversationnelPlanifiez, affinez et poursuivez la création vidéo via le chatAgent vidéo IA Vovoo aide à guider les invites, les scènes, les modèles et les révisionsPris en charge via le flux de travail
Montage vidéo à vidéoModifier une vidéo existante avec une instruction textuelleÉditeur vidéo IA — éditions d'instructions textuelles via WAN 2.7 et Seedance 2.0 (720p/1080p)Soutenu
Entrée de référence d'imageUtiliser des images comme guide de style ou de caractèreImage vers vidéo Référence à la vidéo (jusqu'à 9 images de référence)Soutenu
Création audioGénérez de l'audio à côté des visuelsFusion voix off + BGM flux de travail pour les vidéos longuesPris en charge via le flux de travail
Génération audio nativeAudio synchronisé dans un seul passage de modèleDisponible sur Véo 3 / Véo 3.1Dépend du modèle
Cohérence des personnagesMême personnage, tenue et accessoires sur tous les plansRéférence à la vidéo pour le verrouillage des caractères + Continuer la scène + planification multi-scènesSoutenu
Affinement multi-toursItérer sur la même scène à travers les toursContinuer la scène Agent IA boucleSoutenu
Génération sensible à la physiqueMouvement, matériaux et forces réalistesAcheminé par tâche sur Veo / Sora / Seedance via sélection multi-modèleDépend du modèle
Création multi-entréesTexte + image + audio + vidéo en une seule inviteRéférence à la vidéo prend en charge les références texte, image, vidéo et audio avec Seedance 2.0 / WAN 2.7Soutenu
Génération de vidéos courtesClips rapides de moins de 15 secondesÀ travers tous les modèles intégrésSoutenu
Flux de travail vidéo plus longVidéos multi-plans et multi-scènesCompétences en matière de story-to-video, de publicité et de storyboard avec fusionPris en charge via le flux de travail
Avatar / vidéo personnelleGénération d'avatar numérique personnelRéservé à l'examen de sécuritéLimité/la sécurité avant tout
Transparence du contenuMétadonnées de filigrane et de provenanceGestion de la provenance par modèleDépend du modèle
Accès développeur/APIGénération programmatiqueDisponible dès aujourd’hui via les workflows VO3 AIPris en charge via le flux de travail

Le statut reflète les flux de travail VO3 AI actuels. Vovoo aide à guider la sélection du modèle et du flux de travail.

En direct aujourd'hui sur VO3 AI

Vovoo orchestre déjà des flux de travail multimodèles

Trois véritables workflows fonctionnant aujourd'hui sur VO3 AI, chacun enchaînant plusieurs modèles derrière un seul chat. L’avenir de la production unifiée est passionnant, mais vous pouvez le construire dès maintenant.

Gemini Omni est en ligne, mais l'API est encore dans quelques semaines

Flash est idéal pour les clips de 10 secondes dans l'application Gemini ou YouTube Shorts. Pour des vidéos plus longues, des flux de travail publicitaires, la cohérence des personnages sur plusieurs plans ou la génération programmatique, Vovoo sur VO3 AI orchestre aujourd'hui un flux de travail multimodèle – Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro – sélectionné automatiquement par étape. Lorsque l'API Gemini Omni est livrée, elle rejoint le même agent.

Foire aux questions

Qu’est-ce que Gemini Omni ?+

Gemini Omni est le modèle multimodal unifié de Google, annoncé lors de Google I/O 2026 le 19 mai 2026. Il accepte le texte, l'image, l'audio et la vidéo dans une seule invite et les raisonne pour produire une seule sortie - principalement de la vidéo, ainsi que des photos modifiées et des avatars numériques personnalisés. Le positionnement du PDG Sundar Pichai : « créez n'importe quoi à partir de n'importe quelle entrée ». Au lieu de chaîner Veo 3.1 (vidéo) + Imagen (image) + Lyria (audio), Omni les gère dans un seul modèle de la famille Gemini.

Gemini Omni est-il disponible maintenant ?+

Oui, en partie. Le premier modèle de la famille, Gemini Omni Flash, a commencé à être déployé le 19 mai 2026 auprès des abonnés AI Plus/Pro/Ultra via l'application Gemini et le studio de création Flow de Google, et est gratuit dans YouTube Shorts et YouTube Create. L'accès à l'API est promis "dans les semaines à venir". Un Gemini Omni Pro haut de gamme est teasé mais n'a pas de date de sortie.

Quelle est la durée des vidéos Gemini Omni ?+

Gemini Omni Flash est limité à 10 secondes par clip. Google affirme qu'il s'agit d'une décision de déploiement (pour élargir l'accès anticipé alors que la demande de calcul est élevée), et non d'une limite technique du modèle. La génération de formulaires plus longs est attendue à partir d’Omni Pro ou de mises à jour Flash ultérieures.

En quoi Gemini Omni est-il différent de Veo 3.1 ou Sora 2 ?+

Veo 3.1 et Sora 2 sont des modèles vidéo qui génèrent également de l'audio. Gemini Omni est multimodal entre entrées et sorties : il prend du texte + image + audio + vidéo en une seule invite, et le même modèle peut renvoyer une vidéo, des photos modifiées ou des avatars. Il hérite également de la fenêtre de contexte longue de Gemini, de sorte que la cohérence des personnages, des tenues et des accessoires entre les plans est intégrée plutôt que boulonnée. Google déplace également la vidéo générative de la gamme autonome Veo vers le système Gemini principal – Omni est le nouveau centre de gravité.

Que ne peut PAS encore faire Gemini Omni ?+

Google a délibérément retenu trois fonctionnalités au lancement : générer des images à partir de l'audio, générer de l'audio à partir d'une vidéo et éditer la piste voix/parole d'une vidéo existante. Celles-ci sont présentées comme une vision à long terme mais sont suspendues à l'examen de la sécurité. Gemini Omni ne représente pas non plus de vraies personnes. Il utilise plutôt des avatars numériques personnalisés, qui nécessitent un flux d'intégration dans lequel les utilisateurs s'enregistrent en train de prononcer une série de chiffres. Toutes les sorties Omni portent le filigrane SynthID de Google.

Comment puis-je utiliser un workflow d’IA multimodèle aujourd’hui ?+

Vovoo, l'agent vidéo IA de VO3 AI, orchestre déjà plusieurs modèles de pointe – Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan et Nano Banana Pro – dans une seule conversation. Il sélectionne le bon modèle pour chaque étape (texte vers vidéo, image vers vidéo, flux de travail publicitaire, storyboards, histoire vers vidéo). Utile en ce moment alors que Gemini Omni Flash est limité aux clips de 10 secondes et que l'API est encore dans quelques semaines.

VO3 AI intégrera-t-il Gemini Omni ?+

Oui. VO3 AI intègre de nouveaux modèles Google dès que l'API publique est disponible : Veo 3, Veo 3.1, Veo 3.1 Lite et Nano Banana Pro sont déjà en ligne. Lorsque l'API Gemini Omni sera disponible dans les semaines à venir, elle sera disponible dans le même agent de chat Vovoo, aux côtés des autres modèles.