En direct · Annoncé lors de Google I/O 2026 · 19 mai 2026

Gemini Omni – Google Modèle vidéo IA multimodal unifié

Annoncé aujourd'hui lors de Google I/O 2026. Un modèle qui prend du texte, des images, de l'audio et de la vidéo en une seule invite et renvoie une vidéo, des photos modifiées ou un avatar numérique – ce que Sundar Pichai a appelé « créer n'importe quoi à partir de n'importe quelle entrée ». Gemini Omni Flash est déployé aujourd'hui (clips 10s, application Gemini + YouTube Shorts). Accès API dans les semaines à venir.

Essayez l'agent multimodèle Vovoo Comment fonctionne Vovoo

Now live on VO3 AI

Try Gemini Omni on VO3 AI today

We've integrated Gemini Omni Video into the VO3 AI workspace — generate from text, animate from an image, or edit an existing clip. 720p · 1080p · 4–10s. No waitlist.

Generate (Text / Image → Video)Video Edit Or chat with Vovoo

Qu’est-ce que Gemini Omni ?

Jusqu'à aujourd'hui, la pile multimédia IA de Google utilisait des modèles distincts par modalité : Veo 3.1 pour la vidéo, Imagen 3 pour les images, Nano Banana Pro pour l'édition et Lyria pour la musique. Construire une vidéo terminée impliquait de les enchaîner séparément.

Gemini Omni regroupe cela en un seul modèle multimodal : un système qui raisonne à travers les entrées de texte, d'image, audio et vidéo et renvoie des vidéos, des photos modifiées ou des avatars, avec un contexte partagé dans chaque modalité. Google déplace la vidéo générative de la gamme autonome Veo vers le système Gemini principal, et Omni est le nouveau centre de gravité.

Démos officielles · Keynote Google I/O 2026

Gémeaux Omni en action

Six démos du discours d'ouverture de Google I/O 2026 : grésillement du discours, physique + audio natif, texte en vidéo, édition conversationnelle, physique sensible à la scène et raffinement multi-tours.

Bobine grésillante Keynote

Montage principal

Range of styles, characters, environments and motion.

La bobine grésillante I/O 2026 de Google — un aperçu rapide de ce que Gemini Omni Flash peut produire dans tous les genres, avant les démos plus approfondies par fonctionnalité.

🔊 Audio natif

Physique + Audio Natif

Réaction en chaîne de marbre

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Présentation de Google pour la « compréhension intuitive des forces telles que la gravité, l'énergie cinétique et la dynamique des fluides » d'Omni, générée avec un son synchronisé en un seul passage.

Texte vers vidéo

Scène d'astronaute

Astronaut prompt-to-video generation.

Sujet de référence vidéo IA classique : utilisé pour présenter la gestion par Omni d'environnements, de matériaux complexes (verre de casque, tissu) et de mouvements sans qu'aucune séquence d'entrée ne soit requise.

Modification conversationnelle

Sculpture → Mousse

"Make the sculpture out of bubbles."

Entrée : vidéo d’une sculpture d’orbe. Une instruction conversationnelle réécrit le matériel sur l’ensemble du clip tout en préservant le mouvement et l’éclairage.

Physique sensible à la scène Modifier

Miroir Ripple + Bras Chromé

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Entrée : vidéo d'une personne touchant un miroir. Omni relance la scène avec deux montages physiquement corrects déclenchés par le moment de contact.

Raffinement conversationnel

Violon multitours

Series of sequential edits, each building on the last.

Cadrage de Google : "Chaque instruction s'appuie sur la précédente. Vos personnages restent cohérents, la physique tient le coup et la scène se souvient de ce qui précède."

Vidéos provenant de blog.google · Annonce Gemini Omni · Toutes les sorties Omni portent le filigrane SynthID.

Confirmé à Google I/O 2026

Ce que Gemini Omni peut faire

À partir de la keynote du 19 mai 2026. Gemini Omni Flash est en ligne aujourd'hui ; Gemini Omni Pro est taquiné sans date.

Entrée multimodale unifiée

Combinez du texte, une image, de l'audio et de la vidéo dans une seule invite. Le modèle raisonne sur toutes les entrées plutôt que de simplement les assembler.

"Créez n'importe quoi à partir de n'importe quelle entrée"

Cadrage I/O 2026 de Pichai. La sortie principale est la vidéo ; le même modèle renvoie également des photos retouchées et des avatars numériques personnalisés.

Raffinement conversationnel

Générez un clip, puis continuez à itérer dans le chat : modifiez une prise de vue, échangez un accessoire, refaites le mouvement de la caméra sans recommencer à zéro.

Cohérence du contexte long

Hérite de la fenêtre à contexte long de Gemini. Les personnages conservent leurs visages, leurs tenues et leurs accessoires sur toutes les prises de vue – un point faible connu des modèles concurrents.

Clips de 10 secondes (Flash)

Gemini Omni Flash limite les clips à 10 secondes aujourd'hui. Google appelle cela un choix de déploiement et non une limite de modèle. Des durées plus longues attendues d’Omni Pro.

Filigrane SynthID + Avatars personnalisés

Chaque sortie Omni contient SynthID pour la vérification de l'IA. Aucune personne réelle depuis des générations : les utilisateurs créent leur propre avatar numérique en enregistrant une séquence de chiffres.

Modèles chaînés vs Gemini Omni (unifié)

Comment le flux de travail change maintenant qu'un modèle de la famille Gemini gère chaque étape.

Étape	Avant Omni (modèles séparés)	Gemini Omni Flash (un modèle)
Scénario	Gémeaux 3 / Claude / GPT	Intégré
Image conceptuelle	Image / Nano Banana Pro	Intégré
Animation vidéo	Véo 3.1 / Sora 2	Intégré
Audio + voix	Lyria / OnzeLabs	Intégré, synchronisé avec la vidéo
Cohérence des personnages	Difficile à maintenir entre les outils	État de contexte long partagé
Format de sortie	Point + exportation	Social/écran large natif

Traduction : Gemini Omni Flash consolide ce qui était une chaîne d'outils de 4 à 6 en une seule génération de bout en bout – limitée à 10 secondes aujourd'hui, avec un raffinement conversationnel au lieu de redémarrage à partir de zéro.

Alignement des fonctionnalités

Comment VO3 AI s'aligne sur le nouveau flux de travail de création vidéo de Gemini Omni

Gemini Omni montre où va la création vidéo IA : montage conversationnel, références multi-entrées, caractères cohérents, génération sensible à l'audio et flux de travail créatifs plus longs. VO3 AI répond déjà à bon nombre de ces besoins grâce à des flux de travail multimodèles.

Capacité Gemini Omni	Ce que cela signifie	Prise en charge de l'IA VO3	Statut
Flux de travail vidéo conversationnel	Planifiez, affinez et poursuivez la création vidéo via le chat	Agent vidéo IA Vovoo aide à guider les invites, les scènes, les modèles et les révisions	Pris en charge via le flux de travail
Montage vidéo à vidéo	Modifier une vidéo existante avec une instruction textuelle	Éditeur vidéo IA — éditions d'instructions textuelles via WAN 2.7 et Seedance 2.0 (720p/1080p)	Soutenu
Entrée de référence d'image	Utiliser des images comme guide de style ou de caractère	Image vers vidéo Référence à la vidéo (jusqu'à 9 images de référence)	Soutenu
Création audio	Générez de l'audio à côté des visuels	Fusion voix off + BGM flux de travail pour les vidéos longues	Pris en charge via le flux de travail
Génération audio native	Audio synchronisé dans un seul passage de modèle	Disponible sur Véo 3 / Véo 3.1	Dépend du modèle
Cohérence des personnages	Même personnage, tenue et accessoires sur tous les plans	Référence à la vidéo pour le verrouillage des caractères + Continuer la scène + planification multi-scènes	Soutenu
Affinement multi-tours	Itérer sur la même scène à travers les tours	Continuer la scène Agent IA boucle	Soutenu
Génération sensible à la physique	Mouvement, matériaux et forces réalistes	Acheminé par tâche sur Veo / Sora / Seedance via sélection multi-modèle	Dépend du modèle
Création multi-entrées	Texte + image + audio + vidéo en une seule invite	Référence à la vidéo prend en charge les références texte, image, vidéo et audio avec Seedance 2.0 / WAN 2.7	Soutenu
Génération de vidéos courtes	Clips rapides de moins de 15 secondes	À travers tous les modèles intégrés	Soutenu
Flux de travail vidéo plus long	Vidéos multi-plans et multi-scènes	Compétences en matière de story-to-video, de publicité et de storyboard avec fusion	Pris en charge via le flux de travail
Avatar / vidéo personnelle	Génération d'avatar numérique personnel	Réservé à l'examen de sécurité	Limité/la sécurité avant tout
Transparence du contenu	Métadonnées de filigrane et de provenance	Gestion de la provenance par modèle	Dépend du modèle
Accès développeur/API	Génération programmatique	Disponible dès aujourd’hui via les workflows VO3 AI	Pris en charge via le flux de travail

Le statut reflète les flux de travail VO3 AI actuels. Vovoo aide à guider la sélection du modèle et du flux de travail.

En direct aujourd'hui sur VO3 AI

Vovoo orchestre déjà des flux de travail multimodèles

Trois véritables workflows fonctionnant aujourd'hui sur VO3 AI, chacun enchaînant plusieurs modèles derrière un seul chat. L’avenir de la production unifiée est passionnant, mais vous pouvez le construire dès maintenant.

Storyboard cinématographique

GPT Image 2 planifie 8 panneaux → Seedance 2 les anime en un seul clip cinématique de 15 secondes.

Essayez ce flux de travail →

Éléments du produit → Vidéo publicitaire

Brief → script → storyboard à 4 panneaux → animation par segment → publicité fusionnée des années 30.

Essayez ce flux de travail →

URL C2Story → Film d'animation

Analyse de l'histoire → division de la scène → invites visuelles → animation → court métrage fusionné.

Essayez ce flux de travail →

Gemini Omni est en ligne, mais l'API est encore dans quelques semaines

Flash est idéal pour les clips de 10 secondes dans l'application Gemini ou YouTube Shorts. Pour des vidéos plus longues, des flux de travail publicitaires, la cohérence des personnages sur plusieurs plans ou la génération programmatique, Vovoo sur VO3 AI orchestre aujourd'hui un flux de travail multimodèle – Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro – sélectionné automatiquement par étape. Lorsque l'API Gemini Omni est livrée, elle rejoint le même agent.

Ouvrir l'agent Vovoo Lire : Veo 4 — Ce que nous savons

Foire aux questions

Qu’est-ce que Gemini Omni ?+

Gemini Omni est le modèle multimodal unifié de Google, annoncé lors de Google I/O 2026 le 19 mai 2026. Il accepte le texte, l'image, l'audio et la vidéo dans une seule invite et les raisonne pour produire une seule sortie - principalement de la vidéo, ainsi que des photos modifiées et des avatars numériques personnalisés. Le positionnement du PDG Sundar Pichai : « créez n'importe quoi à partir de n'importe quelle entrée ». Au lieu de chaîner Veo 3.1 (vidéo) + Imagen (image) + Lyria (audio), Omni les gère dans un seul modèle de la famille Gemini.

Gemini Omni est-il disponible maintenant ?+

Oui, en partie. Le premier modèle de la famille, Gemini Omni Flash, a commencé à être déployé le 19 mai 2026 auprès des abonnés AI Plus/Pro/Ultra via l'application Gemini et le studio de création Flow de Google, et est gratuit dans YouTube Shorts et YouTube Create. L'accès à l'API est promis "dans les semaines à venir". Un Gemini Omni Pro haut de gamme est teasé mais n'a pas de date de sortie.

Quelle est la durée des vidéos Gemini Omni ?+

Gemini Omni Flash est limité à 10 secondes par clip. Google affirme qu'il s'agit d'une décision de déploiement (pour élargir l'accès anticipé alors que la demande de calcul est élevée), et non d'une limite technique du modèle. La génération de formulaires plus longs est attendue à partir d’Omni Pro ou de mises à jour Flash ultérieures.

En quoi Gemini Omni est-il différent de Veo 3.1 ou Sora 2 ?+

Veo 3.1 et Sora 2 sont des modèles vidéo qui génèrent également de l'audio. Gemini Omni est multimodal entre entrées et sorties : il prend du texte + image + audio + vidéo en une seule invite, et le même modèle peut renvoyer une vidéo, des photos modifiées ou des avatars. Il hérite également de la fenêtre de contexte longue de Gemini, de sorte que la cohérence des personnages, des tenues et des accessoires entre les plans est intégrée plutôt que boulonnée. Google déplace également la vidéo générative de la gamme autonome Veo vers le système Gemini principal – Omni est le nouveau centre de gravité.

Que ne peut PAS encore faire Gemini Omni ?+

Google a délibérément retenu trois fonctionnalités au lancement : générer des images à partir de l'audio, générer de l'audio à partir d'une vidéo et éditer la piste voix/parole d'une vidéo existante. Celles-ci sont présentées comme une vision à long terme mais sont suspendues à l'examen de la sécurité. Gemini Omni ne représente pas non plus de vraies personnes. Il utilise plutôt des avatars numériques personnalisés, qui nécessitent un flux d'intégration dans lequel les utilisateurs s'enregistrent en train de prononcer une série de chiffres. Toutes les sorties Omni portent le filigrane SynthID de Google.

Comment puis-je utiliser un workflow d’IA multimodèle aujourd’hui ?+

Vovoo, l'agent vidéo IA de VO3 AI, orchestre déjà plusieurs modèles de pointe – Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan et Nano Banana Pro – dans une seule conversation. Il sélectionne le bon modèle pour chaque étape (texte vers vidéo, image vers vidéo, flux de travail publicitaire, storyboards, histoire vers vidéo). Utile en ce moment alors que Gemini Omni Flash est limité aux clips de 10 secondes et que l'API est encore dans quelques semaines.

VO3 AI intégrera-t-il Gemini Omni ?+

Oui. VO3 AI intègre de nouveaux modèles Google dès que l'API publique est disponible : Veo 3, Veo 3.1, Veo 3.1 Lite et Nano Banana Pro sont déjà en ligne. Lorsque l'API Gemini Omni sera disponible dans les semaines à venir, elle sera disponible dans le même agent de chat Vovoo, aux côtés des autres modèles.