Gemini Omni – Google Modèle vidéo IA multimodal unifié
Annoncé aujourd'hui lors de Google I/O 2026. Un modèle qui prend du texte, des images, de l'audio et de la vidéo en une seule invite et renvoie une vidéo, des photos modifiées ou un avatar numérique – ce que Sundar Pichai a appelé « créer n'importe quoi à partir de n'importe quelle entrée ». Gemini Omni Flash est déployé aujourd'hui (clips 10s, application Gemini + YouTube Shorts). Accès API dans les semaines à venir.
Qu’est-ce que Gemini Omni ?
Jusqu'à aujourd'hui, la pile multimédia IA de Google utilisait des modèles distincts par modalité : Veo 3.1 pour la vidéo, Imagen 3 pour les images, Nano Banana Pro pour l'édition et Lyria pour la musique. Construire une vidéo terminée impliquait de les enchaîner séparément.
Gemini Omni regroupe cela en un seul modèle multimodal : un système qui raisonne à travers les entrées de texte, d'image, audio et vidéo et renvoie des vidéos, des photos modifiées ou des avatars, avec un contexte partagé dans chaque modalité. Google déplace la vidéo générative de la gamme autonome Veo vers le système Gemini principal, et Omni est le nouveau centre de gravité.
Démos officielles · Keynote Google I/O 2026
Gémeaux Omni en action
Six démos du discours d'ouverture de Google I/O 2026 : grésillement du discours, physique + audio natif, texte en vidéo, édition conversationnelle, physique sensible à la scène et raffinement multi-tours.
Vidéos provenant de blog.google · Annonce Gemini Omni · Toutes les sorties Omni portent le filigrane SynthID.
Confirmé à Google I/O 2026
Ce que Gemini Omni peut faire
À partir de la keynote du 19 mai 2026. Gemini Omni Flash est en ligne aujourd'hui ; Gemini Omni Pro est taquiné sans date.
Entrée multimodale unifiée
Combinez du texte, une image, de l'audio et de la vidéo dans une seule invite. Le modèle raisonne sur toutes les entrées plutôt que de simplement les assembler.
"Créez n'importe quoi à partir de n'importe quelle entrée"
Cadrage I/O 2026 de Pichai. La sortie principale est la vidéo ; le même modèle renvoie également des photos retouchées et des avatars numériques personnalisés.
Raffinement conversationnel
Générez un clip, puis continuez à itérer dans le chat : modifiez une prise de vue, échangez un accessoire, refaites le mouvement de la caméra sans recommencer à zéro.
Cohérence du contexte long
Hérite de la fenêtre à contexte long de Gemini. Les personnages conservent leurs visages, leurs tenues et leurs accessoires sur toutes les prises de vue – un point faible connu des modèles concurrents.
Clips de 10 secondes (Flash)
Gemini Omni Flash limite les clips à 10 secondes aujourd'hui. Google appelle cela un choix de déploiement et non une limite de modèle. Des durées plus longues attendues d’Omni Pro.
Filigrane SynthID + Avatars personnalisés
Chaque sortie Omni contient SynthID pour la vérification de l'IA. Aucune personne réelle depuis des générations : les utilisateurs créent leur propre avatar numérique en enregistrant une séquence de chiffres.
Modèles chaînés vs Gemini Omni (unifié)
Comment le flux de travail change maintenant qu'un modèle de la famille Gemini gère chaque étape.
Traduction : Gemini Omni Flash consolide ce qui était une chaîne d'outils de 4 à 6 en une seule génération de bout en bout – limitée à 10 secondes aujourd'hui, avec un raffinement conversationnel au lieu de redémarrage à partir de zéro.
Alignement des fonctionnalités
Comment VO3 AI s'aligne sur le nouveau flux de travail de création vidéo de Gemini Omni
Gemini Omni montre où va la création vidéo IA : montage conversationnel, références multi-entrées, caractères cohérents, génération sensible à l'audio et flux de travail créatifs plus longs. VO3 AI répond déjà à bon nombre de ces besoins grâce à des flux de travail multimodèles.
Le statut reflète les flux de travail VO3 AI actuels. Vovoo aide à guider la sélection du modèle et du flux de travail.
En direct aujourd'hui sur VO3 AI
Vovoo orchestre déjà des flux de travail multimodèles
Trois véritables workflows fonctionnant aujourd'hui sur VO3 AI, chacun enchaînant plusieurs modèles derrière un seul chat. L’avenir de la production unifiée est passionnant, mais vous pouvez le construire dès maintenant.
Gemini Omni est en ligne, mais l'API est encore dans quelques semaines
Flash est idéal pour les clips de 10 secondes dans l'application Gemini ou YouTube Shorts. Pour des vidéos plus longues, des flux de travail publicitaires, la cohérence des personnages sur plusieurs plans ou la génération programmatique, Vovoo sur VO3 AI orchestre aujourd'hui un flux de travail multimodèle – Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro – sélectionné automatiquement par étape. Lorsque l'API Gemini Omni est livrée, elle rejoint le même agent.
Foire aux questions
Qu’est-ce que Gemini Omni ?+
Gemini Omni est le modèle multimodal unifié de Google, annoncé lors de Google I/O 2026 le 19 mai 2026. Il accepte le texte, l'image, l'audio et la vidéo dans une seule invite et les raisonne pour produire une seule sortie - principalement de la vidéo, ainsi que des photos modifiées et des avatars numériques personnalisés. Le positionnement du PDG Sundar Pichai : « créez n'importe quoi à partir de n'importe quelle entrée ». Au lieu de chaîner Veo 3.1 (vidéo) + Imagen (image) + Lyria (audio), Omni les gère dans un seul modèle de la famille Gemini.
Gemini Omni est-il disponible maintenant ?+
Oui, en partie. Le premier modèle de la famille, Gemini Omni Flash, a commencé à être déployé le 19 mai 2026 auprès des abonnés AI Plus/Pro/Ultra via l'application Gemini et le studio de création Flow de Google, et est gratuit dans YouTube Shorts et YouTube Create. L'accès à l'API est promis "dans les semaines à venir". Un Gemini Omni Pro haut de gamme est teasé mais n'a pas de date de sortie.
Quelle est la durée des vidéos Gemini Omni ?+
Gemini Omni Flash est limité à 10 secondes par clip. Google affirme qu'il s'agit d'une décision de déploiement (pour élargir l'accès anticipé alors que la demande de calcul est élevée), et non d'une limite technique du modèle. La génération de formulaires plus longs est attendue à partir d’Omni Pro ou de mises à jour Flash ultérieures.
En quoi Gemini Omni est-il différent de Veo 3.1 ou Sora 2 ?+
Veo 3.1 et Sora 2 sont des modèles vidéo qui génèrent également de l'audio. Gemini Omni est multimodal entre entrées et sorties : il prend du texte + image + audio + vidéo en une seule invite, et le même modèle peut renvoyer une vidéo, des photos modifiées ou des avatars. Il hérite également de la fenêtre de contexte longue de Gemini, de sorte que la cohérence des personnages, des tenues et des accessoires entre les plans est intégrée plutôt que boulonnée. Google déplace également la vidéo générative de la gamme autonome Veo vers le système Gemini principal – Omni est le nouveau centre de gravité.
Que ne peut PAS encore faire Gemini Omni ?+
Google a délibérément retenu trois fonctionnalités au lancement : générer des images à partir de l'audio, générer de l'audio à partir d'une vidéo et éditer la piste voix/parole d'une vidéo existante. Celles-ci sont présentées comme une vision à long terme mais sont suspendues à l'examen de la sécurité. Gemini Omni ne représente pas non plus de vraies personnes. Il utilise plutôt des avatars numériques personnalisés, qui nécessitent un flux d'intégration dans lequel les utilisateurs s'enregistrent en train de prononcer une série de chiffres. Toutes les sorties Omni portent le filigrane SynthID de Google.
Comment puis-je utiliser un workflow d’IA multimodèle aujourd’hui ?+
Vovoo, l'agent vidéo IA de VO3 AI, orchestre déjà plusieurs modèles de pointe – Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan et Nano Banana Pro – dans une seule conversation. Il sélectionne le bon modèle pour chaque étape (texte vers vidéo, image vers vidéo, flux de travail publicitaire, storyboards, histoire vers vidéo). Utile en ce moment alors que Gemini Omni Flash est limité aux clips de 10 secondes et que l'API est encore dans quelques semaines.
VO3 AI intégrera-t-il Gemini Omni ?+
Oui. VO3 AI intègre de nouveaux modèles Google dès que l'API publique est disponible : Veo 3, Veo 3.1, Veo 3.1 Lite et Nano Banana Pro sont déjà en ligne. Lorsque l'API Gemini Omni sera disponible dans les semaines à venir, elle sera disponible dans le même agent de chat Vovoo, aux côtés des autres modèles.
