Dal vivo · Annunciato al Google I/O 2026 · 19 maggio 2026

Gemini Omni: di Google Modello video AI multimodale unificato

Annunciato oggi al Google I/O 2026. Un modello che accetta testo, immagini, audio e video in un unico prompt e restituisce video, foto modificate o un avatar digitale: ciò che Sundar Pichai chiamava "creare qualsiasi cosa da qualsiasi input". Gemini Omni Flash viene lanciato oggi (clip da 10 secondi, app Gemini + YouTube Shorts). Accesso API nelle prossime settimane.

Cos'è Gemini Omni?

Fino ad oggi, lo stack multimediale AI di Google utilizzava modelli separati per modalità: Veo 3.1 per i video, Imagen 3 per le immagini, Nano Banana Pro per l'editing e Lyria per la musica. Costruire un video finito significava concatenarli separatamente.

Gemini Omni comprime tutto questo in un unico modello multimodale: un sistema che ragiona su input di testo, immagini, audio e video e restituisce video, foto modificate o avatar, con contesto condiviso in ogni modalità. Google sta spostando il video generativo dalla linea autonoma Veo al sistema centrale Gemini e Omni è il nuovo centro di gravità.

Demo ufficiali · Keynote di Google I/O 2026

Gemelli Omni in azione

Sei demo del keynote dell'I/O 2026 di Google: sfrigolio del keynote, fisica + audio nativo, testo in video, editing conversazionale, fisica basata sulla scena e perfezionamento multi-turn.

Bobina Sizzle di Keynote

Montaggio delle note chiave

Range of styles, characters, environments and motion.

Lo sfrigolante filmato I/O 2026 di Google: un rapido sondaggio di ciò che Gemini Omni Flash può produrre in tutti i generi, prima delle demo più approfondite per funzionalità.

🔊 Audio nativo
Fisica + Audio nativo

Reazione a catena del marmo

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

La vetrina di Google per la "comprensione intuitiva di forze come la gravità, l'energia cinetica e la dinamica dei fluidi" di Omni, generata con audio sincronizzato in un unico passaggio.

Testo in video

Scena dell'astronauta

Astronaut prompt-to-video generation.

Classico soggetto di benchmark video AI: utilizzato per mostrare la gestione da parte di Omni di ambienti complessi, materiali (vetro del casco, tessuto) e movimento senza che siano richiesti filmati di input.

Modifica conversazionale

Scultura → Schiuma

"Make the sculpture out of bubbles."

Ingresso: video di una scultura di sfera. Un'istruzione conversazionale riscrive il materiale nell'intera clip preservando il movimento e l'illuminazione.

Modifica fisica basata sulla scena

Specchio ondulato + braccio cromato

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Input: video di una persona che tocca uno specchio. Omni riesegue la scena con due modifiche fisicamente corrette attivate dal momento del contatto.

Perfezionamento della conversazione

Violino multigiro

Series of sequential edits, each building on the last.

L'inquadramento di Google: "Ogni istruzione si basa su quella precedente. I tuoi personaggi rimangono coerenti, la fisica regge e la scena ricorda ciò che è accaduto prima."

Video provenienti da blog.google · Annuncio di Gemini Omni · Tutte le uscite Omni portano la filigrana SynthID.

Confermato al Google I/O 2026

Cosa può fare Gemini Omni

Dal keynote del 19 maggio 2026. Gemini Omni Flash è attivo oggi; Gemini Omni Pro viene preso in giro senza data.

Input multimodale unificato

Combina testo, immagini, audio e video in un unico prompt. Il modello ragiona su tutti gli input anziché semplicemente metterli insieme.

"Crea qualsiasi cosa da qualsiasi input"

Inquadratura I/O 2026 di Pichai. L'output principale è il video; lo stesso modello restituisce anche foto modificate e avatar digitali personalizzati.

Perfezionamento della conversazione

Genera una clip, quindi continua a ripetere in chat: cambia una ripresa, scambia un oggetto di scena, ripeti il ​​movimento della telecamera senza ricominciare da zero.

Coerenza a lungo contesto

Eredita la finestra di contesto lungo di Gemini. I personaggi mantengono i loro volti, abiti e oggetti di scena durante le inquadrature: un noto punto debole per i modelli concorrenti.

Clip da 10 secondi (Flash)

Gemini Omni Flash oggi limita le clip a 10 secondi. Google la definisce una scelta di implementazione, non un limite del modello. Durate più lunghe previste da Omni Pro.

Filigrana SynthID + avatar personalizzati

Ogni uscita Omni trasporta SynthID per la verifica AI. Nessuna persona reale da generazioni: gli utenti creano il proprio avatar digitale registrando una sequenza numerica.

Modelli concatenati vs Gemini Omni (unificati)

Come cambia il flusso di lavoro ora che un unico modello della famiglia Gemini gestisce ogni passaggio.

Fare un passoPrima di Omni (modelli separati)Gemini Omni Flash (un modello)
CopioneGemelli 3 / Claude / GPTIntegrato
Immagine concettualeImmagine / Nano Banana ProIntegrato
Animazione videoVeo 3.1 / Sora 2Integrato
Audio + voceLyria/UndiciLabsIntegrato, sincronizzato con il video
Coerenza del carattereDifficile da mantenere su tutti gli strumentiStato di contesto lungo condiviso
Formato di uscitaCuci + esportaSocial/widescreen nativo

Traduzione: Gemini Omni Flash consolida quella che era una catena di 4-6 strumenti in un'unica generazione end-to-end, limitata oggi a 10 secondi, con perfezionamento della conversazione invece di modifiche riavviate da zero.

Allineamento delle funzionalità

Come VO3 AI si allinea al nuovo flusso di lavoro di creazione video di Gemini Omni

Gemini Omni mostra dove sta andando la creazione di video AI: editing conversazionale, riferimenti multi-input, personaggi coerenti, generazione consapevole dell'audio e flussi di lavoro creativi più lunghi. VO3 AI supporta già molte di queste esigenze attraverso flussi di lavoro multi-modello.

Capacità Gemini OmniCosa significaSupporto IA VO3Stato
Flusso di lavoro video conversazionalePianifica, perfeziona e continua la creazione di video tramite chatAgente video AI Vovoo aiuta a guidare suggerimenti, scene, modelli e revisioniSupportato tramite flusso di lavoro
Montaggio da video a videoModifica un video esistente con un'istruzione testualeEditor video AI — modifiche alle istruzioni di testo tramite WAN 2.7 e Seedance 2.0 (720p/1080p)Supportato
Ingresso riferimento immagineUtilizza le immagini come guida per lo stile o per i personaggiImmagine in video Riferimento al video (fino a 9 immagini di riferimento)Supportato
Creazione consapevole dell'audioGenera audio insieme a immaginiVoce fuori campo e musica di sottofondo si uniscono flusso di lavoro per video lunghiSupportato tramite flusso di lavoro
Generazione audio nativaAudio sincronizzato all'interno di un passaggio modelloDisponibile su Veo 3 / Veo 3.1Dipendente dal modello
Coerenza del carattereStesso personaggio, outfit e oggetti di scena in tutte le inquadratureRiferimento al video per il blocco dei caratteri + Continua la scena + Pianificazione multi-scenaSupportato
Affinamento multigiroRipetere la stessa scena tra i turniContinua la scena Agente dell'IA ciclo continuoSupportato
Generazione consapevole della fisicaMovimento, materiali e forze realisticiInstradato per attività su Veo / Sora / Seedance tramite selezione multimodelloDipendente dal modello
Creazione multi-ingressoTesto + immagine + audio + video in un unico promptRiferimento al video supporta riferimenti di testo, immagini, video e audio con Seedance 2.0 / WAN 2.7Supportato
Generazione di brevi videoClip veloci in meno di 15 secondiAttraverso tutti i modelli integratiSupportato
Flusso di lavoro video più lungoVideo multi-scatto e multi-scenaCapacità di story-to-video, pubblicità, storyboard con fusioneSupportato tramite flusso di lavoro
Avatar/video personaleGenerazione di avatar digitali personaliRiservato per la revisione della sicurezzaLimitato / La sicurezza prima di tutto
Trasparenza dei contenutiFiligrana e metadati di provenienzaGestione della provenienza per modelloDipendente dal modello
Accesso sviluppatore/APIGenerazione programmaticaDisponibile oggi tramite i flussi di lavoro VO3 AISupportato tramite flusso di lavoro

Lo stato riflette gli attuali flussi di lavoro AI VO3. Vovoo aiuta a guidare la selezione del modello e del flusso di lavoro.

In diretta oggi su VO3 AI

Vovoo orchestra già flussi di lavoro multi-modello

Tre flussi di lavoro reali in esecuzione oggi su VO3 AI, ciascuno dei quali concatena più modelli dietro un'unica chat. Il futuro dell'output unificato è entusiasmante, ma puoi costruire in questo modo proprio adesso.

Gemini Omni è attivo, ma mancano ancora settimane per l'API

Flash è ottimo per clip di 10 secondi all'interno dell'app Gemini o di YouTube Shorts. Per video più lunghi, flussi di lavoro pubblicitari, coerenza dei personaggi in più riprese o generazione programmatica, Vovoo su VO3 AI orchestra oggi un flusso di lavoro multi-modello: Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro, selezionati automaticamente per passaggio. Quando l'API Gemini Omni viene spedita, si unisce allo stesso agente.

Domande frequenti

Cos'è Gemini Omni?+

Gemini Omni è il modello multimodale unificato di Google, annunciato al Google I/O 2026 il 19 maggio 2026. Accetta testo, immagini, audio e video in un unico prompt e ragiona su tutti essi per produrre un output: principalmente video, oltre a foto modificate e avatar digitali personalizzati. Il posizionamento del CEO Sundar Pichai: "crea qualsiasi cosa da qualsiasi input". Invece di concatenare Veo 3.1 (video) + Imagen (immagine) + Lyria (audio), Omni li gestisce all'interno di un modello della famiglia Gemini.

Gemini Omni è ora disponibile?+

Sì, in parte. Il primo modello della famiglia, Gemini Omni Flash, è stato lanciato il 19 maggio 2026 per gli abbonati AI Plus/Pro/Ultra tramite l'app Gemini e lo studio creativo Flow di Google ed è gratuito su YouTube Shorts e YouTube Create. L'accesso all'API è promesso "nelle prossime settimane". Viene preso in giro un Gemini Omni Pro di fascia alta ma non ha una data di rilascio.

Quanto possono durare i video di Gemini Omni?+

Gemini Omni Flash ha un limite di 10 secondi per clip. Google afferma che si tratta di una decisione di implementazione (per ampliare l'accesso anticipato mentre la domanda di elaborazione è elevata), non di un limite tecnico del modello. È prevista la generazione di formati più lunghi da Omni Pro o successivi aggiornamenti Flash.

In cosa Gemini Omni è diverso da Veo 3.1 o Sora 2?+

Veo 3.1 e Sora 2 sono modelli video-first che generano anche audio. Gemini Omni è multimodale tra input e output: accetta testo + immagine + audio + video in un unico prompt e lo stesso modello può restituire video, foto modificate o avatar. Eredita anche la finestra di contesto lungo di Gemini, quindi la coerenza del personaggio, dell'abbigliamento e degli oggetti di scena nelle inquadrature è incorporata anziché fissata. Google sta inoltre spostando i video generativi dalla linea autonoma Veo al sistema centrale Gemini: Omni è il nuovo centro di gravità.

Cosa NON può ancora fare Gemini Omni?+

Google ha deliberatamente trattenuto tre funzionalità al momento del lancio: generare immagini dall'audio, generare audio dal video e modificare la traccia vocale/discorso di un video esistente. Questi sono inquadrati come una visione a lungo termine, ma sono sospesi nella revisione della sicurezza. Gemini Omni inoltre non raffigura persone reali, ma utilizza invece avatar digitali personalizzati, che richiedono un flusso di onboarding in cui gli utenti si registrano pronunciando una serie di numeri. Tutte le uscite Omni portano la filigrana SynthID di Google.

Come posso utilizzare oggi un flusso di lavoro AI multi-modello?+

Vovoo, l'agente video AI all'interno di VO3 AI, orchestra già diversi modelli all'avanguardia - Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan e Nano Banana Pro - in un'unica chat. Sceglie il modello giusto per ogni passaggio (da testo a video, da immagine a video, flussi di lavoro pubblicitari, storyboard, da storia a video). Utile in questo momento mentre Gemini Omni Flash è limitato a clip da 10 secondi e l'API è ancora lontana qualche settimana.

L'intelligenza artificiale di VO3 integrerà Gemini Omni?+

SÌ. VO3 AI integrerà i nuovi modelli Google non appena l'API pubblica sarà disponibile: Veo 3, Veo 3.1, Veo 3.1 Lite e Nano Banana Pro sono già attivi. Quando l'API Gemini Omni verrà spedita nelle prossime settimane, sarà disponibile all'interno dello stesso agente di chat Vovoo, insieme agli altri modelli.