Gemini Omni: di Google Modello video AI multimodale unificato
Annunciato oggi al Google I/O 2026. Un modello che accetta testo, immagini, audio e video in un unico prompt e restituisce video, foto modificate o un avatar digitale: ciò che Sundar Pichai chiamava "creare qualsiasi cosa da qualsiasi input". Gemini Omni Flash viene lanciato oggi (clip da 10 secondi, app Gemini + YouTube Shorts). Accesso API nelle prossime settimane.
Cos'è Gemini Omni?
Fino ad oggi, lo stack multimediale AI di Google utilizzava modelli separati per modalità: Veo 3.1 per i video, Imagen 3 per le immagini, Nano Banana Pro per l'editing e Lyria per la musica. Costruire un video finito significava concatenarli separatamente.
Gemini Omni comprime tutto questo in un unico modello multimodale: un sistema che ragiona su input di testo, immagini, audio e video e restituisce video, foto modificate o avatar, con contesto condiviso in ogni modalità. Google sta spostando il video generativo dalla linea autonoma Veo al sistema centrale Gemini e Omni è il nuovo centro di gravità.
Demo ufficiali · Keynote di Google I/O 2026
Gemelli Omni in azione
Sei demo del keynote dell'I/O 2026 di Google: sfrigolio del keynote, fisica + audio nativo, testo in video, editing conversazionale, fisica basata sulla scena e perfezionamento multi-turn.
Video provenienti da blog.google · Annuncio di Gemini Omni · Tutte le uscite Omni portano la filigrana SynthID.
Confermato al Google I/O 2026
Cosa può fare Gemini Omni
Dal keynote del 19 maggio 2026. Gemini Omni Flash è attivo oggi; Gemini Omni Pro viene preso in giro senza data.
Input multimodale unificato
Combina testo, immagini, audio e video in un unico prompt. Il modello ragiona su tutti gli input anziché semplicemente metterli insieme.
"Crea qualsiasi cosa da qualsiasi input"
Inquadratura I/O 2026 di Pichai. L'output principale è il video; lo stesso modello restituisce anche foto modificate e avatar digitali personalizzati.
Perfezionamento della conversazione
Genera una clip, quindi continua a ripetere in chat: cambia una ripresa, scambia un oggetto di scena, ripeti il movimento della telecamera senza ricominciare da zero.
Coerenza a lungo contesto
Eredita la finestra di contesto lungo di Gemini. I personaggi mantengono i loro volti, abiti e oggetti di scena durante le inquadrature: un noto punto debole per i modelli concorrenti.
Clip da 10 secondi (Flash)
Gemini Omni Flash oggi limita le clip a 10 secondi. Google la definisce una scelta di implementazione, non un limite del modello. Durate più lunghe previste da Omni Pro.
Filigrana SynthID + avatar personalizzati
Ogni uscita Omni trasporta SynthID per la verifica AI. Nessuna persona reale da generazioni: gli utenti creano il proprio avatar digitale registrando una sequenza numerica.
Modelli concatenati vs Gemini Omni (unificati)
Come cambia il flusso di lavoro ora che un unico modello della famiglia Gemini gestisce ogni passaggio.
Traduzione: Gemini Omni Flash consolida quella che era una catena di 4-6 strumenti in un'unica generazione end-to-end, limitata oggi a 10 secondi, con perfezionamento della conversazione invece di modifiche riavviate da zero.
Allineamento delle funzionalità
Come VO3 AI si allinea al nuovo flusso di lavoro di creazione video di Gemini Omni
Gemini Omni mostra dove sta andando la creazione di video AI: editing conversazionale, riferimenti multi-input, personaggi coerenti, generazione consapevole dell'audio e flussi di lavoro creativi più lunghi. VO3 AI supporta già molte di queste esigenze attraverso flussi di lavoro multi-modello.
Lo stato riflette gli attuali flussi di lavoro AI VO3. Vovoo aiuta a guidare la selezione del modello e del flusso di lavoro.
In diretta oggi su VO3 AI
Vovoo orchestra già flussi di lavoro multi-modello
Tre flussi di lavoro reali in esecuzione oggi su VO3 AI, ciascuno dei quali concatena più modelli dietro un'unica chat. Il futuro dell'output unificato è entusiasmante, ma puoi costruire in questo modo proprio adesso.
Gemini Omni è attivo, ma mancano ancora settimane per l'API
Flash è ottimo per clip di 10 secondi all'interno dell'app Gemini o di YouTube Shorts. Per video più lunghi, flussi di lavoro pubblicitari, coerenza dei personaggi in più riprese o generazione programmatica, Vovoo su VO3 AI orchestra oggi un flusso di lavoro multi-modello: Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro, selezionati automaticamente per passaggio. Quando l'API Gemini Omni viene spedita, si unisce allo stesso agente.
Domande frequenti
Cos'è Gemini Omni?+
Gemini Omni è il modello multimodale unificato di Google, annunciato al Google I/O 2026 il 19 maggio 2026. Accetta testo, immagini, audio e video in un unico prompt e ragiona su tutti essi per produrre un output: principalmente video, oltre a foto modificate e avatar digitali personalizzati. Il posizionamento del CEO Sundar Pichai: "crea qualsiasi cosa da qualsiasi input". Invece di concatenare Veo 3.1 (video) + Imagen (immagine) + Lyria (audio), Omni li gestisce all'interno di un modello della famiglia Gemini.
Gemini Omni è ora disponibile?+
Sì, in parte. Il primo modello della famiglia, Gemini Omni Flash, è stato lanciato il 19 maggio 2026 per gli abbonati AI Plus/Pro/Ultra tramite l'app Gemini e lo studio creativo Flow di Google ed è gratuito su YouTube Shorts e YouTube Create. L'accesso all'API è promesso "nelle prossime settimane". Viene preso in giro un Gemini Omni Pro di fascia alta ma non ha una data di rilascio.
Quanto possono durare i video di Gemini Omni?+
Gemini Omni Flash ha un limite di 10 secondi per clip. Google afferma che si tratta di una decisione di implementazione (per ampliare l'accesso anticipato mentre la domanda di elaborazione è elevata), non di un limite tecnico del modello. È prevista la generazione di formati più lunghi da Omni Pro o successivi aggiornamenti Flash.
In cosa Gemini Omni è diverso da Veo 3.1 o Sora 2?+
Veo 3.1 e Sora 2 sono modelli video-first che generano anche audio. Gemini Omni è multimodale tra input e output: accetta testo + immagine + audio + video in un unico prompt e lo stesso modello può restituire video, foto modificate o avatar. Eredita anche la finestra di contesto lungo di Gemini, quindi la coerenza del personaggio, dell'abbigliamento e degli oggetti di scena nelle inquadrature è incorporata anziché fissata. Google sta inoltre spostando i video generativi dalla linea autonoma Veo al sistema centrale Gemini: Omni è il nuovo centro di gravità.
Cosa NON può ancora fare Gemini Omni?+
Google ha deliberatamente trattenuto tre funzionalità al momento del lancio: generare immagini dall'audio, generare audio dal video e modificare la traccia vocale/discorso di un video esistente. Questi sono inquadrati come una visione a lungo termine, ma sono sospesi nella revisione della sicurezza. Gemini Omni inoltre non raffigura persone reali, ma utilizza invece avatar digitali personalizzati, che richiedono un flusso di onboarding in cui gli utenti si registrano pronunciando una serie di numeri. Tutte le uscite Omni portano la filigrana SynthID di Google.
Come posso utilizzare oggi un flusso di lavoro AI multi-modello?+
Vovoo, l'agente video AI all'interno di VO3 AI, orchestra già diversi modelli all'avanguardia - Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan e Nano Banana Pro - in un'unica chat. Sceglie il modello giusto per ogni passaggio (da testo a video, da immagine a video, flussi di lavoro pubblicitari, storyboard, da storia a video). Utile in questo momento mentre Gemini Omni Flash è limitato a clip da 10 secondi e l'API è ancora lontana qualche settimana.
L'intelligenza artificiale di VO3 integrerà Gemini Omni?+
SÌ. VO3 AI integrerà i nuovi modelli Google non appena l'API pubblica sarà disponibile: Veo 3, Veo 3.1, Veo 3.1 Lite e Nano Banana Pro sono già attivi. Quando l'API Gemini Omni verrà spedita nelle prossime settimane, sarà disponibile all'interno dello stesso agente di chat Vovoo, insieme agli altri modelli.
