Dal vivo · Annunciato al Google I/O 2026 · 19 maggio 2026

Gemini Omni: di Google Modello video AI multimodale unificato

Annunciato oggi al Google I/O 2026. Un modello che accetta testo, immagini, audio e video in un unico prompt e restituisce video, foto modificate o un avatar digitale: ciò che Sundar Pichai chiamava "creare qualsiasi cosa da qualsiasi input". Gemini Omni Flash viene lanciato oggi (clip da 10 secondi, app Gemini + YouTube Shorts). Accesso API nelle prossime settimane.

Prova l'agente multi-modello Vovoo Come funziona Vovoo

Now live on VO3 AI

Try Gemini Omni on VO3 AI today

We've integrated Gemini Omni Video into the VO3 AI workspace — generate from text, animate from an image, or edit an existing clip. 720p · 1080p · 4–10s. No waitlist.

Generate (Text / Image → Video)Video Edit Or chat with Vovoo

Cos'è Gemini Omni?

Fino ad oggi, lo stack multimediale AI di Google utilizzava modelli separati per modalità: Veo 3.1 per i video, Imagen 3 per le immagini, Nano Banana Pro per l'editing e Lyria per la musica. Costruire un video finito significava concatenarli separatamente.

Gemini Omni comprime tutto questo in un unico modello multimodale: un sistema che ragiona su input di testo, immagini, audio e video e restituisce video, foto modificate o avatar, con contesto condiviso in ogni modalità. Google sta spostando il video generativo dalla linea autonoma Veo al sistema centrale Gemini e Omni è il nuovo centro di gravità.

Demo ufficiali · Keynote di Google I/O 2026

Gemelli Omni in azione

Sei demo del keynote dell'I/O 2026 di Google: sfrigolio del keynote, fisica + audio nativo, testo in video, editing conversazionale, fisica basata sulla scena e perfezionamento multi-turn.

Bobina Sizzle di Keynote

Montaggio delle note chiave

Range of styles, characters, environments and motion.

Lo sfrigolante filmato I/O 2026 di Google: un rapido sondaggio di ciò che Gemini Omni Flash può produrre in tutti i generi, prima delle demo più approfondite per funzionalità.

🔊 Audio nativo

Fisica + Audio nativo

Reazione a catena del marmo

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

La vetrina di Google per la "comprensione intuitiva di forze come la gravità, l'energia cinetica e la dinamica dei fluidi" di Omni, generata con audio sincronizzato in un unico passaggio.

Testo in video

Scena dell'astronauta

Astronaut prompt-to-video generation.

Classico soggetto di benchmark video AI: utilizzato per mostrare la gestione da parte di Omni di ambienti complessi, materiali (vetro del casco, tessuto) e movimento senza che siano richiesti filmati di input.

Modifica conversazionale

Scultura → Schiuma

"Make the sculpture out of bubbles."

Ingresso: video di una scultura di sfera. Un'istruzione conversazionale riscrive il materiale nell'intera clip preservando il movimento e l'illuminazione.

Modifica fisica basata sulla scena

Specchio ondulato + braccio cromato

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Input: video di una persona che tocca uno specchio. Omni riesegue la scena con due modifiche fisicamente corrette attivate dal momento del contatto.

Perfezionamento della conversazione

Violino multigiro

Series of sequential edits, each building on the last.

L'inquadramento di Google: "Ogni istruzione si basa su quella precedente. I tuoi personaggi rimangono coerenti, la fisica regge e la scena ricorda ciò che è accaduto prima."

Video provenienti da blog.google · Annuncio di Gemini Omni · Tutte le uscite Omni portano la filigrana SynthID.

Confermato al Google I/O 2026

Cosa può fare Gemini Omni

Dal keynote del 19 maggio 2026. Gemini Omni Flash è attivo oggi; Gemini Omni Pro viene preso in giro senza data.

Input multimodale unificato

Combina testo, immagini, audio e video in un unico prompt. Il modello ragiona su tutti gli input anziché semplicemente metterli insieme.

"Crea qualsiasi cosa da qualsiasi input"

Inquadratura I/O 2026 di Pichai. L'output principale è il video; lo stesso modello restituisce anche foto modificate e avatar digitali personalizzati.

Perfezionamento della conversazione

Genera una clip, quindi continua a ripetere in chat: cambia una ripresa, scambia un oggetto di scena, ripeti il movimento della telecamera senza ricominciare da zero.

Coerenza a lungo contesto

Eredita la finestra di contesto lungo di Gemini. I personaggi mantengono i loro volti, abiti e oggetti di scena durante le inquadrature: un noto punto debole per i modelli concorrenti.

Clip da 10 secondi (Flash)

Gemini Omni Flash oggi limita le clip a 10 secondi. Google la definisce una scelta di implementazione, non un limite del modello. Durate più lunghe previste da Omni Pro.

Filigrana SynthID + avatar personalizzati

Ogni uscita Omni trasporta SynthID per la verifica AI. Nessuna persona reale da generazioni: gli utenti creano il proprio avatar digitale registrando una sequenza numerica.

Modelli concatenati vs Gemini Omni (unificati)

Come cambia il flusso di lavoro ora che un unico modello della famiglia Gemini gestisce ogni passaggio.

Fare un passo	Prima di Omni (modelli separati)	Gemini Omni Flash (un modello)
Copione	Gemelli 3 / Claude / GPT	Integrato
Immagine concettuale	Immagine / Nano Banana Pro	Integrato
Animazione video	Veo 3.1 / Sora 2	Integrato
Audio + voce	Lyria/UndiciLabs	Integrato, sincronizzato con il video
Coerenza del carattere	Difficile da mantenere su tutti gli strumenti	Stato di contesto lungo condiviso
Formato di uscita	Cuci + esporta	Social/widescreen nativo

Traduzione: Gemini Omni Flash consolida quella che era una catena di 4-6 strumenti in un'unica generazione end-to-end, limitata oggi a 10 secondi, con perfezionamento della conversazione invece di modifiche riavviate da zero.

Allineamento delle funzionalità

Come VO3 AI si allinea al nuovo flusso di lavoro di creazione video di Gemini Omni

Gemini Omni mostra dove sta andando la creazione di video AI: editing conversazionale, riferimenti multi-input, personaggi coerenti, generazione consapevole dell'audio e flussi di lavoro creativi più lunghi. VO3 AI supporta già molte di queste esigenze attraverso flussi di lavoro multi-modello.

Capacità Gemini Omni	Cosa significa	Supporto IA VO3	Stato
Flusso di lavoro video conversazionale	Pianifica, perfeziona e continua la creazione di video tramite chat	Agente video AI Vovoo aiuta a guidare suggerimenti, scene, modelli e revisioni	Supportato tramite flusso di lavoro
Montaggio da video a video	Modifica un video esistente con un'istruzione testuale	Editor video AI — modifiche alle istruzioni di testo tramite WAN 2.7 e Seedance 2.0 (720p/1080p)	Supportato
Ingresso riferimento immagine	Utilizza le immagini come guida per lo stile o per i personaggi	Immagine in video Riferimento al video (fino a 9 immagini di riferimento)	Supportato
Creazione consapevole dell'audio	Genera audio insieme a immagini	Voce fuori campo e musica di sottofondo si uniscono flusso di lavoro per video lunghi	Supportato tramite flusso di lavoro
Generazione audio nativa	Audio sincronizzato all'interno di un passaggio modello	Disponibile su Veo 3 / Veo 3.1	Dipendente dal modello
Coerenza del carattere	Stesso personaggio, outfit e oggetti di scena in tutte le inquadrature	Riferimento al video per il blocco dei caratteri + Continua la scena + Pianificazione multi-scena	Supportato
Affinamento multigiro	Ripetere la stessa scena tra i turni	Continua la scena Agente dell'IA ciclo continuo	Supportato
Generazione consapevole della fisica	Movimento, materiali e forze realistici	Instradato per attività su Veo / Sora / Seedance tramite selezione multimodello	Dipendente dal modello
Creazione multi-ingresso	Testo + immagine + audio + video in un unico prompt	Riferimento al video supporta riferimenti di testo, immagini, video e audio con Seedance 2.0 / WAN 2.7	Supportato
Generazione di brevi video	Clip veloci in meno di 15 secondi	Attraverso tutti i modelli integrati	Supportato
Flusso di lavoro video più lungo	Video multi-scatto e multi-scena	Capacità di story-to-video, pubblicità, storyboard con fusione	Supportato tramite flusso di lavoro
Avatar/video personale	Generazione di avatar digitali personali	Riservato per la revisione della sicurezza	Limitato / La sicurezza prima di tutto
Trasparenza dei contenuti	Filigrana e metadati di provenienza	Gestione della provenienza per modello	Dipendente dal modello
Accesso sviluppatore/API	Generazione programmatica	Disponibile oggi tramite i flussi di lavoro VO3 AI	Supportato tramite flusso di lavoro

Lo stato riflette gli attuali flussi di lavoro AI VO3. Vovoo aiuta a guidare la selezione del modello e del flusso di lavoro.

In diretta oggi su VO3 AI

Vovoo orchestra già flussi di lavoro multi-modello

Tre flussi di lavoro reali in esecuzione oggi su VO3 AI, ciascuno dei quali concatena più modelli dietro un'unica chat. Il futuro dell'output unificato è entusiasmante, ma puoi costruire in questo modo proprio adesso.

Storyboard cinematografico

GPT Image 2 prevede 8 pannelli → Seedance 2 li anima in una clip cinematografica di 15 secondi.

Prova questo flusso di lavoro →

Risorse del prodotto → Video pubblicitario

Brief → script → storyboard a 4 pannelli → animazione per segmento → annuncio anni '30 unito.

Prova questo flusso di lavoro →

URL C2Story → Film d'animazione

Analisi della storia → suddivisione della scena → suggerimenti visivi → animazione → cortometraggio unito.

Prova questo flusso di lavoro →

Gemini Omni è attivo, ma mancano ancora settimane per l'API

Flash è ottimo per clip di 10 secondi all'interno dell'app Gemini o di YouTube Shorts. Per video più lunghi, flussi di lavoro pubblicitari, coerenza dei personaggi in più riprese o generazione programmatica, Vovoo su VO3 AI orchestra oggi un flusso di lavoro multi-modello: Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro, selezionati automaticamente per passaggio. Quando l'API Gemini Omni viene spedita, si unisce allo stesso agente.

Apri l'agente Vovoo Leggi: Veo 4: cosa sappiamo

Domande frequenti

Cos'è Gemini Omni?+

Gemini Omni è il modello multimodale unificato di Google, annunciato al Google I/O 2026 il 19 maggio 2026. Accetta testo, immagini, audio e video in un unico prompt e ragiona su tutti essi per produrre un output: principalmente video, oltre a foto modificate e avatar digitali personalizzati. Il posizionamento del CEO Sundar Pichai: "crea qualsiasi cosa da qualsiasi input". Invece di concatenare Veo 3.1 (video) + Imagen (immagine) + Lyria (audio), Omni li gestisce all'interno di un modello della famiglia Gemini.

Gemini Omni è ora disponibile?+

Sì, in parte. Il primo modello della famiglia, Gemini Omni Flash, è stato lanciato il 19 maggio 2026 per gli abbonati AI Plus/Pro/Ultra tramite l'app Gemini e lo studio creativo Flow di Google ed è gratuito su YouTube Shorts e YouTube Create. L'accesso all'API è promesso "nelle prossime settimane". Viene preso in giro un Gemini Omni Pro di fascia alta ma non ha una data di rilascio.

Quanto possono durare i video di Gemini Omni?+

Gemini Omni Flash ha un limite di 10 secondi per clip. Google afferma che si tratta di una decisione di implementazione (per ampliare l'accesso anticipato mentre la domanda di elaborazione è elevata), non di un limite tecnico del modello. È prevista la generazione di formati più lunghi da Omni Pro o successivi aggiornamenti Flash.

In cosa Gemini Omni è diverso da Veo 3.1 o Sora 2?+

Veo 3.1 e Sora 2 sono modelli video-first che generano anche audio. Gemini Omni è multimodale tra input e output: accetta testo + immagine + audio + video in un unico prompt e lo stesso modello può restituire video, foto modificate o avatar. Eredita anche la finestra di contesto lungo di Gemini, quindi la coerenza del personaggio, dell'abbigliamento e degli oggetti di scena nelle inquadrature è incorporata anziché fissata. Google sta inoltre spostando i video generativi dalla linea autonoma Veo al sistema centrale Gemini: Omni è il nuovo centro di gravità.

Cosa NON può ancora fare Gemini Omni?+

Google ha deliberatamente trattenuto tre funzionalità al momento del lancio: generare immagini dall'audio, generare audio dal video e modificare la traccia vocale/discorso di un video esistente. Questi sono inquadrati come una visione a lungo termine, ma sono sospesi nella revisione della sicurezza. Gemini Omni inoltre non raffigura persone reali, ma utilizza invece avatar digitali personalizzati, che richiedono un flusso di onboarding in cui gli utenti si registrano pronunciando una serie di numeri. Tutte le uscite Omni portano la filigrana SynthID di Google.

Come posso utilizzare oggi un flusso di lavoro AI multi-modello?+

Vovoo, l'agente video AI all'interno di VO3 AI, orchestra già diversi modelli all'avanguardia - Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan e Nano Banana Pro - in un'unica chat. Sceglie il modello giusto per ogni passaggio (da testo a video, da immagine a video, flussi di lavoro pubblicitari, storyboard, da storia a video). Utile in questo momento mentre Gemini Omni Flash è limitato a clip da 10 secondi e l'API è ancora lontana qualche settimana.

L'intelligenza artificiale di VO3 integrerà Gemini Omni?+

SÌ. VO3 AI integrerà i nuovi modelli Google non appena l'API pubblica sarà disponibile: Veo 3, Veo 3.1, Veo 3.1 Lite e Nano Banana Pro sono già attivi. Quando l'API Gemini Omni verrà spedita nelle prossime settimane, sarà disponibile all'interno dello stesso agente di chat Vovoo, insieme agli altri modelli.