В прямом эфире · Анонсировано на Google I/O 2026 · 19 мая 2026 г.

Близнецы Омни — Google Единая мультимодальная модель видео AI

Анонсировано сегодня на Google I/O 2026. Одна модель, которая принимает текст, изображение, аудио и видео в одном запросе и возвращает видео, отредактированные фотографии или цифровой аватар — то, что Сундар Пичаи назвал «создавайте что угодно из любого ввода». Gemini Omni Flash выходит сегодня (10-секундные клипы, приложение Gemini + видео Shorts на YouTube). Доступ к API в ближайшие недели.

Попробуйте многомодельный агент Vovoo Как работает Вовоо

Now live on VO3 AI

Try Gemini Omni on VO3 AI today

We've integrated Gemini Omni Video into the VO3 AI workspace — generate from text, animate from an image, or edit an existing clip. 720p · 1080p · 4–10s. No waitlist.

Generate (Text / Image → Video)Video Edit Or chat with Vovoo

Что такое Близнецы Омни?

До сегодняшнего дня в медиастеке искусственного интеллекта Google использовались отдельные модели для каждой модальности: Veo 3.1 для видео, Imagen 3 для изображений, Nano Banana Pro для редактирования и Lyria для музыки. Создание готового видео означало объединение их в цепочку по отдельности.

Gemini Omni объединяет это в единую мультимодальную модель — одну систему, которая обрабатывает текстовые, графические, аудио- и видеовходы и возвращает видео, отредактированные фотографии или аватары с общим контекстом для каждой модальности. Google переносит генеративное видео из автономной линейки Veo в базовую систему Gemini, а Omni становится новым центром тяжести.

Официальные демо · Google I/O 2026 Keynote

Близнецы Омни в действии

Шесть демонстраций из основного доклада Google I/O 2026: основной доклад, физика + собственный звук, преобразование текста в видео, диалоговое редактирование, физика с учетом сцен и многоходовая доработка.

Keynote Sizzle Reel

Монтаж основного доклада

Range of styles, characters, environments and motion.

Яркий ролик Google I/O 2026 — краткий обзор того, что Gemini Omni Flash может создавать в разных жанрах, прежде чем приступить к более глубоким демонстрациям каждой функции.

🔊 Родное аудио

Физика + родной звук

Мраморная цепная реакция

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Демонстрация Google «интуитивного понимания таких сил, как гравитация, кинетическая энергия и гидродинамика» Omni, созданная с помощью синхронизированного звука за один проход.

Преобразование текста в видео

Сцена с космонавтом

Astronaut prompt-to-video generation.

Классический объект тестирования AI-видео — используется для демонстрации работы Omni со сложными средами, материалами (стекло шлема, ткань) и движением без необходимости ввода видеоматериалов.

Разговорное редактирование

Скульптура → Пена

"Make the sculpture out of bubbles."

Сырьё: видео скульптуры в виде шара. Одна разговорная инструкция перезаписывает материал на протяжении всего клипа, сохраняя при этом движение и освещение.

Физика с учетом сцены Править

Зеркальная рябь + хромированный кронштейн

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Входные данные: видео человека, прикасающегося к зеркалу. Omni повторно запускает сцену с двумя физически корректными изменениями, вызванными моментом контакта.

Разговорное усовершенствование

Многооборотная скрипка

Series of sequential edits, each building on the last.

Формулировка Google: «Каждая инструкция основана на предыдущей. Ваши персонажи остаются последовательными, физика сохраняется, а сцена запоминает то, что было раньше».

Видео взято из blog.google · Анонс Gemini Omni · Все выходы Omni имеют водяной знак SynthID.

Подтверждено на Google I/O 2026.

Что могут сделать Gemini Omni

Из основного доклада от 19 мая 2026 г. Gemini Omni Flash доступен сегодня; Gemini Omni Pro дразнят без даты.

Единый мультимодальный ввод

Объедините текст, изображение, аудио и видео в одном приглашении. Модель учитывает все входные данные, а не просто объединяет их.

«Создать что угодно из любого ввода»

Кадры Пичаи I/O 2026. Основной вывод — видео; та же модель также возвращает отредактированные фотографии и пользовательские цифровые аватары.

Разговорное усовершенствование

Создайте клип, а затем продолжайте повторять действия в чате — меняйте кадр, меняйте реквизит, повторяйте движение камеры, не начиная заново.

Согласованность в длинном контексте

Наследует окно длинного контекста Gemini. Лица, одежда и реквизит персонажей не видны в кадре — известное слабое место конкурирующих моделей.

10-секундные ролики (Flash)

Gemini Omni Flash сегодня ограничивает продолжительность клипа 10 секундами. Google называет это выбором развертывания, а не ограничением модели. Ожидается более длительная продолжительность работы от Omni Pro.

Водяной знак SynthID + пользовательские аватары

Каждый выход Omni имеет SynthID для проверки ИИ. Никаких реальных людей в поколениях — пользователи создают свои собственные цифровые аватары, записывая цифровую последовательность.

Цепные модели против Gemini Omni (унифицированные)

Как меняется рабочий процесс теперь, когда за каждый этап отвечает одна модель семейства Gemini.

Шаг	До Омни (отдельные модели)	Gemini Omni Flash (одна модель)
Скрипт	Близнецы 3 / Клод / GPT	Встроенный
Концептуальное изображение	Изображение / Нано Банан Про	Встроенный
Видео анимация	Вео 3.1 / Сора 2	Встроенный
Аудио + голос	Лирия / ElevenLabs	Встроенный, синхронизируется с видео
Постоянство характера	Трудно поддерживать различные инструменты	Общее состояние длительного контекста
Выходной формат	Сшить + экспорт	Собственный социальный/широкоэкранный формат

Перевод: Gemini Omni Flash объединяет то, что раньше представляло собой цепочку инструментов из 4–6 инструментов, в одно сквозное поколение — сегодня ограниченное числом в 10 секунд, с диалоговым уточнением вместо редактирования с нуля.

Выравнивание функций

Как VO3 AI согласуется с новым рабочим процессом создания видео Gemini Omni

Gemini Omni показывает, куда движется создание видео с помощью ИИ: диалоговое редактирование, ссылки с несколькими входами, согласованные персонажи, генерация с учетом звука и более длительные творческие рабочие процессы. VO3 AI уже поддерживает многие из этих потребностей посредством многомодельных рабочих процессов.

Возможности Gemini Omni	Что это значит	Поддержка VO3 AI	Статус
Рабочий процесс разговорного видео	Планируйте, уточняйте и продолжайте создание видео через чат.	Видеоагент Vovoo AI помогает направлять подсказки, сцены, модели и версии	Поддерживается через рабочий процесс
Редактирование видео в видео	Редактировать существующее видео с помощью текстовой инструкции	Видеоредактор с искусственным интеллектом — редактирование текстовых инструкций через WAN 2.7 и Seedance 2.0 (720p/1080p)	Поддерживается
Ввод ссылки на изображение	Используйте изображения в качестве руководства по стилю или персонажу.	Преобразование изображения в видео Ссылка на видео (до 9 эталонных изображений)	Поддерживается
Создание с учетом звука	Генерируйте аудио вместе с визуальными эффектами	Объединение закадрового голоса и фоновой музыки рабочий процесс с длинным видео	Поддерживается через рабочий процесс
Генерация собственного звука	Синхронизированный звук внутри одного прохода модели	Доступно на Вео 3 / Вео 3.1	Зависит от модели
Постоянство характера	Один и тот же персонаж, одежда и реквизит во всех кадрах.	Ссылка на видео для блокировки символов + Продолжить сцену + многосценное планирование	Поддерживается
Многооборотная доработка	Повторение одной и той же сцены на протяжении поворотов	Продолжить сцену ИИ-агент петля	Поддерживается
Поколение, учитывающее физику	Реалистичное движение, материалы и силы	Маршрутизируется для каждой задачи через Veo/Sora/Seedance через выбор нескольких моделей	Зависит от модели
Создание нескольких входов	Текст+изображение+аудио+видео в одной подсказке	Ссылка на видео поддерживает ссылки на текст, изображения, видео и аудио с помощью Seedance 2.0 / WAN 2.7.	Поддерживается
Создание короткого видео	Быстрые клипы до 15 секунд	Через все интегрированные модели	Поддерживается
Более длительный рабочий процесс с видео	Многокадровые, многосценные видеоролики	Навыки преобразования истории в видео, рекламы, раскадровки со слиянием	Поддерживается через рабочий процесс
Аватар/личное видео	Создание личного цифрового аватара	Зарезервировано для проверки безопасности	Ограниченный/безопасность прежде всего
Прозрачность контента	Метаданные водяного знака и происхождения	Обработка происхождения для каждой модели	Зависит от модели
Доступ для разработчиков/API	Программная генерация	Доступно через рабочие процессы VO3 AI уже сегодня.	Поддерживается через рабочий процесс

Статус отражает текущие рабочие процессы VO3 AI. Vovoo помогает выбрать модель и рабочий процесс.

Прямой эфир сегодня на VO3 AI

Vovoo уже организует многомодельные рабочие процессы

Сегодня на VO3 AI работают три реальных рабочих процесса, каждый из которых объединяет несколько моделей в один чат. Будущее унифицированного вывода является захватывающим, но вы можете построить его прямо сейчас.

Кинематографическая раскадровка

GPT Image 2 планирует 8 панелей → Seedance 2 анимирует их в один 15-секундный кинематографический клип.

Попробуйте этот рабочий процесс →

Активы продукта → Рекламное видео

Бриф → сценарий → 4-панельная раскадровка → посегментная анимация → объединенная реклама 30-х годов.

Попробуйте этот рабочий процесс →

URL C2Story → Анимационный фильм

Анализ истории → разделение сцены → визуальные подсказки → анимация → объединенный короткометражный фильм.

Попробуйте этот рабочий процесс →

Gemini Omni уже доступен, но API появится еще через несколько недель

Flash отлично подходит для 10-секундных видеороликов в приложении Gemini или YouTube Shorts. Для более длинных видеороликов, рабочих процессов с рекламой, согласованности персонажей в нескольких кадрах или программной генерации Vovoo на VO3 AI сегодня организует рабочий процесс с несколькими моделями — Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro — выбираемый автоматически для каждого шага. Когда API Gemini Omni поставляется, он присоединяется к одному и тому же агенту.

Открыть агент Vovoo Читайте: Veo 4 — что мы знаем

Часто задаваемые вопросы

Что такое Близнецы Омни?+

Gemini Omni — это унифицированная мультимодальная модель Google, анонсированная на Google I/O 2026 19 мая 2026 года. Она принимает текст, изображения, аудио и видео в одном запросе и обосновывает все из них для создания одного результата — в основном видео, а также отредактированных фотографий и пользовательских цифровых аватаров. Позиция генерального директора Сундара Пичаи: «Создавайте что угодно, используя любые материалы». Вместо объединения Veo 3.1 (видео) + Imagen (изображение) + Lyria (аудио) Omni обрабатывает их внутри одной модели семейства Gemini.

Доступен ли Gemini Omni сейчас?+

Да — частично. Первая модель семейства, Gemini Omni Flash, начала распространяться 19 мая 2026 года для подписчиков AI Plus/Pro/Ultra через приложение Gemini и творческую студию Google Flow. Она бесплатна в YouTube Shorts и YouTube Create. Доступ к API обещан «в ближайшие недели». Анонсирован более дорогой Gemini Omni Pro, но дата выпуска не указана.

Какой длины могут быть видеоролики Gemini Omni?+

Gemini Omni Flash ограничена 10 секундами на клип. Google заявляет, что это решение о развертывании (чтобы расширить ранний доступ при высоких требованиях к вычислительным ресурсам), а не техническое ограничение модели. Генерация более длинной формы ожидается в Omni Pro или более поздних версиях Flash.

Чем Gemini Omni отличается от Veo 3.1 или Sora 2?+

Veo 3.1 и Sora 2 — это модели, ориентированные на видео, которые также генерируют звук. Gemini Omni является мультимодальным для входов и выходов: он принимает текст + изображение + аудио + видео в одном запросе, и одна и та же модель может возвращать видео, отредактированные фотографии или аватары. Он также наследует окно длинного контекста Gemini, поэтому согласованность персонажей, экипировки и реквизита в кадрах встроена, а не прикручена. Google также переносит генеративное видео из автономной линейки Veo в базовую систему Gemini — Omni — новый центр тяжести.

Чего еще НЕ может Gemini Omni?+

Google намеренно сдержал при запуске три возможности: генерацию изображений из аудио, генерацию звука из видео и редактирование голосовой/речевой дорожки существующего видео. Они сформулированы как долгосрочная концепция, но приостановлены на стадии проверки безопасности. Gemini Omni также не изображает реальных людей — вместо этого он использует специальные цифровые аватары, которые требуют процесса адаптации, когда пользователи записывают себя, произнося ряд чисел. Все выходы Omni имеют водяной знак Google SynthID.

Как я могу использовать многомодельный рабочий процесс ИИ сегодня?+

Vovoo, видеоагент AI внутри VO3 AI, уже управляет несколькими современными моделями — Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan и Nano Banana Pro — в одном чате. Он выбирает правильную модель для каждого шага (преобразование текста в видео, изображение в видео, рабочие процессы с рекламой, раскадровки, преобразование истории в видео). Полезно прямо сейчас, пока Gemini Omni Flash поддерживает 10-секундные клипы, а до API еще несколько недель.

Будет ли VO3 AI интегрировать Gemini Omni?+

Да. VO3 AI интегрирует новые модели Google, как только станет доступен общедоступный API — Veo 3, Veo 3.1, Veo 3.1 Lite и Nano Banana Pro уже доступны. Когда в ближайшие недели выйдет API Gemini Omni, он будет доступен внутри того же чат-агента Vovoo, наряду с другими моделями.