В прямом эфире · Анонсировано на Google I/O 2026 · 19 мая 2026 г.

Близнецы Омни — Google Единая мультимодальная модель видео AI

Анонсировано сегодня на Google I/O 2026. Одна модель, которая принимает текст, изображение, аудио и видео в одном запросе и возвращает видео, отредактированные фотографии или цифровой аватар — то, что Сундар Пичаи назвал «создавайте что угодно из любого ввода». Gemini Omni Flash выходит сегодня (10-секундные клипы, приложение Gemini + видео Shorts на YouTube). Доступ к API в ближайшие недели.

Что такое Близнецы Омни?

До сегодняшнего дня в медиастеке искусственного интеллекта Google использовались отдельные модели для каждой модальности: Veo 3.1 для видео, Imagen 3 для изображений, Nano Banana Pro для редактирования и Lyria для музыки. Создание готового видео означало объединение их в цепочку по отдельности.

Gemini Omni объединяет это в единую мультимодальную модель — одну систему, которая обрабатывает текстовые, графические, аудио- и видеовходы и возвращает видео, отредактированные фотографии или аватары с общим контекстом для каждой модальности. Google переносит генеративное видео из автономной линейки Veo в базовую систему Gemini, а Omni становится новым центром тяжести.

Официальные демо · Google I/O 2026 Keynote

Близнецы Омни в действии

Шесть демонстраций из основного доклада Google I/O 2026: основной доклад, физика + собственный звук, преобразование текста в видео, диалоговое редактирование, физика с учетом сцен и многоходовая доработка.

Keynote Sizzle Reel

Монтаж основного доклада

Range of styles, characters, environments and motion.

Яркий ролик Google I/O 2026 — краткий обзор того, что Gemini Omni Flash может создавать в разных жанрах, прежде чем приступить к более глубоким демонстрациям каждой функции.

🔊 Родное аудио
Физика + родной звук

Мраморная цепная реакция

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Демонстрация Google «интуитивного понимания таких сил, как гравитация, кинетическая энергия и гидродинамика» Omni, созданная с помощью синхронизированного звука за один проход.

Преобразование текста в видео

Сцена с космонавтом

Astronaut prompt-to-video generation.

Классический объект тестирования AI-видео — используется для демонстрации работы Omni со сложными средами, материалами (стекло шлема, ткань) и движением без необходимости ввода видеоматериалов.

Разговорное редактирование

Скульптура → Пена

"Make the sculpture out of bubbles."

Сырьё: видео скульптуры в виде шара. Одна разговорная инструкция перезаписывает материал на протяжении всего клипа, сохраняя при этом движение и освещение.

Физика с учетом сцены Править

Зеркальная рябь + хромированный кронштейн

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

Входные данные: видео человека, прикасающегося к зеркалу. Omni повторно запускает сцену с двумя физически корректными изменениями, вызванными моментом контакта.

Разговорное усовершенствование

Многооборотная скрипка

Series of sequential edits, each building on the last.

Формулировка Google: «Каждая инструкция основана на предыдущей. Ваши персонажи остаются последовательными, физика сохраняется, а сцена запоминает то, что было раньше».

Видео взято из blog.google · Анонс Gemini Omni · Все выходы Omni имеют водяной знак SynthID.

Подтверждено на Google I/O 2026.

Что могут сделать Gemini Omni

Из основного доклада от 19 мая 2026 г. Gemini Omni Flash доступен сегодня; Gemini Omni Pro дразнят без даты.

Единый мультимодальный ввод

Объедините текст, изображение, аудио и видео в одном приглашении. Модель учитывает все входные данные, а не просто объединяет их.

«Создать что угодно из любого ввода»

Кадры Пичаи I/O 2026. Основной вывод — видео; та же модель также возвращает отредактированные фотографии и пользовательские цифровые аватары.

Разговорное усовершенствование

Создайте клип, а затем продолжайте повторять действия в чате — меняйте кадр, меняйте реквизит, повторяйте движение камеры, не начиная заново.

Согласованность в длинном контексте

Наследует окно длинного контекста Gemini. Лица, одежда и реквизит персонажей не видны в кадре — известное слабое место конкурирующих моделей.

10-секундные ролики (Flash)

Gemini Omni Flash сегодня ограничивает продолжительность клипа 10 секундами. Google называет это выбором развертывания, а не ограничением модели. Ожидается более длительная продолжительность работы от Omni Pro.

Водяной знак SynthID + пользовательские аватары

Каждый выход Omni имеет SynthID для проверки ИИ. Никаких реальных людей в поколениях — пользователи создают свои собственные цифровые аватары, записывая цифровую последовательность.

Цепные модели против Gemini Omni (унифицированные)

Как меняется рабочий процесс теперь, когда за каждый этап отвечает одна модель семейства Gemini.

ШагДо Омни (отдельные модели)Gemini Omni Flash (одна модель)
СкриптБлизнецы 3 / Клод / GPTВстроенный
Концептуальное изображениеИзображение / Нано Банан ПроВстроенный
Видео анимацияВео 3.1 / Сора 2Встроенный
Аудио + голосЛирия / ElevenLabsВстроенный, синхронизируется с видео
Постоянство характераТрудно поддерживать различные инструментыОбщее состояние длительного контекста
Выходной форматСшить + экспортСобственный социальный/широкоэкранный формат

Перевод: Gemini Omni Flash объединяет то, что раньше представляло собой цепочку инструментов из 4–6 инструментов, в одно сквозное поколение — сегодня ограниченное числом в 10 секунд, с диалоговым уточнением вместо редактирования с нуля.

Выравнивание функций

Как VO3 AI согласуется с новым рабочим процессом создания видео Gemini Omni

Gemini Omni показывает, куда движется создание видео с помощью ИИ: диалоговое редактирование, ссылки с несколькими входами, согласованные персонажи, генерация с учетом звука и более длительные творческие рабочие процессы. VO3 AI уже поддерживает многие из этих потребностей посредством многомодельных рабочих процессов.

Возможности Gemini OmniЧто это значитПоддержка VO3 AIСтатус
Рабочий процесс разговорного видеоПланируйте, уточняйте и продолжайте создание видео через чат.Видеоагент Vovoo AI помогает направлять подсказки, сцены, модели и версииПоддерживается через рабочий процесс
Редактирование видео в видеоРедактировать существующее видео с помощью текстовой инструкцииВидеоредактор с искусственным интеллектом — редактирование текстовых инструкций через WAN 2.7 и Seedance 2.0 (720p/1080p)Поддерживается
Ввод ссылки на изображениеИспользуйте изображения в качестве руководства по стилю или персонажу.Преобразование изображения в видео Ссылка на видео (до 9 эталонных изображений)Поддерживается
Создание с учетом звукаГенерируйте аудио вместе с визуальными эффектамиОбъединение закадрового голоса и фоновой музыки рабочий процесс с длинным видеоПоддерживается через рабочий процесс
Генерация собственного звукаСинхронизированный звук внутри одного прохода моделиДоступно на Вео 3 / Вео 3.1Зависит от модели
Постоянство характераОдин и тот же персонаж, одежда и реквизит во всех кадрах.Ссылка на видео для блокировки символов + Продолжить сцену + многосценное планированиеПоддерживается
Многооборотная доработкаПовторение одной и той же сцены на протяжении поворотовПродолжить сцену ИИ-агент петляПоддерживается
Поколение, учитывающее физикуРеалистичное движение, материалы и силыМаршрутизируется для каждой задачи через Veo/Sora/Seedance через выбор нескольких моделейЗависит от модели
Создание нескольких входовТекст+изображение+аудио+видео в одной подсказкеСсылка на видео поддерживает ссылки на текст, изображения, видео и аудио с помощью Seedance 2.0 / WAN 2.7.Поддерживается
Создание короткого видеоБыстрые клипы до 15 секундЧерез все интегрированные моделиПоддерживается
Более длительный рабочий процесс с видеоМногокадровые, многосценные видеороликиНавыки преобразования истории в видео, рекламы, раскадровки со слияниемПоддерживается через рабочий процесс
Аватар/личное видеоСоздание личного цифрового аватараЗарезервировано для проверки безопасностиОграниченный/безопасность прежде всего
Прозрачность контентаМетаданные водяного знака и происхожденияОбработка происхождения для каждой моделиЗависит от модели
Доступ для разработчиков/APIПрограммная генерацияДоступно через рабочие процессы VO3 AI уже сегодня.Поддерживается через рабочий процесс

Статус отражает текущие рабочие процессы VO3 AI. Vovoo помогает выбрать модель и рабочий процесс.

Прямой эфир сегодня на VO3 AI

Vovoo уже организует многомодельные рабочие процессы

Сегодня на VO3 AI работают три реальных рабочих процесса, каждый из которых объединяет несколько моделей в один чат. Будущее унифицированного вывода является захватывающим, но вы можете построить его прямо сейчас.

Кинематографическая раскадровка

GPT Image 2 планирует 8 панелей → Seedance 2 анимирует их в один 15-секундный кинематографический клип.

Попробуйте этот рабочий процесс →

Активы продукта → Рекламное видео

Бриф → сценарий → 4-панельная раскадровка → посегментная анимация → объединенная реклама 30-х годов.

Попробуйте этот рабочий процесс →

URL C2Story → Анимационный фильм

Анализ истории → разделение сцены → визуальные подсказки → анимация → объединенный короткометражный фильм.

Попробуйте этот рабочий процесс →

Gemini Omni уже доступен, но API появится еще через несколько недель

Flash отлично подходит для 10-секундных видеороликов в приложении Gemini или YouTube Shorts. Для более длинных видеороликов, рабочих процессов с рекламой, согласованности персонажей в нескольких кадрах или программной генерации Vovoo на VO3 AI сегодня организует рабочий процесс с несколькими моделями — Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro — выбираемый автоматически для каждого шага. Когда API Gemini Omni поставляется, он присоединяется к одному и тому же агенту.

Часто задаваемые вопросы

Что такое Близнецы Омни?+

Gemini Omni — это унифицированная мультимодальная модель Google, анонсированная на Google I/O 2026 19 мая 2026 года. Она принимает текст, изображения, аудио и видео в одном запросе и обосновывает все из них для создания одного результата — в основном видео, а также отредактированных фотографий и пользовательских цифровых аватаров. Позиция генерального директора Сундара Пичаи: «Создавайте что угодно, используя любые материалы». Вместо объединения Veo 3.1 (видео) + Imagen (изображение) + Lyria (аудио) Omni обрабатывает их внутри одной модели семейства Gemini.

Доступен ли Gemini Omni сейчас?+

Да — частично. Первая модель семейства, Gemini Omni Flash, начала распространяться 19 мая 2026 года для подписчиков AI Plus/Pro/Ultra через приложение Gemini и творческую студию Google Flow. Она бесплатна в YouTube Shorts и YouTube Create. Доступ к API обещан «в ближайшие недели». Анонсирован более дорогой Gemini Omni Pro, но дата выпуска не указана.

Какой длины могут быть видеоролики Gemini Omni?+

Gemini Omni Flash ограничена 10 секундами на клип. Google заявляет, что это решение о развертывании (чтобы расширить ранний доступ при высоких требованиях к вычислительным ресурсам), а не техническое ограничение модели. Генерация более длинной формы ожидается в Omni Pro или более поздних версиях Flash.

Чем Gemini Omni отличается от Veo 3.1 или Sora 2?+

Veo 3.1 и Sora 2 — это модели, ориентированные на видео, которые также генерируют звук. Gemini Omni является мультимодальным для входов и выходов: он принимает текст + изображение + аудио + видео в одном запросе, и одна и та же модель может возвращать видео, отредактированные фотографии или аватары. Он также наследует окно длинного контекста Gemini, поэтому согласованность персонажей, экипировки и реквизита в кадрах встроена, а не прикручена. Google также переносит генеративное видео из автономной линейки Veo в базовую систему Gemini — Omni — новый центр тяжести.

Чего еще НЕ может Gemini Omni?+

Google намеренно сдержал при запуске три возможности: генерацию изображений из аудио, генерацию звука из видео и редактирование голосовой/речевой дорожки существующего видео. Они сформулированы как долгосрочная концепция, но приостановлены на стадии проверки безопасности. Gemini Omni также не изображает реальных людей — вместо этого он использует специальные цифровые аватары, которые требуют процесса адаптации, когда пользователи записывают себя, произнося ряд чисел. Все выходы Omni имеют водяной знак Google SynthID.

Как я могу использовать многомодельный рабочий процесс ИИ сегодня?+

Vovoo, видеоагент AI внутри VO3 AI, уже управляет несколькими современными моделями — Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan и Nano Banana Pro — в одном чате. Он выбирает правильную модель для каждого шага (преобразование текста в видео, изображение в видео, рабочие процессы с рекламой, раскадровки, преобразование истории в видео). Полезно прямо сейчас, пока Gemini Omni Flash поддерживает 10-секундные клипы, а до API еще несколько недель.

Будет ли VO3 AI интегрировать Gemini Omni?+

Да. VO3 AI интегрирует новые модели Google, как только станет доступен общедоступный API — Veo 3, Veo 3.1, Veo 3.1 Lite и Nano Banana Pro уже доступны. Когда в ближайшие недели выйдет API Gemini Omni, он будет доступен внутри того же чат-агента Vovoo, наряду с другими моделями.