라이브 · Google I/O 2026에서 발표됨 · 2026년 5월 19일

Gemini Omni — Google의 통합 다중 모드 AI 비디오 모델

오늘 Google I/O 2026에서 발표되었습니다. 단일 프롬프트에서 텍스트, 이미지, 오디오 및 비디오를 가져와서 비디오, 편집된 사진 또는 디지털 아바타를 반환하는 하나의 모델입니다. Sundar Pichai는 이를 "어떤 입력에서든 무엇이든 생성"이라고 불렀습니다. Gemini Omni Flash가 오늘 출시됩니다(10초 클립, Gemini 앱 + YouTube Shorts). 앞으로 몇 주 안에 API에 액세스할 수 있습니다.

Vovoo 다중 모델 에이전트를 사용해 보세요 Vovoo의 작동 방식

Now live on VO3 AI

Try Gemini Omni on VO3 AI today

We've integrated Gemini Omni Video into the VO3 AI workspace — generate from text, animate from an image, or edit an existing clip. 720p · 1080p · 4–10s. No waitlist.

Generate (Text / Image → Video)Video Edit Or chat with Vovoo

What Is Gemini Omni?

지금까지 Google의 AI 미디어 스택은 영상용 Veo 3.1, 이미지용 Imagen 3, 편집용 Nano Banana Pro, 음악용 Lyria 등 양식별로 별도의 모델을 사용했습니다. 완성된 비디오를 제작한다는 것은 이들을 별도로 연결하는 것을 의미했습니다.

Gemini Omni는 이를 단일 다중 모드 모델, 즉 텍스트, 이미지, 오디오 및 비디오 입력을 추론하고 모든 양식 전반에 걸쳐 공유된 컨텍스트와 함께 비디오, 편집된 사진 또는 아바타를 반환하는 하나의 시스템으로 축소합니다. Google은 생성 비디오를 독립형 Veo 라인에서 핵심 Gemini 시스템으로 옮기고 있으며 Omni는 새로운 무게 중심입니다.

공식 데모 · Google I/O 2026 기조연설

Gemini Omni in Action

Google I/O 2026 기조연설의 6가지 데모: 기조연설 시즐, 물리학 + 기본 오디오, 텍스트-비디오, 대화형 편집, 장면 인식 물리학, 다중 회전 개선.

기조연설 시즐릴

Keynote Montage

Range of styles, characters, environments and motion.

Google의 I/O 2026 시즐릴 - 기능별 심층 데모에 앞서 Gemini Omni Flash가 장르 전반에 걸쳐 무엇을 생성할 수 있는지에 대한 빠른 조사입니다.

🔊 네이티브 오디오

물리학 + 네이티브 오디오

Marble Chain Reaction

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

한 번에 동기화된 오디오를 통해 생성된 Omni의 '중력, 운동 에너지, 유체 역학과 같은 힘에 대한 직관적인 이해'를 보여주는 Google 쇼케이스입니다.

텍스트-비디오

Astronaut Scene

Astronaut prompt-to-video generation.

클래식 AI 비디오 벤치마크 주제 - 입력 영상 없이 Omni가 복잡한 환경, 재료(헬멧 유리, 직물) 및 모션을 처리하는 방법을 보여주는 데 사용됩니다.

대화형 편집

Sculpture → Foam

"Make the sculpture out of bubbles."

입력: 구체 조각 영상. 하나의 대화식 지침은 모션과 조명을 유지하면서 전체 클립의 자료를 다시 작성합니다.

장면 인식 물리 편집

Mirror Ripple + Chrome Arm

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

입력: 사람이 거울을 만지는 영상. Omni는 접촉 순간에 의해 트리거된 두 가지 물리적으로 정확한 편집을 통해 장면을 다시 실행합니다.

대화 개선

Multi-Turn Violin

Series of sequential edits, each building on the last.

Google의 프레이밍: "모든 지침은 마지막 지침을 기반으로 합니다. 캐릭터는 일관성을 유지하고 물리학은 유지되며 장면은 이전 내용을 기억합니다."

동영상 출처: blog.google · Gemini Omni 발표 · 모든 Omni 출력에는 SynthID 워터마크가 있습니다.

Google I/O 2026에서 확인됨

What Gemini Omni Can Do

2026년 5월 19일 기조연설에서 발췌. Gemini Omni Flash가 오늘 출시되었습니다. Gemini Omni Pro는 날짜 없이 놀림을 받습니다.

Unified Multimodal Input

텍스트, 이미지, 오디오, 비디오를 하나의 프롬프트에 결합합니다. 모델은 입력을 단순히 연결하는 것이 아니라 모든 입력에 대해 추론합니다.

"Create Anything From Any Input"

Pichai의 I/O 2026 프레이밍. 기본 출력은 비디오입니다. 동일한 모델은 편집된 사진과 맞춤형 디지털 아바타도 반환합니다.

Conversational Refinement

클립을 생성한 다음 채팅에서 계속 반복하세요. 장면을 변경하고, 소품을 교체하고, 처음부터 다시 시작하지 않고도 카메라 이동을 다시 실행할 수 있습니다.

Long-Context Consistency

Gemini의 긴 컨텍스트 창을 상속합니다. 캐릭터는 샷 전반에 걸쳐 얼굴, 의상, 소품을 유지합니다. 이는 경쟁 모델의 약점으로 알려져 있습니다.

10-Second Clips (Flash)

Gemini Omni Flash는 오늘 클립을 10초로 제한합니다. Google에서는 이를 모델 제한이 아닌 배포 선택이라고 부릅니다. Omni Pro에서는 더 긴 지속 시간이 예상됩니다.

SynthID Watermark + Custom Avatars

모든 Omni 출력에는 AI 검증을 위한 SynthID가 포함되어 있습니다. 세대별로 실제 사람이 없습니다. 사용자는 일련의 숫자를 기록하여 자신만의 디지털 아바타를 만듭니다.

Chained models vs Gemini Omni (unified)

하나의 Gemini 제품군 모델이 모든 단계를 처리하므로 이제 작업 흐름이 어떻게 바뀌나요?

단계	Omni 이전(별도 모델)	Gemini Omni Flash(1개 모델)
스크립트	쌍둥이 자리 3 / 클로드 / GPT	내장
컨셉 이미지	Imagen / 나노 바나나 프로	내장
비디오 애니메이션	베오 3.1 / 소라 2	내장
오디오 + 음성	리리아 / 일레븐랩스	내장, 비디오와 동기화
캐릭터 일관성	여러 도구에서 유지 관리가 어려움	공유된 긴 컨텍스트 상태
출력 형식	스티치 + 내보내기	네이티브 소셜/와이드스크린

번역: Gemini Omni Flash는 처음부터 편집을 다시 시작하는 대신 대화식 개선을 통해 4~6개의 도구 체인을 단일 엔드 투 엔드 세대로 통합합니다. 현재 최대 10개로 제한됩니다.

기능 정렬

How VO3 AI Aligns with Gemini Omni's New Video Creation Workflow

Gemini Omni는 대화형 편집, 다중 입력 참조, 일관된 캐릭터, 오디오 인식 생성, 더 긴 크리에이티브 워크플로우 등 AI 비디오 제작이 어디로 진행되고 있는지 보여줍니다. VO3 AI는 이미 다중 모델 워크플로를 통해 이러한 요구 사항 중 많은 부분을 지원합니다.

Gemini 옴니 기능	의미	VO3 AI 지원	상태
대화형 비디오 워크플로우	채팅을 통해 비디오 제작을 계획하고 다듬고 계속하세요.	Vovoo AI 비디오 에이전트 프롬프트, 장면, 모델 및 개정을 안내하는 데 도움이 됩니다.	워크플로를 통해 지원됨
비디오-비디오 편집	텍스트 지침으로 기존 비디오 편집	AI 영상 편집자 — WAN 2.7 및 Seedance 2.0(720p/1080p)을 통한 텍스트 명령 편집	지원됨
이미지 참조 입력	이미지를 스타일이나 문자 지침으로 사용	이미지-비디오 비디오 참조 (최대 9개의 참조 이미지)	지원됨
오디오 인식 생성	영상과 함께 오디오 생성	음성 해설 + BGM 병합 긴 비디오 워크플로	워크플로를 통해 지원됨
네이티브 오디오 생성	하나의 모델 패스 내에서 동기화된 오디오	사용 가능 날짜 베오 3 / 베오 3.1	모델에 따라 다름
캐릭터 일관성	여러 장면에서 동일한 캐릭터, 의상, 소품 사용	비디오 참조 캐릭터 잠금 + 장면 계속하기 + 다중 장면 계획	지원됨
다회전 개선	여러 차례에 걸쳐 동일한 장면을 반복합니다.	장면 계속하기 AI 에이전트 고리	지원됨
물리학 인식 세대	현실적인 모션, 재료 및 힘	Veo / Sora / Seedance를 통해 작업별로 라우팅됨 다중 모델 선택	모델에 따라 다름
다중 입력 생성	하나의 프롬프트로 텍스트 + 이미지 + 오디오 + 비디오	비디오 참조 Seedance 2.0 / WAN 2.7을 사용하여 텍스트, 이미지, 비디오 및 오디오 참조를 지원합니다.	지원됨
짧은 비디오 생성	15초 미만의 빠른 클립	가로질러 모든 통합 모델	지원됨
더 길어진 비디오 워크플로	다중 촬영, 다중 장면 비디오	스토리 투 비디오, 광고, 스토리보드 기술 병합으로	워크플로를 통해 지원됨
아바타 / 개인영상	개인 디지털 아바타 생성	안전 검토를 위해 예약됨	제한적 / 안전 우선
콘텐츠 투명성	워터마크 및 출처 메타데이터	모델별 출처 처리	모델에 따라 다름
개발자/API 액세스	프로그래밍 방식 생성	현재 VO3 AI 워크플로를 통해 사용 가능	워크플로를 통해 지원됨

상태는 현재 VO3 AI 워크플로를 반영합니다. Vovoo는 모델 및 작업 흐름 선택을 안내하는 데 도움이 됩니다.

VO3 AI에서 오늘 라이브

Vovoo Already Orchestrates Multi-Model Workflows

현재 VO3 AI에서 실행되는 세 가지 실제 워크플로는 각각 하나의 채팅 뒤에 여러 모델을 연결합니다. 통합 출력의 미래는 흥미진진합니다. 하지만 지금 당장이라도 이와 같이 구축할 수 있습니다.

Cinematic Storyboard

GPT Image 2는 8개의 패널을 계획하고 있습니다. → Seedance 2는 이를 하나의 15초 영화 클립으로 애니메이션화합니다.

이 워크플로를 시도해 보세요 →

Product Assets → Ad Video

간략한 → 스크립트 → 4컷 스토리보드 → 세그먼트별 애니메이션 → 병합된 30대 광고.

이 워크플로를 시도해 보세요 →

C2Story URL → Animated Film

스토리 분석 → 장면 분할 → 시각적 프롬프트 → 애니메이션 → 단편 병합.

이 워크플로를 시도해 보세요 →

Gemini Omni is live — but the API is still weeks away

Flash는 Gemini 앱이나 YouTube Shorts 내의 10초 클립에 적합합니다. 긴 비디오, 광고 워크플로, 여러 장면의 문자 일관성 또는 프로그래밍 방식 생성을 위해 Vovoo on VO3 AI는 현재 단계별로 자동으로 선택되는 Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan, Nano Banana Pro 등의 다중 모델 워크플로를 조율합니다. Gemini Omni API가 출시되면 동일한 에이전트에 합류합니다.

Vovoo 에이전트 열기 읽기: Veo 4 — 우리가 알고 있는 것

Frequently Asked Questions

Gemini 옴니란 무엇입니까?+

Gemini Omni는 2026년 5월 19일 Google I/O 2026에서 발표된 Google의 통합 다중 모달 모델입니다. 단일 프롬프트에서 텍스트, 이미지, 오디오 및 비디오를 수용하고 모든 항목에 걸쳐 하나의 출력(주로 비디오, 편집된 사진, 맞춤 디지털 아바타)을 생성합니다. CEO 순다르 피차이(Sundar Pichai)의 포지셔닝: "모든 입력으로부터 무엇이든 창조하라." Veo 3.1(비디오) + Imagen(이미지) + Lyria(오디오)를 연결하는 대신 Omni는 하나의 Gemini 제품군 모델 내에서 이를 처리합니다.

Gemini Omni를 지금 사용할 수 있나요?+

예 — 부분적으로요. 제품군의 첫 번째 모델인 Gemini Omni Flash는 2026년 5월 19일부터 Gemini 앱과 Google의 Flow 크리에이티브 스튜디오를 통해 AI Plus/Pro/Ultra 구독자에게 출시되기 시작했으며 YouTube Shorts 및 YouTube Create에서 무료로 제공됩니다. API 액세스는 "앞으로 몇 주 안에" 약속됩니다. 고급형 Gemini Omni Pro가 예고되었지만 출시 날짜는 없습니다.

Gemini Omni 비디오의 길이는 얼마나 되나요?+

Gemini Omni Flash는 클립당 10초로 제한됩니다. Google은 이것이 모델의 기술적 한계가 아니라 배포 결정(컴퓨팅 수요가 높을 때 초기 액세스를 확대하기 위한 결정)이라고 말합니다. Omni Pro 이상의 Flash 업데이트에서는 더 긴 형식의 생성이 예상됩니다.

Gemini Omni는 Veo 3.1 또는 Sora 2와 어떻게 다릅니까?+

Veo 3.1과 Sora 2는 오디오도 생성하는 비디오 우선 모델입니다. Gemini Omni는 입력 및 출력 전반에 걸쳐 다중 모드입니다. 하나의 프롬프트에서 텍스트 + 이미지 + 오디오 + 비디오를 가져오고 동일한 모델이 비디오, 편집된 사진 또는 아바타를 반환할 수 있습니다. 또한 Gemini의 긴 컨텍스트 창을 상속하므로 장면 전체에 걸쳐 캐릭터, 의상 및 소품 일관성이 추가되지 않고 내장됩니다. Google은 또한 생성형 비디오를 독립형 Veo 라인에서 핵심 Gemini 시스템으로 옮기고 있습니다. Omni는 새로운 무게 중심입니다.

Gemini Omni가 아직 할 수 없는 일은 무엇입니까?+

Google은 출시 당시 오디오에서 이미지 생성, 비디오에서 오디오 생성, 기존 비디오의 음성/음성 트랙 편집이라는 세 가지 기능을 의도적으로 보류했습니다. 이는 장기적인 비전으로 구성되어 있지만 안전 검토에서는 일시 중지됩니다. 또한 Gemini Omni는 실제 사람을 묘사하지 않습니다. 대신 사용자가 일련의 숫자를 말하는 것을 녹음하는 온보딩 흐름이 필요한 맞춤형 디지털 아바타를 사용합니다. 모든 Omni 출력에는 Google의 SynthID 워터마크가 있습니다.

지금 다중 모델 AI 워크플로를 어떻게 사용할 수 있나요?+

VO3 AI 내의 AI 비디오 에이전트인 Vovoo는 이미 단일 채팅에서 Veo 3.1, Sora 2, Kling 3.0, Seedance, Hailuo, Hunyuan 및 Nano Banana Pro와 같은 여러 최첨단 모델을 조율하고 있습니다. 각 단계(텍스트-비디오, 이미지-비디오, 광고 워크플로, 스토리보드, 스토리-비디오)에 적합한 모델을 선택합니다. Gemini Omni Flash가 10초 클립으로 제한되어 있고 API가 아직 몇 주 남았을 때 지금 당장 유용합니다.

VO3 AI에 Gemini Omni가 통합되나요?+

예. VO3 AI는 공개 API가 출시되자마자 새로운 Google 모델을 통합합니다. Veo 3, Veo 3.1, Veo 3.1 Lite 및 Nano Banana Pro는 이미 출시되었습니다. 앞으로 몇 주 안에 Gemini Omni API가 출시되면 동일한 Vovoo 채팅 에이전트 내에서 다른 모델과 함께 사용할 수 있게 됩니다.