ライブ · Google I/O 2026 で発表 · 2026 年 5 月 19 日

Gemini Omni — Google の統合されたマルチモーダル AI ビデオモデル

Google I/O 2026 で本日発表されました。テキスト、画像、音声、ビデオを 1 つのプロンプトで受け取り、ビデオ、編集された写真、またはデジタルアバターを返すモデルの 1 つです。サンダーピチャイの言うところの「あらゆる入力から何かを作成する」ものです。 Gemini Omni Flash は本日公開されます (10 秒クリップ、Gemini アプリ + YouTube ショート)。今後数週間以内に API にアクセスできるようになります。

Vovoo マルチモデルエージェントを試す Vovoo の仕組み

Now live on VO3 AI

Try Gemini Omni on VO3 AI today

We've integrated Gemini Omni Video into the VO3 AI workspace — generate from text, animate from an image, or edit an existing clip. 720p · 1080p · 4–10s. No waitlist.

Generate (Text / Image → Video)Video Edit Or chat with Vovoo

What Is Gemini Omni?

今日まで、Google の AI メディアスタックは、ビデオには Veo 3.1、画像には Imagen 3、編集には Nano Banana Pro、音楽には Lyria というモダリティごとに個別のモデルを使用していました。完成したビデオを構築するには、これらを個別にチェーンする必要がありました。

Gemini Omni は、これを 1 つのマルチモーダルモデルにまとめます。これは、テキスト、画像、オーディオ、ビデオ入力を推論し、すべてのモダリティで共有されたコンテキストを使用してビデオ、編集された写真、またはアバターを返す 1 つのシステムです。 Google は生成ビデオをスタンドアロンの Veo ラインからコアの Gemini システムに移行しており、Omni が新しい重心となります。

公式デモ · Google I/O 2026 基調講演

Gemini Omni in Action

Google の I/O 2026 基調講演からの 6 つのデモ: 基調講演のシズル、物理学 + ネイティブオーディオ、テキストからビデオへの変換、会話型編集、シーンを意識した物理学、マルチターンリファインメント。

基調講演シズルリール

Keynote Montage

Range of styles, characters, environments and motion.

Google の I/O 2026 のシズルリール — 機能ごとの詳細なデモの前に、Gemini Omni Flash がジャンルを超えて何を生成できるかを簡単に調査します。

🔊 ネイティブオーディオ

物理学 + ネイティブオーディオ

Marble Chain Reaction

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Google による Omni の「重力、運動エネルギー、流体力学のような力の直観的な理解」を紹介するショーケース。ワンパスで同期されたオーディオを使用して生成されます。

テキストからビデオへ

Astronaut Scene

Astronaut prompt-to-video generation.

古典的な AI ビデオベンチマークの主題 — 入力フッテージを必要とせずに、複雑な環境、マテリアル (ヘルメットのガラス、生地)、およびモーションの Omni の処理を紹介するために使用されます。

会話型編集

Sculpture → Foam

"Make the sculpture out of bubbles."

入力: オーブ彫刻のビデオ。 1 つの会話型命令で、モーションとライティングを維持しながらクリップ全体のマテリアルを書き換えます。

シーンを意識した物理編集

Mirror Ripple + Chrome Arm

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

入力: 鏡に触れている人のビデオ。 Omni は、接触の瞬間によってトリガーされた 2 つの物理的に正しい編集を使用してシーンを再実行します。

会話の洗練

Multi-Turn Violin

Series of sequential edits, each building on the last.

Google のフレームワーク: 「すべての指示は最後に基づいて構築されます。キャラクターは一貫性を保ち、物理学は保持され、シーンは以前のものを覚えています。」

動画の出典元 blog.google · Gemini Omni の発表 · すべての Omni 出力には SynthID ウォーターマークが含まれています。

Google I/O 2026 で確認

What Gemini Omni Can Do

2026年5月19日の基調講演より。 Gemini Omni Flash は本日公開です。 Gemini Omni Pro は日付なしでからかわれます。

Unified Multimodal Input

テキスト、画像、音声、ビデオを 1 つのプロンプトに結合します。モデルは、入力を単につなぎ合わせるのではなく、すべての入力にわたって推論します。

"Create Anything From Any Input"

ピチャイの I/O 2026 のフレーム。主な出力はビデオです。同じモデルは、編集された写真とカスタムデジタルアバターも返します。

Conversational Refinement

クリップを生成し、チャットで繰り返します。最初からやり直すことなく、ショットを変更したり、プロップを交換したり、カメラの動きをやり直したりできます。

Long-Context Consistency

Gemini のロングコンテキストウィンドウを継承します。キャラクターはショット間で顔、衣装、小道具を維持します。これは、競合するモデルにとって既知の弱点です。

10-Second Clips (Flash)

現在、Gemini Omni Flash のクリップの上限は 10 秒です。 Google では、これをモデルの制限ではなく展開の選択と呼んでいます。 Omni Pro ではより長い期間が期待されます。

SynthID Watermark + Custom Avatars

すべての Omni 出力には AI 検証用の SynthID が含まれます。何世代にもわたって実在の人物は存在しません。ユーザーは一連の数字を記録することで独自のデジタルアバターを作成します。

Chained models vs Gemini Omni (unified)

1 つの Gemini ファミリーモデルがすべてのステップを処理するようになり、ワークフローがどのように変化するか。

ステップ	オムニ以前（別モデル）	Gemini オムニフラッシュ (1 モデル)
スクリプト	ジェミニ 3 / クロード / GPT	内蔵
コンセプトイメージ	Imagen / Nano Banana Pro	内蔵
ビデオアニメーション	Veo 3.1 / ソラ 2	内蔵
オーディオ+音声	リリア / イレブンラボ	内蔵、ビデオに同期
キャラクターの一貫性	ツール間でのメンテナンスが困難	共有ロングコンテキスト状態
出力フォーマット	ステッチ + エクスポート	ネイティブソーシャル/ワイドスクリーン

翻訳: Gemini Omni Flash は、4 ～ 6 のツールチェーンを 1 つのエンドツーエンド世代に統合します。今日の上限は 10 秒で、最初から編集をやり直すのではなく、会話形式で洗練されています。

機能の調整

How VO3 AI Aligns with Gemini Omni's New Video Creation Workflow

Gemini Omni は、会話型編集、複数入力リファレンス、一貫性のあるキャラクター、オーディオを意識した生成、長時間にわたるクリエイティブワークフローなど、AI ビデオ作成の方向性を示します。 VO3 AI は、マルチモデルワークフローを通じてこれらのニーズの多くをすでにサポートしています。

Gemini のオムニ機能	それが何を意味するか	VO3 AIサポート	状態
会話型ビデオのワークフロー	チャットを通じてビデオ作成を計画、調整、継続	Vovoo AI ビデオエージェントプロンプト、シーン、モデル、リビジョンのガイドに役立ちます	ワークフロー経由でサポート
ビデオ間の編集	テキストの指示を使用して既存のビデオを編集する	AIビデオエディター — WAN 2.7 および Seedance 2.0 (720p/1080p) を介したテキスト命令編集	サポートされています
画像参照入力	スタイルや文字のガイダンスとして画像を使用する	画像からビデオへビデオへの参照 (参考画像9枚まで)	サポートされています
オーディオを意識した作品作り	ビジュアルとともにオーディオを生成	ナレーション+BGMの融合長いビデオのワークフロー	ワークフロー経由でサポート
ネイティブオーディオの生成	1 つのモデルパス内の同期されたオーディオ	で利用可能 Veo 3 / Veo 3.1	モデルに依存
キャラクターの一貫性	どのショットでも同じキャラクター、衣装、小道具を使用	ビデオへの参照文字ロック+ シーンを続ける + マルチシーンプランニング	サポートされています
マルチターンリファインメント	ターンをまたいで同じシーンを反復する	シーンを続ける AIエージェントループ	サポートされています
物理を意識した世代	現実的な動き、材料、力	Veo / Sora / Seedance 経由でタスクごとにルーティングされます。複数のモデルの選択	モデルに依存
複数入力の作成	1 つのプロンプトでテキスト + 画像 + 音声 + ビデオ	ビデオへの参照 Seedance 2.0 / WAN 2.7 によるテキスト、画像、ビデオ、オーディオ参照をサポート	サポートされています
短いビデオの生成	15 秒未満のクイッククリップ	横切ってすべての統合モデル	サポートされています
より長いビデオワークフロー	マルチショット、マルチシーンのビデオ	Story-to-Video、広告、ストーリーボードのスキルマージあり	ワークフロー経由でサポート
アバター/個人ビデオ	パーソナルデジタルアバターの生成	安全性レビューのために予約済み	限定的/安全第一
コンテンツの透明性	透かしと来歴のメタデータ	モデルごとの出自の処理	モデルに依存
開発者 / API アクセス	プログラムによる生成	現在、VO3 AI ワークフローを通じて利用可能です	ワークフロー経由でサポート

ステータスは現在の VO3 AI ワークフローを反映します。 Vovoo は、モデルとワークフローの選択をガイドするのに役立ちます。

VO3 AI で今日をライブ

Vovoo Already Orchestrates Multi-モードl Workflows

現在、VO3 AI 上で 3 つの実際のワークフローが実行されており、それぞれが 1 つのチャットの背後で複数のモデルを連鎖させています。統合された出力の未来はエキサイティングですが、今すぐにこのように構築することができます。

Cinematic Storyboard

GPT Image 2 は 8 つのパネルを計画し、Seedance 2 はそれらを 1 つの 15 秒のシネマティッククリップにアニメーション化します。

このワークフローを試してください →

Product Assets → Ad Video

概要 → 脚本 → 4 パネルの絵コンテ → セグメントごとのアニメーション → 30 秒の広告を結合。

このワークフローを試してください →

C2Story URL → Animated Film

ストーリー分析 → シーン分割 → ビジュアルプロンプト → アニメーション → 統合された短編。

このワークフローを試してください →

Gemini Omni is live — but the API is still weeks away

Flash は、Gemini アプリまたは YouTube ショート内の 10 秒のクリップに最適です。長いビデオ、広告ワークフロー、複数のショットにわたるキャラクターの一貫性、またはプログラムによる生成の場合、VO3 AI 上の Vovoo は、現在マルチモデルワークフロー (Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro) をステップごとに自動的に選択して調整します。 Gemini Omni API が出荷されると、同じエージェントに加わります。

Vovoo エージェントを開く読む: Veo 4 — 私たちが知っていること

Frequently Asked Questions

ジェミニオムニとは何ですか？+

Gemini Omni は、2026 年 5 月 19 日の Google I/O 2026 で発表された、Google の統合マルチモーダルモデルです。Gemini Omni は、テキスト、画像、音声、ビデオを 1 つのプロンプトで受け入れ、それらすべてにわたって 1 つの出力 (主にビデオ、さらに編集された写真とカスタムデジタルアバター) を生成します。 CEO のサンダー・ピチャイ氏のポジショニングは、「あらゆるインプットからあらゆるものを生み出す」です。 Veo 3.1 (ビデオ) + Imagen (画像) + Lyria (オーディオ) をチェーンする代わりに、Omni は 1 つの Gemini ファミリモデル内でそれらを処理します。

Gemini Omni は現在利用可能ですか?+

はい、部分的には。ファミリーの最初のモデルである Gemini Omni Flash は、2026 年 5 月 19 日に Gemini アプリと Google の Flow クリエイティブスタジオを介して AI Plus / Pro / Ultra の加入者に展開が開始され、YouTube Shorts と YouTube Create では無料で利用できます。 API アクセスは「今後数週間以内」に提供されると約束されています。ハイエンドの Gemini Omni Pro が予告されていますが、リリース日はありません。

Gemini Omni ビデオの長さはどれくらいですか?+

Gemini Omni Flash は、クリップあたり 10 秒に制限されています。 Googleによれば、これは（コンピューティング需要が高い間に早期アクセスを拡大するための）展開上の決定であり、モデルの技術的な制限ではないという。 Omni Pro 以降の Flash アップデートでは、より長い形式の生成が期待されます。

Gemini Omni は Veo 3.1 や Sora 2 とどう違うのですか?+

Veo 3.1 と Sora 2 は、オーディオも生成するビデオ優先モデルです。 Gemini Omni は入力と出力にわたってマルチモーダルです。1 つのプロンプトでテキスト + 画像 + オーディオ + ビデオを受け取り、同じモデルでビデオ、編集された写真、またはアバターを返すことができます。また、Gemini のロングコンテキストウィンドウも継承しているため、ショット間でのキャラクター、衣装、小道具の一貫性は、ボルトオンではなく組み込まれています。 Google はまた、生成ビデオをスタンドアロンの Veo ラインからコアの Gemini システムに移行しており、Omni が新しい重心となります。

Gemini Omni でまだできないことは何ですか?+

Googleは発売時に意図的に、音声から画像を生成する、ビデオから音声を生成する、既存のビデオの音声/音声トラックを編集するという3つの機能を保留した。これらは長期ビジョンとして策定されていますが、安全性の検討中は一時停止されています。また、Gemini Omni は現実の人物を描写するのではなく、代わりにカスタムのデジタルアバターを使用します。これには、ユーザーが一連の数字を話す自分自身を録音するオンボーディングフローが必要です。すべての Omni 出力には、Google の SynthID ウォーターマークが含まれています。

マルチモデル AI ワークフローを今日から使用するにはどうすればよいですか?+

VO3 AI 内の AI ビデオエージェントである Vovoo は、すでに複数の最先端モデル (Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro) を 1 つのチャットで調整しています。各ステップ (テキストからビデオへ、画像からビデオへ、広告ワークフロー、ストーリーボード、ストーリーからビデオへ) に適切なモデルが選択されます。 Gemini Omni Flash が 10 秒のクリップにゲートされており、API が公開されるのはまだ数週間先ですが、現時点では役に立ちます。

VO3 AI は Gemini Omni を統合しますか?+

はい。 VO3 AI は、パブリック API が利用可能になるとすぐに新しい Google モデルを統合します。Veo 3、Veo 3.1、Veo 3.1 Lite、および Nano Banana Pro はすでに公開されています。今後数週間以内に Gemini Omni API が出荷されると、同じ Vovoo チャットエージェント内で他のモデルと並んで利用できるようになります。

Gemini Omni — Google の 統合されたマルチモーダル AI ビデオ モデル

Try Gemini Omni on VO3 AI today

What Is Gemini Omni?

Gemini Omni in Action

Keynote Montage

Marble Chain Reaction

Astronaut Scene

Sculpture → Foam

Mirror Ripple + Chrome Arm

Multi-Turn Violin

What Gemini Omni Can Do

Unified Multimodal Input

"Create Anything From Any Input"

Conversational Refinement

Long-Context Consistency

10-Second Clips (Flash)

SynthID Watermark + Custom Avatars

Chained models vs Gemini Omni (unified)

How VO3 AI Aligns with Gemini Omni's New Video Creation Workflow

Vovoo Already Orchestrates Multi-モードl Workflows

Cinematic Storyboard

Product Assets → Ad Video

C2Story URL → Animated Film

Gemini Omni is live — but the API is still weeks away

Frequently Asked Questions

Gemini Omni — Google の統合されたマルチモーダル AI ビデオモデル