ライブ · Google I/O 2026 で発表 · 2026 年 5 月 19 日

Gemini Omni — Google の 統合されたマルチモーダル AI ビデオ モデル

Google I/O 2026 で本日発表されました。テキスト、画像、音声、ビデオを 1 つのプロンプトで受け取り、ビデオ、編集された写真、またはデジタル アバターを返すモデルの 1 つです。サンダー ピチャイの言うところの「あらゆる入力から何かを作成する」ものです。 Gemini Omni Flash は本日公開されます (10 秒クリップ、Gemini アプリ + YouTube ショート)。今後数週間以内に API にアクセスできるようになります。

What Is Gemini Omni?

今日まで、Google の AI メディア スタックは、ビデオには Veo 3.1、画像には Imagen 3、編集には Nano Banana Pro、音楽には Lyria というモダリティごとに個別のモデルを使用していました。完成したビデオを構築するには、これらを個別にチェーンする必要がありました。

Gemini Omni は、これを 1 つのマルチモーダル モデルにまとめます。これは、テキスト、画像、オーディオ、ビデオ入力を推論し、すべてのモダリティで共有されたコンテキストを使用してビデオ、編集された写真、またはアバターを返す 1 つのシステムです。 Google は生成ビデオをスタンドアロンの Veo ラインからコアの Gemini システムに移行しており、Omni が新しい重心となります。

公式デモ · Google I/O 2026 基調講演

Gemini Omni in Action

Google の I/O 2026 基調講演からの 6 つのデモ: 基調講演のシズル、物理学 + ネイティブ オーディオ、テキストからビデオへの変換、会話型編集、シーンを意識した物理学、マルチターン リファインメント。

基調講演シズル リール

Keynote Montage

Range of styles, characters, environments and motion.

Google の I/O 2026 のシズル リール — 機能ごとの詳細なデモの前に、Gemini Omni Flash がジャンルを超えて何を生成できるかを簡単に調査します。

🔊 ネイティブオーディオ
物理学 + ネイティブオーディオ

Marble Chain Reaction

"A marble rolling fast on a chain reaction style track, continuous smooth shot."

Google による Omni の「重力、運動エネルギー、流体力学のような力の直観的な理解」を紹介するショーケース。ワン パスで同期されたオーディオを使用して生成されます。

テキストからビデオへ

Astronaut Scene

Astronaut prompt-to-video generation.

古典的な AI ビデオ ベンチマークの主題 — 入力フッテージを必要とせずに、複雑な環境、マテリアル (ヘルメットのガラス、生地)、およびモーションの Omni の処理を​​紹介するために使用されます。

会話型編集

Sculpture → Foam

"Make the sculpture out of bubbles."

入力: オーブ彫刻のビデオ。 1 つの会話型命令で、モーションとライティングを維持しながらクリップ全体のマテリアルを書き換えます。

シーンを意識した物理編集

Mirror Ripple + Chrome Arm

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material."

入力: 鏡に触れている人のビデオ。 Omni は、接触の瞬間によってトリガーされた 2 つの物理的に正しい編集を使用してシーンを再実行します。

会話の洗練

Multi-Turn Violin

Series of sequential edits, each building on the last.

Google のフレームワーク: 「すべての指示は最後に基づいて構築されます。キャラクターは一貫性を保ち、物理学は保持され、シーンは以前のものを覚えています。」

動画の出典元 blog.google · Gemini Omni の発表 · すべての Omni 出力には SynthID ウォーターマークが含まれています。

Google I/O 2026 で確認

What Gemini Omni Can Do

2026年5月19日の基調講演より。 Gemini Omni Flash は本日公開です。 Gemini Omni Pro は日付なしでからかわれます。

Unified Multimodal Input

テキスト、画像、音声、ビデオを 1 つのプロンプトに結合します。モデルは、入力を単につなぎ合わせるのではなく、すべての入力にわたって推論します。

"Create Anything From Any Input"

ピチャイの I/O 2026 のフレーム。主な出力はビデオです。同じモデルは、編集された写真とカスタム デジタル アバターも返します。

Conversational Refinement

クリップを生成し、チャットで繰り返します。最初からやり直すことなく、ショットを変更したり、プロップを交換したり、カメラの動きをやり直したりできます。

Long-Context Consistency

Gemini のロングコンテキスト ウィンドウを継承します。キャラクターはショット間で顔、衣装、小道具を維持します。これは、競合するモデルにとって既知の弱点です。

10-Second Clips (Flash)

現在、Gemini Omni Flash のクリップの上限は 10 秒です。 Google では、これをモデルの制限ではなく展開の選択と呼んでいます。 Omni Pro ではより長い期間が期待されます。

SynthID Watermark + Custom Avatars

すべての Omni 出力には AI 検証用の SynthID が含まれます。何世代にもわたって実在の人物は存在しません。ユーザーは一連の数字を記録することで独自のデジタル アバターを作成します。

Chained models vs Gemini Omni (unified)

1 つの Gemini ファミリー モデルがすべてのステップを処理するようになり、ワークフローがどのように変化するか。

ステップオムニ以前(別モデル)Gemini オムニ フラッシュ (1 モデル)
スクリプトジェミニ 3 / クロード / GPT内蔵
コンセプトイメージImagen / Nano Banana Pro内蔵
ビデオアニメーションVeo 3.1 / ソラ 2内蔵
オーディオ+音声リリア / イレブンラボ内蔵、ビデオに同期
キャラクターの一貫性ツール間でのメンテナンスが困難共有ロングコンテキスト状態
出力フォーマットステッチ + エクスポートネイティブソーシャル/ワイドスクリーン

翻訳: Gemini Omni Flash は、4 ~ 6 のツール チェーンを 1 つのエンドツーエンド世代に統合します。今日の上限は 10 秒で、最初から編集をやり直すのではなく、会話形式で洗練されています。

機能の調整

How VO3 AI Aligns with Gemini Omni's New Video Creation Workflow

Gemini Omni は、会話型編集、複数入力リファレンス、一貫性のあるキャラクター、オーディオを意識した生成、長時間にわたるクリエイティブ ワークフローなど、AI ビデオ作成の方向性を示します。 VO3 AI は、マルチモデル ワークフローを通じてこれらのニーズの多くをすでにサポートしています。

Gemini のオムニ機能それが何を意味するかVO3 AIサポート状態
会話型ビデオのワークフローチャットを通じてビデオ作成を計画、調整、継続Vovoo AI ビデオ エージェント プロンプト、シーン、モデル、リビジョンのガイドに役立ちますワークフロー経由でサポート
ビデオ間の編集テキストの指示を使用して既存のビデオを編集するAIビデオエディター — WAN 2.7 および Seedance 2.0 (720p/1080p) を介したテキスト命令編集サポートされています
画像参照入力スタイルや文字のガイダンスとして画像を使用する画像からビデオへ ビデオへの参照 (参考画像9枚まで)サポートされています
オーディオを意識した作品作りビジュアルとともにオーディオを生成ナレーション+BGMの融合 長いビデオのワークフローワークフロー経由でサポート
ネイティブオーディオの生成1 つのモデル パス内の同期されたオーディオで利用可能 Veo 3 / Veo 3.1モデルに依存
キャラクターの一貫性どのショットでも同じキャラクター、衣装、小道具を使用ビデオへの参照 文字ロック+ シーンを続ける + マルチシーンプランニングサポートされています
マルチターンリファインメントターンをまたいで同じシーンを反復するシーンを続ける AIエージェント ループサポートされています
物理を意識した世代現実的な動き、材料、力Veo / Sora / Seedance 経由でタスクごとにルーティングされます。 複数のモデルの選択モデルに依存
複数入力の作成1 つのプロンプトでテキスト + 画像 + 音声 + ビデオビデオへの参照 Seedance 2.0 / WAN 2.7 によるテキスト、画像、ビデオ、オーディオ参照をサポートサポートされています
短いビデオの生成15 秒未満のクイッククリップ横切って すべての統合モデルサポートされています
より長いビデオワークフローマルチショット、マルチシーンのビデオStory-to-Video、広告、ストーリーボードのスキル マージありワークフロー経由でサポート
アバター/個人ビデオパーソナルデジタルアバターの生成安全性レビューのために予約済み限定的/安全第一
コンテンツの透明性透かしと来歴のメタデータモデルごとの出自の処理モデルに依存
開発者 / API アクセスプログラムによる生成現在、VO3 AI ワークフローを通じて利用可能ですワークフロー経由でサポート

ステータスは現在の VO3 AI ワークフローを反映します。 Vovoo は、モデルとワークフローの選択をガイドするのに役立ちます。

VO3 AI で今日をライブ

Vovoo Already Orchestrates Multi-モードl Workflows

現在、VO3 AI 上で 3 つの実際のワークフローが実行されており、それぞれが 1 つのチャットの背後で複数のモデルを連鎖させています。統合された出力の未来はエキサイティングですが、今すぐにこのように構築することができます。

Gemini Omni is live — but the API is still weeks away

Flash は、Gemini アプリまたは YouTube ショート内の 10 秒のクリップに最適です。長いビデオ、広告ワークフロー、複数のショットにわたるキャラクターの一貫性、またはプログラムによる生成の場合、VO3 AI 上の Vovoo は、現在マルチモデル ワークフロー (Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro) をステップごとに自動的に選択して調整します。 Gemini Omni API が出荷されると、同じエージェントに加わります。

Frequently Asked Questions

ジェミニオムニとは何ですか?+

Gemini Omni は、2026 年 5 月 19 日の Google I/O 2026 で発表された、Google の統合マルチモーダル モデルです。Gemini Omni は、テキスト、画像、音声、ビデオを 1 つのプロンプトで受け入れ、それらすべてにわたって 1 つの出力 (主にビデオ、さらに編集された写真とカスタム デジタル アバター) を生成します。 CEO のサンダー・ピチャイ氏のポジショニングは、「あらゆるインプットからあらゆるものを生み出す」です。 Veo 3.1 (ビデオ) + Imagen (画像) + Lyria (オーディオ) をチェーンする代わりに、Omni は 1 つの Gemini ファミリ モデル内でそれらを処理します。

Gemini Omni は現在利用可能ですか?+

はい、部分的には。ファミリーの最初のモデルである Gemini Omni Flash は、2026 年 5 月 19 日に Gemini アプリと Google の Flow クリエイティブ スタジオを介して AI Plus / Pro / Ultra の加入者に展開が開始され、YouTube Shorts と YouTube Create では無料で利用できます。 API アクセスは「今後数週間以内」に提供されると約束されています。ハイエンドの Gemini Omni Pro が予告されていますが、リリース日はありません。

Gemini Omni ビデオの長さはどれくらいですか?+

Gemini Omni Flash は、クリップあたり 10 秒に制限されています。 Googleによれば、これは(コンピューティング需要が高い間に早期アクセスを拡大するための)展開上の決定であり、モデルの技術的な制限ではないという。 Omni Pro 以降の Flash アップデートでは、より長い形式の生成が期待されます。

Gemini Omni は Veo 3.1 や Sora 2 とどう違うのですか?+

Veo 3.1 と Sora 2 は、オーディオも生成するビデオ優先モデルです。 Gemini Omni は入力と出力にわたってマルチモーダルです。1 つのプロンプトでテキスト + 画像 + オーディオ + ビデオを受け取り、同じモデルでビデオ、編集された写真、またはアバターを返すことができます。また、Gemini のロング コンテキスト ウィンドウも継承しているため、ショット間でのキャラクター、衣装、小道具の一貫性は、ボルトオンではなく組み込まれています。 Google はまた、生成ビデオをスタンドアロンの Veo ラインからコアの Gemini システムに移行しており、Omni が新しい重心となります。

Gemini Omni でまだできないことは何ですか?+

Googleは発売時に意図的に、音声から画像を生成する、ビデオから音声を生成する、既存のビデオの音声/音声トラックを編集するという3つの機能を保留した。これらは長期ビジョンとして策定されていますが、安全性の検討中は一時停止されています。また、Gemini Omni は現実の人物を描写するのではなく、代わりにカスタムのデジタル アバターを使用します。これには、ユーザーが一連の数字を話す自分自身を録音するオンボーディング フローが必要です。すべての Omni 出力には、Google の SynthID ウォーターマークが含まれています。

マルチモデル AI ワークフローを今日から使用するにはどうすればよいですか?+

VO3 AI 内の AI ビデオ エージェントである Vovoo は、すでに複数の最先端モデル (Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro) を 1 つのチャットで調整しています。各ステップ (テキストからビデオへ、画像からビデオへ、広告ワークフロー、ストーリーボード、ストーリーからビデオへ) に適切なモデルが選択されます。 Gemini Omni Flash が 10 秒のクリップにゲートされており、API が公開されるのはまだ数週間先ですが、現時点では役に立ちます。

VO3 AI は Gemini Omni を統合しますか?+

はい。 VO3 AI は、パブリック API が利用可能になるとすぐに新しい Google モデルを統合します。Veo 3、Veo 3.1、Veo 3.1 Lite、および Nano Banana Pro はすでに公開されています。今後数週間以内に Gemini Omni API が出荷されると、同じ Vovoo チャット エージェント内で他のモデルと並んで利用できるようになります。