Gemini Omni — Google の 統合されたマルチモーダル AI ビデオ モデル
Google I/O 2026 で本日発表されました。テキスト、画像、音声、ビデオを 1 つのプロンプトで受け取り、ビデオ、編集された写真、またはデジタル アバターを返すモデルの 1 つです。サンダー ピチャイの言うところの「あらゆる入力から何かを作成する」ものです。 Gemini Omni Flash は本日公開されます (10 秒クリップ、Gemini アプリ + YouTube ショート)。今後数週間以内に API にアクセスできるようになります。
What Is Gemini Omni?
今日まで、Google の AI メディア スタックは、ビデオには Veo 3.1、画像には Imagen 3、編集には Nano Banana Pro、音楽には Lyria というモダリティごとに個別のモデルを使用していました。完成したビデオを構築するには、これらを個別にチェーンする必要がありました。
Gemini Omni は、これを 1 つのマルチモーダル モデルにまとめます。これは、テキスト、画像、オーディオ、ビデオ入力を推論し、すべてのモダリティで共有されたコンテキストを使用してビデオ、編集された写真、またはアバターを返す 1 つのシステムです。 Google は生成ビデオをスタンドアロンの Veo ラインからコアの Gemini システムに移行しており、Omni が新しい重心となります。
公式デモ · Google I/O 2026 基調講演
Gemini Omni in Action
Google の I/O 2026 基調講演からの 6 つのデモ: 基調講演のシズル、物理学 + ネイティブ オーディオ、テキストからビデオへの変換、会話型編集、シーンを意識した物理学、マルチターン リファインメント。
動画の出典元 blog.google · Gemini Omni の発表 · すべての Omni 出力には SynthID ウォーターマークが含まれています。
Google I/O 2026 で確認
What Gemini Omni Can Do
2026年5月19日の基調講演より。 Gemini Omni Flash は本日公開です。 Gemini Omni Pro は日付なしでからかわれます。
Unified Multimodal Input
テキスト、画像、音声、ビデオを 1 つのプロンプトに結合します。モデルは、入力を単につなぎ合わせるのではなく、すべての入力にわたって推論します。
"Create Anything From Any Input"
ピチャイの I/O 2026 のフレーム。主な出力はビデオです。同じモデルは、編集された写真とカスタム デジタル アバターも返します。
Conversational Refinement
クリップを生成し、チャットで繰り返します。最初からやり直すことなく、ショットを変更したり、プロップを交換したり、カメラの動きをやり直したりできます。
Long-Context Consistency
Gemini のロングコンテキスト ウィンドウを継承します。キャラクターはショット間で顔、衣装、小道具を維持します。これは、競合するモデルにとって既知の弱点です。
10-Second Clips (Flash)
現在、Gemini Omni Flash のクリップの上限は 10 秒です。 Google では、これをモデルの制限ではなく展開の選択と呼んでいます。 Omni Pro ではより長い期間が期待されます。
SynthID Watermark + Custom Avatars
すべての Omni 出力には AI 検証用の SynthID が含まれます。何世代にもわたって実在の人物は存在しません。ユーザーは一連の数字を記録することで独自のデジタル アバターを作成します。
Chained models vs Gemini Omni (unified)
1 つの Gemini ファミリー モデルがすべてのステップを処理するようになり、ワークフローがどのように変化するか。
翻訳: Gemini Omni Flash は、4 ~ 6 のツール チェーンを 1 つのエンドツーエンド世代に統合します。今日の上限は 10 秒で、最初から編集をやり直すのではなく、会話形式で洗練されています。
機能の調整
How VO3 AI Aligns with Gemini Omni's New Video Creation Workflow
Gemini Omni は、会話型編集、複数入力リファレンス、一貫性のあるキャラクター、オーディオを意識した生成、長時間にわたるクリエイティブ ワークフローなど、AI ビデオ作成の方向性を示します。 VO3 AI は、マルチモデル ワークフローを通じてこれらのニーズの多くをすでにサポートしています。
ステータスは現在の VO3 AI ワークフローを反映します。 Vovoo は、モデルとワークフローの選択をガイドするのに役立ちます。
VO3 AI で今日をライブ
Vovoo Already Orchestrates Multi-モードl Workflows
現在、VO3 AI 上で 3 つの実際のワークフローが実行されており、それぞれが 1 つのチャットの背後で複数のモデルを連鎖させています。統合された出力の未来はエキサイティングですが、今すぐにこのように構築することができます。
Gemini Omni is live — but the API is still weeks away
Flash は、Gemini アプリまたは YouTube ショート内の 10 秒のクリップに最適です。長いビデオ、広告ワークフロー、複数のショットにわたるキャラクターの一貫性、またはプログラムによる生成の場合、VO3 AI 上の Vovoo は、現在マルチモデル ワークフロー (Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro) をステップごとに自動的に選択して調整します。 Gemini Omni API が出荷されると、同じエージェントに加わります。
Frequently Asked Questions
ジェミニオムニとは何ですか?+
Gemini Omni は、2026 年 5 月 19 日の Google I/O 2026 で発表された、Google の統合マルチモーダル モデルです。Gemini Omni は、テキスト、画像、音声、ビデオを 1 つのプロンプトで受け入れ、それらすべてにわたって 1 つの出力 (主にビデオ、さらに編集された写真とカスタム デジタル アバター) を生成します。 CEO のサンダー・ピチャイ氏のポジショニングは、「あらゆるインプットからあらゆるものを生み出す」です。 Veo 3.1 (ビデオ) + Imagen (画像) + Lyria (オーディオ) をチェーンする代わりに、Omni は 1 つの Gemini ファミリ モデル内でそれらを処理します。
Gemini Omni は現在利用可能ですか?+
はい、部分的には。ファミリーの最初のモデルである Gemini Omni Flash は、2026 年 5 月 19 日に Gemini アプリと Google の Flow クリエイティブ スタジオを介して AI Plus / Pro / Ultra の加入者に展開が開始され、YouTube Shorts と YouTube Create では無料で利用できます。 API アクセスは「今後数週間以内」に提供されると約束されています。ハイエンドの Gemini Omni Pro が予告されていますが、リリース日はありません。
Gemini Omni ビデオの長さはどれくらいですか?+
Gemini Omni Flash は、クリップあたり 10 秒に制限されています。 Googleによれば、これは(コンピューティング需要が高い間に早期アクセスを拡大するための)展開上の決定であり、モデルの技術的な制限ではないという。 Omni Pro 以降の Flash アップデートでは、より長い形式の生成が期待されます。
Gemini Omni は Veo 3.1 や Sora 2 とどう違うのですか?+
Veo 3.1 と Sora 2 は、オーディオも生成するビデオ優先モデルです。 Gemini Omni は入力と出力にわたってマルチモーダルです。1 つのプロンプトでテキスト + 画像 + オーディオ + ビデオを受け取り、同じモデルでビデオ、編集された写真、またはアバターを返すことができます。また、Gemini のロング コンテキスト ウィンドウも継承しているため、ショット間でのキャラクター、衣装、小道具の一貫性は、ボルトオンではなく組み込まれています。 Google はまた、生成ビデオをスタンドアロンの Veo ラインからコアの Gemini システムに移行しており、Omni が新しい重心となります。
Gemini Omni でまだできないことは何ですか?+
Googleは発売時に意図的に、音声から画像を生成する、ビデオから音声を生成する、既存のビデオの音声/音声トラックを編集するという3つの機能を保留した。これらは長期ビジョンとして策定されていますが、安全性の検討中は一時停止されています。また、Gemini Omni は現実の人物を描写するのではなく、代わりにカスタムのデジタル アバターを使用します。これには、ユーザーが一連の数字を話す自分自身を録音するオンボーディング フローが必要です。すべての Omni 出力には、Google の SynthID ウォーターマークが含まれています。
マルチモデル AI ワークフローを今日から使用するにはどうすればよいですか?+
VO3 AI 内の AI ビデオ エージェントである Vovoo は、すでに複数の最先端モデル (Veo 3.1、Sora 2、Kling 3.0、Seedance、Hailuo、Hunyuan、Nano Banana Pro) を 1 つのチャットで調整しています。各ステップ (テキストからビデオへ、画像からビデオへ、広告ワークフロー、ストーリーボード、ストーリーからビデオへ) に適切なモデルが選択されます。 Gemini Omni Flash が 10 秒のクリップにゲートされており、API が公開されるのはまだ数週間先ですが、現時点では役に立ちます。
VO3 AI は Gemini Omni を統合しますか?+
はい。 VO3 AI は、パブリック API が利用可能になるとすぐに新しい Google モデルを統合します。Veo 3、Veo 3.1、Veo 3.1 Lite、および Nano Banana Pro はすでに公開されています。今後数週間以内に Gemini Omni API が出荷されると、同じ Vovoo チャット エージェント内で他のモデルと並んで利用できるようになります。
