AI動画の表現力を解放する「構造化プロンプト」
「AI動画、もっとクオリティを上げたいな…」なんて感じていませんか? 私も同じでした。でも先日、XであるクリエイターがGoogle Veoを使って作った動画を見て衝撃を受けたんです!映像の美しさはもちろん、公開されていたプロンプトの緻密さがまるでプロの設計図。調べてみると、この手法はVeoに限らず、広く動画生成AIの世界で応用できる普遍的なテクニックだと分かりました。この記事では私なりの解析でこのプロ級の技を徹底解説します。このテクニックで、あなたの動画もきっと変わりますよ!
この記事はnoteの有料記事にしていますので続きはnoteにて御覧ください。

はじめに
近年、Google Veoをはじめとする動画生成AIの進化には目覚ましいものがあります。しかし、そのポテンシャルを最大限に引き出すには、AIにこちらの意図を正確かつ詳細に伝える「プロンプト」の技術が不可欠です。
トップクリエイターたちの間では、驚異的なクオリティのAI動画を生み出すための先進的なプロンプト設計が確立されつつあります。それは単なるキーワードの羅列ではありません。まるで映画監督が絵コンテを描き、美術監督がセットをデザインし、音響監督がサウンドスケープを構築するかのように、動画のあらゆる要素を緻密に、かつ構造的に指定する手法です。
本記事では、この先進的なプロンプト設計を「構造化プロンプト」と呼び、特にJSONやYAMLといった形式を活用したスタイルを徹底的に分析します。ここで解説する原則は、Google Veoはもちろん、他の高度な動画生成AIにも応用可能なものです。初心者でも高解像度かつ高度なコントロールを可能にするための手引きとして、分かりやすく解説していきます。
「構造化プロンプト」の構造的特徴
このプロンプト設計における最大の特徴は、JSON(JavaScript Object Notation)やYAML(YAML Ain’t Markup Language)といった形式を採用し、極めて構造的に記述されている点です。これは、AIがテキストを単語の羅列としてではなく、階層化された具体的な指示として理解することを促すための設計と考えられます。各セクションが独立して定義されているため、AIはそれぞれの要素を詳細に、かつ相互に関連付けながら解釈しやすくなるのです。
主要な構成要素は以下の通りです。
- shot: 撮影に関する全体的な指示
- subject: 被写体に関する詳細
- scene: シーンの場所と環境
- visual_details: 視覚的なアクションと小道具
- cinematography: 撮影技術と映像のトーン
- audio: 音響に関する詳細
- color_palette: 色彩設計
- dialogue: セリフに関する詳細

これらの基本構造に加え、特定のニーズに応じて concept(コンセプト全体)、additional_character(追加キャラクター)、visual_rules(視覚的な禁止事項)、fx_cue(特殊効果のトリガー)、lut(ルックアップテーブル)、mastering(音声マスタリング)、style(レンダリングスタイル)、duration(動画の長さ)、action_sequence(複数キャラクターの連続アクション)、positive_prompt(全体的なポジティブプロンプト)、voice_design(声のデザイン)、visual_instruction(視覚的な指示) など、さらに細分化されたキーが追加されることもあります。

各セクションの詳細な解説と活用法
1. shot(ショット)
このセクションは、カメラが「何を」「どのように」捉えるか、その基本的な撮影設定を指示します。プロの映像制作におけるカメラワークの指示に相当します。

- composition(構図):
- ショットの種類: “Medium wide pan”、”Close-up”、”Cinematic wide shot”、”Top-down aerial shot”などを指定します。
- レンズ: “85mm lens”、”18mm wide-angle lens”など、具体的な焦点距離を指定することで、画角や被写界深度(背景のボケ具合)をコントロールします。
- 撮影機材: “shot on RED V-Raptor”など、プロフェッショナルなカメラ機材を模倣させ、AIに特定の映像ルックをシミュレートさせます。
- 被写界深度: “shallow depth of field”(浅い被写界深度) や “deep focus”(深い被写界深度) を指定し、背景のボケ感や全体の鮮明度を調整させます。
- camera_motion(カメラの動き):
- “slow pan left”、”smooth Steadicam walk-along”、”slow dolly-in”など、具体的で複雑なカメラワークを指定し、動画にプロフェッショナルな動きと躍動感を生み出します。
- frame_rate(フレームレート):
- “24fps”(映画的)、”30fps”(Vlog風)、”60fps”(滑らかなアクション)など、映像のテンポやリアリティを制御します。
- film_grain(フィルムグレイン):
- “natural Kodak film grain”、”clean digital”など、映像の質感を指定し、ノスタルジーやリアリズムを表現します。

2. subject(被写体)
動画の主役となる人物やモノの細部を定義します。
- description(描写): 年齢、性別、民族、体型、髪型、肌の質感、顔の特徴などを詳細に記述します。
- wardrobe(衣装): 素材、色、デザイン、アクセサリー、メイクまで徹底的に指定します。

3. scene(シーン)
動画の舞台となる場所と環境を設定します。
- location(場所): 「クラシックな1950年代スタイルアメリカンダイナー」など、具体的な場所の種類を指定します。
- time_of_day(時間帯): 「twilight(夕暮れ時)」、「golden hour(ゴールデンアワー)」など、光の質に影響する時間帯を指定します。
- environment(環境): 「輝くネオンサインのピンクと青のちらつき」など、その場所の雰囲気、天気、背景要素を描写します。

4. visual_details(視覚的詳細)
被写体や小道具の具体的な動きや状態を指示します。
- action(アクション): 「女性はバーに座ってミルクシェイクをすする」など、登場人物の動作、表情を詳細に描写します。
- props(小道具): 「チェリー入りのミルクシェイク」など、登場する小道具の種類、状態、配置を具体的に指定します。

5. cinematography(撮影技術)
映像全体の美的感覚と雰囲気を決定づける要素です。
- lighting(照明): 「温かい天井の照明と冷たいネオンの反射が混ざり合う」など、光の種類、方向、色、質を細かく指示します。
- tone(トーン): 「nostalgic, romantic, intimate」など、動画全体に流れる感情や雰囲気を単語で明確に表現します。
- notes(特記事項): 「STRICTLY NO on-screen subtitles」のように、AIが特に注意すべき点や、避けるべき要素を明示します。

6. audio(オーディオ)
動画の音響空間を構築します。
- ambient(環境音): 「穏やかなダイナーのざわめき」など、シーンの背景に流れる音を詳細に記述します。
- music(音楽): 「slow jazz ballad」など、音楽のジャンル、テンポ、楽器、役割を指定します。
- dialogue/voice(会話/声): 声のトーン、感情、言語、話速など、声の演技に関する極めて詳細な指示が含まれる場合があります。
- sound_design/effects(効果音): 特定の視覚アクションと同期する効果音を指定します。

7. color_palette(カラーパレット)
動画全体の色彩設計を指示します。「Technicolor-inspired warmth」など、メインとなる色、コントラスト、質感を指定し、一貫した視覚的ムードを適用します。

8. dialogue(セリフ)
動画における会話コンテンツを定義します。キャラクター名とセリフを指定し、多くの場合**”subtitles”: false**が明示されます。これは、画面上にテキストオーバーレイを表示させないという、クリーンな映像美を追求するための重要な指示です。

続きはnoteの有料記事にて御覧ください。