- 画像・動画生成AIを完全攻略!再現性とコントロール性を劇的に高める最強プロンプト術
- はじめに
- 1. なぜプロンプトが重要なのか? AIとの対話の基礎
- 2. ステップバイステップ!効果的なプロンプト作成術
- 【ステップ1】コアとなる「主題 (Subject)」を決める
- 【ステップ2】主題の「詳細 (Details)」を描写する
- 【ステップ3】「アクション (Action) / ポーズ (Pose)」を指定する
- 【ステップ4】「背景 (Setting) / 環境 (Environment)」を設定する
- 【ステップ5】「スタイル (Style) / 雰囲気 (Mood)」を定義する
- 【ステップ6】「構図 (Composition) / カメラ (Camera)」をコントロールする
- 【ステップ7】「パラメータ (Parameters) / 修飾子 (Modifiers)」を活用する (AIモデル依存)
- 【組み合わせ例】
- 3. 再現性を高めるための重要ポイント
- 4. 動画プロンプト専用テクニック
- 5. より構造的に!高度なプロンプト記述スタイル
- まとめ
- 更新履歴
画像・動画生成AIを完全攻略!再現性とコントロール性を劇的に高める最強プロンプト術
MidjourneyやStable Diffusion、DALL-E 3といった画像生成AIや、Kling AI・Runway Gen-4・Veo 3・Pikaといった動画生成AIで「思い通りの結果が出ない」「毎回結果が違う」という悩みを抱えていませんか?
この記事では、最新の画像・動画生成AIを最大限に活用するための「プロンプト作成術」に焦点を当てます。主題、詳細、スタイル指定といった基本要素の組み合わせ方から、再現性の鍵となる「Seed値」や不要要素を除く「ネガティブプロンプト」の効果的な使い方、さらに応用として「YAML」や「S.P.A.C.E.」を用いた構造的な記述法まで、実践的なノウハウを具体例と共にまとめました。ぜひ参考にしてみてください。

はじめに
近年、Midjourney、Stable Diffusion、DALL-E 3といった画像生成AIや、Kling AI・Runway Gen-4・Veo 3・Pikaなどの動画生成AIの進化は目覚ましく、誰もが驚くような高品質なビジュアルコンテンツを手軽に作成できるようになりました。しかし、「思い通りの画像や動画がなかなか作れない」「同じような指示でも毎回結果が違う」といった悩みを抱えている方も多いのではないでしょうか?

その鍵を握るのが「プロンプト」です。プロンプトとは、AIに対してどのような画像や動画を生成してほしいかを伝える指示文のこと。このプロンプトの質が、生成されるコンテンツのクオリティ、詳細度、そして再現性を大きく左右します。
この記事では、最新の画像・動画生成AIを最大限に活用し、あなたの創造性を正確に反映させるための「最強のプロンプト作成術」を、初心者の方にもわかりやすく、ステップバイステップで徹底解説します。基本の考え方から、より高度な制御を可能にするYAML形式やS.P.A.C.E.モデルといった記述スタイルまで、具体例を豊富に交えながらご紹介します。この記事を読めば、あなたもAIを自在に操り、再現性の高いハイクオリティな作品を生み出せるようになるはずです。
1. なぜプロンプトが重要なのか? AIとの対話の基礎
AIは人間のように文脈や曖昧な表現を完璧に理解するわけではありません。AIにとってプロンプトは、生成するべき世界の設計図そのものです。
曖昧なプロンプトの問題点:
「猫の絵」→ どんな猫?どんなスタイル?どんな背景? AIはこれらの情報を”推測”して生成するため、意図しない結果になりがちで、結果のばらつきが大きく再現性が低くなります。
詳細なプロンプトの利点:
「日当たりの良い窓辺で丸くなって眠る、ふわふわしたオレンジ色のペルシャ猫、写真のようにリアルなスタイル」→ AIが具体的なイメージを描きやすくなり、意図に近い結果が得られます。要素を細かく指定することで、再現性も向上します。
つまり、「より詳細に、より具体的に」記述することが、AIを効果的にコントロールするための第一歩なのです。

2. ステップバイステップ!効果的なプロンプト作成術
では、具体的にどのようにプロンプトを組み立てていけば良いのでしょうか?以下のステップで要素を分解し、肉付けしていく方法が有効です。
【ステップ1】コアとなる「主題 (Subject)」を決める
まず、画像や動画の中心となる対象物を明確にします。シンプルで具体的な名詞を使うのが基本です。
- 例:
a cat(猫),a futuristic city(未来都市),a samurai warrior(侍)

【ステップ2】主題の「詳細 (Details)」を描写する
主題がどのようなものか、形容詞や具体的な特徴を加えていきます。色、形、素材、質感、表情、服装などを描写します。
a fluffy orange Persian cat(ふわふわしたオレンジ色のペルシャ猫)a towering futuristic city with neon lights(ネオンが輝くそびえ立つ未来都市)a samurai warrior wearing red armor, with a determined expression(赤い鎧を着て、決意に満ちた表情の侍)

【ステップ3】「アクション (Action) / ポーズ (Pose)」を指定する
主題が何をしているのか、どのような状態なのかを記述します。動画生成においては、「被写体がカメラに対してどう動いているか」を意識した記述が特に重要です。
sleeping peacefully(安らかに眠っている)walking down a busy street(賑やかな通りを歩いている)drawing a katana sword(刀を抜こうとしている)
動画向け(被写体とカメラの関係性):
running towards the camera(カメラに向かって走ってくる)turning around slowly to face the camera(ゆっくり振り返りカメラを見る)walking away from the camera into the distance(カメラに背を向け遠ざかっていく)jumping and landing in front of the camera(カメラ前でジャンプして着地する)
カメラ自体の動き(パン・ズーム・トラッキング等)はステップ6で指定します。

【ステップ4】「背景 (Setting) / 環境 (Environment)」を設定する
主題が存在する場所や状況を具体的に描写します。時間帯(朝・昼・夜・夕暮れ)、天気(晴れ・雨・雪・霧)、場所(森・海・室内・宇宙)などを加えます。
on a sunlit windowsill(日当たりの良い窓辺で)at night during a heavy rainstorm(大雨の夜に)in a vast, starlit desert(星が輝く広大な砂漠に)

【ステップ5】「スタイル (Style) / 雰囲気 (Mood)」を定義する
どのような見た目・質感・雰囲気で生成したいかを指定します。特定のアーティスト、映画、芸術運動などを参照することも効果的です。
photorealistic(写真のようにリアル)cinematic lighting, moody atmosphere(映画的な照明、ムーディーな雰囲気)watercolor painting style(水彩画スタイル)anime style, vibrant colors(アニメスタイル、鮮やかな色彩)in the style of Studio Ghibli(スタジオジブリ風)

【ステップ6】「構図 (Composition) / カメラ (Camera)」をコントロールする
どのようなアングル・距離感で撮影するか、そしてカメラ自体がどう動くかを指定します。
【フレーミング・アングル】(静的な配置)
close-up portrait shot(クローズアップポートレート)wide-angle establishing shot(広角のエスタブリッシュショット)low angle, looking up(ローアングル、見上げる構図)eye-level medium shot(アイレベルミディアムショット)
【カメラワーク】(動的な動き/主に動画向け)
| 指定語 | 効果 |
|---|---|
static camera | カメラ固定・揺れなし |
slow zoom in | ゆっくりズームイン |
panning left to right | 左から右へパン |
tracking shot | 被写体を追うトラッキング |
drone aerial view | ドローン俯瞰 |
handheld camera | 手持ちカメラの自然な揺れ |
dolly zoom effect | ドリーズーム(被写体固定・背景変化) |

【ステップ7】「パラメータ (Parameters) / 修飾子 (Modifiers)」を活用する (AIモデル依存)
使用するAIモデルに応じて、アスペクト比、品質、スタイルの強度などを数値で指定できます。
- Midjourney例:
--ar 16:9 --v 6 --q 2 - 画質向上修飾子:
8K resolution, ultra-detailed, sharp focus, high quality - ネガティブな要素除外:
--no blurry, distorted, watermark

【組み合わせ例】
上記のステップを組み合わせると、次のような詳細なプロンプトが作成できます。
A fluffy orange Persian cat (ステップ1-2),
sleeping peacefully (ステップ3),
on a sunlit windowsill, surrounded by blooming flowers (ステップ4),
photorealistic style, warm morning light, bokeh background (ステップ5),
close-up portrait shot (ステップ6),
–ar 4:3 –v 6 (ステップ7)
- 悪い例:
cat - 良い例 (画像向け):
A fluffy orange Persian cat sleeping peacefully on a sunlit windowsill, soft morning light, close-up shot, photorealistic style, high detail, --ar 16:9 --seed 12345 --q 2 --s 750- (ふわふわしたオレンジ色のペルシャ猫が日当たりの良い窓辺で安らかに眠っている、柔らかな朝の光、クローズアップショット、写真のようにリアルなスタイル、高精細、アスペクト比16:9、Seed値12345、クオリティ2、スタイル強度750)
- 良い例 (動画向け):
A samurai warrior wearing red armor slowly draws his katana sword in a misty bamboo forest at dawn, dramatic low angle shot, cinematic lighting creating long shadows, camera slowly pushes in towards the warrior's determined face, hyperrealistic, 8k, --ar 16:9 --seed 67890- (赤い鎧を着た侍が、夜明けの霧深い竹林でゆっくりと刀を抜く。ドラマチックなローアングルショット、長い影を作る映画的な照明、カメラは侍の決意に満ちた顔にゆっくりと寄っていく。超リアル、8K、アスペクト比16:9、Seed値67890)

3. 再現性を高めるための重要ポイント
Seed値の活用
多くのAIツールでは「Seed値(シード値)」を指定できます。Seed値とは、画像生成の「乱数の種」のようなもので、同じプロンプト+同じSeed値であれば、ほぼ同じ結果を再現できます。
- 気に入った画像が生成できたら、そのSeed値を必ずメモしておく
- バリエーションを試したい時は、Seed値を変えながら同じプロンプトを使う
- Midjourneyでは
--seed 数字、Stable Diffusionでは設定画面からSeed値を確認・固定できます
ネガティブプロンプトの活用
「何を生成してほしいか」だけでなく、「何を含めないでほしいか」を指定できます。
- 一般的な除外例:
blurry, distorted, low quality, watermark, signature, text - 人物生成時の除外:
extra limbs, deformed fingers, unrealistic skin - Stable Diffusionではネガティブプロンプト専用の入力欄があります
プロンプトのイテレーション(試行錯誤)管理
- 変更は1〜2要素ずつに絞る(一度に大きく変えると何が影響したか分からなくなる)
- うまくいったプロンプトはメモ帳やスプレッドシートに記録する
- 「このツールではこのキーワードが効く」という個人データベースを育てていく

4. 動画プロンプト専用テクニック
画像プロンプトの基本は動画でも通用しますが、動画生成AIでは以下の要素を追加することで完成度が大きく変わります。
カメラワーク・モーションの明示
動画では「カメラがどう動くか」を明示することが特に重要です。指定しないと、ツールが自動でカメラを動かすため、意図しない動きになることがあります。
A young woman walking through a cherry blossom park,
tracking shot following her from behind,
slow motion, soft bokeh,
cinematic, golden hour lighting
クリップ長・テンポの指定
ツールによって指定方法は異なりますが、「duration: 5 seconds」「short clip」のように長さの意図を伝えると意図した尺に近づきます。Kling AIではUIで秒数を直接指定できます。
動きの質感を指定する
| 指定語 | 効果 |
|---|---|
slow motion | スローモーション |
time-lapse | タイムラプス(高速) |
smooth motion | なめらかな動き |
cinematic 24fps | 映画的な24fps |
fluid movement | 流体的な自然な動き |
2026年現在の主要動画生成AIと特徴
プロンプトの書き方はツールの特性に合わせると効果が上がります。
| ツール | 特徴 | プロンプトのコツ |
|---|---|---|
| Kling AI(3.0) | 高水準の物理シミュレーション。1クリップ最大15秒生成に対応 | 物理的な動き(水・布・煙)を含むシーンで特に効果的 |
| Runway Gen-4/4.5 | Director Modeでカメラワークを精密制御。映画品質 | カメラワーク指定語が最もよく効く。Camera panning leftなど |
| Veo 3(Google) | ネイティブ音声生成対応。映像と同時に効果音・環境音を生成 | 環境の音を意識した場面描写(rainy street with ambient city noise等)が有効 |
| Pika 2.x | 「Pikaffects」エフェクトでSNS向けの独自効果を手軽に追加 | エフェクト系の指定語(melting, exploding, morphing)が得意 |
| Luma Dream Machine | 流体・大気表現が得意。カメラワークが自然 | 自然現象(雲・波・霧)の描写プロンプトと相性が良い |
5. より構造的に!高度なプロンプト記述スタイル
基本のテクニックをマスターしたら、より複雑な作品制作に対応できる「構造的な記述スタイル」を試してみましょう。
a) YAML (YAML Ain’t Markup Language) 形式
YAML(YAML Ain’t Markup Language)は、人間にとって読み書きしやすい構造化データ形式です。プロンプトをYAML形式で書くと、各要素を整理しやすく、後から修正もしやすくなります。ツールがYAMLを直接サポートしていない場合は、これを自然言語プロンプトに変換してから使います。
YAML形式のプロンプト例:
YAML
# Image Prompt Example using YAML structure
scene:
subject:
type: "samurai warrior"
description: "wearing ornate blue armor, holding a gleaming katana"
pose: "standing defiantly"
expression: "fierce and focused"
environment:
location: "on a clifftop overlooking a stormy sea"
time_of_day: "sunset"
weather: "heavy winds, dark clouds gathering"
composition:
shot_type: "medium full shot"
camera_angle: "slightly low angle"
lighting: "dramatic backlighting from the setting sun, casting long shadows"
style:
art_style: "cinematic fantasy art"
artist_influence: "style similar to Yoshitaka Amano"
mood: "epic, dramatic, intense"
details: "highly detailed armor textures, realistic ocean waves"
parameters:
aspect_ratio: "16:9"
seed: 777
quality: 2
negative_prompt: "cartoonish, simple, flat colors, signature, watermark"
使い方: このYAMLの内容を自然言語のプロンプトに変換してAIに入力します。
Medium full shot of a samurai warrior wearing ornate blue armor, holding a gleaming katana,
standing defiantly with a fierce and focused expression.
Located on a clifftop overlooking a stormy sea at sunset with heavy winds and dark clouds gathering.
Slightly low angle, dramatic backlighting from the setting sun casting long shadows.
Cinematic fantasy art style similar to Yoshitaka Amano, epic and intense mood,
highly detailed armor textures, realistic ocean waves.
–ar 16:9 –seed 777 –q 2 –no cartoonish, simple, flat colors
YAMLで整理することで、要素の抜け漏れを防ぎ、複雑な指示を組み立てやすくなります。

b) S.P.A.C.E. モデル
S.P.A.C.E.は、プロンプトの要素を5つに分類した覚えやすいフレームワークです。
- S (Setting / Scene): 背景、場所、時代設定、環境。
- 例:
In a cyberpunk city alleyway at night, rain-slicked pavement reflecting neon signs.(夜のサイバーパンク都市の路地裏、雨に濡れた舗道がネオンサインを反射している)
- 例:
- P (Perspective / POV – Point of View): 視点、カメラアングル、ショットの種類。
- 例:
Low angle shot, looking up.(ローアングルショット、見上げる視点)
- 例:
- A (Action / Activity): 主題やキャラクターが行っている動作、活動。
- 例:
A detective investigating a clue with a magnifying glass.(探偵が虫眼鏡で手がかりを調べている)
- 例:
- C (Character / Subject): 主な被写体、キャラクターの詳細、服装、表情。
- 例:
A weary, trench-coat wearing android detective.(疲れた、トレンチコートを着たアンドロイドの探偵)
- 例:
- E (Execution / Extras / Elements / Emotion / Effect): 実行スタイル(画風、レンダリング品質)、追加要素、雰囲気、感情、エフェクト。
- 例:
Photorealistic, cinematic lighting, moody atmosphere, volumetric fog, high detail, 8K.(写真のようにリアル、映画的な照明、ムーディーな雰囲気、ボリューム感のある霧、高精細、8K)
- 例:
S.P.A.C.E.モデルを使ったプロンプト構成例:
(S) In a sun-drenched, overgrown ancient ruin deep within a jungle,
(P) eye-level medium shot,
(A) a young female adventurer with a backpack and explorer’s hat, looking amazed,
(C) discovers a glowing, floating crystal artifact hovering above a stone pedestal.
(E) Vibrant colors, mystical atmosphere, adventure game art style,
detailed foliage, god rays streaming through the canopy,
–ar 16:9 –seed 9876
S: ジャングルの奥深く、太陽が降り注ぐ草木が生い茂った古代遺跡で、
P: 目線の高さのミディアムショット、
C: バックパックと探検家の帽子を身に着けた若い女性冒険者が驚いた表情で、
A: 石の台座の上に浮かぶ、光る浮遊クリスタルのアーティファクトを発見する。
E: 鮮やかな色彩、神秘的な雰囲気、アドベンチャーゲームのアートスタイル、詳細な葉、天蓋から差し込む光の筋、 –ar 16:9 –seed 9876)

YAML形式が厳密な構造化を目指すのに対し、S.P.A.C.E.モデルは、プロンプトを作成する際の思考プロセスや要素のチェックリストとして機能します。どちらのスタイルも、より詳細でコントロールされた、再現性の高いプロンプトを作成する上で非常に有効です。
まとめ
プロンプトの書き方に「唯一の正解」はありません。同じ指示文でも、ツールのバージョンやSeed値によって結果が変わることは多いです。大切なのは、うまくいったプロンプトをメモして少しずつ自分なりのパターンを積み上げていくことです。
画像と動画では求められる要素が異なりますが、「主題→詳細→スタイル→カメラ」という組み立て順は共通して使えます。まずはシンプルな1文から始めて、要素を1つずつ加えていくのが最短の習得ルートです。
更新履歴
- 2026-04-07:動画プロンプト専用セクション追加(カメラワーク・ツール比較表)、
ツール情報を2026年版に更新(Sora終了に伴う記述修正)、まとめ文改訂 - 2025-04-21:初稿公開



![画像・動画生成AIプロンプト完全ガイド|再現性とコントロール性を高める実践テクニック【2026年版】 19 生成AIではじめる 動画制作入門 [ Norihiko ]](https://thumbnail.image.rakuten.co.jp/@0_mall/book/cabinet/8432/9784839988432_1_6.jpg?_ex=128x128)

