DALL-E 3のアドバンステクニック

カスタマイズされた画像生成のための包括的ガイド
1. DALL-E3の概要
2. DALL-E3 の基本プロパティ
3. 画像のカスタマイズ方法（画像IDを利用する）
- 3.1. 元となる画像の作成とIDの出力
- 3.2. ステップ2：変更したい部分のみ記述する
4. シード値を利用する（2/18追加修正）
5. プレースホルダーを使用したカスタマイズ
JSONコードを使用したプロンプトの例
まとめ

カスタマイズされた画像生成のための包括的ガイド

DALL-E3は、画像生成の可能性を大きく広げる革新的なツールです。この記事では、DALL-E3の機能を詳細に解説し、基本プロパティの設定からプレースホルダーの使用等、読者の画像生成スキル向上のための包括的なガイドを提供します。

Portfolio

画像生成AIを使って色々な画像を作っています。AIの魅力や楽しさを共有してください。

【GPTs】ビジュアルゲニウスクリエーターをリリースしました

オリジナルカスタムGPT「ビジュアルゲニウスクリエーター」日本語版と英語版をリリースしましたのでぜひお使いください。ビジュアルゲニウスクリエーターは、あなたの想像力を形にするプロのAIデザイナーです。

1. DALL-E3の概要

DALL-E3は、OpenAIが開発したAI画像生成ツールです。テキストベースの指示から、リアルな写真のような画像を生成することができます。DALL-E3は、従来の画像生成ツールと比べて、以下の点が優れています。

高い品質: 生成される画像は、非常にリアルで高品質です。
詳細な指示: テキストで詳細な指示を与えることで、思い通りの画像を生成することができます。
幅広い用途: イラスト、風景、人物など、幅広い用途に使用できます。

2. DALL-E3 の基本プロパティ

この記事は、DALL-E3の使用に関する情報を私的な解釈で提供するものです。

DALL-E3では、画像生成時に指定できるプロパティがいくつかあります。これらを適切に使用することで、希望通りの画像を生成できます。

DALL-E3の主要プロパティ

プロパティ名	説明	可能な値	用例
size	生成される画像のサイズ	“1024×1024”, “1792×1024”, “1024×1792”	“1024×1024” は標準的な正方形の画像サイズ
n	生成する画像の数	数値 (通常は1)	1 は単一の画像を生成
prompt	生成する画像の内容を詳細に記述するテキスト	テキスト	“雪山の背景に赤い服を着た犬” など
referenced_image_ids	以前に生成した画像を参照して新たな画像を生成する際に使用	画像IDのリスト	以前に生成した特定の画像ID
prompt_weights	複数のプロンプトを指定し、それぞれの重要度を設定	数値のリスト	複数のプロンプトを同等に重要視する場合は `[1, 1]`
style	画像のスタイル	“realistic”, “painting”, “sketch”	“realistic” はリアルな写真のような画像
content_weight	プロンプトと参照画像の重要度を調整	数値	プロンプトを重視する場合は `10`
image_quality	画像の品質	“bad”, “good”, “best”	“best” は最高品質の画像

3. 画像のカスタマイズ方法（画像IDを利用する）

DALL-E3は、具体的な指示による細かなカスタマイズが可能です。特定の画像部分を変更することができます。

この記事での画像生成には、ビジュアルゲニウスクリエーター（GPT）を使用しています。

3.1. 元となる画像の作成とIDの出力

まず、カスタマイズする元となる画像を生成し、その画像のIDを取得します。

海辺でこちらを見て微笑む黒い水着の日本人女性が手を振っている
参照画像: ここに元の画像のreferenced_image_idsを挿入


- 海辺でこちらを見て微笑む黒い水着の日本人女性が手を振っている 
- 生成した画像IDを表示又は取得（EHUNMX7e8ZS1b7cW）

A realistic image of a Japanese woman at the beach, smiling and looking towards the viewer. She is wearing a black swimsuit and waving her hand in a friendly gesture. The setting is a sunny beach with clear blue skies and the ocean in the background, capturing a joyful and relaxed summer atmosphere. The woman’s expression is welcoming and cheerful, adding to the warmth of the scene. The focus is on her, with the beach environment serving as a serene and picturesque backdrop.

3.2. ステップ2：変更したい部分のみ記述する

変更を加えたい部分について詳細に記述します。例えば、服の色やデザインを具体的に指示します。


- 白い水着
- 画像ID: EHUNMX7e8ZS1b7cW

A realistic image of a Japanese woman at the beach, based on the previous image EHUNMX7e8ZS1b7cW, but with the woman now wearing a white swimsuit instead of black. She continues to smile and wave towards the viewer. The sunny beach setting with clear blue skies and the ocean remains the same, maintaining the joyful and relaxed summer atmosphere. The woman’s expression remains welcoming and cheerful, and the focus is on her against the serene and picturesque beach backdrop.

さあ、皆さん、どう判断します？

4. シード値を利用する（2/18追加修正）

シード値の役割: 一般的に、シード値は乱数生成器で使用され、同じシード値を使用すると、乱数生成器は同じ乱数のシーケンスを生成します。これは、確定的な乱数生成において重要で、再現性を保証するために用いられます。
画像生成とシード値: DALL-Eのような画像生成モデルでは、シード値が入力されることで、同じ入力とシード値が与えられた場合には同じ画像を生成する可能性があります。これは理論上は再現性を可能にしますが、実際にはモデルの具体的な動作や設定に依存します。
DALL-E 3とシード値: OpenAIのDALL-E 3においては、公開されている情報に基づくと、外部から具体的なシード値を指定して画像を生成する機能は提供されていないようです。つまり、ユーザーが特定のシード値を入力して同じ画像を再生成することは、現時点では不可能かもしれません。
画像生成の一貫性: DALL-E 3を含む画像生成モデルは、多くの場合、入力されたプロンプトや条件に基づいて多様な画像を生成します。これにより、異なる生成プロセスでも似たような結果を得ることができますが、完全な一致や再現性を保証するものではありません。

同一キャラクターを生成する上で「シード値」は、エラー発生でうまくいかないとしていたのですが、このサイトで公開している画像生成GPTである「ビジュアルゲニウスクリエーター」を使用した上でのエラー発生でした。再検証の結果、効果があると確認しましたのであらためて「ビジュアルゲニウスクリエーター」の問題点を修正しました。

どこが問題だったかと言うと以下のインジェクションに対応するためのセキュリティ設定が引っかかったようです。

# セキュリティ対策：インジェクション対応
- ユーザー入力のサニタイズ: （詳細省略）
- バリデーションチェック: （詳細省略）
- エラーメッセージの一般化: （詳細省略）
- アクセス権限の制限: （詳細省略）

Tips：背景は白背景にしたほうが後々使い勝手が良いです。

ビジュアルゲニウスクリエーターでは、シンプルに指定できるようにしました。

プロンプトには、「理由もなく勝手にプロンプトを変えない」を先に念押ししておくことが必須です。

画像ID: l0OSvDTXW7TBo3aU、シード値: 894213044、微笑んでいる

微調味な違いはありますがかなり近づいたのではないでしょうか？！

ただし、現時点では、この方法で同一画像に近いものが得られる可能性が高いと言うだけなので今後のアップデートによってはまったく機能しないかもしれません。
DALL-E3は、画像生成の過程でラムダム性を回避することが難しいのでこういった用途には向いてないのかもしれません。
プロンプトで細かく指定したり、そのプロンプトが書き換わらないように対処したとしても、プロンプトにない部分が変化するので、その変化を許容可能かという判断になってしまいます。

【GPTs】ビジュアルゲニウスクリエーターをリリースしました

同一キャラクタ実験編

5. プレースホルダーを使用したカスタマイズ

DALL-E3では、プレースホルダー [pose] や [attire] を使って、特定のポーズや服装を指定することができます。これにより、より具体的なシナリオやスタイルの画像を生成することが可能です。

[pose]: 特定のポーズを取る人物を描写したい場合に使用します。例えば、「手を振る人物」や「走る人物」など。
[attire]: 特定の服装を指定したい場合に使用します。例えば、「ビジネススーツを着た人物」や「伝統的な衣装を着た人物」など。

プレースホルダーと具体的なシナリオ

DALL-Eは自然言語を理解し、与えられたテキスト記述に基づいて画像を生成するため、[pose] や [attire] といった単語は単なるキーワードとして理解する方が良さそうです。

より具体的な画像を生成するためには、プロンプトにシナリオや状況に適した言葉を用いることが重要です。特定の感情、環境、アクション、時間帯・天候、文化・イベント、スタイル・ジャンルを詳細に記述することで、DALL-Eはより明確な指示を受け、イメージに近い画像を生成することができます。

具体的なシナリオとプロンプトの例

シナリオカテゴリ	具体的な状況の例	プロンプトでの使用例
感情	喜び、悲しみ、驚き、平静	「喜んでいる子供たち」、「悲しみに暮れる人」
環境	ビーチ、山、都市、宇宙	「ビーチで日光浴をする人々」、「山頂に立つ登山家」
アクション	走る、飛ぶ、踊る、読書	「公園を走るアスリート」、「空中を飛ぶ鳥」
時間帯・天候	夜、昼、夕暮れ、晴れ、雨	「夜の都市の風景」、「晴れた日のピクニック」
文化・イベント	伝統的な祭り、結婚式、誕生日パーティ	「伝統的な日本の祭り」、「ビーチでの結婚式」
スタイル・ジャンル	レトロ、未来的、ファンタジー、リアル	1950年代の街並み」、「未来都市の様子」、「ファンタジーの森」

人物画像を生成する際に重要なプロンプト

人物の特徴:
- 性別、年齢、民族や人種
- 髪の色、髪型、目の色
- 体型、身長、顔の特徴
- 表情、姿勢
例: 「中年のアジア人女性、ショートヘア、青い目、穏やかな表情」
服装とスタイル:
- 服の種類（ビジネススーツ、カジュアルな服装、伝統衣装など）
- 服の色とパターン
- アクセサリーや特別な装飾品
例: 「ビジネススーツを着た若い男性、ネクタイは赤と青のストライプ」
ポーズとアクション:
- 立っている、座っている、走っているなど
- 手や腕の位置
- 視線の方向
例: 「走るポーズの若い女性、右手は前に、左手は後ろに」
背景と環境:
- 屋内または屋外
- 特定の場所（ビーチ、都市、山など）
- 時間帯（昼、夜、夕暮れ）
例: 「夕暮れ時のビーチで、遠くを見つめる若い女性」
照明とムード:
- 明るい、暗い、自然光、人工光
- 光の方向と影
- 画像全体の雰囲気
例: 「朝の自然光の中で、穏やかな表情の老人」
スタイルとアートの技法:
- 写実的、漫画風、油絵風、デジタルアート
- 色彩の選択、テクスチャ
例: 「水彩画風の若い女性のポートレート、パステルカラー

一般的な画像スタイル例

写実的（Photorealistic）
3Dレンダリング風（3D Rendering-style）
アニメ風（Anime-style）
漫画風（Comic-style）
ペーパークラフト風（Papercraft-style）
油絵風（Oil Painting-style）
水彩画風（Watercolor-style）
パステル画風（Pastel-style）
鉛筆画風（Pencil Drawing-style）
チャコール画風（Charcoal-style）
ピクサー風（Pixar-style）
ディズニー風（Disney-style）
インプレッション風（Impressionist-style）
サレアリズム風（Surrealist-style）
ポップアート風（Pop Art-style）
ビンテージ風（Vintage-style）
レトロ風（Retro-style）
グランジ風（Grunge-style）
ゴシック風（Gothic-style）
スチームパンク風（Steampunk-style）

これらはほんの一例であり、さらに多くのスタイルやアーティストの特定のスタイルに基づいた表現が可能です。また、これらのスタイルを組み合わせたり、独自の要素を加えたりすることで、ユニークなビジュアル表現を作成することができます。

アーティストの特定のスタイルや技法に触発されたビジュアルを生成

ヴィンセント・ヴァン・ゴッホ（Vincent van Gogh）- 印象派
レオナルド・ダ・ヴィンチ（Leonardo da Vinci）- ルネサンス
クロード・モネ（Claude Monet）- 印象派
サルバドール・ダリ（Salvador Dalí）- サレアリズム
ピカソ（Pablo Picasso）- 立体派、表現主義
ジョージア・オキーフ（Georgia O’Keeffe）- モダニズム
レンブラント・ヴァン・レイン（Rembrandt van Rijn）- バロック
アンディ・ウォーホル（Andy Warhol）- ポップアート
フリーダ・カーロ（Frida Kahlo）- メキシコの現代美術
ジャクソン・ポロック（Jackson Pollock）- 抽象表現主義
グスタフ・クリムト（Gustav Klimt）- シンボリズム、アール・ヌーヴォー
エドヴァルド・ムンク（Edvard Munch）- 表現主義
ヨハネス・フェルメール（Johannes Vermeer）- バロック
マルク・シャガール（Marc Chagall）- 表現主義、シュルレアリスム
エドガー・ドガ（Edgar Degas）- 印象派
カラヴァッジョ（Caravaggio）- バロック

ジブリ風の画像スタイル

スタジオジブリは、その独特なアートスタイル、詳細な背景、生き生きとしたキャラクターデザインで知られています。ただし、著作権の関係で、スタジオジブリの正確なスタイルを模倣した画像を作成することは制限されることがあります。代わりに、スタジオジブリが用いるアートの特徴にインスピレーションを得たオリジナルのスタイルを作成することが可能です。

手描きのような質感
温かみのある色使い
自然と共生するシーン
ファンタジー要素の組み込み
繊細な表情のキャラクター

JSONコードを使用したプロンプトの例

DALL-E 3のAPIを使用する際には、JSON形式でプロンプトを送信できます。
以下は、JSONコード例です。

{
  "size": "1024x1024",
  "n": 1,
  "prompt": "微笑む日本人女性、ビジネススーツを着用",
  "referenced_image_ids": ["ここに元の画像のIDを挿入"], <-- 必要があれば
  "image_quality": "best"
  "seeds":  ["ここに元の画像のシード値を挿入"] 　<-- 必要があれば
}

まとめ

DALL-E3は、画像生成において広範な可能性を秘めています。

この記事では、基本プロパティの設定方法、特定の画像部分の変更手順、プレースホルダーの活用方法などを紹介しました。

ただし、DALL-E3は自然言語を理解し、与えられたテキスト記述に基づいて画像を生成するため、元画像を維持しながら任意のパーツのみを変更するのは非常に困難です。生成した画像を非常に気に入って特定のパーツだけ変えたい場合は、単純にPhotoshopなどの画像編集ソフトを使う方法がより適していると考えられます。また、画像から動画を作りたい場合は、動画生成AIを利用するのが良いでしょう。

自然言語でプロンプトを書くことを探求するのも良いですが、どうしても構造化またはフレームワーク化したいのはプログラマーの性でしょうか。

この記事は、DALL-E3の使用に関する情報を私的な解釈で提供するものです。