AIアートのマスタリング：中間の旅とプロンプトエンジニアリングへの簡潔なガイド

MidJourney AI生成アートの紹介

AIは急速に不可能性の壁を打ち破り、最近は芸術の領域に侵入し、それを完全に変革しています。もはやマスターアーティストやPhotoshopのエキスパートである必要はありません。Midjourneyのおかげで、あなたの想像の産物を実現させるためには、単純で明確なプロンプトがすべてです。

2022年にDALL-E、Midjourney、StableDiffusionなどの画期的な技術が導入されたことからすべてが始まりました。これらの革新がそれぞれGenerative AIのキャンバスに独自のタッチをもたらしましたが、特にMidjourneyは魅力的な旅を続け、注目すべき進歩を遂げています。

Midjourneyは現在、市場で最も優れた高解像度のテキストから画像へのAI生成器であり、月額10ドルから利用できます。テキストから画像の生成、メディアの編集とアップスケーリング、アートコミュニティへのアクセスなど、ユニークな機能の包括的なスイートがアーティスト、テックエンスージアスト、AI専門家にとって創造性とイノベーションの環境を提供します。

芸術界は間違いなく注目しており、アート市場のGenerative AIは40.5％のCAGRで驚異的な成長が予測されています。MidjourneyはAIを使用した最もリアルで高品質なビジュアルを制作することで無敵です。

効果的なプロンプトエンジニアリングは、単なる創造だけでなく、ベストプラクティスを含みます。プロンプトは明確で簡潔でありながら、過剰な指示をせずにAIに十分なガイダンスを提供する必要があります。また、年齢、性別、文化的背景などの変数を考慮して設計する必要があります。

MidJourneyはどのように機能するのか？

Mid-Journeyは、大規模言語モデルと拡散モデルという2つの新しい機械学習技術を活用しています。言語モデルは、ChatGPTのようなAIチャットボットと同様、Mid-Journeyがプロンプトの意味を解釈し、ベクトルに変換するのを助けます。このベクトルは、拡散プロセスをガイドします。

Midjourneyの内部構造はほとんど明らかにされていません。それでも、Midjourneyは2つの比較的新しい機械学習技術、大規模言語モデルと拡散モデルを使用したテキストから画像の生成を行っていることは明らかです。前者はChatGPTなどのAIプラットフォームのユーザーにはおなじみかもしれませんが、後者はAIアート生成セクターにおける有望な追加要素です。全体のシステムは、訓練にCLIPデータセットを使用しており、これはOpenAIの研究ページで見つけることができます。

限られた情報ではありますが、Midjourneyの拡散モデルの広い概要を描くことは可能です。それは’Stable Diffusion’という適切な名前のオープンソースモデルです。基本的に、Stable Diffusionはテキストプロンプトをさまざまなスタイルと内容の画像に巧妙に変換するモデルです。この高度な手順は、テキスト入力と画像出力の依存関係を結ぶ生成モデルである拡散モデルによって実現されます。

拡散モデルは非平衡熱力学に影響を受けたアプローチであるノイズ除去拡散法を基盤として構築されています。この方法はデータの構造を体系的に分解し、後で復元するものです。この手法は2020年にHoらによって画像生成のために適応され、今日見られる拡散モデルの始まりとなりました。

拡散モデルのトレーニングには2つの主要なステージがあります。最初に、前方または拡散プロセスでは、入力画像にランダムノイズが段階的に追加され、完全にノイズに変形するまで行われます。このプロセスは、連続するいくつかのステップで一貫してガウスノイズを追加する固定マルコフ連鎖によって制御されます。

その後、逆または再構築フェーズでは、モデルが拡散プロセスで達成されたノイズ支配状態から元のデータを復元します。このプロセスは、学習済みのガウス遷移を持つマルコフ連鎖によって駆動されます。つまり、任意の時間における確率密度の予測は、前の時間ステップで達成された状態に完全に依存します。潜在的な’x1、…、xT’はデータと同じ次元を共有するため、拡散モデルは潜在変数モデルとして分類されます。

Mid-Journeyの費用とサブスクリプション

ChatGPTやBing Chatなどの多くのチャットボットはほぼ無制限の無料利用を提供していますが、Mid-Journeyのような画像生成器は異なります。特にグラフィックス処理ユニット（GPU）とノイズ除去プロセスのビデオメモリ使用量から必要な大量の計算能力のため、Mid-Journeyのサービスには価格が付いています。

基本プランは月額10ドルから始まり、約3.3時間のGPU時間、およそ200枚の画像生成に十分な容量を提供します。ただし、より高価なプランではリラックスモードで無制限の画像を提供しますが、より長い待ち時間が発生します。

MidJourneyのセットアップ

MidJourneyを始めるには、公式ウェブサイトでサインアップし、プランに登録し、その後Discordにリダイレクトされます。
DiscordのMid-Journeyチャンネルを見つけたら、左側の新規者グループに移動します。そこで、他のユーザーがプロンプトを作成し、Mid-Journeyの仕組みを学び、活気ある環境で交流する様子を観察することができます。
環境に慣れたら、プライベートサーバーにボットを招待して、邪魔されずに画像を作成します。ボットはプロンプトに基づいて4つのプレビュー画像を生成し、元のアイデアに最も近いものを選択して画像をさらに磨くことができます。

Midjourneyのプロンプト構造

Midjourneyチャンネル内のDiscordチャンネルで/imagineコマンドを使用すると、短いテキストの説明（プロンプト）からユニークな画像が生成されます。
異なる画像間で特定のスタイルを再現するには、テキストのプロンプトとともに画像のURLを入力するだけです。新しい一貫した出力は、選択した画像とテキストの両方の要素を組み合わせます。画像のURLは、Discordチャンネルにアップロードしてリンクを作成することができます。アップロードしたら、画像を右クリックして「リンクをコピー」を選択します。ここではhttp://link-to-your-imageとパラメータはオプションです。
これに続いて、ボットがあなたの画像を作業し、およそ1分で4つの代替案を提供します。このプロセスでは、頑強なグラフィックス処理ユニット（GPU）を使用して、各プロンプトを処理して解釈します。
/infoコマンドを使用してGPUの使用状況を追跡します。これにより、「残りの高速時間」を確認し、サブスクリプションのGPU時間を監視することができます。

画像の拡大と変更

より洗練された画像を作成するには、画像の下にある「U」ボタンを使用して選択した画像を拡大することができます。また、「V」ボタンを使用して特定の画像の調整も行えます。拡大された画像にさらなる変更を加えるには、「Make variations」、「Light Upscale Redo」、「Beta Upscale Redo」のオプションを使用します。「Web」ボタンを使用すると、別のウィンドウで画像をより大きなサイズで表示することができます。

Midjourneyでは、デフォルトの生成グリッドサイズが1024×1024（正方形）および1456×816（ワイドスクリーン）であり、2048×2048（正方形）および2720×1530（ワイドスクリーン）の解像度に画像を拡大することができます。各画像は、「U」の拡大オプションを使用してさらに高度な処理が可能です。

MidjourneyのV5.2バージョンで素晴らしいアートワークを作成する以下のプロンプトをご覧ください。

/imagine アートワークは、星の輝く空の下で読書をする子供を描いた一本の孤高の木を、フレンチ・インプレッショニズムの筆触、ペルシャのミニチュア、バウハウスのシンプリシティの色調で、クラシックな子供の童話イラストを思わせる魅力的で素朴な非対称の調和で表現され、魅惑的で民族的な雰囲気を醸し出しています： –ar 15:19 –upbeta –q 2

最初のMidjourney AIアートを作成する

基本的な設計図の作成：自分自身をアーティストと考えてください。具体的で鮮明なイメージを生み出すために、まずは簡単な説明から始めましょう。主題、雰囲気、埋め込みたい細部などをアウトラインし、コンマ、ブラケット、ハイフンなどの句読点を使って考えを構造化します。より良い結果を得るために、デザインの文脈と詳細について明確に説明してください。主題（例：ドラゴン、ビンテージカー、エイブラハム・リンカーン）、VoAGI（例：デジタルアート、鉛筆スケッチ）、環境（例：宇宙空間、水中、にぎやかな都市）、照明（例：ソフト、ネオン、バックライト）、色（例：地の色、鮮やか、静かな）、雰囲気（例：メランコリック、ウィムシカル、平和）、構成（例：風景、クローズアップ、ワイドアングル）などが重要な要素になることがあります。例：
- 太陽の光に包まれた田園風景で、遠くに続く小道
- ネオンライトが舗装道路に映り込み、様々な人々が行き交う、眠らない都市
スタイルとキーワードの組み込み：MidjourneyのAIは、抽象的な、シュールな、リアルなど、さまざまなスタイルでイメージを描くことができます。スタイルや関連するキーワードを組み込むことで、AIにあなたのビジョンに合った画像を作成するように誘導することができます。さまざまなスタイルやキーワードを試して、完璧なブレンドを見つけてみてください。例：
- ジョージア・オキーフのスタイルを反映した、パステルカラーパレットと有機的な形状を特徴とする、夜明けの砂漠を描いた風景画
- ピート・モンドリアンの作品にインスピレーションを受けた、幾何学的なパターンで木々や葉を形成する平和な森の抽象的な描写
高度な設定の活用：Midjourneyは、生成された画像を微調整するための高度な設定が詰まった創造的なツールボックスのようなものです。ランダム性、スタイル化、画像のバリエーションの理想的なバランスを作り出すための魔法の杖のようなものです。ビジョンに共鳴する完璧なミックスを見つけるまで、これらの設定を調整することによって、創造力を解き放ってください。例：
- 池に映る桜の木を持つ静かな日本庭園 –seed 22 –s 150 –c 40
- ネオンライトで照らされたジオラマ風のサイバーパンク都市 –seed 88 –s 600 –c 60