AIアートのマスタリング:中間の旅とプロンプトエンジニアリングへの簡潔なガイド
AIアートのマスタリング:中間の旅とプロンプトエンジニアリングへの簡潔なガイド
MidJourney AI生成アートの紹介
AIは急速に不可能性の壁を打ち破り、最近は芸術の領域に侵入し、それを完全に変革しています。もはやマスターアーティストやPhotoshopのエキスパートである必要はありません。Midjourneyのおかげで、あなたの想像の産物を実現させるためには、単純で明確なプロンプトがすべてです。
2022年にDALL-E、Midjourney、StableDiffusionなどの画期的な技術が導入されたことからすべてが始まりました。これらの革新がそれぞれGenerative AIのキャンバスに独自のタッチをもたらしましたが、特にMidjourneyは魅力的な旅を続け、注目すべき進歩を遂げています。
Midjourneyは現在、市場で最も優れた高解像度のテキストから画像へのAI生成器であり、月額10ドルから利用できます。テキストから画像の生成、メディアの編集とアップスケーリング、アートコミュニティへのアクセスなど、ユニークな機能の包括的なスイートがアーティスト、テックエンスージアスト、AI専門家にとって創造性とイノベーションの環境を提供します。
芸術界は間違いなく注目しており、アート市場のGenerative AIは40.5%のCAGRで驚異的な成長が予測されています。MidjourneyはAIを使用した最もリアルで高品質なビジュアルを制作することで無敵です。
効果的なプロンプトエンジニアリングは、単なる創造だけでなく、ベストプラクティスを含みます。プロンプトは明確で簡潔でありながら、過剰な指示をせずにAIに十分なガイダンスを提供する必要があります。また、年齢、性別、文化的背景などの変数を考慮して設計する必要があります。
MidJourneyはどのように機能するのか?
Mid-Journeyは、大規模言語モデルと拡散モデルという2つの新しい機械学習技術を活用しています。言語モデルは、ChatGPTのようなAIチャットボットと同様、Mid-Journeyがプロンプトの意味を解釈し、ベクトルに変換するのを助けます。このベクトルは、拡散プロセスをガイドします。
Midjourneyの内部構造はほとんど明らかにされていません。それでも、Midjourneyは2つの比較的新しい機械学習技術、大規模言語モデルと拡散モデルを使用したテキストから画像の生成を行っていることは明らかです。前者はChatGPTなどのAIプラットフォームのユーザーにはおなじみかもしれませんが、後者はAIアート生成セクターにおける有望な追加要素です。全体のシステムは、訓練にCLIPデータセットを使用しており、これはOpenAIの研究ページで見つけることができます。
限られた情報ではありますが、Midjourneyの拡散モデルの広い概要を描くことは可能です。それは’Stable Diffusion’という適切な名前のオープンソースモデルです。基本的に、Stable Diffusionはテキストプロンプトをさまざまなスタイルと内容の画像に巧妙に変換するモデルです。この高度な手順は、テキスト入力と画像出力の依存関係を結ぶ生成モデルである拡散モデルによって実現されます。
拡散モデルは非平衡熱力学に影響を受けたアプローチであるノイズ除去拡散法を基盤として構築されています。この方法はデータの構造を体系的に分解し、後で復元するものです。この手法は2020年にHoらによって画像生成のために適応され、今日見られる拡散モデルの始まりとなりました。
拡散モデルのトレーニングには2つの主要なステージがあります。最初に、前方または拡散プロセスでは、入力画像にランダムノイズが段階的に追加され、完全にノイズに変形するまで行われます。このプロセスは、連続するいくつかのステップで一貫してガウスノイズを追加する固定マルコフ連鎖によって制御されます。
その後、逆または再構築フェーズでは、モデルが拡散プロセスで達成されたノイズ支配状態から元のデータを復元します。このプロセスは、学習済みのガウス遷移を持つマルコフ連鎖によって駆動されます。つまり、任意の時間における確率密度の予測は、前の時間ステップで達成された状態に完全に依存します。潜在的な’x1、…、xT’はデータと同じ次元を共有するため、拡散モデルは潜在変数モデルとして分類されます。
Mid-Journeyの費用とサブスクリプション
ChatGPTやBing Chatなどの多くのチャットボットはほぼ無制限の無料利用を提供していますが、Mid-Journeyのような画像生成器は異なります。特にグラフィックス処理ユニット(GPU)とノイズ除去プロセスのビデオメモリ使用量から必要な大量の計算能力のため、Mid-Journeyのサービスには価格が付いています。
基本プランは月額10ドルから始まり、約3.3時間のGPU時間、およそ200枚の画像生成に十分な容量を提供します。ただし、より高価なプランではリラックスモードで無制限の画像を提供しますが、より長い待ち時間が発生します。
MidJourneyのセットアップ
- MidJourneyを始めるには、公式ウェブサイトでサインアップし、プランに登録し、その後Discordにリダイレクトされます。
- DiscordのMid-Journeyチャンネルを見つけたら、左側の新規者グループに移動します。そこで、他のユーザーがプロンプトを作成し、Mid-Journeyの仕組みを学び、活気ある環境で交流する様子を観察することができます。
- 環境に慣れたら、プライベートサーバーにボットを招待して、邪魔されずに画像を作成します。ボットはプロンプトに基づいて4つのプレビュー画像を生成し、元のアイデアに最も近いものを選択して画像をさらに磨くことができます。
Midjourneyのプロンプト構造
- Midjourneyチャンネル内のDiscordチャンネルで/imagineコマンドを使用すると、短いテキストの説明(プロンプト)からユニークな画像が生成されます。
- 異なる画像間で特定のスタイルを再現するには、テキストのプロンプトとともに画像のURLを入力するだけです。新しい一貫した出力は、選択した画像とテキストの両方の要素を組み合わせます。画像のURLは、Discordチャンネルにアップロードしてリンクを作成することができます。アップロードしたら、画像を右クリックして「リンクをコピー」を選択します。ここではhttp://link-to-your-imageとパラメータはオプションです。
- これに続いて、ボットがあなたの画像を作業し、およそ1分で4つの代替案を提供します。このプロセスでは、頑強なグラフィックス処理ユニット(GPU)を使用して、各プロンプトを処理して解釈します。
- /infoコマンドを使用してGPUの使用状況を追跡します。これにより、「残りの高速時間」を確認し、サブスクリプションのGPU時間を監視することができます。
画像の拡大と変更
より洗練された画像を作成するには、画像の下にある「U」ボタンを使用して選択した画像を拡大することができます。また、「V」ボタンを使用して特定の画像の調整も行えます。拡大された画像にさらなる変更を加えるには、「Make variations」、「Light Upscale Redo」、「Beta Upscale Redo」のオプションを使用します。「Web」ボタンを使用すると、別のウィンドウで画像をより大きなサイズで表示することができます。
Midjourneyでは、デフォルトの生成グリッドサイズが1024×1024(正方形)および1456×816(ワイドスクリーン)であり、2048×2048(正方形)および2720×1530(ワイドスクリーン)の解像度に画像を拡大することができます。各画像は、「U」の拡大オプションを使用してさらに高度な処理が可能です。
MidjourneyのV5.2バージョンで素晴らしいアートワークを作成する以下のプロンプトをご覧ください。
/imagine アートワークは、星の輝く空の下で読書をする子供を描いた一本の孤高の木を、フレンチ・インプレッショニズムの筆触、ペルシャのミニチュア、バウハウスのシンプリシティの色調で、クラシックな子供の童話イラストを思わせる魅力的で素朴な非対称の調和で表現され、魅惑的で民族的な雰囲気を醸し出しています: –ar 15:19 –upbeta –q 2
最初のMidjourney AIアートを作成する
- 基本的な設計図の作成:自分自身をアーティストと考えてください。具体的で鮮明なイメージを生み出すために、まずは簡単な説明から始めましょう。主題、雰囲気、埋め込みたい細部などをアウトラインし、コンマ、ブラケット、ハイフンなどの句読点を使って考えを構造化します。より良い結果を得るために、デザインの文脈と詳細について明確に説明してください。主題(例:ドラゴン、ビンテージカー、エイブラハム・リンカーン)、VoAGI(例:デジタルアート、鉛筆スケッチ)、環境(例:宇宙空間、水中、にぎやかな都市)、照明(例:ソフト、ネオン、バックライト)、色(例:地の色、鮮やか、静かな)、雰囲気(例:メランコリック、ウィムシカル、平和)、構成(例:風景、クローズアップ、ワイドアングル)などが重要な要素になることがあります。例:
- 太陽の光に包まれた田園風景で、遠くに続く小道
- ネオンライトが舗装道路に映り込み、様々な人々が行き交う、眠らない都市
- スタイルとキーワードの組み込み:MidjourneyのAIは、抽象的な、シュールな、リアルなど、さまざまなスタイルでイメージを描くことができます。スタイルや関連するキーワードを組み込むことで、AIにあなたのビジョンに合った画像を作成するように誘導することができます。さまざまなスタイルやキーワードを試して、完璧なブレンドを見つけてみてください。例:
- ジョージア・オキーフのスタイルを反映した、パステルカラーパレットと有機的な形状を特徴とする、夜明けの砂漠を描いた風景画
- ピート・モンドリアンの作品にインスピレーションを受けた、幾何学的なパターンで木々や葉を形成する平和な森の抽象的な描写
- 高度な設定の活用:Midjourneyは、生成された画像を微調整するための高度な設定が詰まった創造的なツールボックスのようなものです。ランダム性、スタイル化、画像のバリエーションの理想的なバランスを作り出すための魔法の杖のようなものです。ビジョンに共鳴する完璧なミックスを見つけるまで、これらの設定を調整することによって、創造力を解き放ってください。例:
- 池に映る桜の木を持つ静かな日本庭園 –seed 22 –s 150 –c 40
- ネオンライトで照らされたジオラマ風のサイバーパンク都市 –seed 88 –s 600 –c 60
- アスペクト比(–aspectまたは–ar):このパラメータは、生成された画像の幅と高さの比率を制御します。たとえば、16:9の比率はYouTubeのサムネイルに最適であり、1:1はInstagram向けの正方形の画像を生成します。
- カオス(–chaos):このパラメータは、初期画像グリッドの多様性を調整し、0から100の範囲で変化します。より高いカオス値は予測不可能でユニークな結果をもたらし、より低い値はより一貫した結果を保証します。
- No(–no):このパラメータは、生成された画像から特定の要素や特性を除外するのに役立ちます。たとえば、赤を含まない画像が必要な場合、「–no red」と入力することができます。
- 品質(–qualityまたは–q):この設定は、画像生成に必要な時間を調整します。より高い品質はより多くの処理時間を必要としますが、複雑な詳細を提供します。このパラメータは0.25、0.5、1、または2の値を取ることができます。
- シード(–seed):このパラメータは、生成された画像の開始時の視覚的ノイズを決定し、生成された画像の基準となります。同じシード番号を同じプロンプトと共に使用すると、類似した出力が得られます。0から4294967295までの整数値を受け入れます。
- 停止(–stop):このパラメータを使用すると、ジョブを途中で終了させることができ、より詳細は少なくなりますが、興味深い出力が得られる場合があります。範囲は10〜100です。たとえば、「–stop 50」と指定すると、画像生成プロセスは50%の完了で停止し、より詳細の少ない、抽象的な画像が生成されます。
- スタイライズ(–stylizeまたは–s):これは、生成された画像に対する芸術的な適用レベルを制御します。スタイライズ値が低いほど、初期のプロンプトに近い結果が得られます。一方、高い値はより抽象的で芸術的な解釈をもたらします。v5では、デフォルト値は100ですが、0〜1000の範囲で設定できます。
- モデルバージョン:–versionまたは–vパラメータを使用して、さまざまなバージョンのMidjourneyモデルを選択できます。
- Niji:アニメスタイルの画像に特化したモデルです。–nijiパラメータを使用してアクセスできます。
- Highmi Definition:抽象的な風景画像には、–hdパラメータを使用して、より大きく一貫性のない画像を生成する初期のモデルバージョンを起動できます。
- テストモデル:Midjourneyには、特定のユースケース向けの特別なモデルがあります。–testと–testpは、それぞれ標準および写真重視のテストモデルを起動します。
- アップスケーラ:Midjourneyのアルゴリズムは低解像度の画像グリッドから開始します。画像のサイズと詳細を向上させるために、いくつかのアップスケーリングモデルが提供されています。
- Uplight:別のライトアップスケーラ(–uplight)は、より詳細は少ないが滑らかなアップスケーリングされた画像を提供します。
- Upbeta:–upbetaパラメータは、追加の詳細が非常に少ない画像を生成します。
- Upanime:–upanimeアップスケーラは、特に–niji Midjourneyモデルと連携するように設計されています。
- 画像の重み:–iwを使用して、テキストの重みに対する画像プロンプトの重みを調整します。デフォルト値は0.25です。
- Sameseed:–sameseedパラメータを使用すると、初期グリッド内のすべての画像が同じ開始ノイズを使用し、非常に似た生成された画像が作成されます。
- ビデオ:Midjourneyは、初期画像グリッド生成プロセスの進行状況ビデオを保存することができます。–videoパラメータを使用します。
- クリエイティブ:–creativeパラメータを使用すると、テストおよびtestpモデルはより多様でクリエイティブな画像を出力します。
- UNITEロゴを作成するために使用されるテキストのシンプルなイメージ
- Midjourneyのプロンプトの基礎を学ぶ:はっきりと簡潔で包括的な説明を使用し、AIを効果的に導くためにビジョンを網羅します。対象となる観客を考慮し、さまざまなスタイル、ムード、文脈で実験することを躊躇しないでください。
- パラメータを利用する:Midjourneyが提供する多数の高度な設定を活用して、創造的な体験を向上させましょう。アスペクト比の制御から独自の結果を得るためのカオスパラメータの調整まで、細部はすべて好みに合わせることができます。
- 反復的なプロセスを受け入れる:最初のAI生成の作品は完璧ではないかもしれません。この反復的なプロセスを受け入れ、プロンプトを洗練させて結果を改善しましょう。
- 著作権の影響を理解する:AIによって生成された作品そのものは著作権の対象ではありませんが、それらの中に含まれる人間によって作成された要素は保護されることがあります。
</ul
中間ジャーニーのパラメータ
中間ジャーニーのモデルは、画像生成プロセスの結果を制御する調整可能なパラメータを使用して動作します。これらのパラメータにより、ユーザーは生成されたアートを微調整し、モデルを細かく調整して目標に完全に合う出力を作成することができます。
基本的なパラメータと高度なパラメータ、それらの機能、およびそれらを使用して中間ジャーニーの機能を最大限に活用する方法について詳しく説明しましょう:
Midjourneyは、ユーザーエクスペリエンスを向上させるために定期的にアップデートを行っており、最新のバージョン5.2は2023年6月にリリースされました。プロンプトに「–v 5.2」を追加するか、/settingsコマンドを介して選択することで、ユーザーはこの高度なモデルにアクセスできます。バージョン5.2では、優れた画像の詳細化が提供され、プロンプトの理解が直感的になり、より明るい色と改善された構図をもたらします。
AIによる生成アートの著作権の理解
2023年3月、米国著作権局は、AIによって生成された作品の著作権に関する立場を明確にしました。この方針によると、AIの作品における人間によって作成された要素(文章や独自のデザインなど)は保護される一方、AIによって生成された画像は著作権の対象とはならず、著作権保護の対象は人間の創作物に限られるとしています。
AIアートの文脈では、著作権は明快ではありません。デジタルアートには人間の芸術家の入力がある一方、AIによって生成されたアートは直接的な人間の介入なしに作成されるため、作者性と所有権の問題が複雑化します。米国著作権局によれば、最初の所有権は作品の作者である人間の創作者に与えられます。しかし、AIは作者とは見なされないため、AIによって生成されたアートには明確な所有権がありません。
米国著作権局からの最新のガイダンスでは、AIアートに十分な人間の創作性が含まれている場合にのみ著作権が認められます。ただし、’十分な人間の創作性’のレベルは定義されておらず、AIアート作品の制作における人間の関与の程度に依存します。
興味深いことに、MidjourneyというAIベースのイメージ作成プラットフォームは、独自の使用権ポリシーを確立しています。無料トライアルユーザーはMidjourneyへの適切なクレジットを付与しながら非商業目的で画像を使用することができます(クリエイティブ・コモンズ・ライセンス(CC BY-NC 4.0)に基づく)。しかし、有料のサブスクリプションユーザーは、一般的な商業条件の下で画像を商業目的を含む任意の目的で使用することができます。著作権の領域におけるこの進展は、AIと人間の創造性の間における興味深い関係を示しています。
ダイナミックなUIデザインとクリエイティブなロゴ生成にMidjourneyを活用する
ウェブサイトやモバイルアプリの直感的なUIをデザインしたり、ユニークなロゴやバナーを作成したりするために、Midjourneyは数秒でさまざまなデザインの代替案を生成することでコンテンツクリエーターを力強くサポートしています。
作業方法は次の通りです。各デザインは、AIが従うための設計図として機能するプロンプトから始まります。例えば、オンライン家庭教師プラットフォームのアプリのUIをデザインしているとしましょう。典型的なプロンプトは次のようなものです:”オンライン家庭教師プラットフォームのユーザーインターフェースを想像してください。Dribbble、高解像度、4K、カーン・アカデミーのようなもの”。
初期の結果は完全に目的に合致していないかもしれません。たとえば、”Adobe XD”を追加することで、MidjourneyがデザインをよりAdobe XDに適したものに調整することができます。最適化されたプロンプトは次のようになります:
“オンライン家庭教師プラットフォームのユーザーインターフェース、Adobe XD、Dribbble、高解像度、4K、ミニマリストデザイン”。
Midjourneyを使用したテキストにインスピレーションを受けたロゴやバナー
UNITE AIのロゴを含むバナーを作成する方法を見てみましょう。
まず、表示したいテキストのシンプルなイメージを作成する必要があります。これは、任意のグラフィックデザインツールやテキストエディタを使用して作成し、Discordチャンネルにアップロードします。
バナーを作成するためのプロンプトは次のようになります:
“Letters: <表示するテキストのシンプルなイメージへのリンク> UNITEという未来志向のAIインスパイアされた書体のロゴ、文字UNITE –v 5 –ar 16:9”
さらなるアイデアのために、次の例のプロンプトをご覧ください:
“静かなメロディを奏でる孤独な音楽家が、夕暮れ時の浮遊都市で演奏しているイメージ、アール・ヌーボースタイル”
“未来のデスクで作業する未来人のイメージ。周りにはホログラフィックスクリーンや先進技術があります。人物はスリムな銀のジャンプスーツを着用し、バーチャルリアリティゴーグルをかけています。環境はネオンライトと浮遊するホログラムで満たされています。雰囲気は未来的でハイテクであり、興奮と革新の感覚を与えます。カメラは高解像度のデジタルカメラで、すべての詳細を精密に捉えます。芸術的スタイルはサイバーパンクとミニマリズムの融合で、清潔なラインと大胆な色彩が特徴です。このユニークな対照を共にする監督、撮影監督、写真家、ファッションデザイナー、漫画家、アーティストは、クリストファー・ノーラン、ロジャー・ディーキンス、アニー・リーボヴィッツ、ヴァージル・アブロー、宮崎駿、KAWSです。
1940年代のスタイルのバービーが戦時看護師として活躍する姿を想像してみてください。ヴィンテージな軍病院の設定で、負傷兵を世話する様子を、クラシックなマテルのイラストのようなスタイルで描かれた、セピア色の第二次世界大戦の写真の雰囲気で表現します。8k –v 5 –ar 16:9
女性がサイバーパンクのホバーバイクに寄りかかっている様子を、日本のアニメで描かれた広がりのある都市風景、32kの複雑な宇宙港、一瞬の瞬間、摩天楼のパノラマ、洗練された風景で表現します。
最終的な考え:Midjourneyを使ってAIアートの世界を進む
覚えておいてください、「絵は千言の価値がある」ということを。詳細で鮮やかな説明は驚くべき効果を発揮することができます。Midjourneyは無料ではありませんが、最先端のテキストから画像への変換のAI技術により、芸術の世界を革命化し、創造的な可能性を広げるツールです。アーティストだけでなく、UI/UXデザイナーやテクノロジーエンスージアスト、AI専門家にとっても無限の可能性を約束しています。
Midjourneyの冒険を始める際に覚えておくべきいくつかの重要なポイントは次の通りです:
要するに、AIを芸術に統合することによって、創造性が民主化され、人間と機械による傑作の境界が曖昧になっています。私たちは、Midjourneyなどのプラットフォームによって牽引されるAIアートの革命の成長を目の当たりにしながら、これはまだ始まりに過ぎないことを否定することはできません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles