「ジュラシックパークへの待ち時間は終わりましたか?このAIモデルは、イメージからイメージへの変換を使用して、古代の化石を生き返らせます」

ジュラシックパークの待ち時間は終了しましたか?このAIモデルは、イメージからイメージへの変換で古代の化石を蘇らせます

画像対画像変換(I2I)は、コンピュータビジョンと機械学習の興味深い分野であり、視覚コンテンツをシームレスに別のドメインに変換する力を持っています。この変換プロセスは、単純なピクセル値の変更を超えて、画像の基礎的な構造、意味、スタイルの深い理解を必要とします。

I2Iは、写真のアートな表現から衛星画像を地図に変換し、スケッチを写真のようなリアルな画像に変換するなど、さまざまなドメインで広範な応用が見られます。これは、生成的対抗ネットワーク(GAN)や畳み込みニューラルネットワーク(CNN)などの深層学習モデルの能力を活用しています。

従来のI2I手法は、主に写真から絵画や異なる種類の動物への変換など、ギャップが小さいドメイン間の変換に焦点を当ててきました。しかし、これらのタスクでは、変換プロセス中に大きく異なる視覚的特徴や形状に関する推論を生成する必要はありません。

それでは、I2Iの新しいアプローチであるRevive-2Iに出会いましょう。このアプローチは、スカルを生きている動物に変換するという、Skull2Animalとして知られるタスクを探求します。

Skull2Animalは、スカルを生きている動物の画像に変換するという難しいタスクです。このタスクは、新しい視覚的特徴、テクスチャ、色を生成し、対象ドメインのジオメトリに関する推論を行う必要があるため、大きな課題を提供します。

Skull2Imageタスク。出典:https://arxiv.org/abs/2308.07316

長いI2I変換の課題を克服するために、Revive-2Iは、画像の望ましい変更を説明するテキストプロンプトを使用します。これにより、現実的で検証可能な結果を生成することができます。このアプローチは、生成された画像が意図したターゲットドメインに合致するように厳しい制約を提供します。

Revive-2Iは、自然言語のプロンプトを使用してゼロショットのI2Iを行うための潜在的な拡散モデルを利用しています。

Revive-2Iは、エンコーディングとテキストによる誘導デコーディングの2つの主要なステップで構成されています。エンコーディングステップでは、ソース画像が拡散と呼ばれるプロセスを使用して潜在表現に変換されます。この潜在表現は、望ましい変更を取り込むためにノイズが加えられます。潜在空間で拡散プロセスを実行することにより、Revive-2Iはより速く効率的な変換を実現します。

Revive-2Iの概要。出典:https://arxiv.org/abs/2308.07316

Revive-2Iの最適なポイントを見つけることは容易な課題ではありませんでした。これには、前方拡散プロセスの異なるステップ数での実験が必要でした。部分的なステップを踏むことで、変換プロセスはソース画像の内容をよりよく保持しながら、ターゲットドメインの特徴を取り入れることができます。このアプローチにより、テキストプロンプトによって誘導される望ましい変更を注入しながら、より堅牢な変換が可能になります。

制約のある長いI2I変換を行う能力は、さまざまな分野で重要な意味を持ちます。たとえば、法執行機関は、スケッチに基づいて容疑者のリアルな画像を生成するためにこの技術を活用することができ、識別を支援することができます。野生生物保護活動家は、絶滅の危機に瀕した種の画像を生きている個体の画像に変換することで、気候変動の生態系や生息地への影響を示すことができます。また、古生物学者は、古代の化石をその生きている姿の画像に変換することで、新たな命を吹き込むことができます。ついにジュラシック・パークが実現しそうです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「EコマースにおけるLLMSを使用したカスタマイズされたマーケティングコピーライティング」

紹介 技術革新と急速なデジタル化によって定義される時代において、Eコマースは現代のビジネスの基盤となっています。グロー...

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...

人工知能

「質問、肩をすくめること、そして次は何か:変化の25年」

「Googleが設立されて以来、私たちは難しい質問に答えるために取り組み、人々が自分の質問に答えを得るのを助け、世界のため...

AIニュース

『AI規制に関するEUの予備的な合意:ChatGPTへの影響』

ヨーロッパ連合は最近、広く認識されているChatGPTを含む先進的なAIモデルの規制に関する予備的な合意を仲介しました。これは...

データサイエンス

このAI研究は、近くの電話によって記録されたキーストロークを聞くことで、95%の正確さでデータを盗むことができるディープラーニングモデルを紹介しています

ディープラーニングの進歩とマイクロフォンの普及に伴い、個人デバイスを通じたオンラインサービスの人気が高まる中、キーボ...

AI研究

ミシガン州立大学の研究者たちは、規模の大きな一細胞遺伝子発現の分析をサポートするためのPythonライブラリ「DANCE」を開発しました

単一モダリティのプロファイリング(RNA、タンパク質、オープンクロマチン)から多モダリティのプロファイリングや空間的トラ...