「NExT-GPT あらゆるモダリティに対応したマルチモーダル大規模言語モデル」の紹介

『次世代の GPT』あらゆるモダリティに対応したマルチモーダル大規模言語モデルの魅力』

 

近年、生成型AIの研究は私たちの働き方を変えるように進化してきました。コンテンツの開発、仕事の計画、答えを見つけることからアートワークの作成まで、すべてがGenerative AIによって可能になりました。しかし、各モデルは通常特定のユースケースに適しており、例えばテキストからテキストへのGPT、テキストから画像へのStable Diffusionなどがあります。

複数のタスクを実行できるモデルは、マルチモーダルモデルと呼ばれます。多くの最先端の研究では、マルチモーダルなアプローチが多くの場面で有用であることが証明されています。その中でも特に注目すべき研究の一つが、NExT-GPTです。

NExT-GPTは、どんなものでもどんなものに変えることのできるマルチモーダルモデルです。では、どのように動作するのでしょうか。さらに探求してみましょう。

 

NExT-GPT イントロダクション

 

NExT-GPTは、テキスト、画像、ビデオ、音声の4つの異なる種類の入力と出力を処理できる任意のマルチモーダルLLMです。この研究は、シンガポール国立大学のNExT++ 研究グループによって開始されました。

NExT-GPTモデルの全体像は、次の画像に示されています。

  

NExT-GPTモデルは、次の3つのパートで構成されています:

  1. さまざまなモダリティの入力のためのエンコーダを確立し、LLMが受け入れられるようにそれらを言語のような入力に変換すること
  2. セマンティック理解と追加のユニークなモダリティの信号を使用して、オープンソースのLLMをコアとして入力を処理すること
  3. マルチモーダルな信号を異なるエンコーダに提供し、適切なモダリティに対して結果を生成すること

NExT-GPTの推論プロセスの例は、次の画像で見ることができます。

  

上記の画像で、私たちが望むタスクに応じて、エンコーダとデコーダが適切なモダリティに切り替わることが分かります。このプロセスは、NExT-GPTがユーザーの意図に合わせるためのモダリティ切り替え指示調整という概念を利用してのみ可能です。

研究者たちはさまざまなモダリティの組み合わせで実験を行いました。全体的には、NExT-GPTのパフォーマンスは以下のグラフにまとめられます。

  

NExT-GPTの最も優れたパフォーマンスは、テキストと音声の入力から画像を生成することであり、次に、テキスト、音声、画像の入力から画像の結果を生成することです。最も低いパフォーマンスは、テキストとビデオの入力からビデオの出力を生成することです。

NExT-GPTの能力の一例が次の画像に示されています。

  

上の結果から分かるように、NExT-GPTとの対話によって、ユーザーの意図に合った音声、テキスト、画像を生成することができます。NExT-GPTは非常に優れたパフォーマンスを発揮し、かなり信頼性があります。

NExT-GPTの別の例が次の画像に示されています。

  

上の画像から、NExT-GPTは2種類のモダリティを処理してテキストと音声の出力を生成することができることがわかります。このモデルの柔軟性が十分に示されています。

モデルを試してみたい場合は、彼らのGitHubページからモデルと環境を設定することができます。また、次のページでデモを試すこともできます。

 

結論

 

NExT-GPTは、テキスト、画像、音声、ビデオの入力データを受け取り、それに基づいて出力を生成するマルチモーダルモデルです。このモデルは、モダリティごとに特定のエンコーダを利用し、ユーザーの意図に応じて適切なモダリティに切り替えることで動作します。パフォーマンス実験の結果は良好で、多くのアプリケーションで利用できる有望な取り組みとなっています。  

[Cornellius Yudha Wijaya](https://www.linkedin.com/in/cornellius-yudha-wijaya/)は、データサイエンスアシスタントマネージャーであり、データライターです。彼はAllianz Indonesiaでフルタイムで働きながら、ソーシャルメディアや執筆を通じてPythonとデータのヒントを共有することが大好きです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

自動化、Ansible、人工知能

AnsibleがAIツールを統合開発環境に導入し、自動化コーディングの経験をよりシンプルでスムーズかつ効率的にする方法について...

データサイエンス

「EU AI Actについて今日関心を持つべき理由」

「MLおよびAI業界で働く私たちのほとんどは、新しい規制に関する見出しを見て流し読みするでしょう新しい規制は『法律用語』...

データサイエンス

「CassIO OpenAIに触発されたジェネラティブAIのための最高のライブラリ」

ChatGPTは直感的で使いやすいライブラリを備えているため、開発者のエクスペリエンスを変革しましたそのため、あなたの開発ニ...

AI研究

ミシガン州立大学の研究者たちは、規模の大きな一細胞遺伝子発現の分析をサポートするためのPythonライブラリ「DANCE」を開発しました

単一モダリティのプロファイリング(RNA、タンパク質、オープンクロマチン)から多モダリティのプロファイリングや空間的トラ...

機械学習

クラウドストライクは、Fal.Con 2023におけるAI駆動のセキュリティに関するビジョンを概説します

「クラウドネイティブアーキテクチャを使用し、AIと統合データを活用して、ますます速い攻撃に対する検出と対応を加速する」

AI研究

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

人工知能が人間の感情を再現するにつれて、本物の人間の表情の機械的な複雑さを徹底的に調査することが浮かび上がりました。...