「NExT-GPT あらゆるモダリティに対応したマルチモーダル大規模言語モデル」の紹介

『次世代の GPT』あらゆるモダリティに対応したマルチモーダル大規模言語モデルの魅力』

 

近年、生成型AIの研究は私たちの働き方を変えるように進化してきました。コンテンツの開発、仕事の計画、答えを見つけることからアートワークの作成まで、すべてがGenerative AIによって可能になりました。しかし、各モデルは通常特定のユースケースに適しており、例えばテキストからテキストへのGPT、テキストから画像へのStable Diffusionなどがあります。

複数のタスクを実行できるモデルは、マルチモーダルモデルと呼ばれます。多くの最先端の研究では、マルチモーダルなアプローチが多くの場面で有用であることが証明されています。その中でも特に注目すべき研究の一つが、NExT-GPTです。

NExT-GPTは、どんなものでもどんなものに変えることのできるマルチモーダルモデルです。では、どのように動作するのでしょうか。さらに探求してみましょう。

 

NExT-GPT イントロダクション

 

NExT-GPTは、テキスト、画像、ビデオ、音声の4つの異なる種類の入力と出力を処理できる任意のマルチモーダルLLMです。この研究は、シンガポール国立大学のNExT++ 研究グループによって開始されました。

NExT-GPTモデルの全体像は、次の画像に示されています。

  

NExT-GPTモデルは、次の3つのパートで構成されています:

  1. さまざまなモダリティの入力のためのエンコーダを確立し、LLMが受け入れられるようにそれらを言語のような入力に変換すること
  2. セマンティック理解と追加のユニークなモダリティの信号を使用して、オープンソースのLLMをコアとして入力を処理すること
  3. マルチモーダルな信号を異なるエンコーダに提供し、適切なモダリティに対して結果を生成すること

NExT-GPTの推論プロセスの例は、次の画像で見ることができます。

  

上記の画像で、私たちが望むタスクに応じて、エンコーダとデコーダが適切なモダリティに切り替わることが分かります。このプロセスは、NExT-GPTがユーザーの意図に合わせるためのモダリティ切り替え指示調整という概念を利用してのみ可能です。

研究者たちはさまざまなモダリティの組み合わせで実験を行いました。全体的には、NExT-GPTのパフォーマンスは以下のグラフにまとめられます。

  

NExT-GPTの最も優れたパフォーマンスは、テキストと音声の入力から画像を生成することであり、次に、テキスト、音声、画像の入力から画像の結果を生成することです。最も低いパフォーマンスは、テキストとビデオの入力からビデオの出力を生成することです。

NExT-GPTの能力の一例が次の画像に示されています。

  

上の結果から分かるように、NExT-GPTとの対話によって、ユーザーの意図に合った音声、テキスト、画像を生成することができます。NExT-GPTは非常に優れたパフォーマンスを発揮し、かなり信頼性があります。

NExT-GPTの別の例が次の画像に示されています。

  

上の画像から、NExT-GPTは2種類のモダリティを処理してテキストと音声の出力を生成することができることがわかります。このモデルの柔軟性が十分に示されています。

モデルを試してみたい場合は、彼らのGitHubページからモデルと環境を設定することができます。また、次のページでデモを試すこともできます。

 

結論

 

NExT-GPTは、テキスト、画像、音声、ビデオの入力データを受け取り、それに基づいて出力を生成するマルチモーダルモデルです。このモデルは、モダリティごとに特定のエンコーダを利用し、ユーザーの意図に応じて適切なモダリティに切り替えることで動作します。パフォーマンス実験の結果は良好で、多くのアプリケーションで利用できる有望な取り組みとなっています。  

[Cornellius Yudha Wijaya](https://www.linkedin.com/in/cornellius-yudha-wijaya/)は、データサイエンスアシスタントマネージャーであり、データライターです。彼はAllianz Indonesiaでフルタイムで働きながら、ソーシャルメディアや執筆を通じてPythonとデータのヒントを共有することが大好きです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組ん...

AI研究

「サム・アルトマンがマイクロソフトでAI研究を主導する」

テック界を騒がせた戦略的な動きの中で、MicrosoftのCEOであるサティア・ナデラは、OpenAIの共同創設者であるサム・オルトマ...

人工知能

「自律AIエージェントを使用してタスクを自動化するための10の方法」

はじめに テクノロジーのダイナミックな風景の中で、自律型AIエージェントは変革的な存在として登場し、データと人工知能との...

AIニュース

「AIは非英語母国語話者に差別的」

最近の研究で、人工知能(AI)について不安な真実が明らかになりました。エッセイや就職応募書類などの作品を検出するために...

機械学習

FlashAttentionアルゴリズムの深い探求-パート3

私たちのFlash Attentionシリーズの第3部へようこそ!このセグメントでは、FlashAttention V1アルゴリズムの内部機能について...

機械学習

ビジネスにおけるオープンソースと専有モデルの選択:生成型人工知能の展開において

ジェネレーティブAIへの関心の高まりにより、2023年中頃には約350社の企業がこの分野に参入しました[1]それぞれが基礎モデル...