「NExT-GPT あらゆるモダリティに対応したマルチモーダル大規模言語モデル」の紹介

『次世代の GPT』あらゆるモダリティに対応したマルチモーダル大規模言語モデルの魅力』

 

近年、生成型AIの研究は私たちの働き方を変えるように進化してきました。コンテンツの開発、仕事の計画、答えを見つけることからアートワークの作成まで、すべてがGenerative AIによって可能になりました。しかし、各モデルは通常特定のユースケースに適しており、例えばテキストからテキストへのGPT、テキストから画像へのStable Diffusionなどがあります。

複数のタスクを実行できるモデルは、マルチモーダルモデルと呼ばれます。多くの最先端の研究では、マルチモーダルなアプローチが多くの場面で有用であることが証明されています。その中でも特に注目すべき研究の一つが、NExT-GPTです。

NExT-GPTは、どんなものでもどんなものに変えることのできるマルチモーダルモデルです。では、どのように動作するのでしょうか。さらに探求してみましょう。

 

NExT-GPT イントロダクション

 

NExT-GPTは、テキスト、画像、ビデオ、音声の4つの異なる種類の入力と出力を処理できる任意のマルチモーダルLLMです。この研究は、シンガポール国立大学のNExT++ 研究グループによって開始されました。

NExT-GPTモデルの全体像は、次の画像に示されています。

  

NExT-GPTモデルは、次の3つのパートで構成されています:

  1. さまざまなモダリティの入力のためのエンコーダを確立し、LLMが受け入れられるようにそれらを言語のような入力に変換すること
  2. セマンティック理解と追加のユニークなモダリティの信号を使用して、オープンソースのLLMをコアとして入力を処理すること
  3. マルチモーダルな信号を異なるエンコーダに提供し、適切なモダリティに対して結果を生成すること

NExT-GPTの推論プロセスの例は、次の画像で見ることができます。

  

上記の画像で、私たちが望むタスクに応じて、エンコーダとデコーダが適切なモダリティに切り替わることが分かります。このプロセスは、NExT-GPTがユーザーの意図に合わせるためのモダリティ切り替え指示調整という概念を利用してのみ可能です。

研究者たちはさまざまなモダリティの組み合わせで実験を行いました。全体的には、NExT-GPTのパフォーマンスは以下のグラフにまとめられます。

  

NExT-GPTの最も優れたパフォーマンスは、テキストと音声の入力から画像を生成することであり、次に、テキスト、音声、画像の入力から画像の結果を生成することです。最も低いパフォーマンスは、テキストとビデオの入力からビデオの出力を生成することです。

NExT-GPTの能力の一例が次の画像に示されています。

  

上の結果から分かるように、NExT-GPTとの対話によって、ユーザーの意図に合った音声、テキスト、画像を生成することができます。NExT-GPTは非常に優れたパフォーマンスを発揮し、かなり信頼性があります。

NExT-GPTの別の例が次の画像に示されています。

  

上の画像から、NExT-GPTは2種類のモダリティを処理してテキストと音声の出力を生成することができることがわかります。このモデルの柔軟性が十分に示されています。

モデルを試してみたい場合は、彼らのGitHubページからモデルと環境を設定することができます。また、次のページでデモを試すこともできます。

 

結論

 

NExT-GPTは、テキスト、画像、音声、ビデオの入力データを受け取り、それに基づいて出力を生成するマルチモーダルモデルです。このモデルは、モダリティごとに特定のエンコーダを利用し、ユーザーの意図に応じて適切なモダリティに切り替えることで動作します。パフォーマンス実験の結果は良好で、多くのアプリケーションで利用できる有望な取り組みとなっています。  

[Cornellius Yudha Wijaya](https://www.linkedin.com/in/cornellius-yudha-wijaya/)は、データサイエンスアシスタントマネージャーであり、データライターです。彼はAllianz Indonesiaでフルタイムで働きながら、ソーシャルメディアや執筆を通じてPythonとデータのヒントを共有することが大好きです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIと倫理の架け橋:医療実施における包括的な解決策」

「この記事では、AIの倫理的な考慮事項について掘り下げ、医療の分野でAIの力を責任を持ってかつ公正に活用する方法について...

データサイエンス

「IoTエッジデバイスのためのクラウドベースのAI/MLサービスの探索」

AIとMLは、自動運転車、ウェブ検索、音声認識などの進歩を可能にしましたIoTデバイスのAIとMLの探求に興味がある場合、お手伝...

機械学習

赤い猫&アテナAIは夜間視認能力を備えた知能化軍用ドローンを製造する

軍事技術のリーディングカンパニーであるRed Cat Holdings, Inc.は、Athena AIとのパートナーシップにおいて、Teal 2の人工知...

AIニュース

「ウェブパブリッシャーコントロールの最新情報」

「私たちはGoogle-Extendedを発表しますこれは、ウェブパブリッシャーが自分たちのサイトがBardとVertex AIの生成APIを改善す...

AIニュース

ChatGPTでお金を稼ぐ5つの方法

もしChatGPTでお金を稼げるとは信じていないなら、この記事の終わりまでには信じるようになるでしょう

AIニュース

スポティファイはAIを取り入れる:個人に合わせたプレイリストからオーディオ広告まで

人気のある音楽ストリーミングプラットフォームであるSpotifyは、常にユーザーエクスペリエンスを向上させる方法を探求する技...