マルチモーダルAIがデジタルのつながりを作り出す

マルチモーダルAIがデジタル世界でのつながりを鮮やかに作り出す

マルチモーダルAIは、画像、テキスト、音声、数値データなどのさまざまなデータタイプを複数の知能処理アルゴリズムと組み合わせて、より高いパフォーマンスを実現します。¶ クレジット:Enterra Solutions

人工知能(AI)の進展はここ数年で驚異的なスピードで進みました。コンピュータビジョンが注目を集め、ロボット工学が進歩し、生成型AIが社会の主流に広まりました。

しかし、進歩があるにもかかわらず、ありふれた事実が浮かび上がっています:ほとんどの現代のAIフレームワークは比較的切り離されたままです。ほとんどの場合、AIの自動化が別々の島のように機能しており、他のAIコンポーネントとデータを共有し、シナジスティックに操作することができないため、重要な機能が欠けています。

エンジニア、研究者などは注目しています。彼らは積極的に進化したマルチモーダルシステムを構築する方法を探求しています。別々のAIコンポーネントとデータストリームを接続することで、人間により近いスマートなシステムを構築することが可能です。

「目標は、さまざまなシステムとデータソースを利用してより高度な機能を可能にすることです」と、カーネギーメロン大学のコンピュータ科学学部の教授兼学部長、Martial Hebertは述べています。

また、マサチューセッツ工科大学(MIT)の電気工学・コンピュータ科学部の助教授であるYoon Kimも、「人間はすでにマルチモーダルです。視覚、聴覚、言語理解、および他の感覚的なタスクを行うことができる体現型AIモデルを作成する能力は、より洗練されたテクノロジーの開発において重要です」と述べています。

よりスマートなAIへの進化

マルチモーダルAIの魅力的な点は、補完的ながら切り離されたデータチャネルにアクセスし、それらを組み合わせ、解読し、それ以外では見逃されるサインやパターンを見つける能力です。レガシーデータベース、大規模言語モデル(LLM)、IoTセンサー、ソフトウェアアプリケーション、さまざまなデバイスは、すべてマルチモーダルAIの燃料として機能することができます。

たとえば、マルチモーダルAIを組み込んだサービスロボットは、より人間らしい方法で画像、音声、触覚などを処理し、それに応じて反応することができます。医療診断アプリは、画像、臨床テキスト、その他のデータを組み合わせてより正確な結果を得ることができます。マルチモーダルAIは、医師、弁護士、科学者、ビジネスアナリストなどがアプリを介してデータと直感的に対話し、相互作用することを可能にします。

マルチモーダルAIは急速に進化しています。Open AIのChatGPT-4は最近、視覚、聴覚、話す能力を獲得しました。この広く使用されている生成型AIシステムは、直接画像をアップロードし、ユーザーに返信することができます。視覚障害や他の障害を持つ人々は、iOSおよびAndroid用のアプリであるBe My Eyesを利用して、自身の周囲の状況をより良く把握することができます。

一方、マイクロソフトは、ビジネスインテリジェンスやデータ分析をはじめとする幅広いツールやアプリケーションに、Copilotフレームワークを統合しています。Copilotは、プレゼンテーションの作成、トピックの要約、スケジュールの調整などの管理タスク、および音声やテキストを使用した生成型AIを用いたテキスト、音声、画像、動画の生成と共有を提供することを目的としています。

クラウド上の膨大なデータへのアクセスがマルチモーダルAIの推進力となっています。マイクロソフトヘルスフューチャーズのゼネラルマネージャ、Hoifung Poonは、「人間の知識とデータの大部分を簡単に収集して使用し、幅広いアプリケーションのために大規模なマルチモーダルモデル(LMM)をトレーニングすることができる」と述べています。彼はテキストが共通の要素であり、「すべてのモードの’インターリンガ’として機能する可能性がある」と述べています。

深層学習アーキテクチャTransformerは、マルチモーダルを前進させました。これは、テキスト、音声、画像、分子など、すべてのモダリティにわたって数学的にパターンや関係性を見つけることに優れています。これに加え、GPUとシナジーを発揮して計算をスケールさせることができるため、Transformerは畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN)を凌駕することができました。現在、大規模なTransformerベースのモデルは、コンテンツの理解、推論や対話の実施を行うことができます。

「実際的には、これはマルチモーダルAIシステムがテキスト、画像、音声などのさまざまな形式の出力をよりうまく処理できることを意味します」とKim氏は述べています。彼は、マルチモーダルシステムが数年後にはオーダーオブマグニチュードで進化し、任意のやや抽象的な質問に答えたり、複雑な画像やプレゼンテーションを生成したり、ロボットなどの機械の高度なセンシングと制御システムを支えることができるようになると予想しています。

ハードコーディングの進化

この分野での進展は非常に大きいですが、高度なマルチモーダルシステムのエンジニアリングにはさらなる進歩が必要です。現時点では、曖昧な偏見がある低品質または十分に訓練されていないデータセットが障害となり、時には正確でない結果をもたらす可能性があります。これにより、トーンやイントネーションを誤解するシステムが生じる可能性があります。最悪の場合、誤った医学的診断や重要なデータを誤解する自律型車両へとつながる可能性があります。

リンクや別々のAIシステムの統一には、ソフトウェアへの根本的な変更が必要です。「モデルが複数のモダリティとの相互作用を一貫した方式で行うことができるフレームワークの設計が重要です」とKim氏は述べています。これには、異なるモダリティでトレーニングされたモデルとデータを結びつけることが含まれます。これらのモデルは、リアルワールドに影響を与えるために実行可能なソフトウェアコードの断片を生成する能力を持っている必要があります。

その結果、研究者たちは、課題に対応するためにMicrosoftのAutoGenなど、洗練されたオーケストレーションフレームワークの開発方法を探求しています。例えば、AutoGenは、ロボット、自律型車両、および他の機械に結びつく仮想ソフトウェアエージェント間の通信や相互作用を管理するために設計されています。

それにもかかわらず、オーケストレーションツールが備わっていても、専門家は、高度なマルチモーダルシステムはデータを手動で監視したり、再ラベルしたり、直接的にプロセスを監督する人間が必要かもしれないと言います。実際、将来の予測可能性において、総合的なマルチモーダルAIの自動化は到達可能かどうか疑問がもたれています。「複数のデータソースとストリームに対する適切なコントロールがなければ、事態が大きく悪化する可能性があります」とHebert氏は警告しています。

Poon氏によれば、矛盾するデータや目的はマルチモーダルAIを完全に阻害する可能性があります。彼は生成型AIのためのセルフバリデーションメソッドを積極的に研究しています。例えば、「有害な行動を回避するようにLLMを教えることは、全体的なパフォーマンスを低下させる『アライメントタックス』となる可能性がある」と彼は述べています。同様に、異なるソースからのデータを組み合わせることは、「バッチ効果」や結果を歪める混乱因子を引き起こす可能性があります。

広範で高度に同期したマルチモーダルAIフレームワークに辿り着くことは困難ですが、Hebert氏や他の専門家はそれが可能であると考えています。「データの正確性と利用可能性は単一のAIチャネル内では大きな問題ではありません」と彼は説明しています。「しかし、タッチ、音声、テキスト、ビジョンがリアルタイムで調和して動作する場合、複数のチャネルとデータストリームを調整することは非常に困難です」。

Samuel Greengardは、米国オレゴン州ウェストリンに拠点を置く著者兼ジャーナリストです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

パロアルトネットワークスは、Cortex XSIAM 2.0プラットフォームを導入します:ユニークなBring-Your-Own-Machine-Learning(BYOML)フレームワークを特徴としています

“`html サイバーセキュリティにおいて、組織はセキュリティインテリジェンスと自動化の効率的な管理に直面しています。...

コンピュータサイエンス

ACM(Association for Computing Machinery)は、「ハイリスクなAIには規制が必要」と述べています「まるで無法地帯だ」とも言われています

『ACMの論文では、特定の状況での生成AIの使用を制限するために新しい法律が制定されるべきであると推奨しています』

機械学習

LoftQをご紹介します:大規模言語モデルのためのLoRA(Fine-Tuning-Aware Quantization)

プリトレーニングされた言語モデル(PLM)の導入は、自然言語処理の分野において画期的な変革を示しています。プリトレーニング...

機械学習

「3Dシーン表現の境界を破る:新しいAIテクニックによる高速かつ効率的なレンダリングとストレージ要件の削減によるゲームの変革」

NeRFは、連続的な3Dボリュームとしてシーンを表します。離散的な3Dメッシュやポイントクラウドの代わりに、シーン内の任意の3...

データサイエンス

自分の脳の季節性を活用した、1年間のデータサイエンスの自己学習プランの作成方法

ソーシャルメディアでは、最近自分自身でデータサイエンスを学んだ人々が3ヶ月でデータサイエンスを習得し、成功したという話...