DatategyとMath&AI Instituteの研究者、大規模言語モデルのマルチモダリティの未来に関する展望を提供
DatategyとMath&AI Instituteの研究者による、マルチモダリティの未来に関する展望を提供
フランスのDatategy SASとトルコのMath&AI研究所の研究者は、最近注目されているマルチモーダルアーキテクチャに対する1つの可能な方向性を提案しています。彼らの研究の中心的なアイデアは、よく研究された固有表現認識(NER)の定式化が、マルチモーダルな大規模言語モデル(LLM)の枠組みに組み込まれる可能性があるということです。
最近、LLaVA、Kosmos、またはAnyMALなどのマルチモーダルアーキテクチャが注目を集め、実践でその能力を示してきました。これらのモデルは、テキスト以外のモダリティ(画像など)からデータをトークナイズし、外部のモダリティ固有のエンコーダを使用してそれらを共通の言語空間に埋め込むことができます。これにより、アーキテクチャはテキストと交互に混在したマルチモーダルデータを調整する手段を提供できます。
この論文の著者は、この一般的なアーキテクチャの選好が将来的にはさらに野心的な設定に拡張される可能性があると提案しています。彼らはこれを「オムニモーダル時代」と呼んでいます。NERの概念に何らかの形で関連する「エンティティ」は、このようなアーキテクチャのモダリティとして想像することができます。
たとえば、現在のLLMは完全な代数的推論を導き出すことが難しいとされています。特定の数学に優しいモデルや外部ツールの使用に関する研究が進められているとはいえ、この問題への一つの展望は、量的な値をこのフレームワークのモダリティとして定義することかもしれません。また、暗黙的および明示的な日付と時間のエンティティは、特定の時間認知モダリティエンコーダによって処理できます。
LLMは地理空間の理解にも非常に苦労しており、「地理的に意識した」とは言えません。また、数値的なグローバル座標を適切に処理する必要があり、近接性と隣接性の概念は言語の埋め込み空間に正確に反映されるべきです。そのため、場所を特別な地理空間のモダリティとして組み込むことで、特別に設計されたエンコーダと共同トレーニングによってこの問題を解決することもできます。これらの例に加えて、最初に取り組むべき可能なエンティティは人、機関などです。
著者たちは、この種のアプローチはパラメータ/非パラメトリックな知識のスケーリングとコンテキストの長さ制限の解決策を提供すると主張しています。複雑さと情報は数多くのモダリティエンコーダに分散されることができます。これにより、モダリティを介して更新された情報を注入する問題も解決するかもしれません。研究者たちは、このような潜在的なフレームワークの枠組みを提供し、エンティティ駆動の言語モデルの開発の約束と課題について議論しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles