MITによる新しい機械学習の研究は、大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法を示しています
「MITによる新しい機械学習の研究:大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法の発見」
大規模言語モデル(LLMs)は最近、驚くべきスキルを発揮しています。GPTのトランスフォーマーアーキテクチャに基づいて構築された有名なChatGPTは、その人間の模倣能力により、大きな人気を得ています。質問応答やテキスト要約、コンテンツ生成、言語翻訳など、さまざまな用途があります。その人気にもかかわらず、これらのモデルが訓練中に実際に学んできたものが疑問視されています。
ある理論によれば、LLMsはデータのパターンと相関を見つけるのに優れていますが、データを生成する基本的なメカニズムを理解する面では不十分です。原理的には非常に優れた統計エンジンに似ており、実際には理解を持っているわけではないかもしれません。別の理論では、LLMsは相関を学び、トレーニングデータの生成プロセスに基づくより簡潔で理解しやすいモデルを成長させると述べています。
最近、マサチューセッツ工科大学の2人の研究者が、大規模言語モデルがどのように学習するのかをよりよく理解するために、研究を行いました。この研究では、異なる空間的時間スケールをカバーし、場所、イベント、関連する空間または時間座標の名前を含む6つのデータセットを作成し、LLMs Llama-2モデルの内部活性化に対して線形回帰プローブを使用して、LLMsが空間と時間の表現を作成しているかどうかを調べました。これらのプローブは、各データセット名に対応する現実世界の正確な位置または時間を予測します。
- 「エアガーディアンと出会ってください:目の追跡技術を使用して、MITの研究者たちが開発した人間のパイロットがどこを見ているかを追跡する人工知能システム」
- UC BerkeleyとUCSFの研究者が神経ビデオ生成を革新します: 高度な空時的ダイナミクスのためのLLM-Groundedビデオ拡散(LVD)の紹介
- 新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法
研究結果は、LLMsが異なるスケールで空間と時間の線形表現を学ぶことを示しています。これは、モデルが空間的および時間的側面について構造化された方法で関係性とパターンを理解していることを意味します。単にデータアイテムを記憶するのではなく、LLMsの表現は指示やプロンプトの変更に対しても強健です。情報の提供方法が異なっても、モデルは一貫して空間的および時間的情報の理解と表現を示します。
この研究によれば、表現は特定のエンティティのクラスに制限されていません。都市、ランドマーク、歴史上の人物、芸術作品、ニュース見出しなどは、空間と時間の観点でLLMsによって均一に表現されています。これにより、モデルがこれらの次元の包括的な理解を生み出していることが推測されます。研究者はさらに、「空間ニューロン」と「時間ニューロン」と呼ばれる特定のLLMニューロンを認識しています。これらのニューロンは、空間的および時間的座標を正確に表現し、空間と時間を処理し表現するモデル内の専門的なコンポーネントの存在を示しています。
結論として、この研究の結果は、現代のLLMsが統計量の単なる暗記を超えて、空間や時間などの重要な次元に関する構造化された重要な情報を学習しているという考えを強化しています。LLMsは単なる統計エンジンを超えており、訓練されたデータ生成プロセスの基礎構造を表現することができると言えます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ノースウェスタン大学の研究者たちは、最初の人工知能(AI)システムを開発しましたこのシステムは、ゼロからロボットを知的に設計することができます
- スタンフォード大学研究者が提案するMAPTree:強化された堅牢性とパフォーマンスを備えたベイジアンアプローチに基づく決定木生成
- ITUデンマークの研究者は、神経発達プログラムを紹介:生物の成長と人工ニューラルネットワークとの間のギャップを埋める
- 「Google DeepMindの研究者が『プロンプトブリーダー』を紹介:与えられたドメイン内で自己言及的かつ自己向上型AIシステムで、効果的なドメイン固有のプロンプトを自動的に進化させることができます」というものです
- 「地震をAIで把握する:研究者が深層学習モデルを公開、予測の精度を向上」
- 「MITの研究者がPFGM++を紹介:物理学とAIの画期的な融合による高度なパターン生成」
- ETHチューリッヒとマイクロソフトの研究者が、大規模な言語モデルの推論を強化するための人工知能フレームワーク「SCREWS」を紹介しました