大規模言語モデル（LLM）に関する驚くべき8つの事実

8 amazing facts about large language models (LLMs).

近年、大規模言語モデル（LLM）の公開的な展開が広範な関心と活動を引き起こしています。新しい技術がもたらす切迫した懸念があるため、この焦点は正当化されていますが、いくつかの重要な要因を見落とすこともあります。

最近では、ChatGPTなどのLLMとそれらに基づく製品について、ジャーナリスト、政策立案者、学者から様々な分野で関心が高まっています。しかし、この技術が多くの点で驚くべきものであるため、簡潔な説明では重要な詳細が抜け落ちることがあります。

以下に、この技術に関する8つの予想外の側面があります。

LLMの機能は、意図的なイノベーションがなくても、投資が増えるにつれて予測可能に増加します。

LLMに対する研究や投資の増加は、スケーリング法則の結果と言えます。研究者が将来のモデルに与えるデータの量、モデルのサイズ（パラメーターで測定）、およびトレーニングに使用されるコンピューティングの量を増やすと、スケーリング法則により、それらのモデルがどの程度能力があるか（FLOPsで測定）を精確に予測できます。そのため、コストのかかる実験を行うことなく、特定の予算内で最適なモデルのサイズなど、重要な設計上の決定を行うことができます。

予測の精度は、現代の人工知能研究の文脈でも前例のないレベルです。R&Dチームが経済的に有益なシステムを開発することに成功することが期待される多数のモデルトレーニングイニシアチブを提供することができるため、投資を推進するための有力な手段でもあります。

最新のLLMのトレーニング方法はまだ公開されていませんが、最近の詳細な報告によると、これらのシステムの基本的なアーキテクチャは、ほとんど変わっていないとされています。

LLMにリソースが注がれると、予想外に重要な行動がしばしば現れます。

ほとんどの場合、モデルが未完了のテキストの続きを正確に予測できる能力は、プレトレーニングテストの損失によって測定され、スケーリング規則によってのみ予測できます。

この指標は平均的に多くの実用的な活動におけるモデルの有用性と相関しますが、モデルが特定の才能を発揮し始めたり、特定のタスクを実行できるようになるタイミングを予測することは容易ではありません。

具体的には、GPT-3のfew-shot learning（つまり、1回の相互作用で新しいタスクを少数の例から学習する能力）や、chain-of-thought reasoning（つまり、数学のテストで生徒が行うように、難しいタスクの理由を書き出し、改善されたパフォーマンスを示す能力）などは、現代のLLMの中で最初のものとして際立っています。

将来のLLMは必要な機能を開発する可能性があり、一般的に受け入れられている境界はほとんどありません。

ただし、LLMの進歩は、専門家の予想よりも予期せぬものであることがあります。

LLMは、外部世界の表現を獲得し利用することがよくあります。

ますます多くの証拠が、LLMが世界の内部表現を構築し、テキストの特定の言語形式に対して無関心な抽象レベルで推論することを可能にしていることを示しています。この現象の証拠は、最大かつ最新のモデルで最も強力であるため、システムがより大規模にスケールアップされるとより堅牢になることが予想されます。ただし、現在のLLMはこれをより効果的に行う必要があります。

広範な実験技術や理論モデルに基づく以下の調査結果が、この主張を支持しています。

モデルの内部色表現は、人間が色を知覚する方法に関する経験的な知見と非常に一致しています。
モデルは、著者の知識や信念を推測し、文書の将来の方向性を予測することができます。
物語はモデルに情報を提供し、それが物語に表現されているオブジェクトの特徴や位置の内部表現を変更します。
モデルは、奇妙なものを紙に描く方法を提供することがあります。
Winograd Schema Challengeなど、回答のテキスト的な手がかりがない問題を含む多くの常識的な推論テストをモデルはクリアしています。

これらの調査結果は、LLMが単なる統計的な次の単語の予測器に過ぎず、学習や推論をテキストを超えて一般化することはできないという従来の考え方に反するものです。

LLMの行動を影響させる有効な方法は存在しません。

人間が書いたテキストのランダムサンプルの未来を予測するニューラルネットワークをトレーニングするために必要な時間と労力のため、言語ベースのLLMを構築することは高価です。ただし、通常、作成者が目的以外の継続予測以外の目的で使用するために変更する必要があります。この変更は、タスクの特殊化を試みない指示に従うための汎用モデルを作成する場合でも必要です。

プロンプトの明確な言語モデルは、未完成のフレーズを構築することを含みます。

研究者は、監督下でスキルの専門家レベルの人間のデモを模倣するモデルをトレーニングしています。強化学習を用いることで、人間のテスターやユーザーの意見に基づいて、モデルの行動の強度を徐々に変更することができます。

LLMの内部機能は、専門家によって完全に理解される必要があります。

最新のLLMは、数値で活性化される内部コンポーネントを持つ人工ニューロンネットワークに依存しているため、人間のニューロンをゆるく模倣するに過ぎず、このようなシステムを研究するための現在の神経科学的方法は不十分です。 (3章で議論された色の結果のような特定のデータを正確に表現するかどうかを決定するためのいくつかの基本的な技術を研究者は持っていますが、2023年初頭の時点で、モデルの出力に必要な情報、推論、および目標を適切に記述することができる方法はありませんでした。

モデルによって生成される説明と、自然言語で推論を促す説明の両方が、その見込みにもかかわらず一貫して不正確であることがあります。

LLMのパフォーマンスは、特定のタスクにおける人間のパフォーマンスに制限されるわけではありません。

たとえLLMが人間の書き込み活動を模倣するように教えられたとしても、多くの分野で最終的に人間を超える可能性があります。これには2つの要因があります。まず、彼らは誰もが見るよりもはるかに多くのデータでトレーニングされるため、学習、記憶、および潜在的に合成する情報がかなり多くあります。さらに、展開前に強化学習でトレーニングされることがしばしばあるため、人間がそのような行動を示す必要がなくても、彼らに有益な応答を生成するように教えます。これは、囲碁などのゲームで超人的なスキルレベルを達成するために使用される方法に似ています。

たとえば、LLMは、あるシードテキストの後に最も起こりやすい単語を予測するという事前トレーニングのタスクで、人間よりもはるかに正確であるようです。さらに、人間は、自分自身よりも正確にタスクを実行するようにLLMに教えることができます。

LLMは、著者やオンラインコンテンツで伝えられた価値を反映する必要はありません。

単純な事前訓練済みLLMの出力は、入力テキストと非常に似ています。これには、テキストの価値に一致するものが含まれます。モデルの価値に関する明示的なコメントや、その執筆の背後にある暗黙的なバイアスは、トレーニングデータを反映しています。ただし、これらの設定は、プレーントレーニング済みLLMに追加のプロンプトとトレーニングを適用して、製品にしようとする場合、開発者の手によってほとんど制御されます。展開されたLLMの値は、トレーニングデータで使用された値の加重平均である必要はありません。その結果、これらのモデルで伝えられる価値は、それらを構築する特定の人々や組織の重要性に一致する必要はなく、外部の入力と検証の対象になる可能性があります。

LLMとの短い出会いは、しばしば欺瞞的です。

今日使用されている多くのLLMは、一般的に指示を与えることができますが、この機能は、モデルに組み込む必要があるため、貧弱なツールで接合することはできません。プロンプトエンジニアリングの成長するスキルは、多くのモデルが最初にタスクを完成させられないが、その後、要求をわずかに言い換えるか再構成すると成功することを観察することに基づいています。これは、モデルが彼らのドキュメントの詳細に独自に反応できるようになる部分的な理由です。

これらの偶発的な故障は、言語モデルに命令を実行することが完全に保証されていないことを示しています。モデルが適切にプロンプトされてタスクを実行すると、さまざまなテストシナリオで優れたパフォーマンスを発揮することがよくあります。それでも、1回の失敗例で仕事を行うための知識や能力を持っていないという証拠にはなりません。

たとえ1つのLLMが特定のタスクを完了できないことを知っていても、それだけでは、他のLLMが同じことをすることを証明するわけではありません。

それにもかかわらず、LLMがタスクを成功裏に実行できることを1回だけ見ることは十分な証拠であり、そのインスタンスがデモンストレーションのためにランダムに選択された場合は特にそうです。

LLMは、トレーニングデータからタスクを解決するための特定の例または戦略を記憶することがありますが、そのようなタスクを堅牢に実行するために必要な推論プロセスを内部化することはありません。

制限事項

現在のシステムにおいて主な問題は幻覚であり、LLMが信憑性のある誤った記述を出力することです。これにより、彼らが責任を持って使用できる範囲が著しく制限されます。
モデルがこれらの悪い振る舞いを認識できることを活用した新しい戦略の結果、モデルの出力に明示的なバイアスや有害性が著しく減少しました。これらの保護策は完全に確実ではないかもしれませんが、時間の経過とともにこれらの望ましくない習慣の頻度と重要性を低下させるはずです。
LLMが世界の内部モデルを改善し、それらのモデルを実践的な問題に適用する能力を向上させるにつれて、彼らはますます多様な活動、例えば現実世界での成果を最大化するための創造的な戦略の開発や実装に取り組むためのより良い位置にあります。
開発者の経済的動機、価値観、または人格に基づく将来のLLMの能力に関する予測は、多くの重要なLLMの能力が出現する場合に予測できない性質があるため、失敗する可能性があります。
多数の信頼できる科学的研究により、最近のLLMは、比較的簡単なものでさえ言語理解と常識的思考のテストを完了できないことが示されています。

主な特徴：

追加費用なしでより強力になります
信頼できる手段はありません
グローバルモデルを学習する
人間よりも多くのことに優れています
人々の行動に影響を与える信頼できる方法はありません。
予測できない行動が生じる可能性があります。
短時間の会話では欺かれることがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

大規模言語モデル（LLM）に関する驚くべき8つの事実

Was this article helpful?

ChatArenaをご紹介します：複数の大規模言語モデル（LLMs）間のコミュニケーションとコラボレーションを容易にするために設計されたPythonライブラリです

データランドスケープの進化

機械学習

CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています

「イギリスのテックフェスティバルが、クリエイティブ産業でAIを活用するスタートアップ企業を紹介する」

エッセンシャルコンプレクシティは、開発者のユニークセリングポイントです

「ヘルスケアとゲノミクス産業が機械学習とAIで革新する方法」

AIを使用して、自分の目で直接拡張現実（AR）を体験してみましょう

「Midjourneyを使ってYouTubeのサムネイルを作る方法（販売可能なもの）」