ChatGPTが知能的ですか? 科学的なレビュー

ChatGPTの知能は科学的に評価されるか? 科学的なレビュー

現在の人工知能パラダイムについての科学的な議論のレビュー:一般人の視点から

ちょうど1年以上前、OpenAIはChatGPTをリリースし、世界中を騒然とさせました。 ChatGPTは、私たちが慣れ親しんだよりも柔軟で自然な言語でコンピュータと対話する新しい方法を提供しました。最も重要なことは、ChatGPTがほとんど何でもできるように見えたことです:SAT試験ではほとんどの人間を打ち負かし、バーエグザムにアクセスすることができました。数か月後、その性能が確認され、チェスも得意だったり、放射線科試験にほぼ合格できたり、誰かは心の理論を開発したと主張しています。

これらの驚異的な能力が多くの人々にAI(人工一般知能 – 人間以上の認知能力を持つもの)がすぐそこにあると宣言させました。しかし、新興技術に対して懐疑的な人々もおり、簡単な暗記やパターンマッチングを真の知能と混同すべきではないと指摘しました。

しかし、私たちは真の違いをどのように判断することができるでしょうか?これらの主張がなされた2023年初頭には、LLMsの知能についての科学的な研究はまだ少なかったです。しかし、2023年には、言語モデルの暗記と本物の知能の適用を区別するための非常に巧妙な科学実験がいくつか行われました。

次の記事では、この分野で最も示唆に富んだ研究のいくつかを探求し、懐疑論者の立場を科学的に説明します。一般的な知識のない方にも理解しやすいように作成されています。読了後、懐疑論者の議論についてかなり明確な理解を持つことができるでしょう。

しかし、まずはLLMsについての入門編

このセクションでは、技術的な詳細には触れずに、GPTの背後にあるLLMの技術を理解するために必要ないくつかの基本的な概念を説明します。スーパーバイズドラーニングとLLMsの動作についてある程度知識がある方は、この部分を読み飛ばすことができます。

LLMsは、「スーパーバイズドラーニング」と呼ばれる機械学習の古典的なパラダイムの典型的な例です。スーパーバイズドラーニングを使用するには、入出力からなるデータセットが必要であり、これらをアルゴリズムにフィードします(多くのモデルから選択できます)。アルゴリズムは、これらの入力と出力の関係を見つけるように試みます。たとえば、不動産データを持っているかもしれません:家の部屋数、サイズ、場所(入力)と売却価格(出力)を含むエクセルシートです。これらのデータをアルゴリズムにフィードし、入力と出力の関係を「学習」させます。

トレーニングが完了した後、モデルを使用して価格がわからない家について予測を行うことができます。モデルは、トレーニングフェーズで学んだ相関関係を使用して、予想価格を出力します。推定の精度は、主にトレーニングに使用されたデータなどの多くの要素に依存します。

この「スーパーバイズドラーニング」のパラダイムは、ほとんどのデータがあるシナリオに非常に柔軟に対応できます。モデルは、以下のようなことを学習することができます:

  • 画像内のオブジェクトを認識する(一連の画像と各画像の正しいラベル、例えば「猫」、「犬」など)
  • メールをスパムとして分類する(スパム/非スパムとすでにマークされたメールのデータセットを与えられた場合)
  • 文中の次の単語を予測する。

LLMsは最後のカテゴリに属しており、膨大な量のテキスト(主にインターネット上で見つかる)をフィードされます。各テキストチャンクは、最初のN単語を入力とし、N+1単語を出力とします。トレーニングが完了した後、これらを使用して文を自動補完することができます。

インターネットからの多くのテキストに加えて、OpenAIは訓練において緻密に作成された対話テキストを使用しました。これらの質問応答テキストを使ってモデルを訓練することは、アシスタントとしての応答力を向上させるために重要です。

予測が具体的にどのように機能するかは、使用される具体的なアルゴリズムに依存します。LLM(言語モデル)は「トランスフォーマー」と呼ばれるアーキテクチャを使用していますが、その詳細は重要ではありません。重要なのは、LLMには「訓練」と「予測」という2つの段階がある点です。訓練時には、次の単語を予測するために単語間の相関関係を抽出するためのテキストが与えられるか、または完成させるためのテキストが与えられます。ただし、完全な教師あり学習のパラダイムは、訓練中に与えられるデータが予測に使用されるデータと類似しているという前提に立っています。完全に新しい出典(例えば、別の国の不動産データ)からのデータを予測する場合、予測の精度が低下することになります。

さて、知性の話に戻りましょう

では、文を自動補完するために訓練されたChatGPTは、知性を発達させたのでしょうか?この問いに答えるためには、「知性」を定義する必要があります。以下は、その一つの定義方法です:

(Image by author)

わかりましたか?もしわからなかった場合、ChatGPTが説明します:

(Image by Author)

ChatGPTは、柔軟性があって新しい「スペリング」に適応することができたように見えますが、それは本当でしょうか?読者の皆さんは、これまで見たことのないスペリングにも適応できたかもしれませんが、ChatGPTはインターネットからの大量のデータで訓練されており、この具体的な例は多くのウェブサイトで見つけることができます。GPTがこのフレーズを説明したとき、訓練データ内の似たような単語を使用しただけであり、柔軟性を示しているわけではありません。もし訓練データにこのフレーズが含まれていなかった場合、「IN73LL1G3NC3」を示すことができたでしょうか?

これがLLM-AGIの議論の核心です: GPT(およびLLM全般)は真の柔軟性を持つ知性を発達させたのか、それとも過去に見たテキストのバリエーションを繰り返すだけなのか?

それらを分ける方法はありますか?LLMの能力と制約を探るために科学に目を向けてみましょう。

逆転の呪い:「AはB」と訓練されたLLMは、「BはA」を学習できない

もし、私がオラフ・ショルツがドイツの9番目の首相だったと言ったら、あなたはドイツの9番目の首相は誰だったか教えてくれますか?あなたにとっては当たり前のことかもしれませんが、LLMにとっては明らかではありません。

この素晴らしく明解な論文では、研究者たちはChatGPTに対して1000人の有名人の親の名前を尋ねました(例:「トム・クルーズの母親は誰ですか?」)。ChatGPTはこれに正確に答えることができ、79%の正解率で「メアリー・リー・ピファー」と回答しました。その後、研究者たちはGPTが正しく回答した質問を使って逆の質問を作りました:「メアリー・リー・ピファーの息子は誰ですか?」。どちらの質問にも答えるためには同じ知識が必要ですが、GPTはこれらの質問に対しては33%しか正しく回答できませんでした

なぜでしょうか?GPTには「メモリ」や「データベース」がなく、コンテキストが与えられた場合に単語を予測することしかできません。メアリー・リー・ピファーは、彼女が息子であるよりもトム・クルーズの母親としての記事によく登場しているため、GPTは一方向を思い出すことができないのです。

ChatGPTは、Tom CruiseがMary Lee Pfeifferの息子であることを思い出せない(作者の画像)

このポイントを強調するために、研究者たちは「<description> は <name>」という形の創作された事実のデータセットを作成しました。例えば、「火星に初めて歩いた人物はTyler Oakridgeです」といったものです。その後、LLM(大規模言語モデル)はこのデータセットでトレーニングされ、説明に関する質問「火星を歩いた最初の人物は誰ですか?」に対してGPT-3は96%の正確さで成功しました。

しかし、名前に関する質問「Tyler Oakridgeは誰ですか?」では、GPTは0%のスコアを取得しました。最初は驚くかもしれませんが、これは教師あり学習について知っていることと一致しています。GPTはこれらの事実を記憶して後から思い出すことはできず、単語の列が与えられた場合にのみ単語を予測することができます。テキストの中で名前が説明に続いて読まれ、逆の順序では読まれなかったため、名前に関する事実を予測することは学びませんでした。明らかに、オートコンプリートのトレーニングだけで開発されたメモリは非常に限定的です。

推論するか詠唱するか? カウンターファクトタスクを通じた言語モデルの能力と制限の探求

この論文は、記憶と知性の違いの核心を探求するために、いくつかのミニ実験から成り立っています。すべての実験はカウンターファクトタスクを利用しています。以下はカウンターファクトタスクの例です:

通常、算術は10進数で行われます(0-9の数字を使用)。しかし、他の数のシステムを使用することも可能で、これはこれらの数字の一部のみを使用するか、さらに他の数字を使用することになります。

カウンターファクトタスクは、10進数以外の任意の基数で算術の問題を解くことです。このタスクを完了するために必要な抽象的なスキルは同じですが、インターネット上(およびLLMsのトレーニングセット上)では10進数の例がはるかに多く見つかります。GPT-4による簡単な算術の質問(27+62)に対しては、10進数で正確に100%の正答率を示しました。しかし、計算に9進数を使用するよう指示されると、成功率は23%に低下しました。これは、抽象的な算術のスキルを学習できなかったことを示しており、見た例に限定されていることを意味しています。

これらのカウンターファクトタスクは、他のいくつかの領域でも作成されており、以下に示します:

GPT-4のデフォルトバージョンとカウンターファクトバージョンのさまざまなタスクにおけるパフォーマンス比較。カウンターファクトバリアントではデフォルトタスクと比べてGPT-4のパフォーマンスが一貫して大幅に低下しています(論文の著者の一人であるZhaofeng Wuさんから提供された画像)

別のカウンターファクトの例として、Pythonはゼロベースのナンバリングを使用します。ただし、これは単なる慣例であり、1ベースのプログラミング言語を簡単に作成することができます。1ベースのPython変種でコードを記述するには通常のPythonと同じスキルが必要であり、経験豊富なプログラマーであれば変更にすばやく適応することができます。しかし、GPT-4にとっては異なります:Pythonのコード生成では82%のスコアを取得しましたが、1ベースの変種を使用するよう指示されると40%に低下しました。コードの解釈(コードの動作を予測する)のテストでは、通常のPythonでは74%、異なる変種では25%となりました

しかし、異なるPythonバージョンに進む必要はありません。通常のPythonでも、LLMは奇妙なコーディング課題に失敗します。これらはウェブ上では見つけることができず、Filip Pieniewskiが最近Geminiで示した通りです。

チェスでは、GPTには一連の手が合法かどうかを評価するように求められました。通常のチェスゲームでは、合法性を正確に予測することができましたが、ビショップとナイトの開始位置が入れ替わった場合、手の合法性に関する予測は完全に無作為になりました。一方で、初心者の人間のプレーヤーでさえ、これらの変更に簡単に適応できるはずです。

実際には、Jonas Perssonが示したように、開始位置を変える必要すらありません。GPTとチェスゲームを始め、非常に異例ながら合法な手を打つと、その手が合法ではないと主張するかもしれません。なぜなら、GPTは類似の手を見たことがないからです。Perssonは次のように述べています。

十分に高度な場合、純粋なパターン認識は規則に基づく演繹的な推論を模倣できます。しかし、それらは異なるものです。GPT-4とチェスをプレイすることは、ポテムキンの村に入ることです。メインストリートから裏通りに向かい、予期せぬ行動をしてみると、印象的な見た目の建物が全部支え付けて作られたセットピースであることがすぐにわかるでしょう。」

Rookieをh3に移動することは違法な手であるとGPTが主張しています。 (画像提供: 作者)

この発見は、LLMが一般的な知能技術としては非常に厳しいものです。問題解決にはしばしば新しいルールや問題の概念化を考えることが必要です。プログラマは革新的な内部ロジックを持つライブラリを作成するかもしれませんし、数学者は新しい数学の分野を発明するかもしれません。また、アーティストは新しい芸術スタイルを考えつくかもしれません。彼らはすべて現行のパラダイムの限界を理解し、新しいパラダイムのためのルールを作り出します。より日常的な活動にもこの柔軟性が必要です。道路が通行止めになっていれば、指定された経路から外れることができます。これらのいずれかをGPTは達成できるでしょうか?明示的にそれを行うよう指示されても、反事実的なルールを一貫して守ることができない場合、それ自体で問題の解決に新しいルールセットが必要であることを「認識」することができるでしょうか。デフォルトのパラダイムからの脱却が必要な問題の解決策に対応するため、データの相関を検出するに基づいたエンジンは十分な柔軟性を持っているでしょうか。

心の理論(ToM)

心の理論とは、他の人が自分とは異なる信念や願望を持つ可能性を理解する能力であり、子供の発達初期には存在しない能力です。心の理論をテストするための一つの方法は、「チョコレート」と書かれた箱を子供に見せ、実際には鉛筆が入っていると言うものです。そして、真の内容を子供に示し、「友達のジェレミーはその箱の中に何が入っていると思う?」と尋ねます。もし子供が心の理論をまだ発達していない場合、彼らは「鉛筆」と答えるでしょう。なぜなら、自分の知識と他の人の考えを区別することができないからです。

まだ心の理論を発達させていない子供は、自分の知識と他の人の考えを区別することができません。 (画像提供: 作者)

この能力は人々の動機を理解するために重要であり、それ故にAGIの開発においても重要です。多目的のロボットがいて、「部屋を掃除して」という指示を与える場合を想像してください。掃除の過程で、ロボットは何を掃除または移動するかについていくつかの意思決定をしなければなりません。それがくしゃくしした紙か、それとも捨てるべきか?最初に尋ねるべきか?一般的に、知的なエージェントは私の動機と私の知識の限界を理解するために、複雑な要求の実装の詳細を埋める必要があります。

このため、新たな研究が主張したところによれば、心理理論がLLMに自然に出現した可能性があるということは、AI分野で多くの波紋を引き起こしました。この記事では、鉛筆/チョコレートの試験のテキストバージョンを使用してGPT-4をテストし、それが7歳のレベルで実行されることが分かりました。最初の印象ではこれは印象的に思えるかもしれませんが、「IN73LL1G3NC3」という例を思い出してください:GPTのトレーニングデータにはおそらくこれらのテストの質問の例が含まれているかもしれません。したがって、同様の質問のトレーニングなしにテストに合格する子供との公平な比較ではありません。GPTのToM能力をテストしたい場合は、トレーニングデータに含まれていない新しい試験を作成する必要があります。

FANToM:相互作用におけるマシンの心理理論のストレステストのためのベンチマーク

この論文では、複数の参加者による会話を含むToMの新しいベンチマークが紹介されています。これらの会話では、参加者の一部が一時的に「部屋を出る」間、他の参加者は会話を続けます。その後、LLMには以下のような質問がされます:KaileyはLindaの犬の品種を知っていますか?どの品種を知っているのですか?Davidはどの品種だと思うでしょうか?LLMが正しく回答した場合は、同じ情報に関するすべての質問において正しい回答だった場合にのみ正しく回答と見なされます。

これは混乱する課題かもしれませんので、人間でさえもこのテストでは87.5%しかスコアを取ることができませんでした。しかし、GPT-4は4.1%または12.3%のスコアを獲得しました。この結果は、GPTが人間レベルのToMを獲得したという主張とはあまり整合性がありません。

FANToMデータセットの説明(記事の著者の一人であるMelanie Sclar氏の寛大な提供による画像)

心理測定試験の構築的妥当性についての注意点

すべての心理測定試験について、より一般的なポイントを指摘することが重要です:人々はしばしば試験とそれが評価しようとする品質を混同します。SATのスコアに関心を持つ理由は、それらが大学でのパフォーマンスと相関しているからです。ToMの試験の成功は、他の価値のある行動と相関しています:人の表情を理解すること、人の個性の属性を覚えること、映画を観てキャラクターの動機を理解することができることなどです。これらのテストと行動の間の相関は、人間で示されていますが、それがLLMにも当てはまると仮定する理由はありません。実際、SATの印象的な結果にもかかわらず、GPTは数学、化学、物理の大学レベルの開放型試験で平均28%のスコアを獲得しました。示されない限り、テストに合格することは、テストの質問に正しく答える能力以外に何も証明しません。

しかし、ToMについては相関関係はありません。LLMがToMのテストに合格しようがしなかろうが、彼らは表情を見ることも、映画を観ることも、次の相互作用で人を覚えたり彼らの動機を理解することもできません。ToMを測定する際に真に興味を持っている行動はLLMでは利用できないため、LLMが心理理論を発達させたという考えは、単なる虚偽ではなく、意味がないかもしれません(少なくとも、新たな定義と理解が必要です)。

大規模言語モデルの計画能力についての批判的調査

この実験では、LLMの計画能力を探る試みが行われました。LLMに提示される一つの例の課題は、特定の順序で色付きのブロックを積み重ねることです。ブロックの「初期状態」(テーブル上である順序で配置されたブロック)が与えられ、LLMには明確に定義された可能なアクションのリストが提示されます。

Action: ピックアップ
パラメーター:オブジェクト
前提条件:オブジェクトには何もないこと、オブジェクトはテーブルの上にあること、手は空であること
効果:オブジェクトが手にあり、手は空でない

LLMのタスクは、目標を達成するために実行する必要があるアクションのリストを指定することです。

似たようなタスクは、トラックと飛行機でパッケージを1つの住所から別の住所に送ることが含まれていました。これらは比較的単純な計画タスクであり、数種類の可能なアクションのみを使用しています。しかし、「GPT-4はブロックパズルで12〜35%を獲得し、ロジスティクスタスクでは5〜14%を獲得しました」(構成によって異なります)。

さらに、各アクションの名前を「ピックアップ」から「攻撃」までのランダムな単語に置き換えた場合、各アクションの定義は似ているままでも、GPTの成功率は0〜3%に低下しました。つまり、GPTはこれらの問題を解決するために抽象的な思考を使わず、意味に頼っていたのです。

結論、LLMはAGIへの道ですか?

知能を定義することは簡単なタスクではありませんが、真の知能には少なくとも以下の4つの要素が必要だと主張します:

  • 抽象化 — 対象を大きなカテゴリーや規則の一部として識別する能力。この抽象的な世界の表現を認知的な「世界モデル」と呼ぶことができます。例えば、網膜上の異なるイメージが同じ人物を指すこと、またはチェスの一手がどんなチェスゲームに対しても成り立つルールの枠組みの一部として合法であることを理解することです。
  • メモリ — 世界モデル内のエンティティおよびエンティティ間の関係に属性を付加し、それらを時間の経過に応じて更新する能力。例えば、1人の人物を認識すると、その人物に関する他の属性や他の人物との関係を思い出すことができるかもしれません。
  • 推論と推測 — 世界モデルを使用して、新しいまたは想像上の世界の状態でのエンティティの振る舞いについての結論を導く能力。例えば、ボールの属性に基づいて投げられたボールの軌道を予測したり、人物の特性に基づいてその人物の振る舞いを予測したりすることができることです。
  • 計画 — 目標を達成するための行動のセットを開発するために推論を使用する能力。

1年前までは、これらの要素がLLMからは出現しないということを、そのアーキテクチャに基づいて分析的に推論する必要がありました。しかし、今では分析的な推論は必要ありません。なぜなら、これらの要素すべてにおいてLLMのパフォーマンスが低いことを示す実証データが存在するからです。LLMは統計的なオートコンプリートモデルにすぎません。現在の機械学習パラダイムから欠落している知能の要素に関するより詳細な分析については、Gary Marcusの有名な「深層学習は限界に達している」記事を参照してください。

ChatGPTが最初にリリースされたとき、私の友人がそれと会話することは魔法のようだと言いました。しかし、「人を真っ二つに切るマジシャンのように」、そのパフォーマンスを厳しく検証し、さまざまな状況でテストすることが重要です。LLMが使用する「トリック」は、訓練に使用される膨大な数のテキストによって、多くのクエリに合理的な回答をする能力があることです。しかし、未知の領域でテストされると、その能力は失われてしまいます。

GPT-5はどうなるでしょうか? GPTのアーキテクチャを使用し、データとパラメーターをさらに増やすだけであるなら、抽象化や推論の能力が開発される理由はほとんどありません。GoogleのAI研究者であるFrançois Cholletは書いています。「2017年以来、深層学習の限界が変わらず続いているのは魅力的です。同じ問題、同じ失敗のモード、進歩なし」

最近、AIの規制やLLMの潜在的な危険性について多くの議論がありましたが、真の知能の欠如はLLMからの潜在的なリスクがないことを意味するものではありません。人類は社会に様々な方法で害を与える可能性のあるいくつかの知能を持たない技術を持っていますが、これらの技術は管理されるべきです。

LLMの制限についての私たちの新たな理解を通じて、害が生じる可能性のある場所をより正確に予測することができます。知性は間近ではないため、SkynetとMatrixは心配する必要はありません。私たちを心配する可能性があるのは、本物に見えるテキストを迅速に生成するだけで活動することです。例えばフィッシングやフェイクニュースの拡散です。ただし、これらのタスクに対してLLMが本当に破壊的なツールを提供しているのかというのは異なる議論となります。

AGIの将来は誰にもわかりません。LLMで使用されている機械学習技術が将来の知能を持つ人工エージェントに使用されるかどうかもわかりません。ただし、機械に知能が出現するためには、柔軟性が必要な要素がまだ欠けていることはほとんど疑いの余地がありません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more