チャットボットは何と言うのか?
チャットボットが美容とファッションについてどのように話すのか?
セバスチャン・ブベックは、マイクロソフトリサーチの機械学習基礎グループのシニアプリンシパルリサーチマネージャーです。ブベックは、OpenAIの最新の大規模言語モデル(LLM)であるGPT-4によってプロンプトに応じて複雑なテキスト応答を生成できるチャットボットを使用して、彼の若い娘のためにユニコーンに関する物語をよく作り出しています。彼はシステムがユニコーンの見た目をどう考えているのかが気になり、TikZというプログラミング言語でユニコーンを描くように依頼しました。GPT-4は、それに応じていくつかのコードを返し、それをブベックがコンパイルしました。
結果は原始的なユニコーンの描写でした。
“私は(ほとんど)椅子から転げ落ちました”、とブベックは9月にドイツのハイデルベルクで開催された数学とコンピュータサイエンスの研究者のためのネットワーキング会議であるハイデルベルクローレートフォーラムでのパネルディスカッションで述べました。”それはクソみたいですが、それが全体のポイントです:それはインターネットからコピーされていませんでした。”
ユニコーンは、多くの人工知能(AI)研究者が新興の振る舞いと呼んでいるものの一例です:源とメカニズムが理解しにくく、LLMsが訓練されてきたものを超えた予期せぬ能力です。たとえば、GPT-4はテキストだけから学習したとはいえ、ユニコーンの見た目について何らかの「心のイメージ」を持つことができます。また、数学、プログラミング、医学などの難しい課題を解決することもあり、それらは単に記憶だけでなく、複数のドメインからのスキルと概念の組み合わせが必要です。
研究者たちは現在、LLMsにおける新興能力の仕組みを理解しようとしています。この振る舞いは、次の単語や与えられた質問に対する回答を予測するトランスフォーマーモデルの登場以来観察されてきました。トランスフォーマーモデルは、文法や構文などの言語のパターンを学習することで、単語間のつながりの強さなどを学習します。たとえば、単語「耳」の後に「電話」や「プラグ」といった単語が続く可能性が高く、「幸せ」とは続かないことを学習します。一方、再帰ニューラルネットワーク(RNN)のような以前のアーキテクチャは、コンテキストを考慮せずに文の単語を逐次処理するため、より複雑ではありません。
トランスフォーマーモデルは通常、膨大な量のデータで訓練されます。これが、彼らの優れたパフォーマンスと驚くべき振る舞いの理由だと考えられています。”これらの大規模言語モデルは、ウェブ上で公開されたドキュメント、トランスクリプト、実質的にはWeb上で見つけることができたものを含む、何十億ものデータで訓練されました”、とニューヨーク州トロイのレンセラー工科大学(RPI)のコンピュータ、ウェブ、認知科学の世界の教授であり、人工知能に関するACM特別関心グループの顧問委員会のメンバーでもあるジェームズ・ヘンドラーは語ります。”それは誰もが実際には気づいていなかった範囲に及んでいました(それが)新興特性とされるものへのカバーエリアでした。”
モデルのサイズに関連する他の要素も、予期せぬ能力の説明に役立つかもしれません。最近の研究では、Colin Raffel氏など、カナダのトロント大学の准教授であり、ベクトル研究所の准研究所長でもある彼らは、新興振る舞いがトレーニング計算の量とモデルのパラメータ数と関連しているかどうかを調べました(生成されたテキストの品質と創造性を制御するために調整できる設定)。これらの2つの要素に関して異なるモデル(例:GPT-3とPaLM)のパフォーマンスを比較しました。それらのモデルは、単語ベースの数学の問題を解くか、ある単語を変えて有名な引用を暗唱するなどの様々なタスクでのパフォーマンスを評価しました。もしモデルが一定の複雑性スケール以下ではランダムなパフォーマンスを示し、そのスケール以上ではランダムなパフォーマンスよりも優れたタスクの完了能力を持つ場合、研究者はそのタスクの適合性を新興とみなします。”新興が起こるタスクは非常に多いです”、とRaffelは述べています。”(論文)は、この現象がどれだけ広範囲に起こるかを指摘しています。”
ラッフェルと彼の同僚は、いくつかの混乱要因が存在することを認識しています。モデルが新たな能力を持っていると見なされることがしばしばあります。それは、以前のより小さなスケールのモデルでは正しく回答できなかったプロンプトに正しい回答を与えることができる場合です。例えば、もしGPT-4に非常に多くの桁数を持つ2つの数を掛けるように求められた場合、その能力は生成される積に基づいて測定されます。しかし、以前のモデルは最終的な回答が間違っていたとしても、正しい方向に進んでいる可能性があります。つまり、スケールが大きくなるにつれて増加する改良が実際に存在するかもしれません。「新たな能力が存在しないということではないと思います」とラッフェルは言います。「基本的には、(いくつかの場合)モデルが自然な定義のもとでタスクを実行できるようになったということを意味します。」
プロンプトの戦略、つまり質問の仕方やタスクの説明の仕方など、モデルが生成する回答にも影響を与えることがあります。もし小規模なモデルがタスクを実行できないのに対して大きなモデルが急に実行できるようになった場合、それは必ずしも新たな行動の兆候ではなく、むしろ何を求められたかに対する理解力の向上を示している可能性があります。「モデルの能力とプロンプトの理解力を切り離すことはできません」とラッフェルは言います。「将来的には、それができるかもしれません。」
しかし、GPT-4などの現在のLLMが予期せぬ新たな創造物を生み出せることは、何らかの知性の結果である可能性を示唆しています。Bubeck氏と彼の同僚は、最近の研究で、ユニコーンの描画から短いメロディの作曲まで、GPT-4の初期バージョンがさまざまなタスクでどのようにパフォーマンスを発揮するか調査しました。彼らは、すべてのタスクで特別なプロンプトを必要とせず、そのパフォーマンスが人間のそれと似ており、ChatGPTなどの以前のモデルと比べて大幅に向上していることを発見しました。「GPT-4は、巨大なデータ量を使って巨大なニューラルネットワークを訓練することで、ある種の知性を実現できることを示すデモンストレーションです」とBubeck氏は語ります。
LLMの一部のプロンプトに人間と同様の返答ができる場合でも、多くの研究者はそれらが知性のある特定の定義にしか当てはまらないと主張しています。「これらのシステムは、私たちが人間自身に関して言及するような方法では知的ではありません」とHendler氏は言います。「それらは特定の能力に制約がありますが、さらに重要なことは、意図や目標を持っていないことです。」
LLMの知能の多くの側面は、より良く理解する必要があります。Bubeck氏は、どれだけ巨大なモデルでスマートな振る舞いを示す必要があるのか、また、知性の形式が現れるための最小限の要件は何であるのかを正確に理解したいと考えています。「私にとって、これは時代を定義する質問であり、今まで以上にそれに集中しています」とBubeck氏は語ります。「私たちは実験を実際に行い、そのような最小限の要素を構築しようとする必要があると信じています。」
Bubeck氏と彼の同僚は、トレーニング時間とコストを大幅に削減して、性能が大きなモデルと同様の小規模なLLMを構築することでこの問題に取り組んでいます。彼らは最近、phiというシリーズのモデルを開発しています。これらのモデルは、教科書などに見られるような高品質な合成データでトレーニングされています。「私たちは最近、phi-1.5をオープンソース化しました。これは10億パラメータのモデルであり、より大きなモデルよりも多くの新たな能力を示しています」とBubeck氏は言います。このモデルはまた、常識的な論理推論のタスクでいくつかの大きなモデルを上回る性能を発揮しました。
新しいバージョンのLLMが作成されるにつれて、新たな能力はさらに洗練され、広まる可能性もあります。ただし、それには賛同する人もいません。
マイクロソフトの元CEOであり会長であるビル・ゲイツは最近のインタビューで、そういうシステムの能力はピークに達し、GPT-5はGPT-4を超えないと述べました。彼はむしろ信頼性と解釈可能性の面で改善されると考えています。
Hendler氏も同様の意見です。「私は大きな驚きを見ることはないと思います」と彼は言います。「LLMはむしろますます特化した問題と領域に対する専門的なシステムとして発展するでしょう。」
Sandrine Ceurstemontは、イギリス・ロンドンを拠点とするフリーランスの科学ライターです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles