Google AIは、Symbol Tuningを導入しました:入力-ラベルのマッピングを強調することで、コンテキスト内の学習を改善できるシンプルなファインチューニング方法

Google AI introduces Symbol Tuning a simple fine-tuning method that improves learning within context by emphasizing input-label mapping.

言語モデルは、自然言語のラベルが任意のシンボルに置き換えられたコンテキストで提供される入力-ラベルのペアに調整されています。特定のタスクにおいて、モデルは、推論とタスクの理解を実現するために、コンテキスト内の入力-ラベルのマッピングに依存する必要があります。Google AIチームは、新しい研究論文で、シンプルなファインチューニング手法を紹介しています。この手法は、コンテキスト内の入力-ラベルのマッピングに対して言語モデルの推論能力と学習能力を大幅に向上させます。これをシンボルチューニングと呼んでいます。研究チームは、22のNLPデータセットとさまざまな任意のシンボルをラベルとする実験を行い、複数のFlan-PaLモデルを使用しています。

シンボルチューニングにより、未知のコンテキスト内学習タスクにおけるベースラインモデルのパフォーマンスが向上します。これらのモデルは、意味的に関連のないラベルが自然言語のラベルに置き換えられたファインチューニングされた例示に基づいています。タスクを定義するためには、1つの単一のコンテキスト内例示を見るだけではタスクが明確ではありません。平均して、シンボルチューニングにより、Flan-cont-PaLM-62Bの11.1%のパフォーマンス向上が11の評価タスク全体で得られます。

シンボルチューニングされたモデルは、数値とアルゴリズムのデータではなく、自然言語のデータのみを含んでいます。これにより、これらのモデルはアルゴリズム的な推論タスクでより優れたパフォーマンスを発揮することができます。研究者は、モデルが非負の整数を含む入力と出力リストの間の変換関数を特定する必要がある、一連のリスト機能タスクで実験を行っています。モデルは、バイナリストリングの推論を使用して、入力を出力にマップするためのチューリングコンセプトを使用します。シンボルチューニングにより、Flan-PaLM-8Bのすべてのタスクにおける平均パフォーマンス向上は18.2%、Flan-PaLM-62Bは11.1%、Flan-cont-PaLM-62Bは15.5%、Flan-PaLM-540Bは3.6%です。

命令チューニングされたモデルと比較して、シンボルチューニングされたモデルは、コンテキストで提示された反転ラベルに従う能力が非常に優れています。命令チューニングされたモデルのパフォーマンスはランダムな予測に比べてかなり低く、予測を反転させることができません。一方、シンボルチューニングは、モデルにコンテキスト内で提示されたラベルを任意のシンボルとして考慮させます。これにより、モデルが反転したラベルに矛盾する事前知識を使用することが減少します。研究者は、シンボルチューニング後、Flan-PaLM-8Bのすべてのデータセットにおける平均パフォーマンス向上は26.5%、Flan-PaLM-62Bは33.7%、Flan-PaLM-540Bは34.0%であることを発見しました。

研究者は、小規模なデータセットを持つ任意のモデルに対して、シンボルチューニングに多くのファインチューニングステップは必要ではないと述べています。観察されたパフォーマンスは、初期の1kから2kのステップでパフォーマンスのピーク変化があった後、比較的一定のままです。パフォーマンスが比較的一定であるため、より大きなモデルはより多様なまたは大きなシンボルチューニングデータセットを必要とする可能性があると推測することができます。

初期のステップ後、シンボルチューニングデータの割合が高くなっても、モデルのパフォーマンスには影響しません。その結果、モデルはICL設定で成功します。重要なのは、トリビアルでないシンボルチューニングデータが使用されるかどうかです。チームは、より多様なタスクのセットからの入力によってモデルが新しいタスクへの能力を一般化することができるかどうか、より多様なシンボルチューニングデータの混合割合との強い相関関係を見つけました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

自然言語処理のための高度なガイド

イントロダクション 自然言語処理(NLP)の変革的な世界へようこそ。ここでは、人間の言語の優雅さが機械の知能の正確さと出...

AIニュース

AIと自動化

「AIと自動化技術が優れたリターンを提供する一方で、関連するリスクを理解し最小化するために慎重に取り組む必要がある方法...

AIニュース

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

世界的に有名なオープンソース言語モデル(LLMs)プロバイダーであるMosaicMLは、最新世代のNVIDIA H100アクセラレータを搭載...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

データサイエンス

ヨハネス・ケプラー大学の研究者たちは、GateLoopを紹介します:線形循環とデータ制御された状態遷移によるシーケンスモデリングの進歩

ヨハネス・ケプラー大学の研究者が、効率的な長いシーケンスのモデリングのために線形再帰の可能性を活用する革新的なシーケ...

機械学習

適切なバランスを取る:機械学習モデルにおける過学習と過小適合の理解

機械学習の問題に取り組むすべての人は、自分のモデルができるだけ最適に動作することを望んでいますしかし、望むほどモデル...