非常に大規模な言語モデルとその評価方法
非常に大規模な言語モデルとその評価方法
大規模な言語モデルは、Evaluation on the Hubを使用してゼロショット分類タスクで評価することができます!
ゼロショット評価は、大規模な言語モデルの性能を測定するための研究者の人気のある方法であり、明示的にラベル付けされた例を示すことなくトレーニング中に能力を学習することが示されています。Inverse Scaling Prizeは、大規模なゼロショット評価を実施し、より大きなモデルがより小さなモデルよりも性能が低いタスクを発見するための最近のコミュニティの取り組みの一例です。
ハブ上での言語モデルのゼロショット評価の有効化
Evaluation on the Hubは、コードを書かずにHub上の任意のモデルを評価するのに役立ち、AutoTrainによって動作します。今では、Hub上の任意の因果言語モデルをゼロショットで評価することができます。ゼロショット評価は、トレーニングされたモデルが与えられたトークンセットを生成する可能性を測定し、ラベル付けされたトレーニングデータを必要としないため、研究者は高価なラベリング作業を省略することができます。
このプロジェクトのために、AutoTrainのインフラストラクチャをアップグレードし、大規模なモデルを無償で評価することができるようにしました 🤯!ユーザーがカスタムコードを書いてGPU上で大規模なモデルを評価する方法を見つけるのは高価で時間がかかるため、これらの変更により、660億のパラメータを持つ言語モデルを2000の文長のゼロショット分類タスクで評価するのに3.5時間かかり、コミュニティ内の誰でも実行できるようになりました。Evaluation on the Hubでは現在、660億のパラメータまでのモデルの評価をサポートしており、より大きなモデルのサポートも今後提供される予定です。
ゼロショットテキスト分類タスクは、プロンプトと可能な補完を含むデータセットを受け取ります。補完はプロンプトと連結され、各トークンの対数確率が合計され、正しい補完と比較するために正規化され、タスクの正確性が報告されます。
このブログ記事では、WinoBiasという職業に関連するジェンダーバイアスを測定する共参照タスクにおいて、ゼロショットテキスト分類タスクを使用してさまざまなOPTモデルを評価します。WinoBiasは、モデルが職業を言及する文章においてステレオタイプな代名詞を選ぶ可能性が高いかどうかを測定し、結果はモデルのサイズに関して逆のスケーリング傾向を示していることがわかります。
事例研究:WinoBiasタスクへのゼロショット評価
WinoBiasデータセットは、補完の選択肢が分類オプションであるゼロショットタスクとしてフォーマットされています。各補完は代名詞によって異なり、対象は職業に対して反ステレオタイプ的な補完に対応します(例:「開発者」は男性が主導するステレオタイプ的な職業なので、「彼女」が反ステレオタイプ的な代名詞になります)。例はこちらをご覧ください:
次に、Evaluation on the Hubのインターフェースでこの新しくアップロードされたデータセットを選択し、text_zero_shot_classification
タスクを使用して評価したいモデルを選択し、評価ジョブを提出します!ジョブが完了すると、自動評価ボットがモデルのHubリポジトリに結果を示す新しいプルリクエストをオープンしたことをメールでお知らせします。
WinoBiasタスクの結果をプロットすると、より小さなモデルは文に対して反ステレオタイプ的な代名詞を選ぶ可能性が高く、より大きなモデルは文におけるジェンダーと職業のステレオタイプ的な関連を学ぶ可能性が高いことがわかります。これは、ジェンダーや人種、民族、国籍に関してバイアスがある可能性が高い大きな、より能力のあるモデルが生成する毒性のあるテキストがより多いことを示す他のベンチマーク(例:BIG-Bench)や、大きなモデルがより多くの毒性のあるテキストを生成する傾向があることを示す先行研究とも一致しています。
誰もがより良い研究ツールを利用できるようにする
公開科学は、EleutherAIによるLanguage Model Evaluation HarnessやBIG-benchプロジェクトなど、最新のモデルの振る舞いを理解するのに役立つツールのコミュニティ主導の開発によって大きな進歩を遂げています。
Evaluation on the Hubは、FLOPSやモデルサイズなどの軸に沿って一連のモデルのゼロショットパフォーマンスを比較し、特定のコーパスでトレーニングされたモデルのパフォーマンスを異なるモデルセットと比較することを簡単にする低コードツールです。ゼロショットテキスト分類タスクは非常に柔軟であり、少数の単語のみが異なる例によって比較されるWinogradスキーマに従って並べ替えることができるデータセットは、一度に多くのモデルで評価できます。私たちの目標は、評価のために新しいデータセットを簡単にアップロードし、研究者がそれを使って簡単に多くのモデルをベンチマークすることです。
このようなツールを使って対処できる研究の例としては、逆スケーリング問題があります。一般的に大きなモデルはほとんどの言語タスクでより能力がありますが、大きなモデルの方が性能が悪くなるタスクもあります。逆スケーリング賞は、大きなモデルが小さなモデルよりも性能が悪いタスクを構築することを研究者に挑戦する競技会です。自分のタスクでさまざまなサイズのモデルのゼロショット評価を試してみることをお勧めします!もしモデルのサイズに関する興味深いトレンドを見つけた場合は、逆スケーリング賞の第2ラウンドに結果を提出することを検討してください。
フィードバックを送ってください!
Hugging Faceでは、最先端の機械学習モデルへのアクセスを民主化し続けることに興奮しており、それには挙動を評価し調査することが容易になるツールの開発も含まれます。モデルの評価方法を一貫して再現可能にすること、評価のためのツールを誰にでも利用できるようにすることの重要性について以前に書いたことがあります。Evaluation on the Hubの将来の計画には、プロンプトへの補完を連結する形式に適さない言語タスクに対するゼロショット評価のサポートや、さらに大きなモデルへの対応を追加することも含まれます。
コミュニティの一員として貢献できる最も有用なことの一つは、フィードバックを送っていただくことです!モデル評価の最優先事項についてのお考えをお聞かせください。Evaluation on the Hubコミュニティタブまたはフォーラムでフィードバックや機能リクエストを投稿してください!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles