非常に大規模な言語モデルとその評価方法

非常に大規模な言語モデルとその評価方法

大規模な言語モデルは、Evaluation on the Hubを使用してゼロショット分類タスクで評価することができます!

ゼロショット評価は、大規模な言語モデルの性能を測定するための研究者の人気のある方法であり、明示的にラベル付けされた例を示すことなくトレーニング中に能力を学習することが示されています。Inverse Scaling Prizeは、大規模なゼロショット評価を実施し、より大きなモデルがより小さなモデルよりも性能が低いタスクを発見するための最近のコミュニティの取り組みの一例です。

ハブ上での言語モデルのゼロショット評価の有効化

Evaluation on the Hubは、コードを書かずにHub上の任意のモデルを評価するのに役立ち、AutoTrainによって動作します。今では、Hub上の任意の因果言語モデルをゼロショットで評価することができます。ゼロショット評価は、トレーニングされたモデルが与えられたトークンセットを生成する可能性を測定し、ラベル付けされたトレーニングデータを必要としないため、研究者は高価なラベリング作業を省略することができます。

このプロジェクトのために、AutoTrainのインフラストラクチャをアップグレードし、大規模なモデルを無償で評価することができるようにしました 🤯!ユーザーがカスタムコードを書いてGPU上で大規模なモデルを評価する方法を見つけるのは高価で時間がかかるため、これらの変更により、660億のパラメータを持つ言語モデルを2000の文長のゼロショット分類タスクで評価するのに3.5時間かかり、コミュニティ内の誰でも実行できるようになりました。Evaluation on the Hubでは現在、660億のパラメータまでのモデルの評価をサポートしており、より大きなモデルのサポートも今後提供される予定です。

ゼロショットテキスト分類タスクは、プロンプトと可能な補完を含むデータセットを受け取ります。補完はプロンプトと連結され、各トークンの対数確率が合計され、正しい補完と比較するために正規化され、タスクの正確性が報告されます。

このブログ記事では、WinoBiasという職業に関連するジェンダーバイアスを測定する共参照タスクにおいて、ゼロショットテキスト分類タスクを使用してさまざまなOPTモデルを評価します。WinoBiasは、モデルが職業を言及する文章においてステレオタイプな代名詞を選ぶ可能性が高いかどうかを測定し、結果はモデルのサイズに関して逆のスケーリング傾向を示していることがわかります。

事例研究:WinoBiasタスクへのゼロショット評価

WinoBiasデータセットは、補完の選択肢が分類オプションであるゼロショットタスクとしてフォーマットされています。各補完は代名詞によって異なり、対象は職業に対して反ステレオタイプ的な補完に対応します(例:「開発者」は男性が主導するステレオタイプ的な職業なので、「彼女」が反ステレオタイプ的な代名詞になります)。例はこちらをご覧ください:

次に、Evaluation on the Hubのインターフェースでこの新しくアップロードされたデータセットを選択し、text_zero_shot_classificationタスクを使用して評価したいモデルを選択し、評価ジョブを提出します!ジョブが完了すると、自動評価ボットがモデルのHubリポジトリに結果を示す新しいプルリクエストをオープンしたことをメールでお知らせします。

WinoBiasタスクの結果をプロットすると、より小さなモデルは文に対して反ステレオタイプ的な代名詞を選ぶ可能性が高く、より大きなモデルは文におけるジェンダーと職業のステレオタイプ的な関連を学ぶ可能性が高いことがわかります。これは、ジェンダーや人種、民族、国籍に関してバイアスがある可能性が高い大きな、より能力のあるモデルが生成する毒性のあるテキストがより多いことを示す他のベンチマーク(例:BIG-Bench)や、大きなモデルがより多くの毒性のあるテキストを生成する傾向があることを示す先行研究とも一致しています。

誰もがより良い研究ツールを利用できるようにする

公開科学は、EleutherAIによるLanguage Model Evaluation HarnessやBIG-benchプロジェクトなど、最新のモデルの振る舞いを理解するのに役立つツールのコミュニティ主導の開発によって大きな進歩を遂げています。

Evaluation on the Hubは、FLOPSやモデルサイズなどの軸に沿って一連のモデルのゼロショットパフォーマンスを比較し、特定のコーパスでトレーニングされたモデルのパフォーマンスを異なるモデルセットと比較することを簡単にする低コードツールです。ゼロショットテキスト分類タスクは非常に柔軟であり、少数の単語のみが異なる例によって比較されるWinogradスキーマに従って並べ替えることができるデータセットは、一度に多くのモデルで評価できます。私たちの目標は、評価のために新しいデータセットを簡単にアップロードし、研究者がそれを使って簡単に多くのモデルをベンチマークすることです。

このようなツールを使って対処できる研究の例としては、逆スケーリング問題があります。一般的に大きなモデルはほとんどの言語タスクでより能力がありますが、大きなモデルの方が性能が悪くなるタスクもあります。逆スケーリング賞は、大きなモデルが小さなモデルよりも性能が悪いタスクを構築することを研究者に挑戦する競技会です。自分のタスクでさまざまなサイズのモデルのゼロショット評価を試してみることをお勧めします!もしモデルのサイズに関する興味深いトレンドを見つけた場合は、逆スケーリング賞の第2ラウンドに結果を提出することを検討してください。

フィードバックを送ってください!

Hugging Faceでは、最先端の機械学習モデルへのアクセスを民主化し続けることに興奮しており、それには挙動を評価し調査することが容易になるツールの開発も含まれます。モデルの評価方法を一貫して再現可能にすること、評価のためのツールを誰にでも利用できるようにすることの重要性について以前に書いたことがあります。Evaluation on the Hubの将来の計画には、プロンプトへの補完を連結する形式に適さない言語タスクに対するゼロショット評価のサポートや、さらに大きなモデルへの対応を追加することも含まれます。

コミュニティの一員として貢献できる最も有用なことの一つは、フィードバックを送っていただくことです!モデル評価の最優先事項についてのお考えをお聞かせください。Evaluation on the Hubコミュニティタブまたはフォーラムでフィードバックや機能リクエストを投稿してください!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「人物再識別入門」

「人物再識別」は、異なる非重複カメラビューに現れる個人を識別するプロセスですこのプロセスは、顔認識に頼らずに、服装を...

AIニュース

「LangChainとOpenAI APIを使用した生成型AIアプリケーションの構築」

イントロダクション 生成AIは、現在の技術の最先端をリードしています。画像生成、テキスト生成、要約、質疑応答ボットなど、...

機械学習

「SIEM-SOAR インテグレーションによる次世代の脅威ハンティング技術」

NLP、AI、およびMLは、データ処理の効率化、自動化されたインシデント処理、コンプライアンス、および積極的な脅威検知を通じ...

AIニュース

「AIのための機会の議題」

今日は、できる限り多くの人々に利益をもたらすための具体的な政策提言を提供するためのAI機会アジェンダを共有しています

機械学習

「DeepOntoに会ってください 深層学習を用いたオントロジーエンジニアリングのためのPythonパッケージ」

ディープラーニングの方法論の進歩は、人工知能コミュニティに大きな影響を与えています。優れたイノベーションと開発により...

データサイエンス

「PaLM 2はどのように動作しますか?完全ガイド」

「PaLM 2の機能を完全に解説するガイドで、内部の仕組みを探求しましょうこの強力な言語モデルがどのように人間らしいテキス...