ハブでの評価の発表
'Announcement of Evaluation at Hub'
TL;DR : 今日はAutoTrainでパワードされた新しいツール、Evaluation on the Hubを紹介します。このツールを使用すると、コードを1行も書かずにHub上の任意のモデルを任意のデータセットで評価することができます!
全てのモデルを評価しましょう🔥🔥🔥!
AIの進歩は驚くべきものであり、一部の人々はAIモデルが特定のタスクにおいて人間よりも優れているかもしれないと真剣に議論しています。しかし、この進歩は均等ではありませんでした。数十年前の機械学習者にとって、現代のハードウェアやアルゴリズムは驚くべきものに見えるかもしれませんし、利用可能なデータと計算能力の量も同様ですが、モデルの評価方法はほぼ同じままでした。
しかし、現代のAIは評価の危機に直面していると言っても過言ではありません。適切な評価には、多くのモデルを多くのデータセットで、複数の指標で測定する必要があります。しかし、これを行うことは不必要に手間がかかります。特に再現性に重点を置く場合、自己報告された結果は、偶発的なバグ、実装の微妙な違い、またはそれ以上の問題によって影響を受けている可能性があります。
私たちは、より良い評価が可能であると信じています。それには、私たちコミュニティがより良いベストプラクティスを確立し、障壁を取り除こうとすることが必要です。過去数か月間、私たちはEvaluation on the Hubに取り組んできました:ボタンをクリックするだけで、任意のモデルを任意のデータセットで任意のメトリックを使用して評価することができます。始めるには、いくつかの主要なデータセットで何百ものモデルを評価し、Hub上のモデルカードに新しい素敵なPull Request機能を使用して、検証済みのパフォーマンスを表示するための多くのPRを公開しました。評価結果は、モデルカードのメタデータに直接エンコードされ、Hub上のすべてのモデルに対してフォーマットが適用されます。DistilBERTのモデルカードをチェックしてみてください!
On the Hub
Hub上の評価は、非常に興味深いユースケースを提供します。データサイエンティストやエグゼクティブがどのモデルを展開するかを決定する必要がある場合や、新しいデータセットで論文の結果を再現しようとする学者、展開のリスクをよりよく理解したい倫理学者などにとって、これは非常に役立ちます。最初の3つの主要なユースケースシナリオを挙げると、次のようなものがあります:
タスクに最適なモデルを見つける 自分のタスクが明確であり、その仕事に適したモデルを見つけたいとします。タスクを代表するデータセットのリーダーボードをチェックできます。素晴らしいですね!もし興味のある新しいモデルが、そのデータセットのリーダーボードにまだ掲載されていない場合は、Hubを離れずに評価を実行することができます。
新しいデータセットでモデルを評価する 新しく作成したデータセットでベースラインを実行したい場合はどうでしょう?Hubにアップロードして、それに対して評価したいモデルを何個でも評価することができます。コードは不要です。さらに、自分のデータセットでこれらのモデルを評価する方法が、他のデータセットで評価された方法とまったく同じであることを確信することができます。
自分のモデルを他の関連する多くのデータセットで評価する また、SQuADでトレーニングされた全く新しい質問応答モデルがあるとしましょう。評価するためのさまざまな質問応答データセットが何百もあります :scream: 興味のあるデータセットを選び、モデルを直接Hubから評価することができます。
エコシステム
Hub上の評価は、Hugging Faceのエコシステムにうまく組み込まれています。
Hub上の評価は、あなたの生活をより簡単にするためのものです。しかし、もちろん、背後では多くのことが起こっています。Evaluation on the Hubの素晴らしいところは、既存のHugging Faceエコシステムに非常にうまく組み込まれていることです。ユーザーはデータセットページから始めて、評価を実行したりリーダーボードを表示したりすることができます。モデルの評価提出インターフェースとリーダーボードは、通常のHugging Face Spacesです。評価バックエンドはAutoTrainで動作し、指定されたモデルのモデルカードに対してHub上でPRを開きます。
DogFood – 犬、マフィン、揚げチキンの識別
では、実際にどのようなものか見てみましょう。犬、マフィン、揚げチキンを識別するビジネスに取り組んでいるとしましょう(いわゆるドッグフーディング!)。
犬と食品(マフィンと揚げチキン)の例の画像。出典/元の出典。
上記の画像が示すように、この問題を解決するためには次のものが必要です:
- 犬、マフィン、揚げチキンの画像のデータセット
- これらの画像でトレーニングされた画像分類器
幸いなことに、あなたのデータサイエンスチームはデータセットをHugging Face Hubにアップロードし、いくつかの異なるモデルでトレーニングしました。今は最適なモデルを選ぶだけです。テストセットでのパフォーマンスを評価するためにEvaluation on the Hubを使用しましょう!
評価ジョブの設定
まず、model-evaluator
スペースに移動し、評価するデータセットを選択してください。犬と食べ物の画像のデータセットの場合、以下の画像のようなものが表示されます:
さて、Hubの多くのデータセットには、評価の設定方法を指定するメタデータが含まれています(例としてacronym_identificationを確認してください)。これにより、1クリックでモデルを評価することができますが、私たちの場合は評価の手動設定方法をお見せします。
「詳細な設定」ボタンをクリックすると、さまざまな設定項目が表示されます:
- タスク、データセット、および分割の設定
- データセットの列を標準形式にマッピングする方法
- 評価指標の選択
以下の画像に示すように、タスク、データセット、および評価対象の分割の設定は簡単です:
次に、画像を含むデータセットの列とラベルを含む列を定義する必要があります:
タスクとデータセットの設定が完了したら、最後の(オプションの)ステップは評価に使用する指標を選択することです。各タスクにはデフォルトの評価指標が関連付けられています。例えば、以下の画像にはF1スコア、正解率などが自動的に計算されることが示されています。さらに、分類器のパフォーマンスをバランス良く評価するマシューズ相関係数も計算します:
これで評価ジョブの設定は完了です!あとは評価するモデルを選ぶだけです。詳細を見てみましょう。
評価するモデルの選択
Hub上の評価では、モデルカードのメタデータ内のタグを使用してデータセットとモデルをリンクさせます。この例では、選択できるモデルが3つありますので、すべて選択しましょう!
モデルが選択されたら、Hugging Face Hubのユーザー名(評価が完了したときに通知を受けるため)を入力し、大きな「モデルを評価する」ボタンをクリックしてください:
ジョブが提出されると、モデルは自動的に評価され、評価結果がHubのプルリクエストで開かれます:
評価メタデータをデータセットカードにコピーして、次回から手動の設定をスキップできるようにすることもできます!
リーダーボードを見る
Hub上の評価では、モデルの比較を容易にするために、スプリットと評価指標ごとに最も優れたパフォーマンスを示すモデルを調べることができるリーダーボードも提供されています:
Swin Transformerがトップになりましたね!
自分で試してみる
独自のモデルを評価したい場合は、Evaluation on the Hubを使って以下の人気のあるデータセットをチェックしてみてください:
- テキスト分類のためのEmotion
- 名前付きエンティティ認識のためのMasakhaNER
- テキスト要約のためのSAMSum
大局を見る
機械学習の黎明以来、独立かつ同一分布と想定されるテストセットでの正確性の形式を計算してモデルを評価してきました。現代のAIの圧力の下で、このパラダイムは深刻な問題を抱えていることが明らかになってきました。
ベンチマークは飽和状態であり、機械は特定のテストセットで人間を凌駕し、新しいテストセットを考える速度よりもずっと速くパフォーマンスを向上させています。しかし、AIシステムは脆弱であり、重大な悪意のあるバイアスを抱えているか、それ以上に悪化させています。再現性が不足しています。オープン性は二の次です。人々がリーダーボードに固執する一方で、モデルの展開に関する実用的な考慮事項(効率性や公平性など)はしばしば軽視されています。モデル開発におけるデータの重要な役割はまだ十分に真剣に受け止められていません。さらに、事前学習とプロンプトベースのコンテキスト学習の実践により、「分布内」であるという意味が初めにぼやけました。機械学習はこれらの問題に徐々に追いついており、私たちは私たちの業績を通じてこの分野を前進させることを願っています。
次のステップ
数週間前に、私たちはHugging Face Evaluateライブラリを発表しました。これは機械学習評価のベストプラクティスの障壁を下げることを目指しています。また、RAFTやGEMなどのベンチマークを開催しています。ハブでの評価は、評価の多くの側面でより包括的な方法でモデルが評価され、信頼性があり再現性が保証される未来を可能にするための私たちの取り組みの一環です。もうすぐさらに多くのタスクや、新しい改良されたデータ測定ツールなど、さらなる展開も予定しています。
コミュニティがこれをどこまで進めるのかを楽しみにしています!お手伝いいただける場合は、できるだけ多くのモデルをできるだけ多くのデータセットで評価してください。また、コミュニティのタブやフォーラムでたくさんのフィードバックをお寄せください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles