プロデジーHFをご紹介します：Hugging Faceと直接連携

プロデジーHFをご紹介！Hugging Faceとの直接連携で更なる進化を遂げる

プロディジーは、Explosionという会社が作成したアノテーションツールです。この会社はspaCyのクリエイターとしてよく知られています。プロディジーは、スクリプトから完全に操作可能な製品であり、その周りには大きなコミュニティが存在しています。この製品には、spaCyとの緊密な連携やアクティブ・ラーニング機能など多くの機能があります。しかし、この製品の主な特徴は、Pythonでプログラム的にカスタマイズ可能であることです。

このカスタマイズ性を促進するために、Explosionはプラグインのリリースを開始しました。これらのプラグインは、ユーザーが独自のアノテーションワークフローに取り組むことを奨励するオープンな方法で、サードパーティのツールと統合されます。しかし、特にこのカスタマイズについては明示的に称賛される価値があります。先週、ExplosionはProdigy-HFを導入しました。これはHugging Faceスタックと直接統合するコードレシピを提供します。これはProdigyサポートフォーラムで多く要望された機能であり、我々はとても興奮しています。

特徴

最初の主な特徴は、このプラグインにより、アノテーションしたデータでHugging Faceモデルをトレーニングして再利用できることです。つまり、名前付きエンティティ認識のために当社のインターフェースでデータをアノテーションしている場合、それに対してBERTモデルを直接ファインチューニングできます。

これがプロディジーNERインターフェースの見た目です。

プラグインをインストールした後、コマンドラインからhf.train.nerレシピを呼び出して、独自のデータ上でトランスフォーマーモデルを直接トレーニングすることができます。

python -m prodigy hf.train.ner fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、distilbert-base-uncasedモデルがProdigyに保存されたデータセットについてファインチューニングされ、ディスクに保存されます。同様に、このプラグインはテキスト分類用のモデルも非常に似たインターフェースでサポートしています。

python -m prodigy hf.train.textcat fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、ツールはHugging FaceのAutoTokenizerおよびAutoModelクラスと直接統合されるため、ハブ上のどのトランスフォーマーモデルでも単一のコマンドで独自のデータセットに対してファインチューニングできます。これらのモデルはディスク上にシリアル化されるため、Hugging Face Hubにアップロードしたり、データのアノテーションに再利用したりすることができます。特にNERタスクでは、これは多くの時間を節約することができます。トレーニング済みのNERモデルを再利用するためには、hf.correct.nerレシピを使用できます。

python -m prodigy hf.correct.ner fashion-train path/to/model-out examples.jsonl

これにより、以前と同様のインターフェースが表示されますが、モデルの予測結果もインターフェースに表示されます。

アップロード

同様に興奮すべき第二の機能は、アノテーション済みのデータセットをHugging Face Hubで公開できるようになったことです。これは、他の人が使用したいと思うデータセットを共有する場合に非常に便利です。

python -m prodigy hf.upload <dataset_name> <username>/<repo_name>

私たちは特にこのアップロード機能が好きです。それは協力を奨励するからです。人々はお互いに独自のデータセットをアノテーションできますが、データを広いコミュニティと共有する時には利益を得ることができます。

まだまだこれから

Hugging Faceエコシステムとの直接統合により、多くのユーザーがさらに実験できることを願っています。Hugging Face Hubは、さまざまなタスクや多様な言語向けに多くのモデルを提供しています。私たちはこの統合が、特によりドメイン固有で実験的なユースケースの場合でも、データのアノテーションをより簡単にすることを願っています。

このライブラリのさらなる機能はまだ開発中ですので、ご質問があれば、Prodigyフォーラムでお気軽にお問い合わせください。

このプラグインについて、特に@davanstrienさんからアップロード機能の追加を提案していただいたHugging Faceチームの方々に感謝いたします。ありがとうございます！

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

プロデジーHFをご紹介します：Hugging Faceと直接連携

特徴

アップロード

まだまだこれから

Was this article helpful?

「UMDが主導する研究がモンゴメリー郡の起訴データダッシュボードを支える」

中国の研究者たちは、複雑な現実世界の課題を解決するために、大規模言語模型（LLM）がマルチモーダルツールを利用できるようにする人工知能フレームワークであるControlLLMを紹介しました

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク：違いは何ですか？」

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

「マーシャンの共同創設者であるイータン・ギンスバーグについてのインタビューシリーズ」