プロデジーHFをご紹介します:Hugging Faceと直接連携

プロデジーHFをご紹介!Hugging Faceとの直接連携で更なる進化を遂げる

プロディジーは、Explosionという会社が作成したアノテーションツールです。この会社はspaCyのクリエイターとしてよく知られています。プロディジーは、スクリプトから完全に操作可能な製品であり、その周りには大きなコミュニティが存在しています。この製品には、spaCyとの緊密な連携やアクティブ・ラーニング機能など多くの機能があります。しかし、この製品の主な特徴は、Pythonでプログラム的にカスタマイズ可能であることです。

このカスタマイズ性を促進するために、Explosionはプラグインのリリースを開始しました。これらのプラグインは、ユーザーが独自のアノテーションワークフローに取り組むことを奨励するオープンな方法で、サードパーティのツールと統合されます。しかし、特にこのカスタマイズについては明示的に称賛される価値があります。先週、ExplosionはProdigy-HFを導入しました。これはHugging Faceスタックと直接統合するコードレシピを提供します。これはProdigyサポートフォーラムで多く要望された機能であり、我々はとても興奮しています。

特徴

最初の主な特徴は、このプラグインにより、アノテーションしたデータでHugging Faceモデルをトレーニングして再利用できることです。つまり、名前付きエンティティ認識のために当社のインターフェースでデータをアノテーションしている場合、それに対してBERTモデルを直接ファインチューニングできます。

これがプロディジーNERインターフェースの見た目です。

プラグインをインストールした後、コマンドラインからhf.train.nerレシピを呼び出して、独自のデータ上でトランスフォーマーモデルを直接トレーニングすることができます。

python -m prodigy hf.train.ner fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、distilbert-base-uncasedモデルがProdigyに保存されたデータセットについてファインチューニングされ、ディスクに保存されます。同様に、このプラグインはテキスト分類用のモデルも非常に似たインターフェースでサポートしています。

python -m prodigy hf.train.textcat fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、ツールはHugging FaceのAutoTokenizerおよびAutoModelクラスと直接統合されるため、ハブ上のどのトランスフォーマーモデルでも単一のコマンドで独自のデータセットに対してファインチューニングできます。これらのモデルはディスク上にシリアル化されるため、Hugging Face Hubにアップロードしたり、データのアノテーションに再利用したりすることができます。特にNERタスクでは、これは多くの時間を節約することができます。トレーニング済みのNERモデルを再利用するためには、hf.correct.nerレシピを使用できます。

python -m prodigy hf.correct.ner fashion-train path/to/model-out examples.jsonl

これにより、以前と同様のインターフェースが表示されますが、モデルの予測結果もインターフェースに表示されます。

アップロード

同様に興奮すべき第二の機能は、アノテーション済みのデータセットをHugging Face Hubで公開できるようになったことです。これは、他の人が使用したいと思うデータセットを共有する場合に非常に便利です。

python -m prodigy hf.upload <dataset_name> <username>/<repo_name>

私たちは特にこのアップロード機能が好きです。それは協力を奨励するからです。人々はお互いに独自のデータセットをアノテーションできますが、データを広いコミュニティと共有する時には利益を得ることができます。

まだまだこれから

Hugging Faceエコシステムとの直接統合により、多くのユーザーがさらに実験できることを願っています。Hugging Face Hubは、さまざまなタスクや多様な言語向けに多くのモデルを提供しています。私たちはこの統合が、特によりドメイン固有で実験的なユースケースの場合でも、データのアノテーションをより簡単にすることを願っています。

このライブラリのさらなる機能はまだ開発中ですので、ご質問があれば、Prodigyフォーラムでお気軽にお問い合わせください。

このプラグインについて、特に@davanstrienさんからアップロード機能の追加を提案していただいたHugging Faceチームの方々に感謝いたします。ありがとうございます!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Ami Hever、UVeyeの共同創設者兼CEO - インタビューシリーズ」

עמיר חבר הוא המנכל והמייסד של UVeye, סטארט-אפ ראיה ממוחשבת בלמידה עמוקה, המציבה את התקן הגלובלי לבדיקת רכבים עם זיהוי...

データサイエンス

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

セラフィム・バツォグルはSeerのチーフデータオフィサーですSeerに加わる前は、セラフィムはInsitroのチーフデータオフィサー...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

アミール・ヘヴァーは、UVeyeのCEO兼共同創設者であり、高速かつ正確な異常検出により、自動車およびセキュリティ産業に直面...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...