プロデジーHFをご紹介します:Hugging Faceと直接連携

プロデジーHFをご紹介!Hugging Faceとの直接連携で更なる進化を遂げる

プロディジーは、Explosionという会社が作成したアノテーションツールです。この会社はspaCyのクリエイターとしてよく知られています。プロディジーは、スクリプトから完全に操作可能な製品であり、その周りには大きなコミュニティが存在しています。この製品には、spaCyとの緊密な連携やアクティブ・ラーニング機能など多くの機能があります。しかし、この製品の主な特徴は、Pythonでプログラム的にカスタマイズ可能であることです。

このカスタマイズ性を促進するために、Explosionはプラグインのリリースを開始しました。これらのプラグインは、ユーザーが独自のアノテーションワークフローに取り組むことを奨励するオープンな方法で、サードパーティのツールと統合されます。しかし、特にこのカスタマイズについては明示的に称賛される価値があります。先週、ExplosionはProdigy-HFを導入しました。これはHugging Faceスタックと直接統合するコードレシピを提供します。これはProdigyサポートフォーラムで多く要望された機能であり、我々はとても興奮しています。

特徴

最初の主な特徴は、このプラグインにより、アノテーションしたデータでHugging Faceモデルをトレーニングして再利用できることです。つまり、名前付きエンティティ認識のために当社のインターフェースでデータをアノテーションしている場合、それに対してBERTモデルを直接ファインチューニングできます。

これがプロディジーNERインターフェースの見た目です。

プラグインをインストールした後、コマンドラインからhf.train.nerレシピを呼び出して、独自のデータ上でトランスフォーマーモデルを直接トレーニングすることができます。

python -m prodigy hf.train.ner fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、distilbert-base-uncasedモデルがProdigyに保存されたデータセットについてファインチューニングされ、ディスクに保存されます。同様に、このプラグインはテキスト分類用のモデルも非常に似たインターフェースでサポートしています。

python -m prodigy hf.train.textcat fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、ツールはHugging FaceのAutoTokenizerおよびAutoModelクラスと直接統合されるため、ハブ上のどのトランスフォーマーモデルでも単一のコマンドで独自のデータセットに対してファインチューニングできます。これらのモデルはディスク上にシリアル化されるため、Hugging Face Hubにアップロードしたり、データのアノテーションに再利用したりすることができます。特にNERタスクでは、これは多くの時間を節約することができます。トレーニング済みのNERモデルを再利用するためには、hf.correct.nerレシピを使用できます。

python -m prodigy hf.correct.ner fashion-train path/to/model-out examples.jsonl

これにより、以前と同様のインターフェースが表示されますが、モデルの予測結果もインターフェースに表示されます。

アップロード

同様に興奮すべき第二の機能は、アノテーション済みのデータセットをHugging Face Hubで公開できるようになったことです。これは、他の人が使用したいと思うデータセットを共有する場合に非常に便利です。

python -m prodigy hf.upload <dataset_name> <username>/<repo_name>

私たちは特にこのアップロード機能が好きです。それは協力を奨励するからです。人々はお互いに独自のデータセットをアノテーションできますが、データを広いコミュニティと共有する時には利益を得ることができます。

まだまだこれから

Hugging Faceエコシステムとの直接統合により、多くのユーザーがさらに実験できることを願っています。Hugging Face Hubは、さまざまなタスクや多様な言語向けに多くのモデルを提供しています。私たちはこの統合が、特によりドメイン固有で実験的なユースケースの場合でも、データのアノテーションをより簡単にすることを願っています。

このライブラリのさらなる機能はまだ開発中ですので、ご質問があれば、Prodigyフォーラムでお気軽にお問い合わせください。

このプラグインについて、特に@davanstrienさんからアップロード機能の追加を提案していただいたHugging Faceチームの方々に感謝いたします。ありがとうございます!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

データサイエンス

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

セラフィム・バツォグルはSeerのチーフデータオフィサーですSeerに加わる前は、セラフィムはInsitroのチーフデータオフィサー...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...