プロデジーHFをご紹介します:Hugging Faceと直接連携

プロデジーHFをご紹介!Hugging Faceとの直接連携で更なる進化を遂げる

プロディジーは、Explosionという会社が作成したアノテーションツールです。この会社はspaCyのクリエイターとしてよく知られています。プロディジーは、スクリプトから完全に操作可能な製品であり、その周りには大きなコミュニティが存在しています。この製品には、spaCyとの緊密な連携やアクティブ・ラーニング機能など多くの機能があります。しかし、この製品の主な特徴は、Pythonでプログラム的にカスタマイズ可能であることです。

このカスタマイズ性を促進するために、Explosionはプラグインのリリースを開始しました。これらのプラグインは、ユーザーが独自のアノテーションワークフローに取り組むことを奨励するオープンな方法で、サードパーティのツールと統合されます。しかし、特にこのカスタマイズについては明示的に称賛される価値があります。先週、ExplosionはProdigy-HFを導入しました。これはHugging Faceスタックと直接統合するコードレシピを提供します。これはProdigyサポートフォーラムで多く要望された機能であり、我々はとても興奮しています。

特徴

最初の主な特徴は、このプラグインにより、アノテーションしたデータでHugging Faceモデルをトレーニングして再利用できることです。つまり、名前付きエンティティ認識のために当社のインターフェースでデータをアノテーションしている場合、それに対してBERTモデルを直接ファインチューニングできます。

これがプロディジーNERインターフェースの見た目です。

プラグインをインストールした後、コマンドラインからhf.train.nerレシピを呼び出して、独自のデータ上でトランスフォーマーモデルを直接トレーニングすることができます。

python -m prodigy hf.train.ner fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、distilbert-base-uncasedモデルがProdigyに保存されたデータセットについてファインチューニングされ、ディスクに保存されます。同様に、このプラグインはテキスト分類用のモデルも非常に似たインターフェースでサポートしています。

python -m prodigy hf.train.textcat fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

これにより、ツールはHugging FaceのAutoTokenizerおよびAutoModelクラスと直接統合されるため、ハブ上のどのトランスフォーマーモデルでも単一のコマンドで独自のデータセットに対してファインチューニングできます。これらのモデルはディスク上にシリアル化されるため、Hugging Face Hubにアップロードしたり、データのアノテーションに再利用したりすることができます。特にNERタスクでは、これは多くの時間を節約することができます。トレーニング済みのNERモデルを再利用するためには、hf.correct.nerレシピを使用できます。

python -m prodigy hf.correct.ner fashion-train path/to/model-out examples.jsonl

これにより、以前と同様のインターフェースが表示されますが、モデルの予測結果もインターフェースに表示されます。

アップロード

同様に興奮すべき第二の機能は、アノテーション済みのデータセットをHugging Face Hubで公開できるようになったことです。これは、他の人が使用したいと思うデータセットを共有する場合に非常に便利です。

python -m prodigy hf.upload <dataset_name> <username>/<repo_name>

私たちは特にこのアップロード機能が好きです。それは協力を奨励するからです。人々はお互いに独自のデータセットをアノテーションできますが、データを広いコミュニティと共有する時には利益を得ることができます。

まだまだこれから

Hugging Faceエコシステムとの直接統合により、多くのユーザーがさらに実験できることを願っています。Hugging Face Hubは、さまざまなタスクや多様な言語向けに多くのモデルを提供しています。私たちはこの統合が、特によりドメイン固有で実験的なユースケースの場合でも、データのアノテーションをより簡単にすることを願っています。

このライブラリのさらなる機能はまだ開発中ですので、ご質問があれば、Prodigyフォーラムでお気軽にお問い合わせください。

このプラグインについて、特に@davanstrienさんからアップロード機能の追加を提案していただいたHugging Faceチームの方々に感謝いたします。ありがとうございます!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ピーター・マッキーはSonarのDeveloper Relationsの責任者です Sonarは、悪いコードの1兆ドルの課題を解決するプラットフォー...

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...