ギャラリー、図書館、アーカイブ、博物館向けのHugging Face Hub

Hugging Face Hub for galleries, libraries, archives, and museums.

ギャラリー、図書館、アーカイブ、博物館のためのハギングフェイスハブ

ハギングフェイスハブとは何ですか?

Hugging Faceは、高品質な機械学習を誰にでもアクセス可能にすることを目指しています。この目標は、広く使われているTransformersライブラリなどのオープンソースのコードライブラリを開発すること、無料のコースを提供すること、そしてHugging Faceハブを提供することなど、さまざまな方法で追求されています。

Hugging Faceハブは、人々が機械学習モデル、データセット、デモを共有しアクセスできる中央リポジトリです。ハブには19万以上の機械学習モデル、3万3000以上のデータセット、10万以上の機械学習アプリケーションとデモがホストされています。これらのモデルは、事前学習済みの言語モデル、テキスト、画像、音声分類モデル、物体検出モデル、さまざまな生成モデルなど、さまざまなタスクをカバーしています。

ハブにホストされているモデル、データセット、デモは、さまざまなドメインと言語をカバーしており、ハブを通じて利用できる範囲を拡大するための定期的なコミュニティの取り組みが行われています。このブログ記事は、ギャラリー、図書館、アーカイブ、博物館(GLAM)セクターで働く人々がハギングフェイスハブをどのように利用して貢献できるかを理解することを目的としています。

記事全体を読むか、最も関連のあるセクションにジャンプすることができます!

  • ハブが何か分からない場合は、「ハギングフェイスハブとは何ですか?」から始めてください。
  • ハブで機械学習モデルを見つける方法を知りたい場合は、「ハギングフェイスハブの使用方法:ハブで関連するモデルを見つける方法」から始めてください。
  • ハブでGLAMデータセットを共有する方法を知りたい場合は、「ウォークスルー:GLAMデータセットをハブに追加する方法」から始めてください。
  • いくつかの例を見たい場合は、「ハギングフェイスハブの使用例」をチェックしてください。

ハギングフェイスハブで何を見つけることができますか?

モデル

Hugging Faceハブは、さまざまなタスクとドメインをカバーする機械学習モデルへのアクセスを提供しています。多くの機械学習ライブラリがHugging Faceハブとの統合を持っており、これらのライブラリを介して直接モデルを使用したりハブに共有したりすることができます。

データセット

Hugging Faceハブには3万以上のデータセットがあります。これらのデータセットには、テキスト、画像、音声、マルチモーダルなど、さまざまなドメインとモダリティがカバーされています。これらのデータセットは、機械学習モデルのトレーニングや評価に価値があります。

スペース

Hugging Face Spacesは、機械学習デモとアプリケーションをホストするためのプラットフォームです。これらのスペースには、機械学習モデルによって行われる予測を探索するためのシンプルなデモから、より複雑なアプリケーションまでさまざまなものがあります。

スペースを使用すると、アプリケーションのホスティングと他のユーザーが利用できるようにすることがはるかに簡単になります。GradioやStreamlitアプリケーションをホストするためにSpacesを使用することもできますし、アプリケーションに完全な制御を持ちたい場合はDockerイメージをホストするためにSpacesを使用することもできます。ArgaillaやLabel Studioのアノテーションツールなど、多くの人気ツールのホストバージョンへのクイックアクセスを提供するDockerテンプレートもあります。

ハギングフェイスハブの使用方法:ハブで関連するモデルを見つける方法

GLAMセクターでは、機械学習モデルが役立つ場合が多くあります。一部の機関では、ゼロから機械学習モデルをトレーニングするために必要なリソースを持っているかもしれませんが、ハブを使用して、すでに必要な機能を備えたモデルを見つけるか、目標に非常に近いモデルを見つけることができます。

例えば、メタデータが最小限のデジタル化されたノルウェー語のドキュメントのコレクションで作業している場合、名前付きエンティティ認識(NER)モデルを使用することでコレクションの内容をより良く理解することができます。このモデルは、テキストからエンティティを抽出し、例えばテキストに言及されている場所を識別することができます。テキストに含まれるエンティティを知ることは、ドキュメントの内容をより良く理解するための貴重な手段です。

ハブ上でNERモデルを見つけるには、タスクでモデルをフィルタリングすることができます。この場合、token-classificationという、名前付きエンティティ認識モデルを含むタスクを選択します。このフィルタにより、token-classificationとラベル付けされたモデルが返されます。ノルウェー語のドキュメントを扱っているため、言語でフィルタリングすることも考えられます。これにより、探索したいモデルのセットがより小さくなります。これらのモデルの多くには、モデルウィジェットも含まれており、モデルをテストすることができます。

モデルウィジェットは、モデルがデータ上でどれくらいうまく動作するかを素早く表示することができます。興味を持ったモデルを見つけたら、Hubではそのツールを使用するさまざまな方法が提供されます。Transformersライブラリにすでに精通している場合は、Transformersボタンをクリックしてモデルのロード方法を表示するポップアップを取得することができます。

APIを介してモデルを使用する場合は、モデルリポジトリの「deploy」ボタンをクリックすると、モデルをAPIの背後にホストするためのさまざまなオプションが表示されます。これは、より大量のデータでモデルを試したいが、モデルをローカルで実行するためのインフラストラクチャが必要な場合に特に便利です。

Hugging Face Hubでも、関連するモデルやデータセットを見つけるために同様のアプローチが使用されます。

手順:GLAMデータセットをHubに追加する方法

私たちはさまざまな方法でHugging Face Hubを介してデータセットを利用できるようにすることができます。ここでは、CSVデータセットをHugging Face Hubに追加する例を説明します。

ブラウザインタフェースを介してデータセットをアップロードするプロセスの概要

この例では、「On the Books Training Set」をHubで利用できるようにする作業を行います。このデータセットには、テキスト分類モデルのトレーニングに使用できるデータを含むCSVファイルがあります。CSV形式は、データをHugging Face Hubにアップロードするためのサポートされている形式の1つなので、コードを書くことなくこのデータセットを直接Hubで共有することができます。

新しいデータセットリポジトリを作成する

データセットをHubにアップロードするための最初のステップは、新しいデータセットリポジトリを作成することです。Hugging Face Hubの右上隅のドロップダウンメニューで「New Dataset」ボタンをクリックすることでこれを行うことができます。

これを行った後、新しいデータセットリポジトリの名前を選択することができます。また、別の所有者(組織など)の下でデータセットを作成し、オプションでライセンスを指定することもできます。

ファイルのアップロード

データセットリポジトリを作成した後、データファイルをアップロードする必要があります。これは、データセットリポジトリの「Files」タブの下にある「Add file」をクリックすることで行うことができます。

これで、Hubにアップロードするデータを選択することができます。

アップロードインタフェースを使用して単一のファイルまたは複数のファイルをアップロードすることができます。ファイルをアップロードした後、変更内容をコミットしてアップロードを確定します。

メタデータの追加

データセットリポジトリにメタデータを追加することは重要です。これにより、データセットが他の人にとって見つけやすく、理解しやすくなります。これにより、他の人がデータセットを見つけ、その内容を理解することができます。

メタデータは「Metadata UI」エディタを使用して編集することができます。これにより、データセットのライセンス、言語、タグなどを指定することができます。

また、データセットが何であるか、どのように構築され、どのような利点と欠点があるかを詳しく説明することも非常に役立ちます。これは、データセットリポジトリで「README.md」ファイルに記入することで行うことができます。「README.md」ファイルは、データセットのためのデータセットカードとなります。データセットカードは、機械学習データセットのための半構造化されたドキュメント形式であり、データセットが十分にドキュメント化されていることを保証することを目的としています。「README.md」ファイルを編集すると、データセットカードのテンプレートをインポートするオプションが表示されます。このテンプレートには、データセットカードに含めるのに役立つプロンプトが表示されます。

ヒント:良いデータセットカードを作成するのは大変な作業かもしれません。ただし、この作業を一度にすべて行う必要はありません。また、Hubでホストされているデータセットについて質問をしたり、提案をしたりすることができるため、データセットのドキュメント作成は共同の活動になることもあります。

データセットのプレビュー

データセットをHubにアップロードした後、データセットのプレビューを表示できます。データセットのプレビューは、データセットをより良く理解するための有益な方法です。

データセットを共有する他の方法

Hubでは、データセットを共有するためのさまざまなアプローチがあります。データセットのドキュメントを参照することで、特定のユースケースに最適な方法をよりよく理解することができます。

なぜギャラリー、図書館、アーカイブ、博物館はHugging Face Hubを使用したいのでしょうか?

機械学習、AI、関連分野で活動している人々にとって、Hubは中心的な目的地になっています。Hubで共有することにより、コレクションや作業をこのユーザーに紹介することができます。また、このユーザーとのさらなる協力の機会も生まれます。

コミュニティ:Hubには多くのコミュニティ指向の機能があり、ユーザーや潜在的なユーザーが共有した資料について質問をしたり、関わったりすることができます。トレーニング済みモデルや機械学習データセットを共有することで、人々はお互いの作業を活用しやすくなり、セクターでの機械学習の利用の障壁が低くなります。

トレーニングデータの多様性:GLAMが機械学習を使用する際の障壁の一つは、トレーニングおよび評価用の関連データの入手可能性です。ベンチマークデータセットでうまく機能する機械学習モデルが、GLAM組織のデータでは同様にうまく機能しない可能性があります。ドメイン固有のデータセットを共有するコミュニティを構築することで、GLAMセクターでの機械学習の効果的な追求が確保されます。

気候変動:機械学習モデルのトレーニングは、炭素フットプリントを生み出します。このフットプリントのサイズはさまざまな要因によって異なります。このフットプリントを共同で削減する方法の一つは、コミュニティとトレーニング済みモデルを共有することです。これにより、人々が同じモデルを重複して作成することがなくなり、その過程でより多くの炭素排出が発生するのを防げます。

Hugging Face Hubの使用例

個人や組織はすでにHugging Face Hubを使用して、GLAMセクターに関連する機械学習モデル、データセット、デモを共有しています。

BigLAM

BigScienceプロジェクトから発展したイニシアチブであり、機械学習に関連するGLAMのデータセットをよりアクセスしやすくすることを目指しています。BigLAMはこれまでに30以上のGLAMに関連するデータセットをHugging Face Hubを通じて提供しています。

Nasjonalbiblioteket AI Lab

ノルウェー国立図書館のAIラボは、Hugging Face Hubを非常に活発に利用しています。約120のモデル、23のデータセット、6つの機械学習デモが公開されています。これらのモデルには、ノルウェー国立図書館のノルウェー語テキストとサーミ語のWhisper(音声からテキストへの変換)モデルのトレーニングが含まれています。

スミソニアン博物館

スミソニアン博物館は、Hugging Face Spacesでホストされているアプリケーションを共有し、アマゾンの魚の種を識別するためにトレーニングされた2つの機械学習モデルをデモンストレーションしています。このプロジェクトは、アマゾンの魚の種のより正確な数値測定を可能にするツールをコミュニティに提供することを目指しています。このようなツールをSpacesデモを通じて提供することで、これらのツールを使用したいと思う人々の障壁がさらに低くなります。

ソース

ギャラリー、図書館、アーカイブ、博物館向けのHubの特徴

Hubは、機械学習の利用をよりアクセスしやすくするための多くの機能をサポートしています。GLAM機関に特に役立つ可能性のあるいくつかの機能には、以下があります:

  • 組織:Hubで組織を作成することができます。これにより、組織のアーティファクトを共有する場所を作成できます。
  • DOIの発行:DOI(デジタルオブジェクト識別子)はオブジェクトの永続的なデジタル識別子です。DOIは、学術的な成果物を参照する際に、ジャーナル、会議、研究者の資金提供者によってしばしば要求される永続的な識別子となっています。Hugging Face Hubは、Hubで共有されるモデル、データセット、デモに対してDOIを発行することをサポートしています。
  • 利用状況の追跡:Hubでホストされているデータセットとモデルのダウンロード統計を月ごとに表示したり、すべての時間のダウンロードの総数を確認したりすることができます。これらの統計は、機関の影響力を示すための貴重な手段となります。
  • スクリプトベースのデータセット共有:既にデータセットをホストしている場合でも、データセットの読み込みスクリプトを使用してHugging Face Hubを介してアクセスできます。
  • モデルとデータセットのゲート制御:モデルとデータセットへのアクセスをより制御したい場合があります。Hugging Face Hubは、モデルとデータセットのゲート制御をサポートしており、アクセス制御を追加することができます。

Hubを使用してヘルプを受ける方法は?

Hubのドキュメントでは、Hugging Face Hubのさまざまな機能について詳しく説明しています。また、Hubでデータセットを共有する方法や、HubにTransformersモデルを共有する方法についての詳細な情報も見つけることができます。

Hugging Face Hubを使用する際に支援が必要な場合、いくつかの方法があります。ディスカッションフォーラムを利用するか、Discordを通じてヘルプを求めることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ピーター・マッキーはSonarのDeveloper Relationsの責任者です Sonarは、悪いコードの1兆ドルの課題を解決するプラットフォー...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...