機械学習のオープンデータセットを作成中ですか？ Hugging Face Hubで共有しましょう！

Hugging Face Hubで共有している機械学習用のオープンデータセットを作成中ですか？

このブログ投稿は誰のためですか？

データ集中型の研究を行っている研究者ですか？研究の一環として、おそらく機械学習モデルの訓練や評価のためにデータセットを作成しており、多くの研究者がGoogle Drive、OneDrive、または個人のサーバーを介してこれらのデータセットを共有している可能性があります。この投稿では、代わりにHugging Face Hubでこれらのデータセットを共有することを検討する理由を説明します。

この記事では以下を概説します：

なぜ研究者はデータを公開共有すべきか（すでに説得されている場合は、このセクションはスキップしてください）
研究者がデータセットを共有したい場合のHugging Face Hubのオファー
Hugging Face Hubでデータセットを共有するための始め方のリソース

機械学習は、さまざまな分野でますます利用され、多様な問題の解決における研究効率を高めています。特にタスクやドメインに特化した新しい機械学習手法を開発する際には、データがモデルの訓練や評価において重要です。大規模な言語モデルは、生物医学のエンティティ抽出のような特殊なタスクではうまく機能せず、コンピュータビジョンモデルはドメイン特化の画像の分類に苦労するかもしれません。

ドメイン固有のデータセットは、既存のモデルの限界を克服するために、機械学習モデルの評価と訓練に重要です。ただし、これらのデータセットを作成することは困難であり、データの注釈付けには相当な時間、リソース、およびドメインの専門知識が必要です。このデータの最大の影響を最大化することは、関係する研究者と各自の分野の両方にとって重要です。

Hugging Face Hubは、この最大の影響を実現するのに役立ちます。

Hugging Face Hubとは何ですか？

Hugging Face Hubは、オープンな機械学習モデル、データセット、デモを共有するための中央ハブとなり、360,000以上のモデルと70,000以上のデータセットをホストしています。Hubを介して人々、特に研究者は、わずか数行のコードで最先端の機械学習モデルとデータセットにアクセスできます。

Hugging Face Hubのデータセットのスクリーンショット Hugging Face Hub上のデータセット。

このブログ投稿では、Hugging Face Hub上でデータセットをホストする機能や利点のすべてを網羅することはしませんが、特に研究者に関連するいくつかの機能を強調します。

ワークの可視化

Hugging Face Hubは、オープンな機械学習のための中央ハブとなり、人々が共同で働く場所となっています。データセットをHugging Face Hub経由で利用可能にすることで、機械学習研究者の広範なオーディエンスに対して可視化されます。このハブでは、データセット、モデル、デモの間の関連リンクを公開することができ、データセットの訓練モデルやデモの作成方法がより明確になります。

データセットの探索と操作のためのツール

Hugging Face Hubにホストされているデータセットを理解するのに役立つツールが増えています。

Hugging Face Hubにホストされたデータセットを読み込むツール

Hugging Face Hubで共有されたデータセットは、さまざまなツールを介して読み込むことができます。Pythonライブラリのdatasetsは、load_datasetコマンドを介してHugging Face Hubから直接データセットを読み込むことができます。このライブラリは、大規模なデータセット（メモリに収まらないデータセットも含む）や機械学習ワークフローのサポートに最適化されています。

さらに、Hubの多くのデータセットは、Pandas、Polars、およびDuckDBに直接ロードすることもできます。このページでは、Hubからデータセットを読み込むさまざまな方法について詳しく説明しています。

データセットビューアー

データセットビューアーは、Hugging Face Hub上のデータセットをブラウザ上で直接探索・操作することができる機能です。データセットリポジトリを訪れることで、他の人がダウンロードせずにデータを閲覧・探索できるようになります。また、データセットビューアーでは、データセットの検索とフィルタリングも可能であり、潜在的なデータセット利用者にとって貴重な情報となります。

名前付きエンティティ認識データセットを表示しているHugging Face Hub上のデータセットビューアーのスクリーンショットマルチコナー_v2名前付きエンティティ認識データセットのデータセットビューアーです。

コミュニティツール

データセットビューアーに加えて、Hugging Face Hub上でデータセットを探索するためのコミュニティ作成ツールが増えています。

スポットライト

スポットライトは、1行のコードでHugging Face Hub上のデータセットをインタラクティブに探索することができるツールです。

このツールの使用方法については、この記事で詳細を学ぶことができます。

リラック

リラックは、”LLMsのためのより良いデータのキュレーション”をサポートするツールであり、自然言語データセットをより簡単に探索することができます。このツールでは、データセットを意味に基づいて検索し、データをクラスタ化し、データセットのハイレベルな洞察を得ることができます。

リラックツールの詳細については、デモをご覧ください。

Hugging Face Hub上のデータセットを探索するためのツールの増加により、他の人がデータセットを探索し理解することが容易になり、データセットをより広い観客に広めることができます。

大規模データセットのサポート

Hugging Face Hubは大規模データセットをホストすることができます。現在、数テラバイトのデータを持つデータセットがホストされています。データセットライブラリを使用すると、データセットをストリーミングでダウンロード・処理することができます。これにより、データセット全体をダウンロードせずに大規模なデータセットと作業することができます。これは、計算リソースが限られている研究者がデータセットと作業するためや、巨大なデータセットの一部をテスト、開発、プロトタイピングするために小規模なデータセットを選択するために非常に重要です。

データセットのファイルサイズ情報のスクリーンショット Hugging Face Hubは、機械学習の研究でよく作成される大規模データセットをホストすることができます。

APIとクライアントライブラリとのハブとの連携

Hugging Face Hubは、APIやhuggingface_hub Pythonライブラリを介して連携することができます。これにより、新しいリポジトリの作成、データのプログラムによるアップロード、データセットのメタデータの作成・修正などが可能になります。特に、クライアントライブラリを使用すると、大規模データセットのアップロードがより容易になります。

コミュニティ

Hugging Face Hubは、既に研究者、開発者、アーティストなど多くの人々が参加し、オープンソースの機械学習エコシステムを活用・貢献している大規模なコミュニティがあります。データセットをこのコミュニティに公開することで、可視性が高まり、新しいユーザーやモデル、データセット、ライブラリのエコシステムの一環として位置付けられます。

また、コミュニティがより簡単に協力できるようにする機能もあります。Hub上の各データセット、モデル、Spaceにはディスカッションページがあります。これにより、データセットのユーザーは迅速に質問をし、データセットについてのアイデアを議論することができます。

Hub上のデータセットのディスカッションのスクリーンショット Hubを使ってデータセットに質問やディスカッションを行うことが容易になります。

研究者にとって他の重要な機能

ハブの他のいくつかの機能は、機械学習のデータセットをハブで共有したいと考えている研究者に特に興味深いかもしれません：

組織は、他の人と協力し、モデル、データセット、デモを一つの組織の下で共有することができます。特定の研究プロジェクトや研究所の業績を強調するのに優れた方法です。
ゲート付きリポジトリは、データセットへのアクセスに一部の制約を加えることができます。
ハブ上のデータセットのダウンロードメトリクスは、資金提供者や採用委員会に研究者の影響を伝えるのに役立ちます。
デジタルオブジェクト識別子（DOI）：データセットに永続的な識別子を登録することが可能です。

Hugging Face Hubでデータセットを共有するためのいくつかのリソースをご紹介します：

データセットの作成と共有に関する一般的なガイドライン
特定のモダリティに関するガイド：
- 音声データセットの作成
- 画像データセットの作成
リポジトリの構造化に関するガイドライン、これによりデータセットがハブから自動的に読み込まれるようになります。

大規模なデータセットを共有したい場合に便利な次のページもあります：

リポジトリの制限と推奨事項は、大規模なデータセットを共有する際に考慮すべき事項について一般的なガイドラインを提供します。
大規模なアップロードのためのヒントとトリックページでは、大規模なデータセットをハブにアップロードする方法についてのガイドラインを提供します。

ハブへのデータセットのアップロードに関するさらなる支援が必要な場合や、特に大規模なデータセットをアップロードしたい場合は、以下のメールアドレスにお問い合わせください：[email protected]。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

機械学習のオープンデータセットを作成中ですか？ Hugging Face Hubで共有しましょう！

このブログ投稿は誰のためですか？