「フォンダンAIは、クリエイティブ・コモンズ・ライセンスに基づいた画像テキストのペアデータセット、フォンダン-25Mを公開しました」

「フォンダンAIが、フォンダン-25Mというクリエイティブ・コモンズ・ライセンスに基づく画像テキストのペアデータセットを公開しました」

大量のデータの処理と分析を行うことを大規模データ処理と呼びます。これには有益な洞察の抽出、情報に基づいた意思決定、複雑な問題の解決が含まれます。ビジネス、科学、医療など、さまざまな分野で重要です。ツールと方法の選択は、データ処理タスクの具体的な要件と利用可能なリソースによって異なります。Python、Java、Scalaなどのプログラミング言語は、大規模データ処理によく使用されます。この文脈では、Apache Flink、Apache Kafka、Apache Stormなどのフレームワークも価値があります。

研究者は、大規模データ処理を簡素化し高速化するための新しいオープンソースのフレームワーク「Fondant」を開発しました。データのダウンロード、探索、処理にはさまざまな埋め込みツールが備わっています。また、URLを介してのダウンロードや画像のダウンロード用のコンポーネントも含まれています。

Stable DiffusionやDall-Eなどの生成AIの現在の課題は、著作権付き作品を含むパブリックインターネットからの数億もの画像でトレーニングされていることです。これは、これらの画像を使用するユーザーにとって法的なリスクと不確実性を生じさせ、許可なく所有権のある作品が再現されることにおいて著作権保持者に対して不公平です。

これに対処するため、研究者はデータ処理パイプラインを開発し、クリエイティブ・コモンズの画像の5億のデータセットを作成し、潜在的な拡散画像生成モデルを訓練するために使用しました。データ処理パイプラインは、データの収集、処理、移動のために設計されたステップやタスクであり、さまざまな目的に対してデータが保存され、分析される場所へ移動されます。

カスタムデータ処理パイプラインを作成するには、いくつかのステップが必要であり、具体的なアプローチはデータソース、処理要件、ツールによって異なる場合があります。研究者は、カスタムパイプラインを作成するためのブロックを組み合わせる方法を使用しています。彼らは再利用可能なコンポーネントとカスタムコンポーネントを混ぜ合わせたFondantパイプラインを設計しました。さらに、それを本番環境に展開し、定期的なデータ処理の自動化を設定しました。

Fondant-cc-25mには、Creative Commonsライセンス情報を含む2,500万の画像URLが一括で簡単にアクセスできます!研究者は、ローカルユーザー向けの詳細なインストール手順を公開しています。パイプラインをローカルで実行するためには、ユーザーのシステムにDockerがインストールされ、Docker環境に少なくとも8GBのRAMが割り当てられている必要があります。

リリースされたデータセットには個人情報が含まれる可能性があるため、研究者はオープンアクセスの研究を実施し公開するための公共的な、非個人情報のみを含むデータセットを設計しました。彼らはデータセットのフィルタリングパイプラインはまだ進行中であり、他の研究者から匿名パイプラインの作成への貢献を歓迎しています。研究者は将来的には、画像ベースの重複削除、自動キャプション付け、視覚的品質評価、ウォーターマーク検出、顔検出、テキスト検出などさまざまなコンポーネントを追加したいと述べています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more