「データ中心のAIの練習方法と、AIが自分のデータセットを改善する方法」
「データセンタードAIの練習方法とデータセットを改善するAIの方法」
エディター注:ジョナス・ミュラーは、10月30日から11月2日にODSCウェストでスピーカーを務めます。彼のトーク「データ中心のAIの実践とAIが自身のデータセットを改善する方法」をぜひチェックしてください!
機械学習モデルは、訓練に使用されるデータの品質に依存します。最も高度なニューラルネットワークアーキテクチャーを使用しても、訓練データに問題がある場合、モデルの性能は低下します。ラベルのエラー、外れ値、重複、データの変化、品質の低い例などのデータの問題は、モデルの性能を大幅に低下させます。
それがデータ中心のAI技術がますます人気を集めている理由です。モデルアーキテクチャー、ハイパーパラメータ、トレーニングのテクニックだけでなく、データ中心のAIでは、モデルそのものを使用してデータセットをシステマティックに改善します(モデリングのコードを変更することなく、モデルの改善版を生成できます)。データの整備作業をすべて手動で行う必要はありません!新しいアルゴリズム/ソフトウェアを使用して、自動化によるデータの整備をシステム的にサポートできます。
- 「ODSC West 2023に参加すべき10の言語モデルセッション」
- 「ユーザーの入力、プロンプト、および応答のシーケンスを理解する大型言語モデルを活用した対話型アプリケーション」
- 新興の脅威:言語モデルの時代におけるアプリケーションのセキュリティ確保
この記事では、AI/MLを使用して実世界のデータセットで一般的な問題を自動的に検出する方法の概要を説明します。これらの技術は、私たちのチームが数年にわたって研究してきたものであり、訓練済みモデルの情報を使用してアルゴリズムでデータの問題を検出することができるかどうかを調査しています。これらのアイデアを実践するために、最も人気のあるデータ中心のAIソフトウェアであるオープンソースのcleanlabライブラリを実演します。Pythonの1行のコードで、cleanlabではほぼすべてのデータセット(画像、テキスト、表形式、音声など)および既にトレーニングされた機械学習モデル(sklearn、huggingface、pytorch、LLMsなど)を使用して、一般的なデータの問題を自動的に検出することができます。検出された問題は、より高品質なデータセットとそれに基づく信頼性の高いモデルの生成に使用することができます。
データ中心のAIの実践手順
- 元のデータセットで初期のMLモデルを訓練する。
- このモデルを使用してデータの問題を診断し、データセットを改善する(ここで説明する技術を使用)。
- 改善されたデータセットで同じモデルを訓練する。
- さらなる性能向上のためにさまざまなモデリング技術を試す。
多くのデータサイエンティストは、ステップ1からステップ4に進むことがありますが、最初のMLモデルがキャプチャした情報に基づいてデータ中心のAI技術を使用することで、モデリングコードを変更することなく大きな進歩を達成することができます(モデル自体がデータについて多くを示していることがあります)。ステップ2からステップ4を繰り返し行うことで、パフォーマンスを継続的に向上させることができます(クリーンなデータで評価してみてください)。
データセットを改善する別の方法は、単に注釈/例をさらに収集することです。データサイエンティストが数週間かけて最適化した自分の洗練されたモデルが、代わりに1日でより多くのデータにラベルを付けたベースラインモデルに敗れることがよくあります(これはトップの技術企業内でも一般的です)。モデルがキャプチャしたデータに関する情報を適切に活用すると、MLモデルは収集するのに最も有益なデータ/注釈を決定するのに役立ちます。これらの技術は、限られたリソースを節約するのに役立ちます。
Cleanlabの始め方
Cleanlabはデータ中心のAIに特化したPythonライブラリです。わずか数行のコードで、データセット内の潜在的な問題を分析することができます。
データの問題を単に検出するだけではモデルが改善されません – 問題を解決する必要があります。(近似)重複のような問題に対しては、データセットから余分なコピーを削除するだけで問題が解決される場合があります。
より複雑な問題(ラベルのエラーなど)については、自動検出された悪いデータを単純にフィルタリングすることができます。たとえば、テキスト分類タスク(礼儀予測)でのさまざまなLLMモデルの微調整時には、この自動フィルタリングによってモデルのパフォーマンスが向上します。モデリングコードを変更することなく!さらに、自動的に誤ラベル付けが検出された例のラベルを修正することで、より大きな利益が得られます。これらの利益は、さまざまなLLM(および一般的にはさまざまなデータモーダリティおよびMLモデル)にわたって保持されます。
私のODSC West 2023データセントリックAIチュートリアル
基礎的なデータセントリックAI技術と実際の事例についてもっと学びたい場合は、ODSC West 2023の私のチュートリアルを参加してください。カバーする内容は以下の通りです:
- データセントリックAIの基礎
- ラベルのエラーや外れ値などのデータの問題を自動的に検出するアルゴリズム
- 追加の注釈を効率的に収集する方法など、データセットを改善する方法
例とコードの解説を通じて、大学の授業で学ばなかったであろう技術を使って、機械学習プロジェクトから最大限の効果を得る方法を正確に学ぶことができます。
cleanlabとデータセントリックAIの紹介をお楽しみいただけたら嬉しいです。パワフルな技術についての詳細は、ODSC Westの私の講演をぜひご覧ください!こちらで詳細を確認できます。
自己紹介:
Jonas Muellerは、Cleanlabの最高科学者で共同創設者です。リアルタイムデータを信頼性の高いモデル/分析に変換するデータセントリックAIツールの提供を行うソフトウェア企業です。以前は、Amazon Web Servicesのシニアサイエンティストとして、世界最大の数百の企業にMLアプリケーションを提供するアルゴリズムの開発に携わっており、その前にMITで機械学習の博士号を取得しました。また、AutoMLおよびデータセントリックAIの成長速度が最も早いオープンソースライブラリの作成にも貢献しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- LMSYS-Chat-1Mとは、25の最新のLLM(Large Language Models)を使用して作成された、100万件の実世界の会話を含む大規模データセットです
- 「グラフアルゴリズムの探索:連結データ構造のナビゲーションと解析」
- 「GPT-4の高度なデータ分析ツールを使ったマッピング:総合的な事例」
- 清華大学研究者がOpenChatを導入:ミックス品質データでオープンソース言語モデルを拡張する新しい人工知能AIフレームワークを紹介
- ジェネラティブAIを通じた感情分析のマスタリング
- 「データの民主化は過大評価されているのか?」
- 「ウィキペディアの知識を持つエージェントを備えたLLaMa 2を作成する」