トロント大学の研究者が、大規模な材料データセットにおける驚くべき冗長性と、情報豊かなデータの機械学習パフォーマンスの向上における力を明らかにする
トロント大学の研究者による驚くべき冗長性と情報豊富な大規模な材料データセットにおける機械学習パフォーマンスの向上の力
AIの登場と共に、その利用は私たちの生活のあらゆる分野で感じられるようになっています。AIはあらゆる生活領域での応用が見つかっています。ただし、AIはトレーニングのためにデータが必要です。AIの効果は、トレーニング目的のデータの利用可能性に重く依存しています。
従来、AIモデルの精度を確保するためには、十分な量のデータの利用可能性が重要視されてきました。この分野におけるこの課題に取り組むためには、広範な潜在的な検索空間を進む必要があります。例えば、「Open Catalyst Project」は、潜在的な触媒材料に関連する2億以上のデータポイントを使用しています。
このようなデータセットの分析とモデル開発には、計算リソースが必要であり、大きな問題となります。Open Catalystのデータセットでは、分析とモデル開発に16,000 GPU日が使用されました。このようなトレーニング予算は、一部の研究者にしか利用できず、しばしばモデルの開発をより小さなデータセットまたは利用可能なデータの一部に制限しています。結果として、モデルの開発はしばしば小さなデータセットまたは利用可能なデータの一部に制限されます。
- エクスラマV2:LLMを実行するための最速のライブラリ
- 一目でデータを見る :データ分析のためのダイナミックなダッシュボードの作成
- 「データサイエンティストの履歴書を他と差別化するために、以下の5つの簡単なことを試してみてください」
トロント大学エンジニアリング研究者による研究は、深層学習モデルが多くのトレーニングデータを必要とするという信念が常に真実であるとは限らないことを示唆しています。
研究者は、モデルをトレーニングするために使用できる小さなデータセットを特定する方法を見つける必要があると述べています。Hattrick-Simpersの博士研究員である李康明博士は、学生の最終成績を予測するモデルの例を使用し、そのモデルがトレーニングされたカナダの学生のデータセットで最も優れたパフォーマンスを発揮するが、他の国の学生の成績を予測できないことを強調しました。
この課題に対処する1つの可能な解決策は、非常に巨大なデータセット内のデータのサブセットを見つけることです。これらのサブセットは、元のデータセットに含まれる多様性と情報をすべて含んでいるが、処理中に扱いやすいものでなければなりません。
李博士は、すでに公開されている材料データセット(JARVIS、The Materials Project、Open Quantum Materialsなど)から高品質なサブセットの情報を見つけるための方法を開発しました。目標は、データセットの特性がそれらがトレーニングするモデルにどのように影響を与えるかについてより深く理解することでした。
彼のコンピュータプログラムを作成するために、彼は元のデータセットとデータポイント数が95%少ないより小さなサブセットを使用しました。データの5%でトレーニングされたモデルは、データセット内の材料の特性を予測する際に、完全なデータセットでトレーニングされたモデルと比較可能なパフォーマンスを発揮しました。したがって、機械学習トレーニングでは、正確な予測にはデータの95%以上を安全に除外できます。冗長なデータの主要な対象は過剰に表現された材料です。
李博士によれば、この研究の結論はデータセットの冗長性を評価する手段を提供しています。データを追加してもモデルの性能が向上しない場合、それは冗長であり、モデルに新しい情報を学ぶための何も提供しません。
この研究は、AIの専門家の間で広まっている知識の一部を支持しています。データの品質が高ければ、比較的小規模なデータセットでトレーニングされたモデルはうまく機能することができるというものです。
結論として、情報の豊かさが単独のデータ量よりも重要視されるべきです。データの大量収集よりも情報の品質を優先すべきです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles