「MITとNVIDIAの研究者が、要求の厳しい機械学習タスクの速度とパフォーマンスを劇的に向上させることができる、2つの補完的な技術を開発しました」

「MITとNVIDIAの研究者が、要求の厳しい機械学習タスクのスピードとパフォーマンスを劇的に向上させる、2つの相補的な技術を開発」

MITとNVIDIAの研究者は、スパーステンソルの処理を加速する2つの技術を開発しました(テンソルは、機械学習モデルにおいて基本的なデータ構造として機能し、データを整理・格納する多次元配列の役割を果たす)。両方の新技術の目標は、テンソルのゼロ値を効果的に活用することです。ゼロを処理せずにこれらのテンソルを扱うことができるため、メモリと計算を節約できます。例えば、何かをゼロと掛け合わせると結果はゼロになるため、その演算はスキップできます。さらに、テンソルを圧縮することもできるため、ゼロを保持する必要がないため、オンチップメモリにより多くを格納することができます。

テンソルのスパース性は、不要な要素がゼロで置き換えられることによって発生します。この過程はプルーニングと呼ばれます。スパース性の度合いやゼロの位置はモデルによって異なる場合があります。研究者は、非ゼロ値の位置を制約することで、大型モデル内でそれらを特定しやすくすることがよくあります。ハードウェアアクセラレータの適応性は、通常特定のスパースパターンに対して設計されているため限られています。

研究チームは、さまざまなスパースパターンを効率的に処理することができるハードウェアアクセラレータ「HighLight」を開発しました。研究者は、単純なものから構成される異なるタイプのスパースパターンを効率的に表現するために、階層的な構造を使用しました。この方法では、1つのセット内の数字をより小さなグループに分割し、各グループが単純なパターンに従います。これらの小さなグループは、階層を形成するより大きなグループに組み合わされます。グループの集合ごとに単純なパターン(4つのグループからなるレベルでは、ゼロのグループが1つあり、ゼロのないグループが3つあるなど)に従います。このプロセスはより大きなレベルでも続きますが、各ステップでパターンは単純なままです。

この単純さにより、HighLightはゼロをより効率的に見つけてスキップし、余分な計算を削減する機会を最大限に活用することができます。彼らのアクセラレータデザインでは、他の手法と比較してエネルギー遅延積(エネルギー効率に関連する指標)が約6倍良くなりました。

研究者はまた、スパース性を活用してコンピュータチップ上でデータの移動と処理をより効率的に行うこともできます。テンソルは通常、チップ上のメモリバッファに格納できる容量を超える場合があるため、チップは一度に1つのチャンク(タイルと呼ばれる)を取得して処理します。バッファの容量を最大限に活用し、チップが外部メモリにアクセスする頻度を最小限に抑えるため、できるだけ大きなタイルを使用することを目指します。

多くのデータ値がゼロであるため、ゼロの値を格納する必要はなく、バッファにはその生の容量よりも大きなタイルが収まることができます。ただし、ゼロの値の数はデータの異なる部分で異なるため、各タイルにも異なる場合があります。

これに対処するため、研究グループはタイルサイズを拡大するためのオーバーブッキング技術を提案しました。スパースデータセットでは、ほとんどのタイルにゼロが十分に収まるようにタイルサイズを選択することができます。場合によっては、タイルに非ゼロ値がバッファに収まりきらないほど多く含まれることがあります。この場合、これらの余剰データはバッファから押し出されます。

研究グループは、最適化されたタイルサイズを特定するためにテンソルを複数回検査する頻度を減らす方法として、「Tailors」という手法を提案しました。これにより、オーバーブッキングの利点を活用することが可能です。重要な推定誤差があっても、特定の非ゼロ値の分布により、著しいスピードアップが実現できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AI/MLを活用してインテリジェントなサプライチェーンを構築するための始め方

「異なる供給チェーンの要素に対するAI/MLの使用事例と価値提案:計画、調達、製造、配送、逆物流」

人工知能

「GPT-4 8つのモデルを1つに統合、秘密が明かされる」

「GPT4は競争を避けるためにモデルを秘密にしていましたが、今はその秘密が明らかになっています!」

AI研究

Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行

機械学習の最大の課題の1つは、ニューラルネットワークを効率的にトレーニング及び使用することです。トランスフォーマーモデ...

AIニュース

「GPUを使用してAmazon SageMakerのマルチモデルエンドポイントで数千のモデルアンサンブルを展開し、ホスティングコストを最小限に抑えます」

「人工知能(AI)の導入は、さまざまな業界やユースケースで加速しています深層学習(DL)、大規模言語モデル(LLM)、生成型...

機械学習

「機械学習モデルのバリデーション方法」

大規模な言語モデルは既にデータサイエンス業界を大きく変革しています最大の利点の一つは、ほとんどのアプリケーションにお...