「MITとNVIDIAの研究者が、要求の厳しい機械学習タスクの速度とパフォーマンスを劇的に向上させることができる、2つの補完的な技術を開発しました」

「MITとNVIDIAの研究者が、要求の厳しい機械学習タスクのスピードとパフォーマンスを劇的に向上させる、2つの相補的な技術を開発」

MITとNVIDIAの研究者は、スパーステンソルの処理を加速する2つの技術を開発しました(テンソルは、機械学習モデルにおいて基本的なデータ構造として機能し、データを整理・格納する多次元配列の役割を果たす)。両方の新技術の目標は、テンソルのゼロ値を効果的に活用することです。ゼロを処理せずにこれらのテンソルを扱うことができるため、メモリと計算を節約できます。例えば、何かをゼロと掛け合わせると結果はゼロになるため、その演算はスキップできます。さらに、テンソルを圧縮することもできるため、ゼロを保持する必要がないため、オンチップメモリにより多くを格納することができます。

テンソルのスパース性は、不要な要素がゼロで置き換えられることによって発生します。この過程はプルーニングと呼ばれます。スパース性の度合いやゼロの位置はモデルによって異なる場合があります。研究者は、非ゼロ値の位置を制約することで、大型モデル内でそれらを特定しやすくすることがよくあります。ハードウェアアクセラレータの適応性は、通常特定のスパースパターンに対して設計されているため限られています。

研究チームは、さまざまなスパースパターンを効率的に処理することができるハードウェアアクセラレータ「HighLight」を開発しました。研究者は、単純なものから構成される異なるタイプのスパースパターンを効率的に表現するために、階層的な構造を使用しました。この方法では、1つのセット内の数字をより小さなグループに分割し、各グループが単純なパターンに従います。これらの小さなグループは、階層を形成するより大きなグループに組み合わされます。グループの集合ごとに単純なパターン(4つのグループからなるレベルでは、ゼロのグループが1つあり、ゼロのないグループが3つあるなど)に従います。このプロセスはより大きなレベルでも続きますが、各ステップでパターンは単純なままです。

この単純さにより、HighLightはゼロをより効率的に見つけてスキップし、余分な計算を削減する機会を最大限に活用することができます。彼らのアクセラレータデザインでは、他の手法と比較してエネルギー遅延積(エネルギー効率に関連する指標)が約6倍良くなりました。

研究者はまた、スパース性を活用してコンピュータチップ上でデータの移動と処理をより効率的に行うこともできます。テンソルは通常、チップ上のメモリバッファに格納できる容量を超える場合があるため、チップは一度に1つのチャンク(タイルと呼ばれる)を取得して処理します。バッファの容量を最大限に活用し、チップが外部メモリにアクセスする頻度を最小限に抑えるため、できるだけ大きなタイルを使用することを目指します。

多くのデータ値がゼロであるため、ゼロの値を格納する必要はなく、バッファにはその生の容量よりも大きなタイルが収まることができます。ただし、ゼロの値の数はデータの異なる部分で異なるため、各タイルにも異なる場合があります。

これに対処するため、研究グループはタイルサイズを拡大するためのオーバーブッキング技術を提案しました。スパースデータセットでは、ほとんどのタイルにゼロが十分に収まるようにタイルサイズを選択することができます。場合によっては、タイルに非ゼロ値がバッファに収まりきらないほど多く含まれることがあります。この場合、これらの余剰データはバッファから押し出されます。

研究グループは、最適化されたタイルサイズを特定するためにテンソルを複数回検査する頻度を減らす方法として、「Tailors」という手法を提案しました。これにより、オーバーブッキングの利点を活用することが可能です。重要な推定誤差があっても、特定の非ゼロ値の分布により、著しいスピードアップが実現できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ETHチューリッヒの研究者が、大規模な言語モデル(LLM)のプロンプティング能力を向上させるマシンラーニングフレームワークであるGoT(Graph of Thoughts)を紹介しました

人工知能(AI)は、大規模言語モデル(LLM)の使用が増えています。特に、Transformerアーキテクチャのデコーダーのみの設計...

機械学習

CapPaに会ってください:DeepMindの画像キャプション戦略は、ビジョンプレトレーニングを革新し、スケーラビリティと学習性能でCLIPに匹敵しています

「Image Captioners Are Scalable Vision Learners Too」という最近の論文は、CapPaと呼ばれる興味深い手法を提示しています...

機械学習

「マイクロソフトが、自社の新しい人工知能搭載スマートバックパックに関する特許を申請」

スマートデバイスと人工知能によって支配される世界において、2023年5月にマイクロソフトが出願した特許が注目と好奇心をかき...

AI研究

プリンストンの研究者たちは、革新的な軽量フレームワーク「InterCode」を導入しましたこれにより、人間のような言語からコード生成のための言語モデルの相互作用が効率化されました

ChatGPTは、OpenAIによって開発された最新のチャットボットであり、リリース以来話題になっています。このGPTトランスフォー...

AI研究

Googleの研究者たちは、AIによって生成された画像を透かしを入れたり識別するためのデジタルツールである「𝗦𝘆𝗻𝘁𝗵𝗜𝗗」を紹介しました

人工知能(AI)の急速に進化する風景の中で、生成モデルは伝統的な手段でキャプチャされたものとほとんど区別のつかない、写...

機械学習

ProFusion における AI 非正則化フレームワーク テキストから画像合成における詳細保存に向けて

テキストから画像生成の領域は長年にわたって広範に研究され、最近では大きな進歩がなされています。研究者たちは、大規模な...