光ニューラルネットワークとトランスフォーマーモデルを実行した場合、どのようなことが起こるのでしょうか?
光ニューラルネットワークとトランスフォーマーモデルを実行すると何が起こるか?
ディープラーニングモデルの指数関数的な拡大スケールは、最先端の進化と巨大スケールのディープラーニングのエネルギー消費、速度、そして実現可能性についての増大する懸念の源であり、これによりディープラーニングの利用が指数関数的に増加しています。最近、Cornellの研究者は、特にTransformerのトポロジーについて話しました。これらのモデルは、数十億、あるいは数兆のパラメータにスケールアップすると劇的に優れた性能を発揮し、ディープラーニングコンピューティングの利用が指数関数的に増加します。これらの大規模なTransformerは、デジタルハードウェアのエネルギー効率が最先端のディープラーニングモデルのFLOP要件の上昇に追いついていないため、多くのタスクにおいて人気がありますが、高価な解決策です。また、コンピュータビジョン、グラフ、マルチモーダル設定など他の領域でもますます印象的なパフォーマンスを発揮しています。
また、これらのモデルは転移学習のスキルを持っており、追加のトレーニングなしで特定の活動に素早く一般化できる場合があります。これらのモデルのコストと一般的な機械学習の能力は、効果的で迅速な推論のためのハードウェアアクセラレータの創造の主要な推進力となっています。ディープラーニングハードウェアは、過去にはGPU、モバイルアクセラレータチップ、FPGA、大規模なAI専用アクセラレータシステムなど、デジタル電子工学で広範に開発されてきました。光学ニューラルネットワークは、他の方法と比較して、デジタルコンピュータ上のニューラルネットワークの実装よりも効率性とレイテンシが優れている解決策として提案されています。同時に、アナログコンピューティングにも大きな関心があります。
これらのアナログシステムはノイズやエラーの影響を受けやすいですが、ニューラルネットワークの演算は、通常は大規模な線形演算に分散されたウェイトとデータの読み込みに関連する電気オーバーヘッドを除いて、光学的により低コストで実行できます。Transformerなどの大規模なモデルの高速化は、特に有望です。理論的には、スケーリングはデジタルシステムよりもMACごとのエネルギー効率が漸近的に高いです。ここでは、彼らがこのスケーリングをどのように活用しているかを示します。彼らは、言語モデリングのための実際のTransformerからの演算をサンプリングし、実際の空間光変調器ベースの実験系で実行しました。そして、その結果を使用して、光学的に実行されるフルトランスフォーマーのキャリブレーションされたシミュレーションを作成しました。これは、ノイズやエラーの特性にもかかわらず、Transformerがこれらのシステム上で動作することを示すために行われました。
- このAIツールは、AIが画像を「見る」方法と、なぜアストロノートをシャベルと間違える可能性があるのかを説明します
- Field Programmable Gate Array(FPGA)とは何ですか:人工知能(AI)におけるFPGA vs. GPU
- Google AIは、MediaPipe Diffusionプラグインを導入しましたこれにより、デバイス上で制御可能なテキストから画像生成が可能になります
彼らは、これらの試行で得られたウェイトと入力を使用して、システマティックなエラー、ノイズ、および不正確さを伴うシミュレーションを行いました。すると、Transformerはデジタルで動作しているものとほぼ同等のパフォーマンスを発揮することがわかりました。以下は、彼らの主要な貢献の概要です:
• 光学的なTransformerのパフォーマンスと総エネルギーコストのスケーリングルールを作成しました。彼らは実験的に示しました、Transformerの線形演算は、エラーやノイズにもかかわらず、実際の光学ハードウェア上で正確に実行できることを。
• シミュレーションとテストに基づいた設計を使用して、ONNアクセラレータのエネルギー消費量を予測しました。
• 光学は、最先端のプロセッサよりも桁違いに少ないエネルギーを消費すると計算しました。
彼らのシミュレーションとテストは特定のハードウェアを例示として使用していますが、彼らの焦点は広範です。彼らは光学エネルギースケーリングとノイズがTransformerの構築とパフォーマンスにどのように関連しているかを知りたいのです。その結果、ハードウェアの具体的な実装の詳細に関係なく、線形光学プロセッサに一般的に適用できる結論のほとんどが得られます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- SalesforceはXGen-7Bを導入:1.5Tトークンのために8Kシーケンス長でトレーニングされた新しい7B LLMを紹介します
- AIの相互作用を変革する:LLaVARは視覚とテキストベースの理解において優れた性能を発揮し、マルチモーダルな指示従属モデルの新時代を切り開く
- LLM(Large Language Models)は、厳密に検証可能な数学的証明を生成できるのでしょうか?LeanDojoにご参加ください:Lean Proof Assistantで形式的な定理を証明するためのツールキット、ベンチマーク、およびモデルを備えたオープンソースのAIプレイグラウンド
- 百度Ernie 3.5が中国語AIのチャンピオンとして登場:しかし、ChatGPTより本当に優れているのか?
- Contextual AIは、VQAv2においてFlamingoを9%上回る(56->65%)ビジョン補完言語モデルのためのAIフレームワークLENSを導入しました
- 3B、4B、9B のスケールで 5 つの新しいマルチモーダルモデルを備えた OpenFlamingo チームが、前モデルを上回る OpenFlamingo v2 をリリースしました
- 大規模な言語モデルにおけるコンテキストに基づく学習アプローチ