Search Results GLUE

大規模な言語モデル：DeBERTa — デコーディング強化BERTと解釈された注意力

最近、BERTは多くの自然言語処理の課題で第一のツールとなりました情報の処理と理解、高品質の単語埋め込みの構築能力に優れています…

ETH Zurichの研究者が、推論中に0.3%のニューロンしか使用しないが、同様のBERTモデルと同等の性能を発揮するUltraFastBERTを紹介しました

ETHチューリッヒの研究者によるUltraFastBERTの開発は、推論中に使用するニューロンの数を削減する問題に取り組み、他のモデルと同様のパフォーマンスレベルを維持しながら、高速なフィードフォワードネットワーク（FFF）の導入により、ベースラインの実装と比較して大幅な高速化を実現しました。既存の手法は、ETHチューリッヒの研究者によって提供されたコード、ベンチマーク設定、およびモデルの重みによってサポートされています。また、複数のFFFツリーによる共同計算と、GPT-3などの大規模な言語モデルへの応用の可能性を提案しています。研究では、混合スパーステンソルとデバイス固有の最適化によるさらなる高速化も提案されています。 UltraFastBERTは、推論中の選択的なエンゲージメントによる効率的な言語モデリングを実現しています。従来のモデルのフィードフォワードネットワークを簡略化されたFFFに置き換え、一貫した活性化関数と全ノードの出力重みを使用しながらバイアスを排除しています。複数のFFFツリーで中間層の出力を共同計算することにより、多様なアーキテクチャが可能となります。提供される高レベルのCPUおよびPyTorchの実装により、大幅な高速化が実現され、研究では複数のFFFツリーによる高速化や大規模な言語モデルのフィードフォワードネットワークのFFFへの置換も探求しています。デバイス固有の最適化としては、Intel MKLとNVIDIA cuBLASが提案されています。 UltraFastBERTは、推論中にBERT-baseと比較可能なパフォーマンスを達成し、そのニューロンのわずか0.3％のみを使用しています。1日の単一GPUでトレーニングされ、GLUEの予測パフォーマンスは少なくとも96.0％を維持します。UltraFastBERT-1×11-longは、そのニューロンのわずか0.3％を使用してBERT-baseのパフォーマンスに対応します。より深い高速フィードフォワードネットワークではパフォーマンスが低下しますが、CoLAを除くすべてのUltraFastBERTモデルは少なくとも98.6％の予測パフォーマンスを維持します。クイックフィードフォワードレイヤーによる大幅な高速化が示され、CPUで48倍から78倍、GPUで3.15倍の高速化が実現されており、大規模なモデルの置換の可能性が示唆されています。結論として、UltraFastBERTは、推論中にそのニューロンのわずかな部分しか使用せずに効率的な言語モデリングを実現するBERTの改良版です。提供されるCPUおよびPyTorchの実装により、それぞれ78倍と40倍の高速化が達成されています。研究は、条件付きニューラル実行のプリミティブの実装によるさらなる高速化の可能性を示唆しています。わずか0.3％のニューロンしか使用していないにも関わらず、UltraFastBERTの最良モデルはBERT-baseのパフォーマンスに匹敵し、効率的な言語モデリングの可能性を示しています。UltraFastBERTは、将来のより高速かつリソースフレンドリーなモデルの道を開く効率的な言語モデリングの潜在的な進歩を示しています。今後の研究の提案内には、ハイブリッドベクトルレベルスパーステンソルとデバイス固有の最適化を使用した効率的なFFF推論の実装、条件付きニューラル実行の完全なポテンシャルの探索、大規模な言語モデルのフィードフォワードネットワークをFFFに置換することによる最適化の可能性についての議論が含まれています。将来の作業では、PyTorchやTensorFlowなどの一般的なフレームワークで再現性のある実装と、UltraFastBERTや類似の効率的な言語モデルのパフォーマンスと実用的な影響を評価するための幅広いベンチマークに焦点を当てることができます。

「Amazon SageMaker Studioを使用してBMWグループのAI/MLの開発を加速」

この記事は、BMWグループのマルク・ノイマン、アモール・シュタインベルク、マリヌス・クロメンフックと共同で執筆されましたBMWグループは、ドイツ・ミュンヘンに本社を置き、世界中で149,000人の従業員を擁し、15カ国にわたる30を超える生産・組み立て施設で製造を行っています今日、BMWグループは世界のプレミアム自動車メーカーのリーディングカンパニーです

『AIが人類を置き換える可能性』

「AIが本当に知能を持ち、人間を超える潜在能力を持っているのかを探ってみましょう」(AI ga hontō ni chinō o mochi, ningen o koeru senzai nōryoku o motte iru no ka o sagutte mimashō.)

Artificial Intelligence

スタンフォード大学の研究者が『FlashFFTConv』を導入：長いシーケンスのFFT畳み込みを最適化するための新しい人工知能システム

効率的な推論は、機械学習において長いシーケンスを取り扱う上での主要な困難です。最近では、畳み込みがシーケンスモデリングにおいて重要な基本操作となり、言語モデリング、時系列解析、コンピュータビジョン、DNAモデリングなどでの最先端のパフォーマンスをサポートしています。これらの印象的な結果や、安定性の向上、シーケンスの長さが増すにつれてスケーラビリティが向上するなどの追加の利点を考慮しても、畳み込みシーケンスモデルは依然としてTransformersよりも遅いです。その主な原因は、信頼性のないハードウェアサポートです。シーケンスモデリングにおける畳み込みは、通常、視覚的なアプリケーションで使用される短いフィルタとは異なり、入力シーケンスと同じ長さのフィルタを使用します。高速フーリエ変換（FFT）畳み込みアルゴリズムは、入力uと畳み込みカーネルkの畳み込みを入力と出力の周波数にマッピングすることで計算します。 FFT畳み込みアルゴリズムは漸近的に効率的ですが、現在のアクセラレータ上では壁時計時間が短いです。しかし、システムの技術的進歩により、Transformersは現在のアクセラレータの限界まで到達し、FlashAttention-v2を使用する場合のエンドツーエンドFLOP使用率が72%以上になっています。長いコンテキストの機能を提供するために、スタンフォード大学の新しい研究では、現代のアクセラレータ上でFFT畳み込みメソッドを最適化する方法を調査しています。研究者らは、システムの進歩によってFlashAttentionのようなモデルや新しいアテンションアルゴリズムが生まれたように、FFT畳み込みの最適化も新しいアルゴリズムを生み出し、畳み込みシーケンスモデルの品質を向上させると考えています。 FFT畳み込みは短いシーケンスに対して簡単に最適化できます。フィルタのFFTを再利用することが一般的な実践であり、再利用する前にフィルタのFFTを事前計算することが可能となります。したがって、FFT畳み込みはバッチとフィルタに跨る並列処理が可能であり、カーネルフュージョンにより中間の畳み込み出力をSRAMやレジスタにキャッシュすることができます。しかし、チームはシーケンスの長さが増すにつれて2つの主要なボトルネックが発生することを指摘しています。現在のアクセラレータでは、FFT畳み込みは特殊な行列行列乗算ユニットを最適化的に利用していません。第二に、シーケンスがSRAMに収まりきらないほど長くなると、カーネルフュージョンが失敗し、コストのかかるI/O操作が必要になります。因果関係のためのパディング操作や、実数値の入出力から複素数値のFFT中間生成物への変換も、これらのI/Oコストをさらに増加させる可能性があります。それに対応して、研究者はFlashFFTConvという革新的なアルゴリズムを提案しています。このアルゴリズムは、FFTを長いシーケンスに最適化するためにモナーク分解を使用します。モナーク分解は、FFTをp個の行列乗算操作の系列として書き直すための方法であり、pの値が大きくなるほど、より小さな行列のためFLOPコストが減少しますが、中間結果を伝達するためにより多くのI/Oが必要となります。したがって、トレードオフが存在します。この研究では、FLOPコストとI/Oコストをシーケンスの長さに基づいた単純なコストモデルを使用して、GPU上でpの最適化方法を示しています。FlashFFTConvは、より長いシーケンス長でのカーネルフュージョンを容易にし、SRAM内に保持する必要のあるシーケンスの量を減らすことができます。したがって、FlashFFTConvは256文字から400万文字までのシーケンスを容易に処理できます。実数値のFFTアルゴリズムを使用し、入力がゼロパディングされている場合には一部の行列乗算操作をスキップすることで、FlashFFTConvはFFT操作の長さを半分以上短縮することができます。さらに、FFT畳み込みの行列ビューは2つのアーキテクチャの修正を実装するためのシンプルなインタフェースを提供し、畳み込みカーネルが入力シーケンスよりも短い長さで学習する部分畳み込みや、周波数空間でカーネルの一部をゼロにする周波数疎畳み込みなどが簡単に実装できます。両方のアプローチは、Transformersにおける疎な/近似的なアテンションの畳み込みバージョンと考えることができます。研究者は、FlashFFTConvがFFT畳み込みを加速し、より優れた品質、より効率的な長いシーケンスモデルを実現することを実証しています。 FlashFFTConvは効率の向上により、畳み込みシーケンスモデルの品質を改善します。同じ計算予算の場合、FlashFFTConvはHyena-GPT-sが2.3ポイント改善したperplexityを実現し、M2-BERT-baseが最大3.3高い平均GLUEスコアを達成することができます。これは、モデルのパラメータを倍増させた場合のパフォーマンス向上と同等です。 FlashFFTConvはPyTorchと比較して、畳み込みの効率性を最大7.93、メモリの節約を最大5.60向上させます。この効率性は、シーケンス長で4桁以上にわたって保持されます。FlashFFTConvは、FlashAttention-v2に比べて、シーケンス長2K以上において壁時計時間が速くなり、エンドツーエンドのFLOP使用率が最大で62.3%となります。 FlashFFTConvは長いシーケンスのモデルも実現可能です。FlashFFTConvは、長大なarenaベンチマークのPath-512ジョブ（シーケンス長256K）を完了する唯一のモデルを生み出しました。また、FlashFFTConvは、単一ヌクレオチドの分解能で最長の人間の遺伝子（最大2.3M塩基対）を埋め込む最初のモデルでもあり、部分畳み込みを介してHyenaDNAを4Mのシーケンス長に拡張することができます。チームは、FlashFFTConvが畳み込みシーケンスモデルのより広範な使用を可能にし、学んだ教訓がよりリソース効率の良いコンピュータアーキテクチャにつながることを期待しています。

「GO TO Any Thing（GOAT）」とは、完全に見たことのない環境で、画像、言語、カテゴリのいずれかで指定されたオブジェクトを見つけることができる、ユニバーサルなナビゲーションシステムです

このsystemですGOATは、イリノイ大学アーバナ・シャンペーン校、カーネギーメロン大学、ジョージア工科大学、カリフォルニア大学バークレー校、Meta AI Research、Mistral AIの研究者チームによって開発されました。GOATは、家庭や倉庫の環境での拡張された自律運転を目指した普遍的なナビゲーションシステムです。GOATは、カテゴリラベル、ターゲット画像、言語の説明から目標を解釈できる多様なモーダルシステムです。過去の経験から利益を得るライフロングシステムです。GOATはプラットフォームに依存せず、さまざまなロボットの具現化に適応できます。 GOATは、カテゴリラベル、ターゲット画像、言語の説明を使用して、多様な環境での自律ナビゲーションに長けたモバイルロボットシステムです。GOATは深さの推定と意味的セグメンテーションを利用して、正確なオブジェクトインスタンスの検出とメモリストレージのための3D意味的ボクセルマップを作成します。意味的マップは、空間表現、オブジェクトインスタンス、障害物、探索済みエリアの追跡を容易にします。 GOATは動物や人間のナビゲーションの洞察に触発されたモバイルロボットシステムです。GOATは普遍的なナビゲーションシステムであり、人間の入力に基づいて異なる環境で自律的に操作します。モーダル、ライフロング、プラットフォームに依存しないGOATは、カテゴリラベル、ターゲット画像、言語の説明を使用して目標の指定を行います。この研究では、以前の手法のCLIP特徴マッチングよりもSuperGLUEベースの画像キーポイントマッチングを活用することで、未知のモーダルオブジェクトインスタンスへの到達におけるGOATの性能を評価し、その優越性を示しています。 GOATはイメージと言語の説明に基づいたモーダルナビゲーションのためのモジュラーデザインとインスタンスアウェアな意味的メモリを採用しています。事前計算されたマップなしで評価されるプランは、プラットフォームに依存しない学習能力を持っており、家庭での大規模な実験を通じてその能力を示しています。パスの計算には高速マーチング法を使用し、パスに沿ってウェイポイントに到達するためにポイントナビゲーションコントローラを使用します。 9つの家での実験的試行において、GOATは83%の成功率を達成し、以前の手法を32%上回りました。探索後の成功率が60%から90%に向上し、その適応性を示しています。GOATはピックアンドプレイスやソーシャルナビゲーションなどの下流タスクもスムーズに処理しました。質的実験では、GOATはボストンダイナミクスのスポットやハローロボットのストレッチロボットに展開されました。家庭でのSpotによる大規模な量的実験では、GOATの優れた性能が3つのベースラインを上回り、インスタンスの一致と効率的なナビゲーションにおいて優れていることが示されました。優れたモーダルおよびプラットフォームに依存しない設計により、カテゴリラベル、ターゲット画像、言語の説明など、さまざまな手段で目標を指定することができます。モジュラーアーキテクチャとインスタンスアウェアな意味的メモリにより、同じカテゴリのインスタンスを効果的に識別することができます。事前計算されたマップなしでの大規模な実験で評価され、GOATは柔軟性を示し、ピックアンドプレイスやソーシャルナビゲーションなどのタスクに対応します。 GOATの将来の軌道は、さまざまな環境やシナリオでのパフォーマンスを総合的に評価し、その汎用性と堅牢性を測定する包括的な探求を含みます。調査では、調査中の課題に対処するために一致閾値の向上を目指します。目標カテゴリに基づいてインスタンスのサブサンプリングをさらに探求し、パフォーマンスの向上を図ります。GOATの進行中の開発は、グローバルおよびローカルポリシーの改善と、より効率的なナビゲーションのための追加の技術の統合を検討します。広範な現実世界での評価は、異なるロボットやタスクを含めて、GOATの汎用性を検証します。さらなる探求により、GOATの適用範囲をナビゲーション以外の領域、例えば物体認識、操作、相互作用にも広げることが可能です。

「AWS Partition Projections Athenaクエリのパフォーマンス向上」

この記事では、AWS Athenaクエリのパフォーマンス向上の分析と、パーティションプロジェクション機能の利点について説明します

「Google AIがAltUpを紹介」

「トランスフォーマー型ニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボット工学、自律運転などの新興アプリケーションにおいて、驚くべき効果を示し、焦点となっていますしかし、これらのモデルの規模が増大することにより、コンピューティングにかかるコストや推論の待ち時間に関する課題が生じていますこれが...」

2024年のトップ10のAI主導のデータ分析企業

2024年にデータ分析の世界を革新する傾向にあるトップのビジネスタイタンを発見してくださいIBM CloudからGoogle Cloudまで、これらのAI駆動のデータ分析企業は人工知能の力を活用し、膨大なデータの貯蔵庫から貴重な洞察を解き放ち、企業に行動可能な知識を提供しています

Tech

Google AIは、『AltUp（Alternating Updates）』というアートフィシャルインテリジェンスの手法を導入しましたこれは、トランスフォーマーネットワークのスケールの拡大を利用するための手法であり、計算コストを増やさずに行われます

ディープラーニングにおいて、トランスフォーマーニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボティクス、自動運転などの新興アプリケーションを含め、さまざまなドメインでの有効性に対して注目を集めています。ただし、パフォーマンスの向上に伴い、これらのモデルの規模がますます拡大することで、計算コストと推論遅延が大幅に増加します。大規模なモデルの利点を享受する際に、実用上の計算負荷をもたらさないような困難が存在します。特にトランスフォーマーモデルを含むディープラーニングモデルの現在の状況は、さまざまな領域で著しい進歩を示しています。ただし、増加した計算要件により、これらのモデルのスケーラビリティを向上させる必要がある場合があります。従来の取り組みは、Switch Transformer、Expert Choice、V-MoEなど、スパース混合専門家モデルによって示されるように、ネットワークパラメータの効率的なスケーリングや入力あたりの計算の増加を軽減することに主に焦点を当ててきました。ただし、トークン表現の次元自体のスケーリングに関する研究上の課題が存在します。ここで、この課題を解決するために導入された新しい方法であるAltUpが登場します。 AltUpは、計算のオーバーヘッドを増やさずにトークン表現を拡張する方法を提供することで際立っています。この方法では、拡張された表現ベクトルを等しいサイズのブロックに分割し、各層で1つのブロックのみを処理します。AltUpの有効性の核心は、処理されていないブロックの推論を可能にする予測-訂正メカニズムにあります。直接的な拡張に伴う計算量の二次的な増加を回避することで、モデルの次元を維持しながら、AltUpは、より大きなTransformerネットワークによってもたらされる計算上の課題に対する有望な解決策として浮上しています。 AltUpのメカニズムは、トークン埋め込みの複雑さに深く入り込み、計算の複雑さを増やさずにトークン表現を拡張する方法を検討しています。この方法は以下の手順で行われます: ブロックの1x幅トランスフォーマーレイヤーを呼び出します。「アクティブ」ブロックと呼ばれます。同時に軽量な予測子を使用します。この予測子は、すべての入力ブロックの重み付き組み合わせを計算し、予測値と活性化されたブロックの計算値は、軽量な修正子を介して修正されます。この修正メカニズムにより、非活性なブロックは活性化されたブロックに基づいて更新されます。重要なのは、予測と修正のステップの両方が、通常のトランスフォーマーレイヤーよりもはるかに高速なベクトルの加算と乗算を必要としないということです。 T5モデルに対するAltUpの評価は、同じ精度で密なモデルを上回る一貫した能力を示しています。特に、AltUpで拡張されたT5ラージモデルは、GLUE、SuperGLUE、SQuAD、Trivia-QAの各ベンチマークで、それぞれ27%、39%、87%、29%の著しいスピードアップを実現しています。AltUpの相対的な性能向上は、モデルのサイズが大きくなるにつれてより顕著になり、スケーラビリティと向上した効果を強調しています。 AltUpは、Transformerニューラルネットワークの効率的なスケーリングアップの長年の課題に対する注目すべき解決策として浮上しています。計算コストの比例的な増加を伴わずにトークン表現を拡張する能力は、さまざまなアプリケーションにおいて重要な約束を持っています。AltUpの革新的なアプローチは、分割と予測-訂正メカニズムを特徴とし、大きなモデルの利点を活用するための現実的な方法を提供します。計算要求に適しています。研究者たちによるAltUpの拡張であるRecycled-AltUpは、提案された手法の適応性をさらに示しています。初期トークンの埋め込みを広げる代わりに、再現埋め込みによってRecycled-AltUpは、認識可能な遅延を引き起こすことなく、事前学習パフォーマンスの厳格な改善を示しています。AltUpとMoEのような他のテクニックとのシームレスな統合を伴うこの二重アプローチは、その多様性を具現化し、トレーニングとモデルのパフォーマンスのダイナミクスを探求するための将来的な研究の可能性を開いています。 AltUpは、Transformerネットワークの効率的なスケーリングの追求における画期的なものであり、モデルのサイズと計算効率のトレードオフに対する魅力的な解決策を提供しています。この論文で述べられているように、研究チームの貢献は、大規模なTransformerモデルをさまざまな応用によりアクセス可能で実用的なものにするための重要な一歩です。

Learn more about Search Results GLUE - Page 2