Search Results CPU

このAIニュースレターは、あなたが必要とするすべてです＃73

今週の会話は、再びOpenAIのDevdayの余波、新製品のリリース、そしてGPTStoreの将来の可能性についての推測で占められていましたすでに10,000以上のGPTが作成されています...

「加速、効率的なAIシステムの新しいクラスがスーパーコンピューティングの次の時代を示す」

エヌビディアは、今日のSC23で、科学や産業の研究センターを新たなパフォーマンスとエネルギー効率のレベルに引き上げる次世代のテクノロジーを発表しました。同社の高性能コンピューティングおよびハイパースケールデータセンター事業の副社長であるイアン・バックは、この会議での特別なスピーチで、「エヌビディアのハードウェアとソフトウェアのイノベーションは、新しいAIスーパーコンピュータのクラスを創り出しています」と述べました。これらのシステムの一部は、メモリ強化型のNVIDIA Hopperアクセラレータを搭載し、他のシステムは新しいNVIDIA Grace Hopperシステムアーキテクチャを搭載しています。すべてのシステムは、拡張された並列処理を使用して、生成AI、HPCおよびハイブリッド量子コンピューティングのためのスタックを実行するための加速ソフトウェアを使用します。バックは新しいNVIDIA HGX H200を「世界最高のAIコンピューティングプラットフォーム」と表現しました。 NVIDIA H200 Tensor Core GPUsは、成長する生成AIモデルを実行するためのHBM3eメモリを搭載しています。このGPUは、最初のAIアクセラレータとして超高速技術を使用した141GBのHBM3eを搭載しています。GPT-3などのモデルを実行する場合、NVIDIA H200 Tensor Core GPUsは前世代のアクセラレータに比べて18倍のパフォーマンス向上を提供します。ほかの生成AIベンチマークの中でも、彼らはLlama2-13Bの大規模な言語モデル(LLM)で1秒あたり12,000トークンを処理します。バックは、4つのNVIDIA GH200 Grace Hopper…

「NVIDIA CUDA Quantumによる研究者の進歩が期待される」

マイケル・クーンとダヴィデ・ヴォドラは、世界最大の化学会社のために量子コンピューティングを開拓する取り組みを新たな高みにもっていく。 BASFの研究者たちは、量子アルゴリズムが従来のシミュレーションでは見ることのできない、NTAという化合物の重要な属性を見ることができることを実証している。この化合物には鉄などの有害金属を都市の下水から除去するなどの応用がある。 BASFの量子コンピューティングチームは、GPU上で24キュービットに相当する量子コンピュータの処理エンジンであるもので、この課題に取り組むことができるかどうかをシミュレーションした。多くの企業の研究開発拠点では、これを重要な達成と見なすだろうが、彼らはさらに進み、最近NVIDIAのEos H100スーパーコンピュータで初めて60キュービットのシミュレーションを実行した。「これは、量子アルゴリズムを使用して分子の最大シミュレーションです」とクーンは言った。柔軟で使いやすいソフトウェア BASFは、NVIDIA CUDA QuantumというCPU、GPU、および量子コンピュータのためのプラットフォームでシミュレーションを実行している。これは、QPUsとも呼ばれる。ヴォドラはこれを「非常に柔軟で使いやすく、比較的シンプルなブロックから複雑な量子回路シミュレーションを構築することができる」と述べた。「CUDA Quantumがなければ、このシミュレーションを実行することは不可能でした」と彼は付け加えた。この作業には多くの計算能力も必要であり、それでBASFはNVIDIAのH100 Tensor Core GPUを使用したNVIDIA DGX Cloudサービスに頼った。「私たちは多くの計算能力が必要であり、この種のシミュレーションにはCPUベースのハードウェアよりもNVIDIAプラットフォームの方がはるかに高速です」とクーンは語った。 BASFの量子コンピューティングイニシアティブは、クーンが立ち上げに関与した2017年に始まった。チームは化学の他にも、機械学習、物流、スケジューリングの最適化など、量子コンピューティングの利用事例の開発にも取り組んでいる。 CUDA Quantumコミュニティの拡大他の研究グループもCUDA Quantumを用いて科学の進歩を遂げている。…

「NVIDIA Grace Hopperスーパーチップは、グローバルの研究施設、システムメーカー、クラウドプロバイダーで40以上のAIスーパーコンピュータを駆動しています」

数十台の新しいスーパーコンピュータが、NVIDIAの画期的なGH200 Grace Hopper Superchipによって、巨大なスケールのAIとハイパフォーマンスコンピューティングを実現するために、まもなくオンラインに入る予定です。 NVIDIA GH200は、テラバイト単位のデータを実行する複雑なAIおよびHPCアプリケーションの高速化により、科学者や研究者が世界でもっとも困難な問題に取り組めるようにします。 NVIDIAは、SC23スーパーコンピュータショーで、Dell Technologies、Eviden、Hewlett Packard Enterprise（HPE）、Lenovo、QCT、Supermicroなど、さまざまなシステムへの導入を発表しました。 ArmベースのNVIDIA Grace CPUとHopper GPUアーキテクチャを組み合わせ、NVIDIA NVLink-C2Cインターコネクト技術を使用するGH200は、世界中の科学スーパーコンピューティングセンターのエンジンとしても機能します。これらのGH200を搭載したセンターは、合わせて約200 エクサフロップのAI性能を持ち、科学的なイノベーションを推進します。 HPE CrayスーパーコンピュータはNVIDIA Grace Hopperを統合 HPEは、デンバーのショーでHPE Cray EX2500スーパーコンピュータを提供し、NVIDIA…

「LLaVAと一緒にあなたのビジョンチャットアシスタントを作りましょう」

大規模な言語モデルは、革命的な技術であることが証明されていますその能力を活用した数多くのアプリケーションがすでに開発されており、まもなくさらに多くのアプリケーションが期待されています...

安全ループに会いましょう：複雑なAIタスクのパフォーマンスを向上させるために少ないエネルギーを必要とするディープラーニングアクセラレータの最適な設計を特定するためのAIパワード検索ツール

ディープラーニングは、医療、音声認識、ビデオ分析など、さまざまなアプリケーションでディープニューラルネットワーク（DNN）の急速な普及を目撃しています。このDNNの利用の急増に伴い、機密データを保護し最適なパフォーマンスを確保するために強化されたセキュリティ対策が必要となっています。現在の研究は主に、中央処理装置（CPU）上でのDNNの実行環境のセキュリティを重視していますが、ハードウェアアクセラレータの登場により、これらの先進的なアーキテクチャに固有のセキュリティ上の考慮事項と処理の要求を対応するために特別に設計されたツールの重要性が強調されています。この分野では、特定の文脈内では効果的ですが、現在のソリューションはよりダイナミックかつ多様なハードウェア構成への対応が必要とされます。このギャップを認識し、MITの先駆的な研究チームがセキュアループを導入し、暗号エンジンが装備されたさまざまなDNNアクセラレータを考慮して精緻に設計された高度な設計空間探索ツールを紹介しました。この画期的なツールは、オンチップ計算、オフチップメモリアクセス、暗号操作の統合に伴うクロスレイヤーの相互作用を含むさまざまな要素の相互作用を精緻に考慮した包括的なソリューションです。セキュアループは、オフチップデータアクセスごとに関連する暗号オーバーヘッドを緻密に考慮した最新のスケジューリング検索エンジンを統合し、モジュラ算術技術の熟練した適用により各層の認証ブロック割り当てを最適化します。さらに、セキュアループ内にシミュレーテッドアニーリングアルゴリズムを組み込むことで、クロスレイヤーの最適化をスムーズに行い、セキュアなDNN設計の全体的な効率とパフォーマンスを著しく向上させます。比較パフォーマンス評価は、セキュアループが従来のスケジューリングツールに比べて33.2％の速度向上と、セキュアなDNN設計のエネルギーアプローダクトを50.2％改善するという類まれな優位性を示しています。セキュアループの導入は、既存のツールとDNNアクセラレータの広がりにわたるハードウェア構成におけるセキュリティとパフォーマンスの総合的なソリューションの需要とのギャップを効果的に埋める画期的なマイルストーンです。この研究で示された類まれな進歩は、セキュアループがセキュアなDNN環境の実行を最適化するだけでなく、セキュアコンピューティングとディープラーニングの広範な領域内での将来の進歩と革新の基礎を築いています。セキュアかつ効率的な処理の需要がさらに高まる中、SecureLoopなどの先駆的なツールの開発は、研究者がセキュアコンピューティングとディープラーニングアプリケーションのフロンティアを推進するための忘れ難い貢献の証です。記事「Meet SecureLoop: An AI-Powered Search Tool to Identify an Optimal Design for a Deep Learning Accelerator that can Boost the…

「声AIがLLVCを発表：効率と速度に優れた画期的なリアルタイム音声変換モデル」

Koe AIの研究チームが、リアルタイムの任意の1つの声変換を可能にする、ultra-low latencyとminimal resource consumptionを特徴としたLLVC（Low-latency, Low-resource Voice Conversion）モデルを紹介しました。このモデルは、一般的な消費者向けCPU上で非常に高速に効率的に動作します。この研究は、LLVCのオープンソースのサンプル、コード、事前トレーニング済みのモデルの重みへのアクセスを広く提供しています。 LLVCモデルは、ジェネレータとディスクリミネータからなりますが、推論時にはジェネレータのみが使用されます。評価には、LibriSpeechのテストクリーンデータを使用し、Amazon Mechanical TurkのMean Opinion Scoresを用いて、自然さと目標話者の類似性を評価します。さらに、計算効率の向上のために、より大きなティーチャーモデルがより小さなスチューデントモデルをガイドする知識蒸留についても説明されています。声変換は、話し方を他の話者のスタイルに合わせながら、元の内容やイントネーションを維持することを意味します。リアルタイムの声変換を実現するには、リアルタイム以上の速度、低遅延、将来のオーディオコンテキストへのアクセスの制限を持つことが必要です。既存の高品質の音声合成ネットワークは、これらの課題により適したものにする必要があります。Waveformerアーキテクチャに根ざしたLLVCは、リアルタイムの声変換のユニークな要求に対応するために設計されています。 LLVCは、低遅延とリソースの使用効率を特徴とするGAN構造と知識蒸留を採用して、非常に効率的な動作を実現しています。カスタマイズされたDCCエンコーダーとトランスフォーマーデコーダーアーキテクチャを統合しています。LLVCは、さまざまな話者の声を特定のターゲット話者に似せるために変換する、並列データセットでトレーニングされています。モデルの出力と合成ターゲットの音声の知覚的な違いを減らすことを中心に行われます。 LLVCは、16kHzのビットレートでsub-20msの遅延を実現し、消費者向けCPU上ではほぼ2.8倍の実時間処理を超える成果を収めました。LLVCは、オープンソースの声変換モデルの中で、最も低いリソース消費量と遅延率を誇ることで、ベンチマークを確立しています。モデルの品質と自己類似性を評価するために、LibriSpeechのテストクリーンファイルからN秒のクリップを使用してモデルのパフォーマンスを評価します。比較では、CPU推論の遅延が最小のNo-F0 RVCとQuickVCと競合します。本研究は、CPU上でのリアルタイムの任意の1つの声変換に焦点を当てており、異なるハードウェアでのモデルのパフォーマンスや既存のモデルとの比較には触れていません。評価は、遅延とリソース使用量に限定されており、音声の品質や自然さに関する分析は行われていません。詳細なハイパーパラメータの分析の欠如は、特定のニーズに対する再現性と微調整に支障をきたします。本研究は、スケーラビリティ、OSの互換性、言語やアクセントに関する課題についても議論されていません。まとめると、この研究は、LLVCを通じて、消費者向けCPU上でリアルタイムに動作する、低遅延かつリソース効率の良い声変換の実現可能性を確立しています。LLVCは、専用のGPUを必要とせず、音声合成、音声匿名化、声のアイデンティティ変更などの実用的なアプリケーションに適用できます。ジェネレーティブ対抗アーキテクチャと知識蒸留の使用により、オープンソースの声変換モデルの新たな標準を設定し、効率を重視しています。LLVCは、単一入力話者データの微調整による個別の声変換の可能性を提供します。多言語音声やノイズのある音声を含めるトレーニングデータの拡充は、モデルのさまざまな話者への適応性を向上させる可能性があります。

潜在一貫性LoRAsによる4つのステップでのSDXL

潜在的一貫性モデル（LCM）は、ステーブルディフュージョン（またはSDXL）を使用してイメージを生成するために必要なステップ数を減らす方法です。オリジナルモデルを別のバージョンに蒸留し、元の25〜50ステップではなく4〜8ステップ（少ない）だけを必要とするようにします。蒸留は、新しいモデルを使用してソースモデルからの出力を再現しようとするトレーニング手順の一種です。蒸留されたモデルは、小さく設計される場合があります（これがDistilBERTや最近リリースされたDistil-Whisperの場合）または、この場合のように実行に必要なステップ数を減らします。これは通常、膨大な量のデータ、忍耐力、およびいくつかのGPUが必要な長時間かかる高コストのプロセスです。それが今日までの現状でした！私たちは、Stable DiffusionとSDXLを、まるでLCMプロセスを使用して蒸留されたかのように、速くする新しい方法を発表できることを喜ばしく思います！3090で7秒の代わりに約1秒、Macで10倍速くSDXLモデルを実行する、というのはどうですか？詳細は以下をご覧ください！目次メソッドの概要なぜこれが重要なのか SDXL LCM LoRAsによる高速推論品質の比較ガイダンススケールとネガティブプロンプト品質 vs. ベースのSDXL 他のモデルとのLCM LoRAs フルディフューザーズの統合ベンチマーク今日リリースされたLCM LoRAsとモデルボーナス：通常のSDXL LoRAsとの組み合わせ LCM…

「MIT研究者がLILOを導入：プログラム合成のための解釈可能なライブラリを学ぶための神経シンボリックフレームワーク」

ビッグ言語モデル（LLM）は、プログラムのさまざまな文脈でプログラムする能力がますます高度になっており、部分的に書かれたコードを完成させる、人間のプログラマーとの対話、さらには競技レベルの難しいプログラミングの謎を解くことさえも可能です。しかし、ソフトウェア開発者は、現在の作業を終えるよりも、問題の領域全体を解決するために使用できるライブラリを作成することに関心があります。そのために、リファクタリングのスキルは、ソフトウェア開発の重要な要素です。リファクタリングは、コードベースをより読みやすく（ほかのプログラマーにとって直感的）、再利用可能（新しいタスクに一般化可能）、コンパクト（共有構造を統合）にする抽象化を見つけ出す能力です。この多目的最適化の問題を解決するために、現在数百万人のプログラマーが利用している現在のコード補完ツールの機能を拡張する必要があります。この研究では、言語モデルをプログラミング言語（PL）の文献の自動リファクタリングと現在のアルゴリズム開発と統合することで、再利用可能な関数抽象化のライブラリを学習します。MIT CSAIL、MIT Brain and Cognitive Sciences、Harvey Mudd Collegeの研究者は、言語観察からのライブラリ導入のための3つの相互関連モジュール（図1）で構成される神経シンボリックフレームワークであるLILO（Library Induction from Language Observations）を提案しています。・デュアルシステム合成モジュール：プログラミングの問題に対する答えを探すために、2つの異なるアプローチが使用されます。LLMによって誘導される強力なドメイン一般事前知識はシステムに導入され、列挙的な探索によってドメイン固有の式が見つかることがあります。・圧縮モジュール：高性能なシンボリック圧縮システムであるSTITCHを使用して、現在の解決セットから関連する抽象化を見つけます。・自動ドキュメンテーション（AutoDoc）モジュール：人間が理解できるドックストリングと関数名を生成し、解釈性を向上させ、後でLLMによる誘導検索を容易にします。彼らの設計は、反復的なWake-SleepアルゴリズムDREAMCODERに基づいており、プログラミングの課題の解決（Wakeフェーズ）と共通の抽象化をライブラリに書き直す（Sleepフェーズ）を交互に行うことによって、探索を導く役割を果たしています。DreamCoderは、従来の深層学習技術とは異なり、少数のサンプルから重要な一般化を引き出すことができ、学習されたライブラリはモデルの概念的な知識を象徴的に表現しています。ただし、DreamCoderの検索プロセスは計算量が非常に多く、単一のドメインの学習にCPUの使用量が2か月以上かかります。図1：LILO学習ループの概要。 (Al) プレーン言語で記述されたタスクの説明からプログラムを作成するため、LILOはデュアルシステムの検索手法を使用します。 LLMで生成された自動文書化（C）をSTITCH（B）と呼ばれる圧縮方法と組み合わせることで、プログラムソリューションの集合を再構成し、λ-抽象の解釈可能なライブラリを作成します。この検索-圧縮-文書化サイクルにより、プログラムソリューションの構造（A vs. D）がシンプルになり、後続の段階でより困難なタスクの解決が容易になります。この検索にかかる時間のかなりの部分は、「出発する」ということに費やされます。プログラマーが既によく知っているか、前のドメイン固有の問題解決の経験により迅速に理解できる抽象化の基本セットを見つける必要があります。さらに、DreamCoderのライブラリは常に解釈できるわけではありません。解読するためには、ドメインの知識とラムダ計算の理解が必要です。これらの問題に取り組むために、LILOはLLMを2つの革新的な方法で使用します：（1）検索中にプログラムソリューションをより迅速に見つけるため、（2）学習されたライブラリのドキュメンテーションを向上させ、理解しやすくします。文字列編集と正規表現、CLEVRデータセットでのシーン推論、2Dロゴタートルグラフィックス言語でのグラフィックスコンポジションという3つの難しいプログラム合成ドメインで、LILOを言語ガイドのDreamCoderと比較します。…

「AWS Inferentia2を使って、あなたのラマ生成時間を短縮しましょう」

Hugging Faceブログの前の投稿で、第2世代のAWS InferentiaアクセラレータであるAWS Inferentia2を紹介し、optimum-neuronを使用して、標準のテキストとビジョンタスクのためにHugging FaceモデルをAWS Inferentia 2インスタンス上で迅速に展開する方法を説明しました。 AWS Neuron SDKとのさらなる統合の一環として、🤗optimum-neuronを使用して、AWS Inferentia2上でテキスト生成のためのLLMモデルを展開することができるようになりました。デモンストレーションには、Llama 2、ハブで最も人気のあるモデルの一つ、を選択するのが最も適しています。 Inferentia2インスタンスに🤗optimum-neuronをセットアップするおすすめは、Hugging Face Neuron Deep Learning AMI（DLAMI）を使用することです。DLAMIには、必要なライブラリが事前にパッケージ化されており、Optimum Neuron、Neuron Drivers、Transformers、Datasets、およびAccelerateも含まれています。また、Hugging Face…

Learn more about Search Results CPU - Page 10