Learn more about Search Results A - Page 521

「前方予測デコーディング」:LLM推論を加速するための並列デコーディングアルゴリズム

大規模な言語モデル(LLM)であるGPT-4やLLaMAなどは現代のアプリケーションを再構築し続けているが、推論は遅く最適化が困難であるため、自己回帰デコーディングに基づいている。LLMのリクエストの遅延は、リクエストの回答の長さ、または同等の復号化ステップの数にほとんど依存しており、自己回帰デコーディングの各ステップでは時間ごとに1つのトークンしか生成されないため、現在のGPUの並列処理能力は一般的に十分に活用されていない。これは、チャットボットや個人アシスタントなどの実用的なLLMアプリケーションでは問題となり、瞬時の応答を必要とするため、低レイテンシで大規模なシーケンスを頻繁に生成することになる。 自己回帰デコーディングは、メドゥーサとOSDのような先読みデコーディング手法を使用することで高速化することができる。これらの手法は、「予測して確認する」という戦略を採用し、予備モデルが将来のいくつかの可能なトークンについて予測し、オリジナルのLLMがこれらの予測を並列で確認する。これにより、デコードのステップ数が少なくて済む場合にレイテンシを削減することができる。しかし、これらの手法には制約もある。まず、ドラフトモデルが主モデルの出力を適切に予測することができる割合、または同等のトークン受理率は、先読みデコーディング手法が達成できる最大の高速化の上限である。第二に、信頼性のある予備モデルを開発することは容易ではなく、通常はトラフィックの時間的な変動を考慮してトレーニングと細かい調整が必要となる。 LMSYS ORGによる新しい研究では、これらの困難に対処するために開発された新しい正確なデコーディング技術である「先読みデコーディング」を紹介している。1つのステップで多くの後続トークンをデコードすることは計算上制約がありますが、LLMは複数の直交n-gramを同時に生成できることが観察されています。これらのn-gramは将来のシーケンスの一部に適用することができます。従来のヤコビ反復法は並列デコーディングに適応され、自己回帰デコーディングを非線形方程式の解と見なすことが可能になります。生成されたn-gramは記録され、確認後、シーケンスに組み込まれます。先読みデコーディングは特に次のような点で注目に値するです。 事前モデルを使用しないため、展開が高速化されます。 各ステージごとにデコードのステップ数をlog(FLOPs)倍減少させる 研究者は、先読みデコーディングがレイテンシを1.5倍から2.3倍低減することを実証しています。特に、ほとんど計算負荷を増やすことなく処理を削減することが可能です。ただし、利点は限定的です。 彼らは自分たちの実装を作成し、huggingface/transformersとの互換性を持つように先読みデコーディングを作動させています。HuggingFaceはネイティブ生成関数を提供していますが、ユーザーはわずかなコードで効率を大幅に向上させることができます。 ヤコビ反復法は非線形システムを解決するための確立された技術です。LLM推論は事前トレーニングモデルを必要とせず、並列にトークンを作成するためにも使用することができます。ヤコビデコーディングでは、各ステップで1つ以上のトークンに対してLLMの前方計算が行われるため、自己回帰デコーディングの各ステップよりもFLOPが多く必要です。研究者は、実世界のアプリケーションにおいてヤコビデコーディングのウォールクロック性能を大幅に改善しようとする際に遭遇するいくつかの困難を観察しています。ヤコビデコーディングは、多くのトークンを複数のステップでデコードすることができますが、トークンの順序がしばしば間違ってしまいます。適切に予測された場合でも、トークンは次のサイクルで置き換えられることがよくあります。そのため、わずかな反復で複数のトークンを同時に正確にデコードすることはできません。これにより、並列デコーディングを使用する目的が無効化されます。一般に、グラフィックス処理ユニットの並列処理能力のおかげで、パフォーマンスの低下は起こりません。 先読みデコーディングは、ヤコビデコーディングの並列n-gram生成能力を生かすことで、これらの欠点を克服することができます。ある時点での各新しいトークンは、ヤコビデコーディングで前の反復のその位置の値を使用してデコードされます。このプロセスにより、多くのn-gramが形成され、各トークン位置の過去のトークンのタイムラインが作成されます。これを活用するため、先読みデコーディングではこれらのn-gramが軌跡に基づいて収集され、キャッシュされます。先読みデコーディングは、将来のトークンに対してヤコビ反復を使用した並列デコーディングを実行しながら、キャッシュから期待されるn-gramを同時に確認します。 各先読みデコードフェーズは、効率を向上させるために、先読みブランチと検証ブランチの2つの並行したブランチに分割されます。Jacobi反復軌跡からn-gramを生成するため、先読みブランチは定数サイズの二次元ウィンドウを保持します。同時に、有望なn-gramの候補は検証ブランチによって選択され、確認されます。 LLMデコードにおいて主要なボトルネックはメモリーバンド幅であるため、研究者は先読みブランチと検証ブランチを1回の通過に組み合わせ、関連するオーバーヘッドを隠蔽しながらGPUの並列処理能力を活用します。 研究チームは、LLaMA-2-ChatとCodeLLaMAの異なるサイズをMT-bench、HumanEval、GSM8Kでテストし、先読みデコードの有効性を確認しました。先読みデコード技術は、微調整や事前モデルの必要性なしに高速化を実現します。彼らはfp16精度の下で、単一のA100 GPUで7B、13B、33Bモデルを評価し、2つのA100 GPUで70Bモデルをパイプライン並列処理します。 MT-Bench LLaMA Discussion: 多くのモデル構成で、先読みデコードによるスピードアップは約1.5倍です。 HumanEval’s CodeLLaMA: CodeLLaMAでは、先読みデコードを使用するとHumanEvalのレイテンシが2倍以上減少します。これは、コードには数多くの容易に推測可能なN-gramが含まれているためです。 GSM8Kの教育用CodeLLaMA: 先読みデコードにより、CodeLLama-InstructorをGSM8Kの数学的な課題に適用することで、レイテンシが1.8倍減少します。…

20/11〜26/11の間におけるコンピュータビジョン分野におけるトップ重要論文

毎週、いくつかの一流の学術会議やジャーナルで画像などのさまざまな分野における刺激的なブレークスルーを示したコンピュータビジョンの革新的な研究が紹介されています...' (Mai-shuu, ikutsu ka no ichiryuu no gakujutsu kaigi ya jānaru de gazō nado no samazamana bun'ya ni okeru shigeki-tekina burēkusurū o shimeshita konpyūta…

「勉強ルーティンにおけるワードウォールの創造的な活用法トップ10」

「ワードウォールは、勉強を効果的に進め、学習成果を高めるための素晴らしいツールです通常は小学校の教室で使用されますが、ワードウォールは全ての年齢や学問分野に適応することができます試験で優秀な成績を収めたい学生や語彙を拡充したい方にとって、以下に10のクリエイティブな方法を紹介します... スタディルーティンでワードウォールを活用するためのトップ10のクリエイティブな方法詳細を読む »」

「今日のビジネスの風景におけるプロフェッショナルな提案の力」

現代ビジネスのダイナミックな風景においては、プロの提案の重要性は過小評価されることはありません潜在的なクライアントやパートナーと共感する魅力的な提案を作る能力は、成功を収めるために不可欠ですこの記事は、プロの提案が現代のビジネス環境において果たす重要な役割を探求し、その変革の力に光を当てます...現代のビジネス風景におけるプロの提案の力 続きを読む »

クラウド移行のマスタリング:成功させるためのベストプラクティス

「クラウド移行のプロセスはどれも同じではありません各システムには独自の要件があります始めるには、この記事をチェックして、試行された実践方法を確認してください」

クラウドの保護:クラウドセキュリティのフロンティアを航海する

この記事では、クラウドセキュリティについて、重要な考慮事項、ベストプラクティス、およびクラウド上のデータを保護するための進化するランドスケープについて探求します

LMQL — 言語モデル用のSQL

「SQLについて聞いたことがあるか、あるいはスキルを習得したことがあるはずですSQL(Structured Query Language)はデータベースデータの操作に広く利用される宣言型言語です年次のStackOverflow調査によると...」

「大型言語モデルによる多様な学問領域における包括的評価:GPT-4で科学的発見のフロンティアを明らかにする」

最近、大型言語モデル(LLM)は人工知能(AI)コミュニティから多くの賞賛を受けています。これらのモデルは卓越した能力を持ち、コーディング、数学、法律から人間の意図や感情を理解するまで、さまざまな分野で優れた成果を上げています。自然言語処理、理解、生成の基礎に基づいており、これらのモデルはほとんどの産業に変化をもたらす可能性を秘めています。 LLMはテキストだけでなく、画像処理、音声認識、強化学習なども行い、その適用範囲と適応性を証明しています。最近OpenAIによって導入されたGPT-4は、そのマルチモーダル性から非常に人気があります。GPT 3.5とは異なり、GPT 4はテキスト形式と画像形式の両方の入力を受け付けることができます。いくつかの研究では、GPT-4が人工汎用知能(AGI)の初期の証拠を示しているとさえ言われています。GPT-4の一般的なAIタスクでの効果は、科学者や研究者がLLMに焦点を当てたさまざまな科学の領域を探求するきっかけとなっています。 最近の研究では、研究チームがGPT-4を特に焦点として、自然科学研究の文脈でのLLMの能力を研究しました。生物学、材料設計、薬剤開発、計算化学、偏微分方程式(PDE)など、自然科学の幅広い分野に焦点を当てています。研究ではGPT-4を詳細に研究するために、LLMとして使用し、特定の科学的領域でのLLMの性能と可能性を包括的に紹介しています。 研究は生物学、材料設計、偏微分方程式(PDE)、密度汎関数理論(DFT)、分子動力学(MD)など、幅広い科学分野をカバーしています。チームは、LLMが科学的なタスクで評価され、GPT-4の領域特異的な専門知識を完全に活用し、科学の進歩を加速し、リソースの割り当てを最適化し、学際的な研究を推進する必要があることを共有しています。 研究は予備的な結果に基づいて、GPT-4がさまざまな科学的応用に有望な可能性を示しており、複雑な問題解決と知識の統合タスクを管理する能力を示しています。研究論文は、GPT-4のドメイン間の知識ベース、科学的理解力、数値計算スキル、多様な予測能力を詳細に調査しています。 研究は、GPT-4が生物学と材料設計の分野で広範なドメインの専門知識を示しており、特定のニーズに役立つことを示しています。モデルは薬剤開発の文脈で属性を予測する能力があります。GPT-4は計算化学やPDE研究の分野での計算と予測に役立つ潜在能力を持っていますが、特に定量的な計算ジョブにおいてはわずかに精度が向上する必要があります。 結論として、この研究は大規模な機械学習とLLMの急速な発展をハイライトし、基本的な科学モデルの構築とLLMを専門の科学ツールやモデルと統合する動的な研究に焦点を当てています。

「MLを学ぶ勇気:L1とL2の正則化の解明(パート1)」

「機械学習への挑戦へようこそ」へようこそ、ここではL1とL2の正則化について探求を始めますこのシリーズは、複雑な機械学習の概念を簡素化し、リラックスした雰囲気で提供しています...

あなたのビジネス分析を高めましょう:季節調整のステップバイステップガイド

私たちは皆、予測のために時間系列をその要素に分解する重要性を理解していますが、同じことがビジネスパフォーマンス分析では十分に強調されていませんビジネスパフォーマンスとして...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us