Learn more about Search Results これ - Page 5
- You may be interested
- AIを利用して、科学者たちは、抗薬剤耐性...
- 「自然言語処理の技術比較:RNN、トランス...
- NVIDIA CEO:クリエイターは生成的AIによ...
- このAI研究により、チップデザインに適し...
- 「OSMネットワークでの移動時間によって重...
- 希望、恐れ、そしてAI
- 「大規模なラスター人口データの探索」
- 「Amazon Comprehend を使用して有害なコ...
- ヘリオットワット大学とAlana AIの研究者...
- IPUを使用したHugging Face Transformers...
- LangChain チートシート — すべての秘密を...
- このAI研究は、パーソン再識別に適したデ...
- DeepBrain AIレビュー:最高のAIアバター...
- 「解答付きの無料データサイエンスプロジ...
- If you have any further questions or ne...
このAI研究は、FlashAttentionに基づいた新しい人工知能アプローチであるフラッシュデコーディングを紹介しますこれにより、長いコンテキストのLLM推論を最大8倍速く行うことができます
ChatGPTやLlamaなどの大規模言語モデル(LLM)は、優れた自然言語処理能力により、テキスト生成からコード補完までさまざまなアプリケーションで注目を集めています。これらのモデルの運用コストが高いため、効率とスケーラビリティを向上させるための革新的な解決策を求める研究者も登場しました。 一つの応答を生成するのにかかる平均コストが0.01ドルであるため、膨大なユーザー(それぞれが複数回の日常的なインタラクションを持つ)にこれらのモデルをスケーリングする費用は急速に蓄積される可能性があります。特にコードの自動補完のような複雑なタスクでは、モデルはコーディングプロセス中に引き続き関与しているため、これらのコストは指数関数的に増加する可能性があります。デコードプロセスの最適化の必要性を認識し、研究者は一貫した文脈に基づいたその他のテキストを生成するための注意操作を統合し、スピードと効率性を改善するための技術を探求してきました。 LLMの推論、通常はデコードと呼ばれる操作は、一度に一つのトークンを生成することを含んでおり、注意操作は全体の生成時間を決定する重要な要素です。FlashAttention v2やFasterTransformerのような進歩により、トレーニングプロセスがメモリ帯域幅と計算リソースを最適化することができ、推論フェーズ中の課題も解消されています。デコーディング中の最も大きな制約のうちの1つは、より長い文脈での注意操作のスケーラビリティです。LLMはますます広範なドキュメント、会話、コードベースの処理に従事するため、注意操作は推論時間のかなりの部分を消費する可能性があります。このため、モデル全体の効率に影響を及ぼします。 研究者は、これらの課題に取り組むために、Flash-Decodingと呼ばれる画期的なテクニックを導入しました。このテクニックは、以前の手法の基盤を活用しながら、並列化に焦点を当てています。キーと値のシーケンス長に基づいた戦略的なパーティションにより、小さなバッチサイズと拡張されたコンテキストでもGPUの効率的な利用が可能となります。Flash-Decodingは、並列化された注意操作および対数和の指数関数を活用し、モデル全体のアーキテクチャにわたる効率的で効果的な計算を実現することで、GPUメモリの要件を大幅に削減します。 Flash-Decodingの効果を評価するために、堅牢なアーキテクチャと高度な機能を持つ最新のCodeLLaMa-34bモデルで総合ベンチマークテストが行われました。その結果、既存の手法と比較して、より長いシーケンスに対してデコーディング速度が8倍向上したことが示されました。また、さまざまなシーケンス長とバッチサイズに対してスケーリングされたマルチヘッドアテンションのマイクロベンチマークは、Flash-Decodingの効果をさらに裏付け、シーケンス長が64kまでスケールアップされても一貫した性能を示しました。この卓越したパフォーマンスは、LLMの効率性とスケーラビリティを大幅に向上させる役割を果たし、大規模言語モデル推論技術の飛躍的な進歩を示しています。 まとめると、Flash-Decodingは、大規模言語モデルのデコードプロセスにおける注意操作に関連する課題に対処するための革新的な解決策として登場しました。GPUの利用率を最適化し、モデル全体のパフォーマンスを向上させることで、Flash-Decodingは運用コストを大幅に削減し、さまざまなアプリケーションにおけるこれらのモデルの利用可能性を促進する可能性を秘めています。この先駆的な技術は、大規模言語モデル推論における重要なマイルストーンとなり、自然言語処理技術の効率性と加速度を飛躍的に向上させる道を開いています。
このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です
ファインチューニングされた言語モデルは、しばしば言語エージェントを作成する際に軽視され、特にGoogle検索APIを使用して質疑応答の能力を高めることに焦点を当てています。System2 Research、ケンブリッジ大学、モナッシュ大学、およびプリンストン大学の研究者たちは、ファインチューニングされたバックボーン言語モデルがこれらのエージェントのパフォーマンスを一貫して向上させることを示しています。彼らの研究では、複数のタスクや促進手法からの軌道を組み込んだFineActと呼ばれるファインチューニング手法を導入し、多様なファインチューニングデータが言語エージェントの洗練において重要であることを強調しています。 彼らの研究は、言語エージェントとファインチューニングされた事前学習言語モデルの交差点を探っています。先行研究では、言語エージェントとファインチューニングが別々に研究されてきましたが、この研究はそのギャップを埋めるものです。FineActは、言語エージェントのためのファインチューニング手法であり、これらのエージェントにおいて言語モデルのファインチューニングがもたらす利点と結果を系統的に調査しています。彼らの研究には、スケーリング効果、頑健性、汎化性、効率性、およびコストの影響などが含まれ、この新興分野に価値ある洞察を提供しています。 彼らの手法は、これらのエージェントのための言語モデル(LMs)のファインチューニングにおけるより効果的な言語エージェントの必要性に対応しています。既存の言語エージェントは、基本的なLMと限られた数の促進技術に頼っており、パフォーマンスと頑健性の制約があります。実験結果は、LMのファインチューニングがエージェントのパフォーマンスを大幅に高め、推論時間を短縮し、頑健性を向上させることを示しており、実世界の応用に向けた有望な手段となっています。 彼らの研究は、Google検索APIを使用した質問応答(QA)での言語エージェントのLMのファインチューニングを探求しています。実験は、LM、データサイズ、ファインチューニング手法に焦点を当て、HotpotQA EMなどの指標を使用してパフォーマンスを評価しています。彼らのアプローチは、従来の促進手法と比べてパフォーマンス、効率性、頑健性、一般化性の向上の利点を示しています。 言語エージェントのLMのファインチューニングによって、HotpotQAパフォーマンスがLlama2-7BおよびGPT-4からの500個のエージェント軌跡を使用して77%向上します。 CoTメソッドは回答の品質を向上させます。混合エージェントメソッドはベースラインの範囲と一致してパフォーマンスを一貫して向上させます。ファインチューニングにより、正確な回答と全体的な回答の品質が向上し、EMスコアとF1スコアに反映された精度が向上します。ただし、F1スコアは4エポックを超えて段階的に減少し、長期的なファインチューニングでは収益の減少が示唆されます。 CoTメソッドの統合によって回答の品質がさらに向上します。ファインチューニングされた複数のタスク軌跡とプロンプトを用いたFireActアプローチは、エージェントのパフォーマンスをさらに向上させます。製品化モデルの固定された一連のタスク解決軌跡、ツールの過剰使用、および逸脱回復の課題など、既存のLMだけに頼る言語エージェントは制約があります。キャリブレーションやメタ論理に関する将来の研究は、ツール使用と反省の課題に対処することでエージェントの設計を改善することができます。 FireActから生じる研究の疑問は、異なるタスク、グラウンディング設定、およびドメインにおける言語エージェントのLMのファインチューニングをさらに拡大することです。APIツールの使用、ウェブの探索、および実世界での統合を網羅した調査が必要です。エージェントのパフォーマンス向上のためには、さまざまなファインチューニングデータソースと技術の探求が重要です。キャリブレーションとメタ論理がエージェントの設計とツールの使用と軌道の逸脱の管理能力に与える影響を取り組むべきです。最後に、拡張性、頑健性、効率性、およびコストの影響の評価には包括的な研究が必要です。
このAI研究では、SMPLer-Xという名前のモデルを提案していますこれは一般的な基礎モデルであり、モノクル入力から3D/4D人体のモーションキャプチャを行います
アニメーション、ゲーム、ファッションの分野は、単眼写真や動画からの表現的な人体の姿勢と形状推定(EHPS)の画期的な分野から恩恵を受けることがあります。複雑な人体解剖学、顔、手を正確に表現するために、この作業では通常、パラメトリックな人体モデル(SMPL-Xなど)が使用されます。最近の数年間では、ユニークなデータセットが流入し、環境のキャプチャ、位置分布、体の可視性、カメラの視点などの研究の機会が増えました。しかし、最先端のアプローチはまだこれらのデータセットの一部に制約があり、さまざまなシナリオでパフォーマンスのボトルネックとなり、未開拓の地域への一般化を妨げています。 EHPSの信頼性のある、国際的に適用可能なモデルを構築するために、この研究では利用可能なデータセットを徹底的に分析することを目標としています。これを行うために、彼らは32のデータセットを使用したEHPSの最初のシステムベンチマークを作成し、そのパフォーマンスを4つの主要基準に対して評価しました。これにより、ベンチマーク間の重要な不整合が明らかになり、全体的なEHPSの複雑さが強調され、シナリオ間のドメインギャップを解消するためにデータのスケーリングが必要であることが示されました。この詳細な分析は、EHPSのための既存のデータセットの使用を再評価する必要性を示し、より優れた汎化能力を提供するより攻撃的な代替手段への切り替えを主張しています。 彼らの研究は、補完的な性質を持つ複数のデータセットを利用する価値を強調しています。また、これらのデータセットの転送性に影響を与える関連する側面を徹底的に調査しています。彼らの研究は将来のデータセット収集に役立つアドバイスを提供します。1) 100,000以上のインスタンスを含む場合、データセットは特に大規模である必要はありません。2) イン・ザ・ワイルド(屋外を含む)の収集が不可能な場合、さまざまな屋内風景が優れた代替手段となります。3) シンセティックデータセットは、検出可能なドメインギャップを持ちながら、驚くほど効果的になっています。4) SMPL-Xのアノテーションがない場合、擬似SMPL-Xラベルは役立ちます。 ベンチマークからの情報を使用して、Nanyang Technological University、SenseTime Research、Shanghai AI Laboratory、東京大学、国際デジタル経済アカデミー(IDEA)の研究者たちはSMPLer-Xを作成しました。この汎用基盤モデルはさまざまなデータセットを使用してトレーニングされ、様々な状況でバランスの取れた結果を提供します。この研究は大量の選択されたデータの力を示しています。彼らは、EHPSのための非常に基本的なアーキテクチャを持つSMPLer-Xを開発しました。厳密なアルゴリズムの要素の分析ではなく、SMPLer-Xは大規模なデータとパラメータのスケーリングを許容し、将来のフィールド研究の基盤となるよう設計されています。 さまざまなデータの組み合わせやモデルサイズでの実験により、従来のデータセットトレーニングの広く行われている方法に挑戦し、すべてのベンチマーク結果を上回る包括的なモデルを構築しました。彼らの基盤モデルにより、5つの主要なベンチマーク(AGORA、UBody、EgoBody、3DPW、EHF)での平均主要エラーが110ミリメートルを超えて70ミリメートル以下に減少しました。また、RenBodyやARCTICなどの新しいシナリオにも成功して印象的な汎化能力を示しています。さらに、彼らは基盤モデルの最適化の効果を示し、ドメイン固有のエキスパートとして機能して、広範なベンチマークで優れたパフォーマンスを実現しています。 EgoBody、UBody、EHFにおいて最新技術の性能を発揮するために同じデータ選択方法を採用しており、AGORAリーダーボードでも107.2ミリメートルのNMVE(11.0%の改善)を達成し、新たな記録を打ち立てました。彼らは3つの異なる貢献を提供しています。1) EHPSの幅広いデータセットを使用して、信頼性のある、移植可能なEHPSに向けたトレーニングデータのスケーリングに重要な方向性を提供する、最初のシステマティックなベンチマークを構築します。2) データとモデルのスケーリングの両方を調査し、バランスの取れた結果を提供し、未開拓のデータセットに効果的に拡張する汎用基盤モデルを構築します。3) 基盤モデルを改良して、データ選択手法を拡張し、さまざまなベンチマークで強力な専門家となります。
このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです
“`html 最近、テキストの説明から画像を作成したり、テキストと画像を組み合わせて新しい画像を生成したりすることにおいて、大きな進歩がありました。しかし、未開拓の領域として、一つの舞台や複数の物体や人物を含むシーンの説明から画像を生成するというものがあります。Microsoft Research、ニューヨーク大学、ウォータールー大学の研究チームが、この問題に取り組むためにマルチモーダルLLMを活用したモデルであるKOSMOS-Gを提案しました。 KOSMOS-Gは、複雑なテキストと複数の画像の組み合わせから詳細な画像を生成することができます。例えそれがこれまでに見たことのない組み合わせであっても、問題ありません。これまでにないモデルであり、ある説明に基づいてさまざまな物体や事物が写っている画像を生成することができます。KOSMOS-Gは、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術を使用するための新しい可能性を開拓します。 KOSMOS-Gは、テキストと画像から画像を生成するための賢いアプローチを使用しています。まず、テキストと画像を理解することができるマルチモーダルLLMをトレーニングします。次に、テキストを理解することに優れたCLIPテキストエンコーダと整列させます。 KOSMOS-Gにテキストとセグメント化された画像のキャプションを与えると、指示に合った説明を持つ画像を生成するためにトレーニングされます。事前にトレーニングした画像デコーダを使用し、さまざまな状況で正確な画像を生成するために学んだ内容を活用します。 KOSMOS-Gは、指示と入力データに基づいて画像を生成することができます。トレーニングには3つのステージがあります。第一ステージでは、モデルはマルチモーダルコーパスに対してプリトレーニングされます。第二ステージでは、AlignerNetがKOSMOS-Gの出力空間をU-Netの入力空間にCLIPの指示によって整列させるようにトレーニングされます。第三ステージでは、KOSMOS-Gはキュレーションされたデータに基づいた構成生成タスクによって微調整されます。ステージ1では、MLLMのみがトレーニングされます。ステージ2では、MLLMは固定されたままでAlignerNetがトレーニングされます。ステージ3では、AlignerNetとMLLMの両方が共同でトレーニングされます。画像デコーダはすべてのステージで固定されたままです。 KOSMOS-Gは、さまざまな設定でのゼロショット画像生成において本当に優れています。意味を成し、良く見え、異なるカスタマイズが可能な画像を作成することができます。文脈を変えたり、特定のスタイルを加えたり、変更を加えたり、画像に追加の詳細を追加するなどの機能があります。KOSMOS-Gはゼロショット設定でのマルチエンティティVL2Iを実現した最初のモデルです。 KOSMOS-Gは、画像生成システムにおいてCLIPの代わりに簡単に使用することができます。これにより、以前は不可能だったアプリケーションへの新しい可能性が広がります。CLIPの基盤を築くことで、KOSMOS-Gはテキストに基づく画像生成からテキストと視覚情報の組み合わせに基づく画像生成への移行を進め、多くの革新的なアプリケーションのチャンスを提供することが期待されています。 要約すると、KOSMOS-Gはテキストと複数の画像から詳細な画像を生成するモデルです。そのトレーニングでは、「指示を行う前に整列する」という独自の戦略が使用されています。KOSMOS-Gは個々のオブジェクトの画像生成に優れており、複数のオブジェクトに対しても同様のことを行う最初のモデルです。また、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術と組み合わせて使用できます。要するに、KOSMOS-Gは画像生成において言語のような画像を作成するための初歩的なステップです。 “`
マンチェスター大学の研究者たちは、MentalLLaMAを導入しましたこれは、読みやすい精神健康分析のためのオープンソースLLMシリーズで、指導に従う能力を持っています
PTSDとその他の精神的健康問題は、グローバルに公衆衛生に影響を与えています。社会的な偏見のため、多くの人々は素早く精神科の援助を求めませんが、これには壊滅的な影響があります。オンライン技術の進歩により、ソーシャルメディアは人々の日常生活に浸透しています。ソーシャルメディアのテキストは、多くの精神的健康障害を抱えた人々がネガティブな感情を伝え、ストレスを表現するためにTwitterやRedditなどのサイトを利用するため、精神的健康分析の優れた情報源です。しかしながら、ソーシャルメディアのメッセージの急増により、ポストの手動分析は実現不可能です。そのため、多数の研究が自然言語処理(NLP)手法を使用して、ソーシャルメディアを精神的健康について自動的に分析しています。 精神的健康に関する自然言語処理(NLP)の従来のアプローチでは、精神的健康のソーシャルメディア分析をテキスト分類の問題としてモデル化し、識別的なドメイン固有の事前学習済み言語モデル(PLM)が最先端のパフォーマンスを達成しました。その主な欠点の1つは、これらのアルゴリズムが解釈可能性が少なく、ブラックボックス的な予測結果を提供することであり、実際の使用時の信頼性を著しく低下させています。最新の大規模言語モデル(LLM)であるChatGPT2やLLaMAを含む効果的な精神的健康疾患の同定と、Chain-of-Thought(CoT)アプローチを使用したその選択の詳細な説明の評価も最近行われました。また、人間のテストも実施し、ChatGPTが正しい分類の説明を人間と同等のものとして提供できることを示し、精神的健康分析の可読性の向上の可能性を示しました。 しかし、ChatGPTは現在、ゼロショットまたはフューショット学習環境で最先端の教師ありアルゴリズムのパフォーマンスには及びません。実際の状況での応用に制約を与えます。実用的な方法は、限られたデータで基盤のLLMを対象ドメインと整列させることにより、それらを微調整することです。理解可能な精神的健康分析のためのLLMの開発には、2つの主要な障壁があります。まず、LLMを最適化するために、良いトレーニングデータが必要です。ソーシャルメディア上の精神的健康の調査に関するいくつかのデータセットは、短い抽出のみを含みますが、検出結果に対する徹底した信頼性と正当性を提供するオープンソースのデータはまだ存在しません。繊細な研究対象と専門家によって書かれた説明の高い費用が、これらの主な原因です。 次に、利用可能なインタープリタブルな精神的健康分析のオープンソースLLMはほんの一部しか存在しません。ただし、ChatGPTなどのクローズドソースのLLMを促進または微調整することは非常に高価です。高いコストとリソースの不足により、関連する研究コミュニティの成長を改善する必要があります。彼らは、これらのギャップを埋めるために、105,000件のデータサンプルを備えた初めてのマルチタスクおよびマルチソースの理解可能な精神的健康指導(IMHI)データセットを作成しました。まず、8つのタスクをカバーする10の既存のソースからトレーニングデータを収集しています。これらのタスクには、バイナリの精神的健康検出タスク、マルチクラスの精神的健康検出タスク、精神的健康原因/要因検出タスク、および精神的リスクとウェルネス要因検出タスクが含まれています。 図1は、MentalLLaMAのパフォーマンスの一部を示し、精神的健康分析を含んでいます。また、MentalLLaMAのトレーニングデータと基礎モデルを要約しています。 データには、ソーシャルメディアの投稿とそれに付随するラベルが含まれています。第二に、各ラベルには注釈付きで詳細な正当化が付けられます。専門家によって作成されたフューショットの質問と収集されたラベルを使用して、ChatGPTをインスパイアし、その返信から説明を引き出します。セルフインストラクトの成功から着想を得ています。すべての取得データに自動評価を行い、説明の品質を保証します。これらの評価では、予測の正確性、ラベルと説明の対応、および説明の総合的な品質を評価します。さらに、専門家による注意事項戦略で、一部の収集データに対して人間の評価も実施します。 第三に、彼らはルールベースのアプローチを利用して、収集されたすべてのソーシャルメディアの投稿、ラベル、説明を命令ベースのクエリ-回答ペアに変換します。これらは、IMHIデータセットのトレーニングデータと評価ベンチマークの作成に使用されます。マンチェスター大学の研究者は、IMHIデータセットに基づいた解釈可能なメンタルヘルス分析のためのオープンソースLLMシリーズであるMentalLLaMAを紹介しています。LLLaMA2の基礎モデルは、MentalLLaMAモデルのトレーニングの基礎として機能します。具体的には、MentalLLaMA-7B、MentalLLaMA-chat-7B、およびMentalLLaMA-chat-13Bモデルを微調整しています。図1は、MentalLLaMAの優れた性能のいくつかのインスタンスを表示しています。 さらに、彼らはMentalLLaMAモデルがIMHI評価基準に対してどれだけ優れているかを徹底的に評価しています。彼らは、分類結果を最先端の識別テクニックと他の生成言語モデルと比較することで、MentalLLaMAの予測精度を評価しています。研究結果によると、MentalLLaMA-chat-13Bは、テストセットの10個中7個で、最先端のレベルと同等かそれ以上の正確性を発揮します。生成される説明の質も評価しています。結果は、命令の調整、人間のフィードバックからの強化学習(RLHF)、およびモデルの拡大により、説明の品質が向上することを示しています。 彼らは、ソーシャルメディア上の解釈可能なメンタルヘルス分析のための最初のマルチタスクおよびマルチソースの命令調整データセットであるInterpretable Mental Health Instruction(IMHI)データセットを作成しました。 • 彼らは、メンタルヘルスの理解可能な分析を行うためにオープンソースの最初の命令従順の大規模言語モデルであるMentalLLaMAを提案しています。MentalLLaMAはソーシャルメディアデータを使用して心理の分析を行うことができ、その結論に納得のいく根拠を提示することができます。 • 8つのタスクと10のテストセットを含む19Kのテストサンプルで、理解可能なメンタルヘルス分析のための最初の包括的な評価基準を提示しています。このベンチマークでは、現在使用されている技術とMentalLLaMAを比較しています。結果と分析から、MentalLLaMAが優れていることが示されており、将来の研究は理解可能なメンタルヘルス分析のためのLLMの改善に焦点を当てる予定です。
これらの新しいツールは、AIビジョンシステムのバイアスを軽減するかもしれません
ソニーとメタからの2つの新しい論文は、バイアス検出を公平にするための新しい方法を説明しています
人工知能に投資するのですか? 考慮すべきポイントはこれです
「AIの取り組みに投資するためのすべての知識」
ETHチューリッヒの研究者は、高速フィードフォワード(FFF)アーキテクチャを導入しましたこれは、そのニューロンのブロックに対して対数時間でアクセスするフィードフォワード(FF)アーキテクチャの仲間です
信じられないほどの大規模言語モデル(LLM)の導入は、人工知能の分野において画期的なものでした。これらの複雑なアルゴリズムは、膨大なデータとコンピュータのパワーによって駆動されており、人間の技術との関わり方が変わりました。AIは、人間と機械の相互作用を変えており、LLMの力によって、さまざまな領域が革新されています。 トランスフォーマーモデルには、モデルの性能に重要な役割を果たすフィードフォワード層が必要です。これらの層は入力データを変換する役割を担い、モデルの性能に中心的な役割を果たしています。近年、トランスフォーマーモデルのサイズは拡大し、フィードフォワード層には数万個の隠れニューロンが含まれるようになりました。モデルのサイズの増加に伴い、フィードフォワード層の計算コストも増加していますので、フィードフォワード層の計算を加速するための戦略を見つけることは重要です。 非常に大きなネットワークでは、フィードフォワードの隠れニューロンのほんの一部しか、特定の入力に対する出力の決定には必要ありません。この洞察に応えて、この現象を利用するモジュラーネットワークの作成に取り組まれています。この分野の最近の研究は、フィードフォワード層の疎な構造を促進するアーキテクチャのレイアウトに焦点を当てています。これらの設計では、推論時にどのエキスパートを使用するかを選択するためのゲーティング層の訓練が必要であり、フィードフォワード層を異なるブロックに分割します。この方法は訓練の複雑さを増し、推論時間を短縮しますが、ノイズのあるゲーティングに依存しています。 既存の手法の代わりとして、ETHチューリッヒの2人の研究者チームがFast Feedforward(FFF)アーキテクチャを紹介しました。FFFは、微分可能なバイナリツリーを使用し、入力空間を複数の領域に分割しながら、各セクターの境界と関連するニューラルブロックを同時に学習します。従来のフィードフォワード層とモジュール化技術と比較して、FFFには利点があります。FFFは、対数時間で特定のニューロンブロックにアクセスできるため、推論時間を短縮します。これは、従来の手法のフィードフォワード層の幅の線形スケーリングとは対照的です。 FFFは、ノイズのあるゲーティングを伴うエキスパートブロックを使用するMixture-of-Experts(MoE)手法と比較されました。FFFはこのノイズを回避し、計算複雑性を低減しながらより速い推論を達成します。研究者たちはFFFによって実現された印象的な速度向上も強調しています。FFFは、従来のフィードフォワードネットワークと比較して最大で220倍高速であると述べており、計算効率の大幅な改善を示しています。例えば、FFFをビジョン変換モデルに使用することが強調されており、FFFはニューロンの1%しか使用せずに予測性能の94.2%を維持できるため、ビジョン関連の活動に使用する可能性があると述べています。 まとめると、FFFの設計はニューラルネットワークの計算効率を向上させる画期的な手法です。エキスパートの混合ネットワークを凌駕し、典型的なフィードフォワードネットワークと比較して推論時間を大幅に短縮します。FFFの訓練特性、ノイズのない条件付き実行、そして低いニューロン使用量で良い予測精度を達成できる能力も主な特徴です。これらの開発は、巨大なモデルのスピードアップとパフォーマンスの向上を可能にし、ディープラーニング業界を革新する可能性を秘めています。
これら5つの必須ステップを踏まずにデータサイエンスの旅を始めないでください- Spotifyのデータサイエンティストの完全ガイド
「Spotifyのデータサイエンティストからの完全ガイドで、データサイエンスのキャリアをスタートさせましょう失敗を避け、適切に準備をし、学位の課題をスムーズに乗り越えましょう」
VoAGIニュース、9月20日:ExcelでのPython:これがデータサイエンスを永遠に変えるでしょう•新しいVoAGI調査!
Python in Excel これがデータサイエンスを永遠に変えるでしょう • VoAGI調査 データサイエンスの支出とトレンドに関して同僚とベンチマークを行う • 最大限の生産性を実現するための5つの最高のAIツール • さらにたくさんの情報があります!
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.