Learn more about Search Results この - Page 12
- You may be interested
- 「Pythonの継承の一般的な実践と落とし穴...
- 「MLOpsは過学習していますその理由をここ...
- 『デイリースタンドアップで時間を無駄に...
- テキストブック品質の合成データを使用し...
- コーネル大学の人工知能(AI)研究者たち...
- 「AIが秘密のメッセージをミームに隠し込...
- 「PythonでChatGPTを使用する方法」
- ベースとブラスへの情熱が、より良いツー...
- 「データサイエンス vs ソフトウェアエン...
- 「Amazon Textractの新しいレイアウト機能...
- 「10ベストAI WhatsAppツール」
- 新しいディープラーニングの研究で、抗マ...
- ExcelとPower BI – 意思決定におい...
- 「アマゾンベッドロックを使った商品説明...
- 「SceneTexをご紹介:屋内シーンにおける...
このAI研究は、高品質なビデオ生成のための2つの拡散モデル、テキストからビデオ(T2V)モデルと画像からビデオ(I2V)モデルを紹介します
“`html 香港の研究者チームが、高品質な動画生成のための2つのオープンソース拡散モデルを紹介しました。テキストからビデオ(T2V)モデルは、他のオープンソースのT2Vモデルよりも優れたパフォーマンスでシネマクオリティのビデオを生成します。一方、画像からビデオ(I2V)モデルは、参照画像をビデオに変換しながらコンテンツ、構造、スタイルを保持します。これらのモデルは、研究者やエンジニアにとって貴重なリソースを提供し、学術界や産業界のビデオ生成技術を進歩させることが期待されています。 拡散モデル(DM)は、テキストから画像やビデオの生成を含むコンテンツ生成において優れた実績を残しています。Make-A-Video、Imagen Videoなどのビデオ拡散モデル(VDM)は、オープンソースのT2Vモデルにおいて時間的一貫性を確保するためにStable Diffusion(SD)フレームワークを拡張しました。しかし、これらのモデルには解像度、品質、構成上の制約があります。これらのモデルは、コミュニティ内の既存のオープンソースのT2Vモデルよりも優れたパフォーマンスを発揮し、技術の進歩をもたらします。 生成モデル、特に拡散モデルは、画像とビデオの生成を進化させてきました。オープンソースのテキストから画像(T2I)モデルは存在しますが、T2Vモデルは限定的です。T2Vには時間的アテンションレイヤーと一貫性のための共同学習が含まれており、I2Vは画像のコンテンツと構造を保持します。研究者はこれらのモデルを共有することで、オープンソースコミュニティを強化し、ビデオ生成技術を前進させることを目指しています。 研究では、T2VおよびI2Vの2つの拡散モデルを提案しています。T2Vは、3D U-Netアーキテクチャを使用し、空間・時間ブロック、畳み込み層、空間・時間トランスフォーマー、およびデュアルクロスアテンションレイヤーを備え、テキストと画像のエンベッディングを整列させます。I2Vは画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。両モデルは学習可能なプロジェクションネットワークを使用してトレーニングされます。評価は、ビデオの品質とテキストとビデオ間の整合性に関するメトリックを使用します。 提案されたT2VおよびI2Vモデルは、他のオープンソースモデルよりも優れたビデオ品質とテキスト-ビデオの整合性を発揮します。T2Vはノイズ除去3D U-Netアーキテクチャを使用しており、生成されたビデオにおいて高い視覚的忠実度を提供します。I2Vは効果的に画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。Gen-2、Pika Labs、ModelScopeなどのモデルとの比較分析では、視覚品質、テキスト-ビデオの整合性、時間的一貫性、モーション品質のすぐれたパフォーマンスが示されました。 まとめると、ビデオ生成のための最近のT2VおよびI2Vモデルの導入は、コミュニティの技術的進歩を推進する上で大きなポテンシャルを示しています。これらのモデルはビデオ品質とテキスト-ビデオの整合性の面で優れたパフォーマンスを発揮していますが、生成されたビデオの持続時間、解像度、モーション品質などの領域で将来の改善が必要です。しかし、これらのオープンソースモデルの開発により、研究者はこの分野におけるさらなる改善が可能と信じています。 将来的には、フレームの追加やフレーム補間モデルの作成を検討することで、モデルの持続時間を2秒以上に延長することができるでしょう。解像度を向上させるために、ScaleCrafterとの協力や空間的アップスケーリングの使用を検討することができます。モーションと視覚品質を向上させるために、より高品質なデータとの協力を検討することも有益です。画像プロンプトの追加や画像条件付きブランチの研究なども、拡散モデルを使用した視覚的忠実度の向上とともにダイナミックなコンテンツの生成を創造するためのポテンシャルがあります。 “` “`html 香港の研究者チームが高品質な動画生成のための2つのオープンソース拡散モデルを紹介しました。テキスト入力から映画のような品質のビデオを生成するテキストからビデオ(T2V)モデルは、他のオープンソースのT2Vモデルを凌駕する性能を誇ります。一方、参照画像をコンテンツ、構造、スタイルを保持しながらビデオに変換する画像からビデオ(I2V)モデルもあります。これらのモデルは、学術界や産業界でのビデオ生成技術の進歩に貢献し、研究者やエンジニアにとって貴重なリソースとなることでしょう。 拡散モデル(DM)は、テキストから画像やビデオの生成などのコンテンツ生成において優れた成果を上げてきました。Make-A-VideoやImagen Videoなどのビデオ拡散モデル(VDM)では、オープンソースのT2Vモデルに時間的な一貫性を確保するためにStable Diffusion(SD)フレームワークが拡張されています。しかし、これらのモデルには解像度や品質、構成の制限があります。これらのモデルは既存のオープンソースのT2Vモデルを上回り、コミュニティのテクノロジーの進歩を促進することが期待されています。 生成モデル、特に拡散モデルは、画像やビデオの生成において進歩を遂げてきました。オープンソースのテキストから画像(T2I)モデルは存在しますが、T2Vモデルは限られています。T2Vモデルには時間的なアテンションレイヤーや一貫性のための共同トレーニングが含まれており、I2Vモデルには画像のコンテンツと構造を保持する機能があります。研究者たちはこれらのモデルを共有することで、オープンソースコミュニティを支援し、ビデオ生成技術を前進させようとしています。 この研究では、T2VモデルとI2Vモデルの2つの拡散モデルが提案されています。T2Vモデルは、3D U-Netアーキテクチャ、空間・時間ブロック、畳み込み層、空間・時間トランスフォーマー、デュアルクロスアテンション層を使用して、テキストと画像の埋め込みを整列させます。I2Vモデルは画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。両モデルは学習可能なプロジェクションネットワークを使用してトレーニングされます。評価では、ビデオの品質とテキストとビデオの整合性のためのメトリックが使用されます。 提案されたT2VモデルとI2Vモデルは、他のオープンソースモデルを上回るビデオの品質とテキストとビデオの整合性を発揮しています。T2Vモデルは、ノイズリダクション3D U-Netアーキテクチャを使用して、生成されたビデオの高い視覚的忠実度を提供します。I2Vモデルは画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。Gen-2やPika…
このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています
大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモデルは、その驚異的な能力により、研究者、科学者、学生など、誰もが利用しています。これらのモデルは、質問に答える、コンテンツを生成する、テキストを要約する、コードを完成させるなど、人間を模倣する潜在能力を持つため、非常に進歩してきました。 LLMは、感情分析、インテリジェントなチャットボット、コンテンツ作成など、多くのドメインで必要とされています。これらのモデルは、多くの計算リソースを使用するため、GPUリソースを効果的に利用してスループットを増加させます。これは、複数のユーザリクエストをバッチ処理することによって行われ、さらにメモリ効率と計算能力を向上させるために、LLMの量子化技術が使用されています。ただし、8ビットのウェイト-アクティベーションの量子化など、既存の量子化手法では、新しいGPUの可能性を十分に活用していません。これらのGPU上の整数演算子は4ビットですので、現在の量子化技術は最大の効率を追求した設計ではありません。 この問題を解決するために、研究者たちはAtomという新しい方法を導入しました。Atomは、精度を犠牲にせずにスループットを大幅に増加させるために作成されたロービットの量子化技術です。これを達成するために、低ビットの演算子と低ビットの量子化を使用してメモリ使用量を削減します。Atomは細粒度と混合精度の量子化の特別な組み合わせを使用して優れた精度を維持します。 研究チームは、Atomが具体的なセットアップでの最大スループットを保ちながら、4ビットのウェイト-アクティベーションの量子化構成で評価されたことを共有しました。その結果、Atomは従来の16ビット浮動小数点(FP16)アプローチと比較してエンドツーエンドのスループットを最大7.73倍向上させ、8ビットの整数(INT8)量子化と比較して2.53倍向上させることが示されました。これにより、Atomは彼らのサービスへの需要の増加に対応するための実用的な解決策となり、望ましい応答時間を維持しながらLLMがリクエストを処理する速度を大幅に向上させます。 研究者たちは、主な貢献を以下のようにまとめました。 研究のパフォーマンス分析の一環として、LLMの提供が徹底的に分析されました。低ビットのウェイト-アクティベーションの量子化手法を使用することによる重要なパフォーマンスの利点が特定されました。 Atomというユニークで正確なロービットのウェイト-アクティベーションの量子化手法が提示されました。 研究チームは、ピークパフォーマンスを保証するためにさまざまな戦略を採用していることを共有しました。混合精度を使用し、主要なアクティベーションとウェイトは精度を保ったまま、残りの部分は低精度を使用しています。細かいグループの量子化は、量子化プロセス中のエラーを減らすために使用されています。 Atomは動的アクティベーションの量子化を使用し、各入力の一意の分布に合わせて量子化エラーを減らします。さらに全体のパフォーマンスを向上させるために、この方法はキーバリューキャッシュの量子化にも対応しています。 研究では、長期管理(LLM)の提供のための統合フレームワークも提案されています。研究チームは効果的な推論システムを共同設計し、Atomの実際の環境での有用なエンドツーエンドのスループットと待ち時間を示しています。 Atomのパフォーマンスは徹底的に評価され、Atomはわずかな精度の損失を伴う可能な最大スループットの向上を実現することが示されています。
この中国のAIモデル、Baichuan2-192kモデルはChatGPTやClaude2を超えることができるのか? 最長のコンテキストモデルを持つBaichuan Intelligentが公開した、この中国のスタートアップ「Baichuan Intelligent」のモデルに会いましょう
AIの優位性を争う中で、中国のAIスタートアップ、百川インテリジェントが最新の大容量言語モデル、百川2-192Kを発表し、長文プロンプトの処理において新たな基準を設定しました。この開発は、中国がグローバルなAIのランドスケープにおいて先駆者としての地位を確立する意気込みを示しています。 小説や法的文書、財務報告書など、大量のテキストプロンプトを扱うAIモデルへの需要が高まっています。従来のモデルは長文に苦戦することが多く、各業界でより強力で効率的な解決策が求められています。 現在、AIのランドスケープはOpenAIやMetaなどの西洋の巨大企業によって支配されており、彼らは絶えず革新的で洗練されたモデルをリリースしています。百川インテリジェントの新作、百川2-192Kは、これらの確立されたプレイヤーに挑戦します。 百川インテリジェントは、搜狗の創設者である王小川が起業した会社であり、画期的な大容量言語モデルである百川2-192Kを紹介しました。このモデルは、「コンテキストウィンドウ」という素晴らしい機能を搭載しており、一度に約35万文字の中国語の処理が可能です。比較すると、OpenAIのGPT-4-32kを14倍、AmazonがバックアップするAnthropicのClaude 2を4.4倍上回り、長文プロンプトの取り扱いに強力なツールとなっています。 百川2-192Kの主な革新点は、広範なテキストをシームレスに処理できる能力にあります。このモデルは小説の要約や品質の高い応答、長文の理解などに優れており、カリフォルニア大学バークレー校などの米国の機関が主導するプロジェクトであるLongEvalのテスト結果によって実証されています。このモデルの素晴らしいコンテキストの長さは、パフォーマンスを損なうことなく、動的な位置エンコーディングと分散トレーニングフレームワークの技術的な革新によって実現されています。百川2-192Kの優れた能力は、法律、メディア、金融などの産業において不可欠なツールとなっています。長文の処理および生成能力は、これらのセクターにおいて重要です。ただし、より多くの情報を処理できる能力が必ずしも他のモデルよりも優れているとは限らないことに留意することも重要です。これに関しては、スタンフォード大学とUCバークレーの共同研究でも指摘されています。 百川インテリジェントのAIセクターでの急速な台頭は、設立からわずか6か月でユニコーンクラブへの参加を果たすなど、中国がAI技術の可能性を広げることへの取り組みを示しています。現在、アメリカの企業がAIハードウェアとソフトウェアでリードを占めていますが、百川の積極的な戦略と技術革新は、AIの進化するランドスケープを示しています。百川2-192Kの発表は、AIの優位性を争う競争が終わりを告げたわけではなく、中国が西洋の巨大企業の支配に挑戦する意欲を示しています。百川2-192Kは、特に長文プロンプトの取り扱いにおいてAI技術の可能性の限界を押し上げる画期的なモデルです。その優れたコンテキストの長さと品質の高い応答は、さまざまな産業にとって貴重なツールとなります。
このAI研究により、チップデザインに適した言語モデルの独自な手法が紹介されています
ChipNeMoは、市販のLLMに頼らずに、ドメイン適応技術を用いた産業用チップデザインにおけるLLMの利用を探求しています。これらの技術には、カスタムのトークナイゼーション、ドメイン適応の事前学習、ドメイン特化のガイダンスを用いた教師付き微調整、およびドメイン適応型の検索モデルが含まれます。この研究では、チップデザインにおけるこれらの手法を3つのLLMの応用によって評価し、一般的なモデルと比較して注目すべき性能向上をもたらしました。これにより、さまざまな設計タスクにおいてモデルサイズを大幅に削減し、同等または改善されたパフォーマンスを実現するとともに、ドメイン適応型LLMのさらなる改良の可能性を示しました。 この研究では、LLMのドメイン特化応用に焦点を当てながら、さまざまなドメインにおける特許データの存在を強調しています。知識集約型の自然言語処理(NLP)とコード生成タスクの向上を目指し、疎な検索および密な検索手法を組み合わせた検索拡張型生成に探求します。従来のチップデザインの研究では、Verilogコード生成などのタスクにおいてドメイン特化のデータにオープンソースのLLMを微調整することでパフォーマンスが向上しています。また、チップデザインにおけるドメイン適応型LLMアプローチのさらなる探求と改善を呼びかけています。 電子設計自動化(EDA)ツールは、チップデザインの生産性を向上させていますが、いくつかの時間を要する言語関連のタスクはまだ完了する必要があります。LLMは、チップデザインにおけるコード生成、エンジニアリング応答、分析、およびバグトライアージを自動化することができます。以前の研究では、LLMを使用したRTLおよびEDAスクリプトの生成について探求されています。ドメイン特化のLLMは、ドメイン特化のチップデザインタスクにおいて優れたパフォーマンスを発揮します。目標は、モデルのサイズを減らしながらLLMのパフォーマンスを向上させることです。 チップデザインのデータは、カスタムトークナイザを通じて処理され、分析に適した状態に最適化されました。ドメイン適応型の継続的事前学習手順は、プリトレーニングされた基礎モデルを微調整し、チップデザインのドメインに合わせるために行われました。教師付き微調整は、ドメイン特化と一般的なチャットインストラクションデータセットを活用してモデルのパフォーマンスを改善しました。ドメイン適応型の検索モデルは、TF-IDFとBM25などの疎な検索手法、および事前学習モデルを使用した密な検索手法を包括し、情報検索と生成を向上させるために活用されました。 ChipNeMoにおけるドメイン適応技術は、エンジニアリングチャットボット、EDAスクリプト生成、およびバグ分析などのチップデザインのLLMにおいて注目すべき性能向上をもたらしました。これらの手法はモデルサイズを大幅に削減するだけでなく、さまざまな設計課題でパフォーマンスを維持または向上させました。ドメイン適応型の検索モデルは、一般的なモデルを凌駕し、注目すべき改善を示しました。教師なしモデルと比較して2倍の改善を達成し、Sentence Transformerモデルと比較して30倍のパフォーマンス向上を示しました。マルチチョイスのクエリとコード生成の評価基準により、モデルの正確性と効果を数値化した洗練された評価が提供されました。 まとめとして、カスタムトークナイゼーション、ドメイン適応型の事前学習、ドメイン特化の教師付き微調整、およびドメイン適応型の検索モデルなどのドメイン適応型技術は、チップデザインのLLMのパフォーマンスを大幅に向上させるものです。ChipNeMoモデル(ChipNeMo-13B-Chatなど)は、エンジニアアシスタントチャットボット、EDAスクリプト生成、およびバグ分析のタスクにおいてベースモデルと比較して同等または優れた結果を示し、より強力なLLaMA2 70Bモデルとのパフォーマンス差を縮めています。
オックスフォード大学の研究者たちは、DynPointという人工知能アルゴリズムを開発しましたこのアルゴリズムは、自由な単眼ビデオの新しい視点を迅速に合成することを目的としています
コンピュータビジョンコミュニティは、画像合成(VS)に注力しており、それによって人工現実性を推進し、機械の視覚および幾何学的な特定シナリオの理解能力を向上させる潜在能力を持っています。ニューラルレンダリングアルゴリズムを利用した先進的な手法により、静的シーンの写真のような再構築が実現されています。ただし、動的な要素を持つ実世界のシナリオでは、エピポーラ幾何学的な関係に依存する現在の手法は適しておらず、これらの方法には課題が存在します。 最近の研究は、1つ以上のマルチレイヤーパーセプトロン(MLP)を使用して動的な環境でのビュー合成に主に焦点を当てています。ある手法では、ターゲットビデオのフレームレベルまで包括的な潜在表現を生成します。ただし、MLPや他の表現手法のメモリ容量の制約により、この手法の適用範囲は短いビデオに制限されますが、視覚的に正確な結果を提供する能力はあります。 この制約に対処するために、オックスフォード大学の研究者はDynPointを提案しました。このユニークな手法では、長い単眼ビデオからビューを効率的に生成するために、潜在的なカノニカル表現を学習する必要はありません。DynPointは、表面点の一貫性のある深度とシーンフローを明示的に推定する方法を採用し、情報を暗黙的にエンコードする従来の手法とは異なります。これらの推定値を使用して、複数の参照フレームの情報をターゲットフレームに組み合わせます。その後、この収集したデータから階層的なニューラルポイントクラウドが構築され、この階層的なポイントクラウドを使用してターゲットフレームのビューが合成されます。 この統合プロセスは、ターゲットフレームと参照フレーム間の対応を学習し、深さとシーンフローの推論によって支援されます。単眼ビデオ内でターゲットフレームの迅速な合成を可能にするために、研究者は参照フレームからターゲットフレームに情報を集約するための表現を提供しています。Nerfie、Nvidia、HyperNeRF、iPhone、Davisなどのデータセット上でDynPointの合成速度と精度の評価が行われており、実験結果によってその優れた性能が証明されています。
「スタンフォードのこのAI論文では、スパースで解釈可能なニューラルネットワークのためのコードブック特徴が紹介されています」
ニューラルネットワークは、画像認識、自然言語処理、予測分析など、さまざまな分野で欠かせないツールとなっています。しかし、ニューラルネットワークの操作を解釈し制御するという、特に入力の処理方法や予測の仕組みを理解するという点で、長年課題となっています。従来のコンピュータとは異なり、ニューラルネットワークの内部計算は密で連続的であり、意思決定プロセスを理解することが難しいためです。研究チームは画期的なアプローチを導入し、「コードブック特徴」という新しい手法を提案しており、ニューラルネットワークの解釈性と制御性を向上させることを目指しています。ベクトル量子化を活用して、この手法ではネットワークの隠れた状態をベクトルのまばらな組み合わせに分割し、ネットワークの内部操作をより理解しやすい形で表現します。 ニューラルネットワークはさまざまなタスクにおいて強力なツールとなっていますが、その透明性と解釈可能性の欠如が、広範な採用における重要な障害となっています。研究チームが提案する「コードブック特徴」の解決策は、ニューラルネットワークの表現力と従来のソフトウェアに一般的に見られるまばらで離散的な状態を組み合わせることで、このギャップを埋めることを試みています。この革新的な手法では、トレーニング中に学習された一連のベクトルからなるコードブックを作成します。このコードブックは、ネットワークの層のすべての潜在的な状態を任意の時点で指定し、ネットワークの隠れた状態をより解釈可能な形にマッピングするための手がかりとなります。 この手法の核心は、コードブックを利用してネットワークの活性化に対して類似度の高い上位k個のベクトルを特定することです。これらのベクトルの総和は次の層に渡され、ネットワーク内にまばらで離散的なボトルネックを作ります。このアプローチにより、ニューラルネットワークの密で連続的な計算をより解釈可能な形に変換することができます。これにより、ネットワークの意思決定メカニズムをより包括的かつ一貫した視点で理解することができます。 コードブック特徴の手法の有効性を示すために、研究チームはシーケンスモデリングタスクや言語モデリングのベンチマークなど、一連の実験を行いました。シーケンスモデリングのデータセットで行われた実験では、チームは各層でコードブックを使用してモデルをトレーニングし、その結果、MLP層のコードブックにほぼすべての有限状態機械(FSM)状態に別々のコードが割り当てられました。この割り当ては、コードがアクティベートされるかどうかを状態機械が特定の状態にあるかどうかを判別する分類子として扱い、97%以上の精度でFSMの状態を分類することに成功しました。これは、個々のニューロンよりも性能が優れています。 さらに、研究者はコードブック特徴の手法が言語モデルにおいて多様な言語現象を効果的に捉えることができることを発見しました。特定のコードの活性化を分析することで、研究者は句読点、構文、意味、トピックなど、さまざまな言語的特徴の表現を特定しました。特に、この手法は、単純な言語的特徴の分類において、モデル内の個々のニューロンよりも優れた結果を示しました。この観察結果は、コードブック特徴のニューラルネットワークの解釈性と制御性を向上させる可能性を示しており、特に複雑な言語処理タスクにおいて活用できることを示しています。 まとめると、この研究はニューラルネットワークの解釈性と制御性を向上させる革新的な手法を提案しています。ベクトル量子化を活用し、まばらで離散的なベクトルのコードブックを作成することで、ニューラルネットワークの密で連続的な計算をより解釈可能な形に変換します。研究チームによる実験は、コードブック特徴の手法が有限状態機械の構造を捉え、言語モデルにおける多様な言語現象を表現する能力を示しています。全体として、この研究はより透明で信頼性の高い機械学習システムの開発に向けた貴重な洞察を提供し、この分野の進歩に貢献しています。
このAIペーパーは、東京大学で深層学習を超新星シミュレーションの問題に応用しました
東京大学の研究者チームは、3D-Memory In Memory (3D-MIM) と呼ばれる深層学習モデルを開発しました。このモデルは、超新星(SN)の爆発後にSNのシェルの拡大を予測するためのものです。この革新的な手法は、高解像度の銀河シミュレーションにおける重要な問題を解決するものであり、SNが要求する短い積分ステップが大きなボトルネックとなることに対処しています。 超新星爆発は、膨大なエネルギーを放出し、星間物質(VoAGI)を加熱し、掃き出します。これは、さまざまな銀河のプロセスと進化に影響を与えます。これらのSN爆発を正確にモデル化することは、銀河の形成を理解するために不可欠です。ただし、重力力、放射加熱と冷却、星形成、化学進化などの複雑な相互作用により、銀河の形成は数値計算法が必要な困難な課題となっています。 既存の手法の限界を克服し、銀河シミュレーションにおけるSN爆発を正確にモデル化するために、研究者たちはHamiltonian splitting methodの使用を提案しています。この方法は、Hamiltonianを短い時間スケールと長い時間スケールのコンポーネントに分割することで、SNによって影響を受ける粒子を別々に統合することを可能にします。しかし、このアプローチでは、その後のグローバルステップでSNにより影響を受けるシェルの拡大を事前に予測する必要があります。 研究者たちは、この目的のために、3D-MIM深層学習モデルを開発しました。彼らは、分子雲の不均質な密度分布内でのSN爆発のスムーズ粒子流体力学(SPH)シミュレーションデータを使用してモデルを訓練しました。シミュレーションは、高密度のコントラストを持つものであり、1 solar mass (M⊙)の質量を持つガス粒子が含まれています。 3D-MIMモデルは、SN爆発後に密度が10%以上減少する場所を正確に予測し、異方性のシェルの形状を再現することに成功しました。さらに、トレーニングデータを超えた均一な媒体におけるシェルの半径を予測する能力も示しており、その一般化能力を高めています。 研究者たちは、画像再現のための平均絶対パーセンテージ誤差(MAPE)や平均構造相似度(MSSIM)などの指標を使用してモデルの性能を評価しました。その結果、モデルは高い収束値を達成し、強力な一般化能力を示しました。 3D-MIMモデルの1つの実用的な応用例は、大規模な高解像度の銀河形成シミュレーションにおいて短い時間ステップを必要とするSNによって影響を受ける粒子を識別することです。モデルをHamiltonian splitting methodと組み合わせることで、研究者はこれらの粒子を別々に統合することができ、計算オーバーヘッドを削減することができます。 この研究は、近年積極的に探求されている、時間のかかるSNの計算を機械予測で置き換える可能性についても議論しています。ただし、このアプローチには、トレーニングデータを生成するための大規模なシミュレーションや、さまざまな条件下で物理量を学習するための適切な変換関数の見つけ方などの技術的な課題が伴います。 結論として、3D-MIM深層学習モデルは、銀河シミュレーションにおけるSNシェルの拡大を正確に予測する有望な解決策を提供します。SNによって影響を受ける領域を予測する能力は、銀河の形成と進化のより効率的かつ正確なシミュレーションへの道を開くものであり、研究の対象を超えた潜在的な応用可能性を持っています。
このAIペーパーは動きがあります 「LaMo」ダンスステップとフューショットラーニングでオフライン強化学習に言語モデルがグルーブをきざむ方法
研究者は、オフライン強化学習において、Large Language Models (LLMs)を用いたフレームワークである言語モデルモーションコントロール(LaMo)を紹介します。これは、事前学習済みのLLMsを利用してRLポリシー学習を強化し、LLMsを初期化したDecision Transformers(DT)とLoRA fine-tuningを用いるものです。LaMoは、スパースリワードタスクにおいて既存の手法を上回り、データサンプルが限られる密リワードタスクにおいて、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることで、特に優れた性能を発揮します。 現在の研究では、トランスフォーマー、特にDTとLLMsのシナジーをRLタスクの意思決定に応用しています。LLMsは以前に高レベルのタスク分解とポリシージェネレーションで有望な結果を示してきました。 LaMoは、モーションコントロールタスクにおいて事前学習済みのLLMsを活用する新しいフレームワークであり、スパースリワードシナリオで既存の手法を超え、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることを目指しています。Wiki-RLなどの先行研究に基づき、事前学習済みのLMをオフラインRLにより効果的に活用することを目指しています。 この手法は、RLを条件付きシーケンスモデリング問題として再構築しています。LaMoは、LLMsとDTを組み合わせることで既存の手法を上回り、LoRA fine-tuning、非線形MLPプロジェクション、および補助言語損失などの革新的な手法を導入しています。スパースリワードタスクにおいて卓越し、密リワードシナリオにおける値ベースおよびDTベースの手法のパフォーマンスギャップを縮めます。 オフライン強化学習のLaMoフレームワークでは、事前学習済みのLMとDTを組み合わせています。多層パーセプトロンを用いた表現学習を強化し、LoRA fine-tuningと補助言語予測損失を利用して、LMの知識を効果的に組み合わせます。さまざまなタスクと環境にわたる幅広い実験により、CQL、IQL、TD3BC、BC、DT、およびWiki-RLなどの強力なRLベースラインと比較して、データ比率の異なる状況でのパフォーマンスを評価します。 LaMoフレームワークは、スパースおよび密リワードタスクにおいてDecision TransformerとWiki-RLを凌ぎます。CQL、IQL、TD3BC、BC、およびDTを含むいくつかの強力なRLベースラインを上回り、過学習を回避します。LaMoは、事前学習済みのLMの帰納的バイアスにより、特にデータが限られた場合において堅牢な学習能力を示します。D4RLベンチマークの評価と徹底的な因果研究は、フレームワーク内の各コンポーネントの効果を確認します。 本研究では、完全チューニングの一般性を高めるための高レベルな表現学習技術の詳細な探索が必要です。計算上の制約により、ジョイントトレーニングなどの代替手法の検討は制限されています。 GPT-2、早期停止された事前学習済み、およびランダムにシャッフルされた事前学習済みモデルを比較することを超えて、事前学習LMの品質の異なる影響についてはまだ解決されていません。最新のパフォーマンスとベースラインの優越性を裏付けるためには、具体的な数値結果とパフォーマンスメトリクスが必要です。 まとめると、LaMoフレームワークはオフラインRLにおいて事前学習済みのLMをモーションコントロールに活用し、CQL、IQL、TD3BC、およびDTと比較してスパースリワードタスクで優れたパフォーマンスを実現しています。密リワードの研究において、値ベースの手法とDTベースの手法とのパフォーマンスギャップを縮めています。LaMoは少数の学習に優れており、事前学習済みのLMの帰納バイアスを活用しています。CQLの競争力や補助言語予測損失など、いくつかの制約がありますが、本研究はオフラインRLにおけるより大規模なLMのさらなる探求を促すことを目指しています。
このAIの論文は、ディフュージョンモデルを向上させるためのDiffEncを発表します
拡散モデルは、画像、音声、ビデオ、音楽などの多様な生成タスクで優れた性能を発揮するパワフルなモデルです。優れたビジュアルクオリティと密度推定により、画像生成において最先端のパフォーマンスを実現することができます。拡散モデルは、画像にランダムノイズを徐々に追加し、プロセスを逆に学習して所望の高品質な画像を生成するためのマルコフ連鎖を定義しています。 拡散モデルは階層的なフレームワークとして動作し、逐次的に生成される一連の潜在変数がお互いに依存し合います。拡散モデルのアーキテクチャには以下の制約があります: データにノイズを導入するプロセスは簡単かつ固定されています。 各層の隠れた変数は前のステップにのみ依存しています。 モデル内のすべてのステップで同じパラメータを共有しています。 上記の制約にもかかわらず、拡散モデルは非常にスケーラブルで柔軟です。この論文では、研究者のグループが柔軟性をさらに向上させるための新しいフレームワークであるDiffEnfを紹介しています。 従来のノイズの追加方法とは異なり、研究者たちは時系列的なエンコーダを導入し、拡散プロセスの平均値をパラメータ化しています。エンコーダは基本的には特定の時間でエンコードされた画像を予測します。さらに、このエンコーダは訓練フェーズのみで使用され、サンプリングプロセス中には使用されません。これらの2つの特性により、DiffEncはサンプリング時間に影響を与えることなく、従来の拡散モデルよりも柔軟性を高めることができます。 評価のために、研究者たちはCIFAR-10とMNISTという2つの人気データセットを用いて、異なるバージョンのDiffEncを標準VDM基準と比較しました。DiffEnc-32-4モデルは、以前の研究やVDMv-32モデルよりも低いビット/次元(BPD)の観点で優れたワークを示しています。これは、エンコーダがサンプリング中には使用されないにもかかわらず、エンコーダが拡散プロセスの改善に寄与していることを示しています。また、結果はDiffEnc-32-4の拡散損失の改善による合計損失の差が主な要因であることも示しており、エンコーダの拡散プロセスにおける役割が示されています。 研究者たちはまた、エンコーダのサイズを増やしてもVDMと比較して平均拡散損失に大きな改善が見られないことを観察しました。これは、有意な違いを実現するためには、より長いトレーニングが必要であり、エンコーダの機能を十分に活用するためにはより大きな拡散モデルが必要かもしれないという仮説です。 結果は、時間依存のエンコーダを追加することで拡散プロセスを改善することができることを示しています。エンコーダはサンプリング時間を増やさないものの、サンプリングプロセスは生成的対抗ネットワーク(GAN)と比較して依然として遅くなります。それにもかかわらず、この制約にもかかわらず、DiffEncは拡散モデルの柔軟性を向上させ、CIFAR-10データセットで最先端の尤度を達成することができます。さらに、研究者たちはこのフレームワークを潜在的な拡散、識別器ガイダンス、一貫性正則化などの他の既存の手法と組み合わせることで、学習された表現を改善し、さまざまな画像生成タスクへの新たな可能性を切り拓くことができると提案しています。
サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります
オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、オープンなインターフェイスを介して仮想ネットワーク機能(VNF)として機能を実装することによって、通信分野を変革しました。しかし、現実のO-RAN環境におけるトラフィック条件のダイナミックな性質により、実行時にVNFの再構成が必要となることが多く、過剰なコストとトラフィックの不安定性を引き起こします。 この課題に対応するため、サリー大学の研究者たちは、IEEE Transactions on Network Service Managementで最近公開された研究で、ネットワークを数学的にモデル化し、AIを活用して計算能力の割り当てを最適化する方法を詳細に説明しています。この革新的なモデルにより、帯域幅の利用効率を著しく向上させる可能性があります。 このアプローチは、VNFの計算コストと定期的な再構成に伴うオーバヘッドを最小限に抑えます。この革新的なソリューションの評価では、VNFの再構成オーバヘッドが最大76%削減されるなど、大幅な改善が示されました。一方で、計算コストは最大23%増加しました。 O-RANは、需要の変化に応じてネットワーク全体で計算能力を移動できるようにすることで、通信業界を変革しましたが、既存の技術はネットワーク需要の急速な変化に対応するのに苦労していると研究者たちは指摘しています。提案されたAI駆動の手法は、通信業者がネットワークの効率を向上させ、より強靭でエネルギー効率の高いネットワークを構築することができると信じています。 通信企業は、研究結果を活用してネットワークの効率をさらに向上させることができます。これにより、エネルギー消費を削減し、システムの強靭さを高めることができます。 サリー大学の上級講師であるムハンマド・ショージャファル博士、この研究の共同著者は、この手法はOpen RAN上のトラフィック要求に対して堅牢でインテリジェントなアプリケーションを作成しようとするものであり、次世代の通信ネットワークはこの研究によって形作られる可能性があると述べています。この研究は容易に実装することができます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.