Learn more about Search Results MarkTechPost - Page 9

メタAIは、リアルタイムに高品質の再照明可能なガウシアンコーデックアバターを構築するための人工知能手法「Relightable Gaussian Codec Avatars」を紹介しますこれにより、新しい表情を生成するためにアニメーションさせることができるハイフィデリティのヘッドアバターが作成されます

“`html 画期的な進展を遂げたMeta AIの研究者たちは、ダイナミックな3Dヘッドアバターの高精細なリライティングを実現するという長年の課題に取り組みました。従来の方法では、特にリアルタイムの応用において効率性が重要となる場合に、表情の複雑な細部を捉えることができるようになるまでに時間がかかることがよくあります。Meta AIの研究チームは、この課題に対処すべく、「リライト可能ガウシアンコーデックアバター」という方法を発表し、アバターのリアリズムの領域を再定義する用意のある手法を作り出しました。 研究チームが取り組んだ中核的な問題は、ダイナミックな顔のシーケンスにおいて、髪の毛や毛穴などのサブミリメートルの詳細をより明確に捉える必要があるということです。目、肌、髪などの人間の頭部の異質な材料を効率的にモデル化しながら、すべて周波数の反射に対応するというのは困難な課題です。既存の手法の制約は、リアリズムとリアルタイムのパフォーマンスをシームレスに組み合わせる革新的な解決策が必要とされています。 リライト可能なアバターに関する既存のアプローチは、リアルタイムのパフォーマンスと忠実度のトレードオフに悩まされてきました。リアルタイムのアプリケーションにおいて、動的な顔の詳細を捉えることができるメソッドが必要とされてきたのです。Meta AIの研究チームは、この課題に目をつけ、「リライト可能ガウシアンコーデックアバター」を革新的な解決策として導入しました。 Meta AIの手法は、3Dガウシアンに基づくジオメトリモデルを導入し、サブミリメートルの精度まで拡張する精密さを提供しています。これは、ダイナミックな顔のシーケンスを捉えるための大幅な進歩であり、髪の毛や毛穴の微妙なニュアンスを含め、アバターが生命的な詳細を示すことを保証します。この革新的な手法の重要な要素であるリライト可能な外観モデルは、学習可能な輝度伝達に基づいています。 https://arxiv.org/abs/2312.03704 これらのアバターの優れた点は、アバターの構築における包括的なアプローチにあります。3Dガウシアンによってパラメータ化されたジオメトリモデルは、アバターのバックボーンを形成し、ガウシアンスプラッティング技術を使用した効率的なレンダリングを可能にします。学習可能な輝度伝達によって駆動される外観モデルは、拡散球面調和関数と反射球面ガウシアンを組み合わせています。この組み合わせにより、アバターは点光源と連続的な照明によるリアルタイムのリライティングを実現できます。 これらの技術的側面を超えて、この手法は表情、視線、ビュー、照明に対する切り離し可能な制御を紹介しています。アバターは、潜在的な表情コード、視線情報、および目標視野方向を利用してダイナミックにアニメーション化することができます。この制御のレベルは、アバターアニメーションにおける重要な進展であり、繊細でインタラクティブなユーザーエクスペリエンスを提供します。 これらのアバターは、単なる理論的な進展ではありません。その手法によって、ヘッドマウントカメラからのライブビデオによるアニメーションが実証されています。この能力により、リアルタイムのビデオ入力がアバターをシームレスに動かすことで、ダイナミックでインタラクティブなコンテンツを作り出すことができます。 総括すると、Meta AIの「リライト可能ガウシアンコーデックアバター」は、複雑な課題に対処するためのイノベーションの力を示すものです。3Dガウシアンに基づくジオメトリモデルと革新的な学習可能な輝度伝達の外観モデルを組み合わせることで、研究チームは既存の手法の制約を超え、アバターのリアリズムに新たな基準を打ち立てました。 “`

「シュレディンガー・ブリッジはテキスト・トゥ・スピーチ(TTS)合成において拡散モデルに勝るものになっていますか?」

人工知能の進歩に伴い、自然言語処理、自然言語生成、コンピュータビジョンの分野は、最近大きな人気を得ています。これは、大規模言語モデル(LLMs)の導入によるものです。テキスト音声合成(TTS)において成功を収めている拡散モデルは、優れた生成品質を示しています。しかし、これらの拡散モデルは、ノイズを導入し、望ましい生成目標についてほとんど情報を提供しない表現に制限されています。 最近の研究では、清華大学とマイクロソフトリサーチアジアの研究者チームが、Bridge-TTSと呼ばれる新しいテキスト音声合成システムを提案しました。これは、拡散ベースのTTS手法で使用されるノイズガウス事前分布の代わりに、クリーンで予測可能な代替物を提供する試みです。この代替事前分布は、テキスト入力から抽出された潜在表現から取得されます。 チームは、主な貢献が完全に管理可能なシュレディンガー橋の開発であると述べています。これにより、正確なメルスペクトログラムとクリーンな事前分布との接続が実現されます。提案されたBridge-TTSは、データからデータへのプロセスを使用し、従来の拡散モデルがデータからノイズへのプロセスを通じて機能するのとは対照的に、以前の分布の情報内容を向上させることができます。 チームはこの手法を評価し、評価により、Bridge-TTSはLJ-Speechデータセットでの実験的な検証によってその効果が強調されました。50ステップ/1000ステップの合成設定では、Bridge-TTSは拡散ベースのGrad-TTSよりも優れたパフォーマンスを発揮しました。それは強力で高速なTTSモデルよりも少ないステップでさらに優れた性能を発揮しました。Bridge-TTSアプローチの主な強みは、合成品質とサンプリング効率です。 チームは以下の主な貢献をまとめています。 メルスペクトログラムは、汚染されていないテキストの潜在表現から生成されました。従来のデータからノイズへの手順とは異なり、この表現は拡散モデルの文脈での条件情報として機能するため、ノイズがない作成されるようになっています。シュレディンガー橋を使用してデータからデータへのプロセスを調査しました。 ペアデータに対して完全に処理可能なシュレディンガー橋を提案しました。この橋は柔軟な形式の参照確率微分方程式(SDE)を使用しています。この手法により、設計空間の経験的な調査が可能になり、理論的な説明も提供されます。 サンプリング手法、モデルのパラメータ化、ノイズのスケジューリングがTTSの品質向上にどのように貢献するかを研究しました。非対称ノイズスケジュール、データ予測、および一次橋サンプラーも実装されました。 完全に処理可能なシュレディンガー橋により、基礎プロセスの完全な理論的説明が可能になりました。サンプリングプロセスの効率、非対称ノイズスケジュール、モデルのパラメータ化における影響など、さまざまな要素がTTSの品質にどのように影響するかを理解するために、経験的調査も行われました。 この手法は推論速度と生成品質の両方で素晴らしい結果を出しました。拡散ベースのGrad-TTSは、1000ステップと50ステップの両方の生成状況で、この手法に大きく劣っていました。また、4ステップの生成ではFastGrad-TTS、トランスフォーマーベースのモデルFastSpeech 2、最先端のディスティレーションアプローチCoMoSpeechよりも優れた性能を発揮しました。 この手法は、たった1回のトレーニングセッションですばらしい結果を達成しました。この効率性は、作成プロセスの複数の段階で見ることができ、提案された手法の信頼性と能力を示しています。

スタンフォードの研究者が「予測音楽トランスフォーマー」を紹介:音楽作曲における創造的な制御を向上させる画期的なAIツール

美しい画像や感動的なエッセイを生成するジェネレーティブAIは、多くの場合、ユーザーにはほとんど制御が残されません。一部のツールは音楽を生成しますが、作曲家が望むよりも精密な制御が必要です。あなたはプロセスをガイドすることはできません。あなたが手に入るものを受け入れる必要があります。 予測音楽変換器は、象徴的な音楽として知られるユニークな形式で作曲家により大きな所有権を与える新たなツールです。スタンフォードの学者によって開発されたこのツールは、作曲家が創造的な作曲プロセスで主導権を握ることを可能にします。彼らは曲の一部を書き、その後モデルに残りを埋めるよう依頼したり、伴奏を提案したり、代替バリエーションを提供したりすることができます。 これは他のツールとは異なります。鍵はそのアプローチにあります-それは作曲家の助手です。単にランダムな作曲を吐き出すのではなく、それは作曲のルールを理解しています。高度な音楽のトレーニングを受けていないユーザーでも、システムと一緒に遊び、自分の好みに基づいてガイドすることができます。 この音楽変換器は、ジェネレーティブプレトレーニングトランスフォーマーアーキテクチャ(GPT)上に構築されています。これはChatGPTなどの言語モデルを駆動する技術と同じものです。それがユニークなのは、オーディオそのものではなく象徴的な音楽に焦点を当てていることです。モデルは予想される音楽要素を予測するために訓練されており、より制御可能で対話型の出力を提供することができます。 このツール は利用可能ですが、音楽制作ソフトウェアにシームレスに統合する必要があります。ただし、開発者は現在、これを実現するために積極的に取り組んでいます。目標は、作曲家やミュージシャンに、彼らの生活をより簡単で楽しいものにするツールを提供することです。音楽理論の専門家でなくても、より多くの人々が音楽作曲に関与する可能性を広げることです。 まとめとして、予測音楽変換器 は、AIが音楽を生成し、テクノロジーと協力して、ユーザーが音楽を好みのように形作り、作り上げることを可能にしています。継続的な改良と統合の取り組みにより、このツールは音楽家やプロデューサーにとって必須のものとなり、音楽作曲のアプローチ方法を革新するかもしれません。 投稿:スタンフォードの研究者が予測音楽変換器を紹介:音楽作曲におけるクリエイティブな制御を向上させる画期的なAIツール – MarkTechPost。

メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化

強化学習(RL)は、エージェントが適切なアクションを取り、報酬を最大化するために学習する機械学習のサブフィールドです。強化学習では、モデルは経験から学習し、最適なアクションを特定します。近年、RLは大幅に進化し、自律走行車からロボティクス、さらにはゲーミングまで、幅広い分野で応用されています。また、RLシステムの容易な開発を支援するライブラリの開発も大きく進歩しています。そのようなライブラリの例にはRLLib、Stable-Baselines 3などがあります。 成功したRLエージェントを作成するには、遅延報酬やその他の影響などの問題に対処する必要があります。また、利用と探索のバランスを見つけたり、安全性やリスク要件などの追加パラメータを考慮することで、破滅的な状況を回避する必要があります。現在のRLライブラリは非常に強力ですが、これらの問題を十分に解決していません。そのため、Metaの研究者が「Pearl」というライブラリをリリースしました。このライブラリは上記の問題を考慮し、ユーザーが実世界のアプリケーションに対して多目的なRLエージェントを開発できるようにします。 PearlはPyTorchに基づいて構築されており、GPUと分散トレーニングとの互換性があります。また、テストと評価のためのさまざまな機能も提供しています。Pearlの主なポリシーラーニングアルゴリズムはPearlAgentと呼ばれ、知識の探索、リスク感度、安全制約などの特徴があり、オフラインとオンラインの学習、安全学習、履歴の要約、再生バッファなどのコンポーネントがあります。 効果的なRLエージェントは、オフライン学習アルゴリズムを使用してポリシーを学習し、評価できるようにする必要があります。さらに、オフラインとオンラインのトレーニングには、データ収集とポリシー学習のためのセキュリティ対策が必要です。それに加えて、エージェントはさまざまなモデルを使用して状態表現を学習し、履歴を状態表現に要約して望ましくないアクションをフィルタリングする能力も持っている必要があります。最後に、エージェントは再生バッファを使用してデータを効率的に再利用し、学習効率を向上させる必要もあります。Metaの研究者は、これらのすべての機能をPearl(特にPearlAgent)の設計に取り入れ、RLエージェントの設計において多目的かつ効果的なライブラリとしての潜在能力を備えています。 研究者は、モジュール性、知識の探索、安全性などの要素を評価しながらPearlを既存のRLライブラリと比較しました。Pearlは、これらの機能をすべて実装し、必要な機能を組み込んでいない競合他社とは区別されました。たとえば、RLLibはオフラインRL、履歴の要約、再生バッファをサポートしていますが、モジュール性と知識の探索をサポートしていません。同様に、SB3はモジュール性、安全な意思決定、およびコンテキストバンディットを組み込んでいません。これが研究者によって注目される他のライブラリとの違いです。 Pearlはまた、リコメンダーシステム、オークション入札システム、クリエイティブセレクションなど、さまざまな実世界のアプリケーションをサポートする予定です。これにより、異なるドメインでの複雑な問題を解決するための有望なツールとなります。RLは近年、大幅な進歩を遂げていますが、実世界の問題を解決するための実装は依然として困難です。しかし、Pearlは知識の探索や安全性、履歴の要約などの独自の特徴を持つことで、RLの広範な統合において貴重なツールとしての潜在能力を持っています。

「オーディオジェネレーションのための新しいメタAIの基礎研究モデル、オーディオボックスに会ってください」

“`html メディアやエンターテイメントの分野において、オーディオは重要な役割を果たします。映画やポッドキャスト、オーディオブック、ビデオゲームなど、すべてに影響を与えます。しかし、高品質のオーディオの制作には、豊富な音源ライブラリと深いドメインの専門知識が必要です。 そのため、メタリサーチャーは、音声入力と自然言語テキストのプロンプトの組み合わせを使用して音声や効果音を生成できる新しいAIモデルであるAudioboxを開発しました。これにより、さまざまなユースケースにカスタムオーディオを簡単に作成することが可能です。スピーチ、効果音、音景の統一された生成と編集機能を持っています。 研究者たちは、さまざまなオーディオ要素の生成と編集の能力を結びつけた大きな進歩であると強調しています。音声入力と自然言語テキストのプロンプトを組み合わせて音声や効果音を生成できるため、さまざまなユースケースにカスタムオーディオを簡単に作成できます。 Audioboxは、Voiceboxの後継として作られ、先行モデルの能力を高めるだけでなく、多様なオーディオ要素の生成と編集を強化する統一プラットフォームを導入しています。 Audioboxの利点は、音声入力と自然言語のテキストプロンプトを組み合わせて音声や効果音を生成できることです。この方法により、さまざまなユースケースに独自のオーディオを作成するプロセスが容易になります。たとえば、ユーザーはAudioboxにテキストで望む音やスピーチのタイプを説明することができ、Audioboxが自動的に対応するオーディオを作成します。 また、ユーザーは自然言語のプロンプトを使用して希望するスピーチのスタイルを説明することもできます。Audioboxの適応性の利点の一つです。さらに、テキストプロンプトを使用してサウンド設定をカスタマイズすることもできます。たとえば、流れる川やさえずる鳥のいる静かな音景を作成するには、詳細なテキストプロンプトを入力するだけで、Audioboxがそのビジョンを実現します。 Audioboxの助けを借りると、ユーザーは声を異なる環境のものに聞こえるように変えることができます。テキストスタイルのプロンプトを音声入力に組み合わせることで、ユーザーは好みに合わせた合成音声を作成することができます。 研究者たちは、音質や関連性の点でAudioboxをAudioLDM2、VoiceLDM、そしてTANGOなどさまざまなモデルでテストし、Audioboxがそれらを上回ることを見つけました。さまざまなスピーチスタイルにおいて、スタイルの類似性で30%以上もVoiceboxを超える結果となりました。 研究者たちは、Audioboxがオーディオの作成を手軽にし、誰でもオーディオコンテンツの作成者になることを可能にすると述べています。 研究者たちは、一種類のオーディオしか生成できない特殊なオーディオ生成モデルではなく、どんなオーディオでも生成できる汎用的なオーディオ生成モデルを構築することを目指しています。 まとめると、Audioboxはオーディオ技術の進化における重要なモデルです。直感的なインターフェースと強力な機能により、オーディオの制作方法を再定義し、個々の音響的なビジョンを形作り、共有するための新しい可能性を開拓します。 この記事の元の投稿は「Audioboxをご紹介:Meta AIによるオーディオ生成の基礎研究モデル」です。 記事の著者はMarkTechPostです。 “`

「サポートベクターマシン(SVM)とは何ですか?」

サポートベクターマシン(SVM)は、機械学習の分野で利用される教師あり学習アルゴリズムです。主に分類や回帰などのタスクを実行するために使用されます。このアルゴリズムは、メールがスパムかどうかの判断、手書き文字の認識、写真での顔の検出など、さまざまなタスクを処理できます。データ内の多くの情報や複雑な関係に対応できる非常に適応性のあるアルゴリズムです。 SVMの主な役割は、特徴に基づいて異なるグループの間を最適な線(または面)で分離することです。データが紙の上の点のようなもので、それらを完全に異なるクラスに分けるための単一の直線を引くことができると想像してください。これは、データが完全に線形に分離可能である必要があります。 SVMの種類 線形サポートベクターマシン データが直線を使用して簡単に2つのグループに分割できる場合、線形SVMが最適です。データが紙の上の点のようなもので、1本の直線を引いてそれらをきれいに2つの異なるクラスに分離できる状態であることを想像してください。 非線形サポートベクターマシン データが直線を使用して2つの別々のグループに分類できない場合、非線形SVMを使用します。ここでは、データは線形に分離できません。このような場合には、非線形SVMが救世主となります。データが複雑なパターンに従わずにしばしば乱雑な現実世界では、非線形SVMのカーネルトリックが使用されます。 どのように動作するのか? 床に散らばった2つのグループ、例えば緑と青の点があると想像してください。SVMの役割は、これらの点をそれぞれのグループに分けるための最適な線(または3次元の世界では面)を見つけ出すことです。 今、点を分けるための多くの線があるかもしれませんね?しかし、SVMは特別な線を探します。すなわち、線と最も近い緑の点から線までの距離と線と最も近い青の点から線までの距離が最大となる線です。この距離を「マージン」と呼び、SVMはできるだけ大きくすることを目指します。 この線を定義するのに重要な役割を果たす最も近い点を「サポートベクター」と呼びます。SVMは、2つのグループの間のスペースを最大化する最良の線を描くためにこれに焦点を当てます。 しかし、もし点がきれいに直線で分離されていない場合はどうでしょうか?もし点があちこちに散らばっている場合はどうでしょうか?そんなときに、SVMは問題を高次元空間に持ち上げるために「カーネルトリック」と呼ばれるものを使用することができます。これにより、より複雑な分割曲線や曲面を引くことが可能になります。 用途とアプリケーション 1. スパムメールフィルタリング: スパムと普通のメールが混在するメールボックスがあると想像してください。SVMを使用して、スパムと通常のメールを区別するスマートフィルターを作成できます。使用される単語などのメールの様々な特徴を見て、スパムと非スパムを区別する境界線を描き、メールボックスをきれいに保ちます。 2. 手書き文字認識: コンピュータが異なる人々の手書き文字を認識することを希望する場合、SVMが役立ちます。手書き文字の形や大きさなどの特徴を分析することで、SVMは一人の人の手書き文字を別の人のものと分離する線や曲線を描くことができます。これは郵便サービスでの数字認識などのアプリケーションに役立ちます。 3. 医療診断: 医学の世界では、SVMは疾患の診断に役立ちます。ある特定の状態の患者とその他の一般の患者についてのデータがあるとします。SVMは様々な健康指標を分析し、健康な患者と状態を持つ患者を区別する境界線を作成します。これにより、医師がより正確な診断を行うのに役立ちます。 4. 画像分類:…

ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました

“` 自然言語処理(NLP)は、GPTシリーズなどの大規模言語モデル(LLMs)の導入により、さまざまな言語的なタスクに対して新たなパフォーマンス基準を確立する変革期に入りました。自己回帰前処理は、モデルにシーケンス内で最も可能性の高いトークンを予測することを教えることで、この驚異的な達成に影響を与える主要な要素の1つです。この基本的な技術により、モデルは構文と意味の複雑な相互作用を吸収し、人間のように言語を理解する卓越した能力を持つことができます。自己回帰前処理は、NLPに加えてコンピュータビジョンにも大きく貢献しています。 コンピュータビジョンにおいて、自己回帰前処理は最初は成功しましたが、後続の開発によりBERTスタイルの前処理に有利な鮮明なパラダイム変化が示されました。この移行は特に注目に値しますが、最初のiGPTの結果からは、自己回帰およびBERTスタイルの前処理がさまざまなタスクで同様のパフォーマンスを発揮することが示されました。ただし、視覚表現学習における効果の高さから、その後の研究ではBERTスタイルの前処理が優先されるようになりました。例えば、MAEはランダムにマスクされたピクセルの値を予測するだけの視覚表現学習に対してスケーラブルなアプローチを示しています。 本研究では、ジョンズ・ホプキンス大学とUCサンタクルーズの研究チームがiGPTを再検討し、自己回帰前処理が広範に適用された場合に高度な視覚学習者を生み出すことができるかどうかを問いました。その過程には2つの重要な変更が組み込まれています。まず、研究チームは画像が自然にノイズや冗長性を持つため、BEiTを使用して写真を意味的なトークンにトークン化します。この変更により、自己回帰予測の焦点がピクセルから意味的なトークンにシフトし、さまざまな画像領域の相互作用のより洗練された理解が可能になります。さらに、研究チームは生成デコーダに識別デコーダを追加し、次の意味的なトークンを自己回帰的に予測します。 視覚領域内の意味的なトークンの予測は、この追加のコンポーネントの責任です。さらに興味深いことに、CLIPのように識別的にトレーニングされたモデルは、この前処理経路に最適な意味的な視覚トークンを提供します。研究チームはこの改良された方法をD-iGPTと呼んでいます。彼らの提案されたD-iGPTの効率性は、さまざまなデータセットとタスクで行われた包括的なテストによって確認されています。関連する唯一のデータセットとしてImageNet-1Kを使用し、彼らのベースサイズのモデルは、従来の最先端モデルを0.6%上回る86.2%のトップ-1分類精度を達成しました。 さらに、彼らの大規模モデルは、3600万の公開データセットで89.5%のトップ-1分類精度を達成します。D-iGPTは、パブリックデータセットで以前の最先端トレーニングと同等のパフォーマンスを発揮しますが、トレーニングデータとモデルのサイズがはるかに少なくなります。同じ前処理とファインチューニングのデータセットを使用して、研究チームはD-iGPTをセマンティックセグメンテーションにも適用し、MAEと比較して優れたパフォーマンスを発揮することを明らかにしました。 “`

スタンフォード大学とFAIR Metaの研究者が、CHOIS(言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法)を発表しました

CHOIS(Choice of Human-Object Interactive Scenario)によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシーン内のオブジェクトと人間の同期した動きの生成の問題に取り組みました。このシステムは、疎なオブジェクトウェイポイント、物事と人間の最初の状態、テキストの説明に基づいて操作されます。指定された3D環境内で、両方のエンティティの現実的で制御可能な動きを生成することで、人間とオブジェクトの相互作用を制御します。 AMASSなどの大規模で高品質なモーションキャプチャデータセットを活用することで、アクション条件付きの合成やテキスト条件付きの合成を含む、生成的な人間の動きのモデリングへの関心が高まっています。以前の研究では、テキストから多様な人間の動きを生成するためにVAE形式が使用されていましたが、CHOISは人間とオブジェクトの相互作用に重点を置いています。手の動きの合成に焦点を当てる既存の手法とは異なり、CHOISはオブジェクトの掴む前の全身の動きを考慮し、人間の動きに基づいてオブジェクトの動きを予測することで、多様な3Dシーンにおける相互作用の包括的な解決策を提供します。 CHOISは、コンピュータグラフィックス、エンボディドAI、ロボット工学にとって重要な3D環境での現実的な人間の行動の合成のための重要なニーズに対応しています。CHOISは、言語の説明、初期状態、疎なオブジェクトウェイポイントに基づいて同期した人間とオブジェクトの動きを生成し、現実的な動きの生成、環境の混雑への対応、言語の説明からの相互作用の合成といった課題に取り組んでおり、多様な3Dシーンにおける制御可能な人間-オブジェクトの相互作用の包括的なシステムを提供しています。 このモデルは、言語の説明、オブジェクトのジオメトリ、初期状態に基づいて同期したオブジェクトと人間の動きを生成するために、条件付きの拡散手法を使用しています。サンプリングプロセス中に制約を組み込むことで、現実的な人間とオブジェクトの接触を保証しています。トレーニングフェーズでは、接触制約を明示的に強制することなく、オブジェクトの変換を予測するための損失関数を使用してモデルを誘導します。 CHOISシステムは、ベースラインと抜粋に対して厳密な評価が行われており、条件の一致、接触の正確性、手とオブジェクトの貫通の削減、足の浮遊などのメトリクスで優れたパフォーマンスを示しています。FullBodyManipulationデータセットでは、オブジェクトのジオメトリ損失がモデルの能力を向上させています。3D-FUTUREデータセットでは、CHOISはベースラインを上回る性能を示し、新しいオブジェクトへの汎化能力を示しています。人間の主観的研究では、入力テキストとのより良い整合性と、ベースラインと比較して優れた相互作用品質を強調しています。位置と姿勢の誤差などの定量的なメトリクスは、生成された結果の地面の真実の動きからの乖離を測定します。 結論として、CHOISは言語の説明と疎なオブジェクトウェイポイントに基づいて現実的な人間-オブジェクトの相互作用を生成するシステムです。手順では、トレーニング中にオブジェクトのジオメトリ損失を考慮し、サンプリング中に効果的なガイダンス用語を使用して結果のリアリティを向上させています。CHOISで学習された相互作用モジュールは、言語と3Dシーンからのオブジェクトウェイポイントに基づいて長期的な相互作用を生成するパイプラインに統合することができます。CHOISは、提供された言語の説明と一致する現実的な人間-オブジェクトの相互作用の生成において、大幅な改善を遂げています。 今後の研究では、入力ウェイポイントとのオブジェクト動きの一致度を向上させるために、オブジェクトのジオメトリ損失などの追加の監視を統合することができます。接触制約を強制するための高度なガイダンス用語の検討は、より現実的な結果につながる可能性があります。多様なデータセットとシナリオへの評価の拡張により、CHOISの一般化能力をテストすることができます。さらなる人間の主観的な研究は、生成された相互作用についてより深い洞察を提供するでしょう。3Dシーンからのオブジェクトウェイポイントを基に、学習された相互作用モジュールを適用して長期的な相互作用を生成することも、CHOISの適用範囲を拡大することになります。

「GoogleがCloud TPU v5pとAIハイパーコンピューターを発表:AI処理能力の飛躍」

Googleは、AIハイパーコンピュータと呼ばれる画期的なスーパーコンピューターアーキテクチャと共に、テンサープロセッシングユニットのリリースで波紋を広げました。これらの革新的なリリースは、リソース管理ツールのダイナミックワークロードスケジューラーとともに、組織のAIタスクの処理における重要な前進を示しています。 直近の11月にリリースされたv5eに継ぎ、Googleの最もパワフルなTPUであるCloud TPU v5pは、従来の設計とは異なり、性能志向のデザインを採用しており、処理能力の大幅な向上を約束しています。ポッドごとに8,960個のチップを装備し、チップ間のインターコネクションスピードは4,800 Gbpsを誇ります。このバージョンは、前のTPU v4と比べて倍のFLOPSと高帯域幅メモリ(HBM)の3倍の印象的な増加を提供します。 パフォーマンスへの注力が大きな成果をもたらし、Cloud TPU v5pは、大規模なLLMモデルのトレーニング時にTPU v4と比べて驚異的な2.8倍の速度向上を実証しています。さらに、第2世代のSparseCoresを活用することで、v5pは前任者に比べて組み込み密なモデルのトレーニング速度が1.9倍速くなります。 一方、AIハイパーコンピューターは、スーパーコンピューターアーキテクチャの革新的な存在となっています。最適化されたパフォーマンスハードウェア、オープンソースソフトウェア、主要な機械学習フレームワーク、そして適応的な消費モデルを組み合わせています。AIハイパーコンピューターは、単一のコンポーネントの補強ではなく、協力的なシステム設計を活用して、トレーニング、微調整、そしてサービスのドメイン全体でAIの効率と生産性を向上させています。 この高度なアーキテクチャは、超大規模なデータセンターインフラストラクチャをベースに、厳密に最適化された計算、ストレージ、ネットワークデザインを特徴としています。さらに、JAX、TensorFlow、PyTorchなどの機械学習フレームワークをサポートするオープンソースソフトウェアを介して関連するハードウェアへのアクセスも提供しています。この統合は、Multislice TrainingやMultihost Inferencingなどのソフトウェアと、Google Kubernetes Engine(GKE)やGoogle Compute Engineとの深い統合にも及びます。 AIハイパーコンピューターを特筆するのは、AIタスクに特化した柔軟な消費モデルです。革新的なダイナミックワークロードスケジューラーやCommitted Use Discounts(CUD)、オンデマンド、スポットなどの伝統的な消費モデルを導入しています。このリソース管理およびタスクスケジューリングプラットフォームは、Cloud TPUとNvidia GPUをサポートし、ユーザーの支出を最適化するために必要なすべてのアクセラレーターのスケジュールを効率化します。 このモデルでは、Flex…

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変されることが成功のパラダイムとなっています。シーケンスモデルは、言語、画像、音声、オーディオ、時系列、ゲノムなど、様々なドメインからの任意のシーケンス入力に対応するもので、これらのファウンデーションモデルの基礎となっています。このアイデアは特定のモデル設計には依存していませんが、トランスフォーマーとその中心となるアテンション層は、ほとんどの現代のファウンデーションモデルの基盤となっています。セルフアテンションは、情報をコンテキストウィンドウ内で緊密にルーティングすることで、複雑な事実を表現することができるため、効果的です。 しかし、この性質には2つの基本的な欠点があります。1つはウィンドウの長さに関する二次的なスケーリング、もう1つは制限されたウィンドウの外部の情報を記述することができないことです。これらの欠点を解決するために、より効果的なアテンションに関連する戦略についての研究が大量に行われていますが、それらはアテンションの成功をもたらす要素と同じ品質を犠牲にすることがしばしばあります。これらのバリエーションが異なるドメイン全体でスケールで実験的に成功したという証拠はまだありません。構造化された状態空間シーケンスモデルは、新しく興味深いシーケンスモデリングアーキテクチャの一族です。これらのモデルは、従来の状態空間モデルから影響を受けており、畳み込みおよび再帰型ニューラルネットワークのハイブリッドと見なすことができます。 これらのモデルは、シーケンスの長さに対して線形またはほぼ線形なスケーリングを持ち、再帰または畳み込みによって非常に高速に計算することができます。また、ロングレンジアリーナなどのベンチマークを支配しており、特定のデータモダリティにおける長距離の相互依存関係のモデリングのためのツールとなっています。多くのSSM(構造化状態空間モデル)のバリエーションが、連続的な信号データを必要とする音声やビジョンなどの領域で効果を示していますが、テキストのような離散で情報密度の高い素材のモデリングにはまだ成功していません。 カーネギーメロン大学とプリンストン大学の研究チームは、従来の研究をさまざまな側面で拡張し、シーケンスの長さとの線形関係を保ちながらトランスフォーマーのようなモデリング能力を向上させる選択された状態空間モデルの新しいカテゴリを提案しています。 選択メカニズム。まず、以前のモデルの重要な欠点を指摘します。それは、入力に応じてデータを効果的に選択することができないことです。研究チームは、重要な合成タスク(セレクティブコピーと誘導ヘッドなど)から得られた理解に基づいてSSMパラメータを入力によってパラメータ化することにより、簡単な選択プロセスを提供しています。これにより、モデルは不要なデータを排除しながら関連する情報を永続的に保持することができます。 ハードウェア対応コード。この簡単な修正は、モデルの計算を技術的に挑戦します。以前のSSMモデルは、計算が効率的に行われるために入力や時間の不変である必要がありました。異なるレイヤー間でのGPUメモリ階層のIOアクセスを防ぐために、ハードウェア対応アプローチを使用してモデルをスキャンに基づいて再帰的に計算します。ただし、拡張された状態は具現化されません。結果として得られる実装は、現在のハードウェア上の以前の技術よりも高速であり、理論的な設計の構築です。 アーキテクチャ:特定の状態空間を組み込んだ簡単で均一なアーキテクチャ設計を提供するために、以前のSSMアーキテクチャの設計とトランスフォーマーのMLPブロックを1つのブロックに組み合わせ、以前の深いシーケンスモデルの設計を簡素化します。 選択的SSMとMambaアーキテクチャの主要な特徴により、これらは完全な再帰モデルとして動作するより広範な基盤モデルの基盤となることができます: (i)高品質:遺伝学や言語などの密なモダリティにおいてセレクティビティは優れたパフォーマンスを発揮します。 (ii)高速な推論とトレーニング:推論中、モデルを自己回帰的に展開するためのステップごとの時間は定数であり、過去のコンポーネントのキャッシュを必要としないため、計算とメモリのスケーリングはシーケンスの長さに比例します。 (iii)長いコンテキスト:品質と効率の組み合わせにより、シーケンスの長さが100万に達するまで実際のデータでのパフォーマンス向上が得られます。 研究チームは、実験的な証拠をもとに、Mambaの潜在能力を汎用性のあるシーケンスFMのバックボーンとして、さまざまなモダリティや状況における事前学習品質やドメイン特化のタスクパフォーマンスに関してサポートしています: ・人工材料。Mambaは、巨大な言語モデルにとって重要とされるコピーや誘導ヘッドタスクなどの重要な合成タスクを容易に解決するだけでなく、無限に長い解を予測することもできます。 ・ゲノミクスとオーディオ。音声波形やDNA配列のモデリングにおいて、事前学習品質や下流のメトリクスに関して、MambaはSaShiMi、Hyena、Transformersなどの従来の最先端モデルを凌ぎます。そのパフォーマンスは、両方のコンテキストで100万文字長のシーケンスまでより多くの文脈を持つことで改善されます。 • モデリング言語。マンバは、下流で実施される評価と事前学習の複雑さの両方で本当にTransformerのようなパフォーマンスを実現する最初の線形時間シーケンスモデルを表しています。 研究チームは、Mambaが、LLaMaに基づく高度なTransformerトレーニングレシピを含む多くのベースラインを上回り、1Bのパラメータまでのスケーリング則に従っています。同じサイズのTransformerと比較して、彼らのMamba言語モデルは5倍の世代スループットを持ち、Mamba-3Bの品質はその2倍のサイズのTransformerと同等です。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us