Search Results Meta

偽預言者：回帰モデルとMeta’s Prophetの比較

「クロスバリデーションを使用して、カスタムの時系列回帰モデルとメタの予測ツールトラフォードの比較を行うためのビジュアルと強力な指標を作成してください」

MusicGenを再構築：MetaのAI音楽における地下進化

2023年2月、Googleは彼らの生成音楽AI MusicLMで波風を立てましたその時点で、二つのことが明確になりました多くの人が次の画期的なモデルが…の10倍の大きさになるだろうと予想していました

メタラマは本当にオープンソースなのか？ (Meta Rama wa hontō ni ōpun sōsu na no ka?)

「メタLLaMAのオープンソースLLMとしての真正性を探求し、基準と大きな意義を解析する」

MetaがEmuビデオとEmu編集を発表：テキストからビデオ生成と精密画像編集の先駆的な進化

急速に進化する生成AIの分野では、効率的で高品質なビデオ生成モデルや正確で多目的な画像編集ツールの実現に向けて課題が残されています。従来の方法では、モデルの複雑な連鎖や過剰な修正への支援が必要となることが多く、その有効性が制限されています。メタAIの研究者は、これらの課題に対処するために、2つの画期的な進展である「Emu Video」と「Emu Edit」を紹介しています。この2つの画期的な進展により、高品質なビデオ生成の新たな基準が設定され、以前の研究を上回る成果が出ています。現在のテキストからビデオを生成する手法では、多数のモデルの連鎖を必要とし、膨大な計算リソースを要求します。Emu Videoは、基礎となるEmuモデルを拡張したもので、プロセスを効率化するための因子分解手法を導入しています。これにより、テキストのプロンプトに基づいた画像生成、およびテキストと生成された画像に基づいたビデオ生成が行われます。この手法の簡易性により、わずか2つの拡散モデルだけで高品質のビデオ生成が実現され、以前の研究を凌駕しています。一方、従来の画像編集ツールは、ユーザーが正確な制御ができるように改良される必要があります。 Emu Editは、領域ベースの編集やフリーフォームの編集など、さまざまな画像編集タスクを処理するマルチタスクの画像編集モデルです。また、検出やセグメンテーションといった重要なコンピュータビジョンのタスクも同時に処理します。 Emu Videoの因子分解アプローチはトレーニングを効率化し、印象的な結果をもたらします。たった2つの拡散モデルで512×512の4秒間のビデオを毎秒16フレーム生成することは、大きな進歩です。ヒューマン評価では、Emu Videoが以前の研究に優れているとの一貫した評価がされ、ビデオの品質とテキストの指示への忠実度の両方で優れた性能を発揮しています。さらに、このモデルはユーザー提供の画像をアニメーション化する能力も備えており、この領域で新たな基準を設定しています。 Emu Editのアーキテクチャは、マルチタスク学習に最適化されており、さまざまな画像編集タスクに適応性を示しています。学習されたタスク埋め込みの導入により、編集の指示の実行において精密な制御が可能となっています。Few-shotの適応実験では、Emu Editが新しいタスクに素早く適応できることが示されており、限られたラベル付きの例や計算リソースのある状況で有利です。Emu Editとともにリリースされたベンチマークデータセットにより、命令の忠実度と画像の品質で優れたモデルとして位置づけられています。結論として、Emu VideoとEmu Editは生成AIの革新的な飛躍を表しています。これらのイノベーションは、テキストからビデオを生成する方法と命令に基づいた画像編集の課題に取り組み、合理化されたプロセス、優れた品質、および前例のない適応性を提供しています。魅力的な動画を作成するから正確な画像編集を実現するまで、これらの進歩が創造的な表現に与える深い影響を強調しています。ユーザー提供の画像をアニメーション化したり、複雑な画像編集を実行したりすることで、Emu VideoとEmu Editはユーザーが新たに制御と創造性を持って自己表現するためのエキサイティングな可能性を開放します。 EMU Videoの論文：https://emu-video.metademolab.com/assets/emu_video.pdf EMU Editの論文：https://emu-edit.metademolab.com/assets/emu_edit.pdf…

3Dボディモデルに音声が付きました：Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介

知識とコンピューテーションヴィジョン、人工知能（AI）の補完分野の進展により、人間の行動を再現し理解するインテリジェントシステムの持続的な発展がもたらされてきました。マシンラーニングモデルは、現実と仮想のギャップを埋める間に非常に人気が高まっています。コンピューテーションヴィジョンの分野では、3D人体モデリングが大きな注目を浴びていますが、音響側のモデリングや音声や身体の動きから3D空間オーディオを生成する課題はまだ議論の対象です。常に注目されてきたのは、人体の人工的表現の視覚的忠実度です。人間の知覚は、聴覚と視覚のヒントを組み合わせて環境を理解するため、マルチモーダルな性質を持っています。3Dサウンドを正確にシミュレートすることは、3Dの世界で存在感と没入感を作り出すために非常に重要です。これらの課題に対処するため、Shanghai AI LaboratoryとMeta Reality Labs Researchの研究者チームは、人間の全身に対して正確な3D空間オーディオ表現を生成するモデルを提案しました。提案された技術は、ヘッドマウントマイクロフォンと人体の姿勢データを使用して、精確な3D空間音響を合成すると述べられています。ケーススタディでは、拡張現実と仮想現実（AR/VR）を組み合わせたテレプレゼンスシナリオに焦点を当て、ユーザーはフルボディアバターでコミュニケーションを行います。ヘッドマウントマイクロフォンからのエゴセントリックオーディオデータとアバターをアニメートするために使用される身体の姿勢データが入力の例として使用されています。音の空間化には、音源が既知であり、そこに妨害がないと仮定する現在の手法が前提とされています。提案された手法では、身体の姿勢データを使用して、さまざまなノイズのソースを区別し、正確に空間化された信号を生成するマルチモーダルネットワークをトレーニングすることで、これらの問題を解決しています。身体を取り囲む音響領域が出力であり、7つのヘッドマウントマイクロフォンからのオーディオと被験者の姿勢が入力になります。研究チームは実証評価を行い、適切な損失関数でトレーニングされた場合に、モデルが体の動きから生じる音場を信頼性があり確実に再現できることを示しました。モデルのコードとデータセットはインターネット上で一般に利用可能で、この分野でのオープン性、繰り返し可能性、および追加の開発を促進しています。GitHubリポジトリはhttps://github.com/facebookresearch/SoundingBodiesでアクセスできます。研究チームによる作業の主な貢献は、以下のように要約されています。ヘッドマウントマイクロフォンと身体のポーズを使用して、人体の現実的な3D音響空間をレンダリングする独自の手法を紹介しました。ボディポーズと緻密な損失関数の重要性を示す包括的な実証評価が共有されました。研究チームが作成した新しいデータセットが、345個のマイクの配列からの空間オーディオ録音とマルチビューの人体データを組み合わせています。

「Meta AIは、社会的な具現化されたAIエージェントの開発における3つの主要な進展、Habitat 3.0、Habitat Synthetic Scenes Dataset、およびHomeRobotを紹介します」

Facebook AI Research (FAIR)は、社会的にインテリジェントなロボットの分野を推進することに専念しています。主な目標は、日常のタスクを支援することができるロボットを開発し、人間のパートナーの独自の好みに適応することです。この業務には、次世代のARおよびVR体験の基盤を築くために、組み込みシステムに深く潜る作業が含まれています。目標は、ロボット工学を私たちの生活の一部に組み込むことであり、日常の煩わしい仕事の負担を軽減し、個人の生活の質を向上させることです。FAIRの多面的なアプローチは、AI、AR、VR、ロボット工学を融合させ、テクノロジーが私たちの日常の経験をシームレスに補完し、私たちを以前に想像もしなかった方法で権限を与える未来を創造することの重要性を強調しています。 FAIRは、物理的な環境でAIエージェントのトレーニングとテストにおける拡張性と安全性の課題に対処するために、3つの重要な進展を達成しました： Habitat 3.0は、ロボットとアバターのための高品質なシミュレータであり、家庭のような環境での人間とロボットの協力を容易にします。ハビタット・シンセティック・シーン・データセット（HSSD-200）は、アーティストによって設計された3Dデータセットであり、ナビゲーションエージェントの訓練時に優れた一般化を提供します。 HomeRobotプラットフォームは、シミュレートされたおよび現実世界の環境でのオープンボキャブラリータスク用の手頃な価格のホームロボットアシスタントを提供し、人間が支援できるAIエージェントの開発を加速します。 Habitat 3.0は、物理的なロボットに展開する前に、仮想環境でアルゴリズムの迅速かつ安全なテストを可能にするシミュレータです。日常のタスクを実行する際に、人間とロボットの共同作業を可能にし、多様な家庭のような環境でのAIトレーニングを可能にするために、リアルな人間のアバターを含んでいます。Habitat 3.0は、クリーニングやナビゲーションなどの実際の屋内シナリオでの共同ロボット-人間の動作を促進するベンチマークタスクを提供し、社会的に具現化されたAIの新たな探求の方法を提示しています。 HSSD-200は、シミュレートされた環境でロボットの訓練により現実的でコンパクトなオプションを提供する合成的な3Dシーンデータセットです。これには、物理的な内部を複製した高品質な3Dセットが211個含まれており、466の意味カテゴリから18,656個のモデルが含まれています。スケールは小さくなりますが、HSSD-200シーンで訓練されたObjectGoalナビゲーションエージェントは、以前のデータセットの10,000シーンで導入されたエージェントと比較可能な性能を発揮します。場合によっては、122のHSSD-200シーンでの訓練のほうが、物理世界のシナリオへの一般化において、以前のデータセットの10,000シーンで訓練されたエージェントを上回る効率を示しています。ロボット工学研究の分野では、共有プラットフォームが重要です。HomeRobotは、やる気を持ったタスクの定義、多目的のソフトウェアインターフェースの提供、そしてコミュニティの関与を目指して、このニーズに対応しようとしています。開放度の高いモバイルマニピュレーションが動機付けのタスクとして機能し、多様な環境でオブジェクトを操作するようにロボットに挑戦します。HomeRobotライブラリは、Hello RobotのStretchとBoston DynamicsのSpotの両方をシミュレートおよび現実世界の設定でナビゲーションと操作をサポートし、実験の複製を促進します。このプラットフォームは、移転性、モジュール性、およびベースラインエージェントを重視し、物理世界のテストで20％の成功率を示すベンチマークを提供しています。具現化されたAI研究の分野は、人間とロボットの相互作用を含む動的な環境に対応するために常に進化しています。Facebook AIのソーシャルリーインテリジェントなロボットを開発するビジョンは、静的なシナリオに限定されません。その代わりに、彼らの焦点は協力、コミュニケーション、および動的な設定で将来の状態を予測することにあります。この目標を達成するために、研究者はHabitat 3.0およびHSSD-200をシミュレーションでAIモデルのトレーニングに使用しています。彼らの目的は、これらの訓練されたモデルを物理世界に展開し、その実世界でのパフォーマンスと能力を評価することです。

Meta AIがAnyMALを紹介：テキスト、画像、ビデオ、音声、動作センサーデータを結びつけるマルチモーダル言語モデルの未来

人工知能において、根本的な課題の一つは、機械が画像、動画、音声、運動信号といった様々な感覚入力と共に、人間の言語を理解し生成することです。この問題は、人間とコンピュータの対話、コンテンツ生成、アクセシビリティといった多数のアプリケーションに重要な影響を与えます。従来の言語モデルは、しばしばテキストベースの入力と出力のみに焦点を当てており、人間が世界との対話を行うさまざまな方法に対応する能力を制限しています。この制限を認識し、研究者チームはこの問題に直面し、画期的なマルチモーダル言語モデルであるAnyMALの開発につながりました。言語理解の現在の方法とツールは、多様なモダリティの処理に追いつく必要があるとされています。しかし、AnyMALの研究チームは、この課題に取り組むための新しいアプローチを考案しました。彼らは、様々な感覚入力をシームレスに統合する大規模なマルチモーダル言語モデル（LLM）を開発しました。AnyMALは単なる言語モデルではなく、マルチモーダルな文脈で言語を理解し生成するAIのポテンシャルを具現化しています。私たちの周りの世界から感覚的な手がかりを組み合わせてAIモデルと対話することを想像してみてください。AnyMALは、視覚、聴覚、運動の手がかりを含めた感覚的な認識を通じて共有された世界の理解を前提とするクエリを可能にします。テキストにのみ依存する従来の言語モデルとは異なり、AnyMALは様々なモダリティが提供する豊かな文脈を考慮しながら言語を処理し生成することができます。 AnyMALの方法論は、その潜在的な応用の印象的さに匹敵します。研究者たちは、このマルチモーダル言語モデルをトレーニングするために、オープンソースのリソースとスケーラブルなソリューションを活用しました。そのうちの1つが、マルチモーダルインストラクションチューニングデータセット（MM-IT）であり、これは複数の感覚入力を含むインストラクションデータのための注意深くキュレーションされた注釈の収集です。このデータセットはAnyMALのトレーニングに重要な役割を果たし、複数の感覚入力を伴う指示を理解し応答できるようにしました。 AnyMALの優れた機能の一つは、複数のモダリティを統一的で同期した方法で処理できることです。他の画像言語モデルとの比較によって示されるように、さまざまなタスクで注目すべきパフォーマンスを発揮します。例を挙げると、AnyMALはクリエイティブなライティングのプロンプトから、ナッツクラッカーの人形の画像に関連するユーモラスなジョークの応答まで、その能力を示しています。これは、AnyMALの視覚的な理解力や創造性とユーモアの能力を示しています。ハウツーのシナリオでは、フラットタイヤの修理に関する明確かつ簡潔な指示を提供し、画像の文脈を理解し関連する言語を生成する能力を示しています。ワインとステーキのペアリングに関するおすすめのクエリでは、AnyMALは2つのワインボトルの画像に基づいてステーキとのよりよいペアリングするワインを正確に特定します。これにより、視覚的なコンテキストに基づいた実践的なおすすめを提供する能力が示されます。さらに、質問と回答のシナリオでは、AnyMALはイタリアのフィレンツェの画像にあるアルノ川を正しく識別し、その長さに関する情報を提供します。これは、強力なオブジェクト認識と事実知識の能力を示しています。結論総括すると、AnyMALは多様な感覚的なインプットと共に言語を理解し生成することができる、マルチモーダル言語理解の大きな飛躍です。AnyMALの手法は包括的なマルチモーダルデータセットと大規模なトレーニングに基づいており、クリエイティブな文章から実践的なおすすめまで、さまざまなタスクで印象的な結果を生み出します。ただし、最先端の技術であるため、AnyMALには制約があります。テキストベースの手がかりよりも視覚的なコンテキストを優先することが難しい場合や、画像とテキストのペアデータの量に制約があることがあります。しかし、4つの初期的に検討されたモダリティ以外のさまざまなモダリティを収容する可能性は、AIによるコミュニケーションの将来の研究や応用にとってエキサイティングな可能性を開いています。

メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「ビデオマッティング」として知られる課題です。レイヤーを交換したり、合成する前に個別に処理したりすることができるため、ビデオ編集業界では多くの用途があり、数十年にわたって研究されてきました。主題のマスクのみが必要なアプリケーションには、ビデオ制作におけるロトスコーピングやオンラインミーティングでの背景のぼかしなどが含まれます。ただし、興味のあるアイテムだけでなく、影や反射などの関連するエフェクトも含むビデオマットを作成できる能力は一般的に望まれています。これにより、最終的なカットムービーのリアリズムが向上し、手作業での二次効果のセグメンテーションの手間が減少する可能性があります。オブジェクトの除去など、クリーンな背景の再構築が望まれるアプリケーションでは、前景オブジェクトの関連する影響を除外することが役立ちます。その利点にもかかわらず、この問題の不適切性により、標準のマッティング問題よりも研究が少なくなっています。オムニマットは、この問題に対処するための迄今最も有望な取り組みです。オムニマットは、前景の移動するアイテムとそれらが生み出す効果を記録するRGBAレイヤーです。オムニマットは背景をホモグラフィでモデル化するため、背景が平面的であるか、単一のモーションのタイプが回転であるビデオにのみ効果的です。 D2NeRFは、2つの輝度場を利用してシーンのダイナミックな部分と静的な部分を別々にモデル化することで、この問題を解決しようとする試みです。すべての処理は3次元で行われ、システムは多くのカメラ移動がある複雑なシナリオを処理することができます。また、マスク入力は必要なく、完全に自己監督型です。ラフなマスクなどのビデオ上で定義された2Dガイダンスをどのように組み合わせるかは明確ではありませんが、静止した背景からすべての移動アイテムを効果的にセグメンテーションします。メリーランド大学とメタによる最近の研究では、3Dの背景モデルと2Dの前景レイヤーを組み合わせることで両者の利点を結びつけるアプローチを提案しています。 3Dでは作成が難しいオブジェクト、アクション、効果は、軽量の2Dの前景レイヤーで表現することができます。同時に、3Dの背景モデリングは、複雑なジオメトリや回転ではないカメラの動きを処理することができるため、2Dのアプローチよりもさまざまな種類のムービーを処理することが可能になります。研究者たちはこの技術を「オムニマットRF」と呼んでいます。実験結果は、個別のパラメータ修正を必要とせずに、幅広い範囲のビデオで強力なパフォーマンスを発揮することを示しています。D2NeRFは、背景の3D環境での背景分離を客観的に分析するためにKubricsを使用してレンダリングされた5つのビデオのデータセットを作成しました。これらのセットは、一部の移動アイテムがしっかりとした影を作り出す比較的整理された内部設定です。さらに、チームは複雑なアニメーションと照明条件を持つオープンソースのBlenderムービーを基にした5つのビデオを生成し、より困難で現実的なシナリオに対応しています。どちらのデータセットも、過去の調査と比較して優れたパフォーマンスを示しています。背景モデルは、常に影の中にある部分の色を正確に復元することはできません。アニメーションレイヤーにはアルファチャネルがあるため、背景の元の色を保持しながら加算のみの影を記録することが可能であるはずです。ただし、現在の文脈では、この問題を解決するのは困難です。

MetaGPT 現在利用可能な最高のAIエージェントの完全ガイド

「なぜMetaGPTがAutoGPTやBabyAgiなどの他のAIエージェントよりも複雑なコーディングタスクで優れているのかを発見してください詳細な記事でセットアッププロセスを案内し、具体的な例を提供します1行のプロンプトでGPTを搭載したマイクロアプリを構築してください」

MetaGPTに会いましょう：テキストをウェブアプリに変えるChatGPTを搭載したAIアシスタント

この革命的なAIツールは、わずか数秒でノーコードのウェブアプリケーションを作成することができます！

Artificial Intelligence

Learn more about Search Results Meta - Page 2