Search Results Apple

「EPFLとAppleの研究者が4Mをオープンソース化：数十のモダリティとタスクにわたるマルチモーダルな基盤モデルの訓練のための人工知能フレームワーク」

大量の自然言語処理（NLP）タスクを広範に扱える大型言語モデル（LLM）をトレーニングすることは、より人気があります。NLPでこれらのモデルが優れた成功を示しているにもかかわらず、ビジョンのために同様に柔軟でスケーラブルなモデルを作成する必要があります。ビジョンのスケーラビリティと多機能性には、多くの入力モダリティと出力タスクを管理する能力が不可欠です。ビジョンモデルは、写真、3D、テキストを含むさまざまな感覚入力を処理し、さまざまなタスクを実行する必要があります。ビジョンに関しては、単一の目的でRGB画像でのトレーニングは、生のテキストに対する言語モデリングと同じ結果を生みませんでした。その結果、トレーニングではさまざまなモダリティとタスクを活用する必要があります。データ、アーキテクチャ、トレーニングの目的は、望ましいビジョン基盤モデルの属性を持つモデルを構築する際に考慮すべき3つの重要なスケーラビリティ要素です。データのスケーラビリティは、性能を向上させるためにより多くのトレーニングサンプルを活用できる能力を指します。アーキテクチャの観点では、性能が増加するにつれてモデルサイズを大きくし、トレーニング時に安定性を保つことを意味します。最後に、スケーラブルなトレーニング目標は、計算コストが急増することなく、増加するモダリティの数に効率的に対応できる必要があります。スイス連邦工科大学ローザンヌ校（EPFL）とAppleの新しい研究は、これらの3つの領域すべてでスケーラビリティを目指し、さまざまな入力タイプと互換性のある方法を提案しています。これらの障壁を乗り越えるため、チームは、マルチモーダルなマスクされたモデリングのゴールを持つ単一の統合トランスフォーマーエンコーダーデコーダーをトレーニングする戦略を提案しています。4Mは「Massively Multimodal Masked Modeling」の略で、このアプローチの様々なモダリティに拡張可能な能力を強調しています。このアプローチは、マスクされたモデリングとマルチモーダル学習の最良の特徴を組み合わせています。強力なクロスモーダル予測コーディング能力と共有シーン表現反復サンプリングにより、モデルを生成タスクに使用できる事前トレーニングの目的は、効果的に豊かな表現を学ぶことです重要なのは、4Mがこれらの利点を保ちながら、多くのプロセスを通じて効率を保つことです。モダリティ固有のトークナイザーを使用することで、モダリティをさまざまな形式でセットや連続の離散トークンに変換し、テキスト、境界ボックス、画像、ニューラルネットワークの特徴など、さまざまなモダリティで単一のトランスフォーマーをトレーニングできます。これにより、表現領域が統一されます。タスク固有のエンコーダーやヘッドはもはや必要ないため、このトークナイゼーションアプローチにより、パラメータ共有が可能になり、互換性、スケーラビリティ、共有性が向上します。また、4Mは、多くのモダリティで作業するにもかかわらず、入力と目標のマスキングを活用して効率的にトレーニングすることができます。これには、トークンの小さなサブセットをランダムに選択してモデルの入力として使用し、別の小さなサブセットを目標として使用する必要があります。スケーラブルなトレーニング目標を達成するためには、入力トークンと目標トークンの数をモダリティの数から切り離す必要があります。これにより、モダリティの数が増えても計算コストが急速に増加することを防げます。CC12Mや他の利用可能な単一モーダルまたはテキスト-画像ペアデータセットを使用して、強力な擬似ラベリングネットワークを使用してモーダルに整合したバインディングデータを作成します。この擬似ラベリング手法により、異なる大規模データセットでのトレーニングが可能になります。4Mモデルは、出発点でさまざまな重要な視覚タスクで優れた結果を出すだけでなく、未知のダウンストリームタスクや入力モダリティでも注目すべき結果を達成するために微調整することができます。さらに、どのモダリティでも条件付きで操作可能な操作可能な生成モデルをトレーニングするために、マルチモーダルなマスクされたモデリングゴールを利用する必要があります。これにより、ユーザーの意図やさまざまなマルチモーダルな編集タスクの多様な表現が可能になります。その後、4Mのパフォーマンスに影響を与えるパラメータを徹底的に分析します。この包括的な分析と、この手法の容易さと汎用性により、4Mは多くのビジョンタスクと今後の開発に大いに期待されます。

「AppleがオープンソースのMLフレームワーク「MLX」を発表」

機械学習の分野における協力とイノベーションを促進する重要な進展として、AppleはMLXを発表しました。MLXは、Appleの優れた機械学習研究チームによって開発された、Appleシリコン上での機械学習を特に対象としたオープンソースの配列フレームワークです。MLXは、研究者のための洗練された体験を約束し、モデルのトレーニングと展開の効率を向上させます。馴染みのあるAPIと高度なモデル構築馴染みのあるAPIと高度なモデル構築MLXは、開発者にとって馴染みのあるNumPyに密接に組み合わされたPython APIを導入し、開発の簡便性を確保しています。同時に、その完全な機能を備えたC++ APIはPythonバージョンと一致し、多様な開発環境を提供します。mlx.nnやmlx.optimizersなどの高レベルのパッケージは、PyTorchの慣習に従ってモデル構築を簡略化します。確立されたフレームワークとの整合性により、開発者はスムーズな移行が可能です。機能の拡張 MLXの特長の一つは、構成可能な関数変換の導入です。この革新的なアプローチにより、自動微分、ベクトル化、計算グラフの最適化が可能となります。これらの機能を組み込むことで、開発者は効率的にモデルの能力を向上させることができます。遅延計算による効率化 MLXの設計の中心には効率があり、計算が遅延されるようにエンジニアリングされています。実際的には、配列は必要な時にのみ具現化され、計算効率が最適化されます。このアプローチにより、リソースの節約だけでなく、機械学習プロセス全体の速度と応答性も向上します。ダイナミックグラフ構築とマルチデバイスサポート MLXは、関数引数の形状の変更によって引き起こされる遅いコンパイルを排除するために、ダイナミックグラフ構築を採用しています。この動的なアプローチにより、デバッグプロセスが簡素化され、開発全体の経験が向上します。さらに、MLXはCPUやGPUなど、さまざまなデバイスでシームレスな操作をサポートしています。この柔軟性により、開発者は特定の要件に最適なデバイスを選択する自由があります。統一メモリモデル従来のフレームワークとは異なり、MLXは統一メモリモデルを導入しています。MLX内の配列は共有メモリに存在し、データの移動を必要とせずに異なるデバイスタイプ間での操作が可能です。この統一アプローチにより、全体的な効率が向上し、よりスムーズで効率的な操作が実現されます。関連記事：元Apple社員がデスクトップに生成AIをもたらす方法私たちの意見結論として、Appleのオープンソース化は機械学習コミュニティへの重要な貢献です。NumPy、PyTorch、Jax、ArrayFireなどの確立されたフレームワークの優れた機能を組み合わせることで、MLXは開発者に頑健で多機能なプラットフォームを提供します。トランスフォーマーランゲージモデルのトレーニング、大規模テキスト生成、ステーブルディフュージョンを使用した画像生成、OpenAIのWhisperを使用した音声認識などの例で示されるフレームワークの機能は、さまざまなアプリケーションにおけるそのポテンシャルを裏付けています。 MLXはPyPiで入手可能であり、「pip install mlx」を通じた簡単なインストールプロセスにより、Appleは機械学習の領域でのアクセシビリティと協力の促進にコミットしています。開発者がこの可能性を探求する中で、Appleシリコン上の機械学習の領域はエキサイティングな進展を迎えることになります。

「GoとMetalシェーディング言語を通じてAppleのGPUをプログラミングする」

以下では、GoとネイティブCの間でcgoを使用してインターフェースを作成するプロセス、これを使用してAppleのMetal Performance ShadersフレームワークのObjective-Cバインディングとインターフェースを作成する方法について説明します

「AppleとGoogle、ChatGPTを年間アプリに見落とす」

驚くべき事態の中、テックジャイアントのAppleとGoogleは通常のパターンから逸脱し、それぞれの「年間最優秀アプリ」を選びました。ハイキングやバイキングの相棒であるAllTrailsが、AppleのiPhone年間最優秀アプリに輝きましたが、Google Playは教育アプリのImprint: Learn Visuallyを最優秀アプリに選びました。両プラットフォームで唯一無二の選択となったのは、年間最優秀ゲームとして選ばれたHonkai: Star Railです。ただし、歴史上最も急成長した消費者向けアプリであるChatGPTが注目を浴びることはありませんでした。異例の選択 Appleの異例の選考プロセスからは、新しいまたは技術的に革新的なアプリをクローズアップするのではなく、（優れたモバイルコンパニオンとしての）確立した存在の言語学習アプリDuolingoや旅行アプリFlightyなどの有力候補が含まれていることがわかります。この動きは、確立されたモバイルコンパニオンの認識に移行していることを示しています。 AppleがAIカテゴリーを無視 Appleは、ChatGPTやその仲間たちの驚異的な成功にもかかわらず、今年の最優秀アプリにはAIカテゴリーのアプリを一つも認めませんでした。ChatGPTは、ローンチ後間もなくして1億人のユーザーに到達するなど、最速で成長する消費者向けアプリとして記録を打ち立てました。後にInstagram Threadsがこの記録を超えましたが、ChatGPTのアクティブなユーザーベースはまだ大きなものです。AIカテゴリーを回避する決定には、Appleの戦略的な選択についての疑問が投げかけられます。 Googleのマルチデバイスの焦点一方、Googleは異なるアプローチを取り、非スマートフォンアプリの発見を促進する取り組みに合致する「マルチデバイス」をクローズアップしました。Spotifyが最優秀マルチデバイスアプリの称号を獲得しましたが、最近のPlayストアの手数料を迂回するためにGoogleとの特別な取り決めが明らかになったことからも、注目を浴びました。最優秀アプリにChatGPTが選ばれなかったにもかかわらず、ユーザーたちは自分たちの選択を声に出し、それを「ユーザーが選んだ年間最優秀アプリ」としました。ChatGPTはユーザーの選択カテゴリーで勝利を収めましたが、元Googleの研究者たちはキャラクターAIでAIカテゴリーのトップに輝きました。私たちの意見 AppleとGoogleの選択が業界の観察者を惑わすかもしれませんが、選考のダイナミクスは常に消費者の嗜好や市場トレンドの絶え間ない変化を反映しているのです。AIの世界で巨大な存在であるChatGPTが見落とされたことは、予想される進路から意図的に逸脱していることを示唆しています。AIの進歩が支配する時代においては、来年の「年間最優秀アプリ」が人工知能の変革力をよりよく反映することでしょう。

「あなたはiPhoneに1,000ドル支払いましたが、Appleがまだそれを管理しています」

会社は、安全警告や故障を引き起こすソフトウェアを使用してデバイスをコード化しており、修理を困難にしています

AppleはiPhoneとAndroid間でのテキストのやり取りを容易にする予定です

Appleは、来年、テキストメッセージングがiOSデバイスとAndroidデバイスの間でスムーズに動作するようにするための技術標準を採用する予定です

Appleの研究者がマトリョーシカ拡散モデル（MDM）を紹介する：高解像度の画像とビデオの合成のためのエンドツーエンドの人工知能フレームワーク

近年、大規模言語モデルは驚くべき能力を示しています。特に、ディフュージョンモデルは3Dモデリングやテキスト生成から画像やビデオ生成まで、さまざまな生成アプリケーションで広く使用されています。これらのモデルはさまざまなタスクに対応していますが、高解像度のデータに取り組む際には重要な困難に直面します。高解像度の入力を全て再エンコードする必要があるため、高解像度へのスケーリングには多くの処理能力とメモリが必要です。これらの問題を克服するために、注意ブロックを持つ深層アーキテクチャが頻繁に使用されていますが、計算とメモリの要求が増加し、最適化が複雑化します。研究者たちは、高解像度の写真のための効果的なネットワーク設計を開発するための努力を重ねています。現在の手法は、出力の品質においてDALL-E 2やIMAGENなどの標準的な技術に比べて不足しており、512×512の解像度を超える競争力のある結果を示していません。これらの広く使用されている技術は、多数の独立してトレーニングされたスーパーレゾリューションディフュージョンモデルを低解像度モデルと融合させることで計算を削減しています。一方で、レイテントディフュージョンメソッド（LDM）では、個別にトレーニングされた高解像度オートエンコーダを使用し、低解像度ディフュージョンモデルのみをトレーニングします。両戦略は、マルチステージパイプラインと細心のハイパーパラメータ最適化の使用を必要とします。最近の研究によれば、Appleの研究チームがエンドツーエンドの高解像度画像およびビデオ合成のために設計されたディフュージョンモデルのファミリーであるマトリョーシカディフュージョンモデル（MDM）を紹介しました。MDMは、低解像度ディフュージョンプロセスを高解像度生成の重要なコンポーネントとして取り入れるという考え方に基づいています。このアプローチは、生成的対抗ネットワーク（GAN）のマルチスケール学習に触発されたものであり、チームはネストされたUNetアーキテクチャを使用して複数解像度にわたる複合ディフュージョンプロセスを実行しました。このアプローチの主要なコンポーネントのいくつかは以下の通りです。マルチ解像度ディフュージョンプロセス：MDMは、複数の解像度で一度に入力をノイズ除去するディフュージョンプロセスを含んでおり、異なる詳細レベルの画像を同時に処理および生成することができます。MDMは、ネストされたUNetアーキテクチャを使用しています。ネストされたUNetアーキテクチャ：ネストされたUNetアーキテクチャでは、小スケールの入力特徴量とパラメータを大スケールの入力特徴量とパラメータにネストさせます。このネスティングにより、情報を効果的にスケール間で共有することができ、細かい特徴を捉えながら計算効率を保つモデルの能力が向上します。プログレッシブトレーニングプラン：MDMは、より高い解像度に徐々に進化するトレーニングプランを提案しています。このトレーニング方法により、最適化プロセスが向上し、モデルは高解像度コンテンツを生成する方法をより良く学習することができます。チームは、このアプローチのパフォーマンスと効果を、テキストからビデオへの応用、高解像度テキストから画像の生成、クラス条件付きの画像生成など、さまざまなベンチマークテストによって示しています。MDMは、1024×1024ピクセルの解像度までシングルピクセル空間モデルをトレーニングできることを示しました。これは比較的小さなデータセット（CC12M）で行われた成果であるため、非常に注目に値します。MDMは、特にトレーニングされていない解像度に高品質な情報を生成できる堅牢なゼロショット一般化を示しています。結論として、マトリョーシカディフュージョンモデル（MDM）は、高解像度画像およびビデオ合成の領域での驚異的な進歩を表しています。

「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」

学習済みの先行知識を活用することで、モノクルカメラによるRGBのみの再構成は、低テクスチャ領域の課題や画像ベースの再構成の曖昧さに向けて大きな進歩を遂げました。リアルタイム実行のための実用的なソリューションが注目されています。これらのソリューションは、モバイルデバイス上のインタラクティブなアプリケーションにとって不可欠です。しかし、現在の最先端の再構成システムには、成功したアプローチがオンラインかつリアルタイムの両方であるという重要な前提条件が考慮されていません。オンラインで動作するためには、アルゴリズムが画像キャプチャ中に正確な増分再構成を生成し、すべての時間間隔で過去と現在の観測にのみ依存する必要があります。この問題は、各ビューが正確な、完全に最適化された姿勢推定を持っているという以前の取り組みの重要な前提を破ります。その代わりに、同時位置推定およびマッピング（SLAM）システムでは、リアルワールドのスキャン条件の下で姿勢のドリフトが発生し、動的な姿勢推定のストリームが生じます。既存の姿勢は、姿勢グラフ最適化およびループクロージャによって更新されます。このようなSLAMからの姿勢の更新は、オンラインスキャンで一般的です。図1に示すように、再構成はこれらの変更を尊重することによって、SLAMシステムとの一致を維持する必要があります。ただし、最近のRGBのみの密な再構成には、オンラインアプリケーションでのカメラの姿勢推定の動的な性質にはまだ対応していません。再構成の品質における重要な進展にもかかわらず、これらの取り組みは動的な姿勢を明示的に扱っておらず、静的な姿勢の入力画像の従来の問題の定式化を維持しています。一方で、これらの更新が存在し、現在のRGBのみの手法に姿勢の更新管理を統合する方法を提供しています。図1：SLAMシステム（a、b）からの姿勢データは、ライブ3D再構成では更新（c、赤緑）される場合があります。私たちの姿勢更新管理手法は、グローバルに一貫性のある正確な再構成を生成しますが、これらの変更を無視すると不正確なジオメトリが生じます。彼らは、シーンに新しい視点を統合するための線形の更新アルゴリズムを使用するRGB-Dの技術であるBundleFusionに影響を受けています。これにより、古いビューの非統合と、更新された位置の利用可能性に応じた再統合が可能となります。本研究では、汎用的なフレームワークとしての非線形の学習ベースの非統合技術を提供し、RGB画像からの動的な再構築における姿勢変更の管理をサポートします。静的な姿勢の仮定を持つ3つのサンプルのRGBのみの再構築技術が研究されています。オンラインシナリオにおける各アプローチの制約を克服するために。具体的には、Appleとカリフォルニア大学サンタバーバラ校の研究者は、学習ベースの非線形の更新ルールに依存するNeuralReconなどの技術のために、動的な再構築を容易にする深層学習ベースの非線形の非統合技術を提供します。彼らは、LivePoseと呼ばれる新しいかつユニークなデータセットを提供し、BundleFusionを使用して構築されたScanNetの完全な動的な姿勢シーケンスを含んでおり、この技術を検証し、将来の研究を支援します。非統合戦略の効果は、重要な再構成指標における質的および量的な改善を明らかにするテストで示されています。彼らの主な貢献は以下の通りです：• モバイルインタラクティブアプリケーションのための現実の環境により忠実に模倣した新しいビジョンの仕事を提供し、動的な姿勢のRGB画像からの密なオンライン3D再構成を実現します。• 彼らは公開可能な初の動的SLAM姿勢推定データセットであるLivePoseをリリースしました。これにはScanNetデータセットの1,613スキャンごとに完全なSLAMポーズストリームが含まれます。• 動的な姿勢での再構築を容易にするために、革新的なトレーニングと評価方法を作成しました。• 学習済みの再発ビュー統合を持つ技術に対して動的な位置処理を可能にする、独自の再発性非統合モジュールを提案しています。このモジュールは、姿勢変更の管理方法を教えます。

最新のデータを使ってファンデーションモデルを最新の状態に保つ方法は？ AppleとCMUの研究者が、VLMの継続的なトレーニングのための最初のウェブスケールの時系列連続性（TiC）ベンチマークを導入しましたこれには12.7Bのタイムスタンプ付きのイメージとテキストのペアが含まれています

CLIP、Flamingo、およびStable Diffusionなどの大規模なマルチモーダル基盤モデルの貢献により、画像生成とゼロショット汎化の以前に考えられなかった改善が実現し、マルチモーダル学習におけるパラダイムの変革が起こっています。これらのベースラインモデルは通常、大規模なウェブスケールの静的データセットを用いてトレーニングされます。OpenAIのCLIPモデルなどの従来のモデルが、2020年までのインターネットスケールのデータでトレーニングされた場合に、将来のデータでどのように機能するかは不明です。まず、AppleとCarnegie Mellon Universityの研究者たちは、OpenAIのCLIPモデルが、2022年までの最新のキュレーションされたウェブデータセットを使用して開発されたOpenCLIPリポジトリのモデルと比較して、ロバスト性の点でどのように優れているかを調査しています。CLIPモデルを測るための標準が存在しないため、2014年から2022年までの動的な分類および検索のタスクをカバーするデータセットを作成しました。OpenCLIPモデルはパフォーマンスを維持している一方、OpenAIモデルは2021年から2022年のデータと2014年から2016年のデータとの間で検索パフォーマンスに大きな差があることがわかりました。OpenAIのCLIPモデルはわずかによりロバストであるものの、これはImageNetの分布シフトにおける正確性などの典型的なテストに完全に反映されていません。彼らの研究は、静的ベンチマーク（ImageNetなど）を使用することには限界があり、モデルはデータの分布が変化するに伴って適応・進化する必要があることを明らかにしました。データの変化に対応するための単純で頻繁な手法の1つは、新しい画像テキストデータを得た場合に再びトレーニングを開始し、新しいCLIPモデルをトレーニングすることです。この方法の理論的な根拠は、既存のモデルから新しい入力にモデルの振る舞いを適応させることはより困難であるというものです。ただし、新たな基盤モデルを始めからトレーニングするのに必要な時間とエネルギーを何度も投資することは現実的ではありません。最近のCLIPモデルの持続的学習技術に焦点を当てた取り組みは、一つの後続タスクまたは少数のタスクで効率を向上させることを目的としています。最近の研究の一部はこれらの課題に取り組み始めていますが、現在のベンチマークは範囲が狭すぎるか、画像テキストデータが関連していないため、真に有用ではありません。 CLIPモデルの時系列トレーニングへの第一歩として、研究者たちは時間の経過によるデータ分布の自然な変化を観察しました。既存のCommonPoolデータセットに「クロールタイム」データを含めることにより、彼らはCLIPモデルの時系列連続トレーニングのための新たなベンチマークであるTIC-DataCompを確立しました。研究者たちはまた、RedditやFlickrなどから収集したインターネットの大規模データセットを再利用して、新たな目的に使用しました。特に、YFCCとRedcapsが提供する時系列情報を使用して、それぞれTIC-YFCCとTICRedCapsを編集しました。新しいデータセットが利用可能になるたびに、この研究は時間の制約内で機能する持続学習技術を構築することを目指しています。これらの戦略は、新しいデータが受け取られるたびにトレーニングパラメータをリセットし、累積計算予算を新しいモデルに費やすOracleとは逆の方向を示しています。研究者たちは、TIC-CLIPフレームワークでトレーニングされたモデルのゼロショット評価を行いました。評価には、ImageNetやImageNetの分布シフト、Flickrなどの28の確立された分類および検索タスクが使用されました。最後に、彼らは自身のベンチマークを使用して、リプレイバッファ、学習率スケジュール、ウォームスタート、パッチング、蒸留など、さまざまな持続学習アプローチを設計・テストしました。チームは、最新のチェックポイントでトレーニングを開始し、過去のすべてのデータをリプレイすることにより、累積技術がOracleと同等のパフォーマンスを2.7倍の計算効率で実現することを示す重要な教訓を得ました。彼らはまた、順次トレーニングのための学習率スケジュールや、静的および動的パフォーマンスのためのバッファサイズの間における興味深いトレードオフを示しました。彼らの結果は、11Mサンプルから3Bまでのデータセットにわたる傾向を強調し、テクニックによって一貫性を持たせました。既存のデータセットに追加で収集されたコードとタイミングデータは、近々公開され、広いコミュニティが提案されたベンチマークを使用できるようにする予定です。研究チームは、この未開拓のトピックに光を当てることで、基盤モデルの持続トレーニングへの道を切り開くことを望んでいます。

コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです

モデルの空間的知識を促進する方法は、ビジョン言語学習の主要な研究課題です。このジレンマは、参照と基線という2つの必要な能力を必要とします。基準化では、モデルは提供された意味的な説明に応じて領域をローカライズする必要があります。一方、参照は、モデルが特定の提供された領域の意味を完全に理解することを求めます。本質的に、地理情報と意味を一致させることが、参照と基礎化の両方に必要な知識です。しかし、参照と道徳は通常、現在のテキストでは別々に教えられています。一方、人間は参照/基礎化能力を日常的な議論と推論にスムーズに組み合わせることができ、一つの活動から学び、共有知識を他の仕事に難なく一般化することができます。この研究では、前述の格差を考慮して、3つの主要な問題を調査しています。 (i) 参照と基礎化を1つのフレームワークに組み合わせる方法と、お互いを補完する方法は何ですか？ (ii) 点、ボックス、落書き、自由形状など、人々が物を指すためにしばしば使用する多くの領域をどのように描写しますか？ (iii) 実用的なアプリケーションにおいて必要とされる参照と基礎化を、オープンボキャブラリー、指示に従う、頑健なものにするにはどうすればよいですか？コロンビア大学とApple AI/MLの研究者は、これらの3つの問題に対応するために、全く新しい参照-基礎化マルチモーダル大規模言語モデル（MLLM）であるFerretを提案します。彼らは、まず、Ferretの基盤としてMLLMを選択しました。その理由は、MLLMが強力なビジョン言語のグローバルな理解力を持っているからです。図1に示されているように、Ferretは最初に平文数値形式の領域の座標を符号化して、参照と基礎化を統一します。図3: 提案されたFerretモデルのアーキテクチャの概要。左側には、提案されたハイブリッド領域表現と空間認識ビジュアルサンプラーが表示されています。全体のモデルアーキテクチャ（右側）。画像エンコーダは学習できない唯一のパラメータです。ただし、ストローク、落書き、複雑なポリゴンなど、さまざまな地域の形式を単一の点または座標のボックスで表現することは実用的ではありません。これらの形式は、より正確で包括的な人間とモデルの相互作用に必要です。この問題に対処するために、彼らはまた、可変スパース性を考慮した任意の形式の領域の光学的な特性を取得するための空間認識ビジュアルサンプラーを提案しています。そして、入力の視覚的な領域は、離散的な座標と連続的な視覚的特徴からなるハイブリッド領域表現を用いてFerretで表現されます。上記の手法を用いることで、Ferretは自由形式テキストと参照された領域を組み合わせた入力を処理することができ、指定されたアイテムを自動的に地域化オブジェクトとテキストの座標を作成して出力します。彼らの知る限りでは、Ferretはフリーフォームの領域を持つMLLMsからの入力を処理する最初のアプリケーションです。彼らはGRITというGround-and-Refer Instruction-Tuningデータセットを収集し、Ferretのオープンボキャブラリー、指示に従う、頑健さを作り出します。GRITには、領域、接続、オブジェクト、複雑な推論など、さまざまなレベルの空間的知識が含まれています。入力と出力の両方に位置とテキストを組み合わせたデータ、さらには位置内テキストアウト（参照）およびテキスト内位置アウト（基礎化）のデータも含まれています。注意深く作成されたテンプレートの助けを借りて、データセットのほとんどは、現在のビジョン（言語）タスク、例えばオブジェクト識別とフレーズ基礎化から指示に従うように変換されています。指示に従う、オープンボキャブラリーの参照-基礎化一般主義を訓練するために、ChatGPT/GPT-4を使用して34,000の参照-基礎化指示調整チャットを収集しました。また、モデルの頑健性を高めるために、空間的認識に関するネガティブデータのマイニングも行っています。Ferretは、オープンボキャブラリーの空間認識とローカリゼーション能力を持っています。従来の参照と基礎化の活動と比較した場合、より優れたパフォーマンスを発揮します。さらに、参照-基礎化の能力は、例えば、人々が馴染みのない物事を指し、その機能について尋ねるときなど、日常的な人間の議論に組み込まれるべきだと考えています。この新しいスキルを評価するために、Ferret-Benchを提案しています。それは、参照記述、参照推論、会話中の基礎化という3つの新しいタイプのタスクをカバーしています。既に使用されている最高のMLLMと比較して、Ferretは平均で20.4%の性能向上を示すことができます。Ferretはまた、オブジェクトの幻覚を軽減する卓越した能力を持っています。彼らは全体的に3つの異なる貢献をしています。 (i) MLLMでの微細なグラウンディングとリファレンスを可能にするFerretを提案しています。Ferretは、ユニークな空間感知ビジュアルサンプラーを備えたハイブリッドな領域表現を使用しています。 (ii) 彼らはモデルのトレーニングのための大規模な調整データセットであるGRITを作成しました。また、モデルの抵抗力を強化するために余分な空間的なネガティブな例も含まれています。リファリング/グラウンディング、意味、知識、推論を同時に評価するタスクを評価するために、彼らはFerret-Benchを作成しました (iii)。彼らのモデルは、さまざまな活動で他のモデルよりも優れた性能を発揮し、オブジェクトの妄想が少ないです。

Learn more about Search Results Apple