Learn more about Search Results GLaM

この人工知能論文は、大規模なマルチモーダルモデル(GLaMM)を導入していますこれは、画像と領域の両方の入力を処理する柔軟性を備えた、エンドツーエンドトレーニングされた大規模なマルチモーダルモデルで、ビジュアルグラウンディング能力を提供します

大型マルチモーダルモデル(LMM)は、生成型AIの波によって推進され、言語とビジュアルタスクの間のギャップを埋める重要な存在になりました。LLaVa、miniGPT4、Otter、InstructBLIP、LLaMA-Adapter v2、およびmPLUGOWLは、入力された写真に応じて効率的なテキストの回答を示す早期バージョンの例です。これらのモデルは洗練されていますが、その決定は視覚環境に基づかなければなりません。地域限定のコンテンツの変更、対話型の具現エージェント、深いビジュアル理解などの高度な応用では、このアンカリングが必要です。最近の研究では、この制約を克服するために、モデル内でバウンディングボックスを使用してユーザー定義のゾーンを分析する作業が始まっています。 最近の研究では、根付いたテキスト応答生成が注目されていますが、ピクセルレベルの正確な根付けを提供していません。さらに、関連するセグメンテーションの文献では、自然な写真におけるテキストの説明をアンカリングする試みが行われています。しかし、それらは単一のアイテムをアンカリングするだけであり、実際の一貫した会話を行うことはできません。これにより、書かれた情報や視覚的な材料の徹底的な理解を必要とする対話型の仕事での有用性が制限されます。本論文では、深層学習戦略(図1)を介して、詳細な領域認識、ピクセルレベルの根付け、および会話の能力を同時に提供するGrounding LMM(GLaMM)を提案します。 図1:GLaMMベースのGrounded Conversation Generation マルチモーダル対話モデルを使用すると、入力画像のピクセルレベルに根ざした自然言語の応答を生成することができます。オブジェクトの属性(白い家、赤い屋根、きれいに手入れされた芝生)やオブジェクトの関係(芝生が歩道に広がり、建物の上には空が広がる)といったさまざまなレベルの詳細が、出力の根づけに代表されています。例えば、物(建物、木)、もの(芝生、空、歩道)、およびオブジェクトの部分(屋根は建物の一部)などです。 彼らは、視覚的に根付いた対話の基準の不足に対処するために、Grounded Conversation Generation(GCG)というユニークな仕事を提供しています。GCGの目標は、自然言語の応答と交互に配置されたオブジェクトのセグメンテーションマスクを生成することです。この困難な課題では、フレーズの根付け、画像と領域レベルのキャプション付け、参照表現のセグメンテーション、ビジョン言語の相互作用など、通常は別々に処理されるさまざまなコンピュータビジョンのタスクが組み合わさっています。そのため、組み合わせモデルと提案された事前訓練データセットは、会話型のQA、領域レベルのキャプション付け、画像キャプション付け、および表現セグメンテーションなどのさまざまなダウンストリームタスクで成功裏に使用することができます。 モハメドビンザイードAI大学、オーストラリア国立大学、Aalto大学、カーネギーメロン大学、カリフォルニア大学メルセド、リンシェーピング大学、およびGoogle Researchの研究者は、この困難な課題に特化して作成された最初のモデルであるGLaMMを紹介しています。従来の取り組みとは異なり、GLaMMはテキストとビジュアルの提案と視覚的に根付いた結果を使用して、多様なユーザーエクスペリエンスを提供します。領域レベルでの詳細な理解のために、領域ごとの包括的なアノテーションを収集する煩雑な作業が必要です。彼らは、労力のかかる手作業のラベリングプロセスを削減するために、包括的なGrounding-anything Dataset(GranD)の自動ワークフローを提案しています。GranDは、特定の検証プロセスを持つコンピュータ化されたパイプラインを使用し、セグメンテーションマスクを伴う810百万の領域にアンカーされた750万の異なるアイデアを持っています。 このデータセットは、先進的なビジョンと言語モデルを利用して、マルチレベル階層的手法を使用してSAMの写真にアノテーションを付けています。GranDは、1100万枚の写真と33,000万枚の根付いたキャプション、8400万の参照用語などの特性を持つことで包括性を再定義しています。彼らは、根付いた会話や自動生成されたGCGデータセットのために、以前に手動でアノテーションされたデータセットをGPT-4を用いたインコンテキスト学習を使用して再定義しました。彼らは、大規模な自動生成データをGranDpとし、高品質なデータセットをGranDfと指定しており、フィネチューニングに適しています。GLaMMは、GranDfとGranDpを使用してプリトレーニング-フィネチューニングのフェーズでトレーニングされます。 結論として、彼らの研究は主に3つの貢献があります: • Grounding Large Multimodal Model(GLaMM)の導入: これは、オブジェクトセグメンテーションマスクとスムーズに組み合わされた自然言語の応答を提供する初めてのモデルです。現行のモデルとは異なり、GLaMMは視覚的な手がかりとテキストの両方をサポートしており、マルチモーダルなユーザーエンゲージメントが向上しています。 • 新しいタスクと評価基準:…

高度なRAGテクニック:イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず、参照のみ行い、それについては放置します

「04/12から10/12までの週のトップ重要なLLM論文」

大型言語モデル(LLM)は最近急速に進化しています新しいモデルの世代が開発されるにつれて、研究者やエンジニアは最新の進歩について情報を得る必要がありますこの記事は…

合成データ生成のマスタリング:応用とベストプラクティス

この記事では、合成データ生成技術とそれらのさまざまなアプリケーションでの実装、および遵守すべきベストプラクティスについて説明します

「エキスパートのミックスについて解説」

ミクストラル8x7Bのリリース(発表、モデルカード)により、トランスフォーマのクラスがオープンAIコミュニティで最も話題となっています。それがエキスパートの混合(Mixture of Experts、略してMoEs)です。このブログ記事では、MoEsの構成要素、トレーニング方法、および推論時の考慮事項について見ていきます。 さあ、深く掘り下げてみましょう! 目次 ミクストラルとは何ですか? MoEsの簡潔な歴史 スパース性とは何ですか? MoEsのトークンのロードバランシング MoEsとトランスフォーマ スイッチトランスフォーマ ルータZ損失によるトレーニングの安定化 エキスパートは何を学ぶのですか? エキスパートの数をスケーリングすると事前トレーニングにどのような影響を与えるのですか? MoEsの微調整 スパースMoEsと密なモデルの使用時期はいつですか? MoEsを効果的に活用するために エキスパート並列処理 能力係数と通信コスト サービングテクニック 効率的なトレーニング オープンソースのMoEs ワークのエキサイティングな方向性 いくつかのリソース…

ハグ顔(Hugging Face)での最新技術の組み合わせであるミクストラル(Mixtral)へようこそ

Mixtral 8x7bは、ミストラルが本日リリースした刺激的な大型言語モデルで、オープンアクセスモデルの最新技術基準を上回り、多くのベンチマークでGPT-3.5を凌駕しています。私たちは、MixtralをHugging Faceエコシステムに包括的に統合してのローンチをサポートすることに興奮しています🔥! 本日リリースされる機能と統合には以下があります: ハブ上のモデル、モデルカードとライセンス(Apache 2.0) 🤗 Transformers統合 推論エンドポイントとの統合 高速で効率的な本番推論のためのテキスト生成推論との統合 🤗 TRLを使用した単一のGPUでのMixtralの微調整の例 目次 Mixtral 8x7bとは何ですか 名前について プロンプト形式 分からないこと デモ 推論 🤗 Transformersを使用する テキスト生成推論を使用する 🤗…

「GPTの進化を探る ChatGPT-4の新機能と、コンバーショナルAIの再定義」

以前のバージョンをベースに、多様性と倫理的考慮を特徴とするConversational AIのChatGPT-4の進化を探求し、新たな可能性を解き放つ

「つながる点 OpenAIの主張されたQ-Starモデルの解明」

「OpenAIのQ-Starを解明:人工汎用知能(AGI)への飛躍の噂CEOドラマに飛び込んで、Q-Starの役割を疑うQ学習、AlphaZero、またはLLMsの潜在的なシナジーを探求Q-StarがAIの推論をどのように強化するかを学ぶLLMの限界とデータの課題を明らかにするこの短い読み物は、AIの未来についての考えを刺激する、つながりを見つける」

「ビジュアルAIがカナダ最大かつ最も賑やかな空港で飛躍する」

カナダのオンタリオ州にあるトロントピアソン国際空港は、年間約5000万人の旅客にサービスを提供する国内最大かつ最も混雑した空港です。 旅行者の体験を向上させるために、同空港は2022年6月にZensors AIプラットフォームを導入しました。このプラットフォームは、既存のセキュリティカメラの匿名映像を使用して空間データを生成し、リアルタイムで運用を最適化するのに役立ちます。 NVIDIA MetropolisのビジョンAIパートナーエコシステムの一員であるZensorsは、トロントピアソンの運用チームが通関待ち時間を大幅に短縮しました。2022年のピーク時に到着手続きにかかる平均時間は30分程度と推定されていたものが、昨年の夏にはわずか6分未満に減少しました。 同社の共同創業者であるAnuraag Jain氏は、「Zensorsは視覚AIを誰でも簡単に使用できるようにしています。」と述べています。 Jain氏はさらに、大規模なAIのスケーリングはほとんどの組織にとって容易ではないと付け加え、空港は従来のハードウェアセンサーやLiDAR、3Dステレオカメラに基づく効果の薄い解決策に頼るか、改装や新しいターミナルの建設によって運用を改善することを考えることが多いと述べています。これらの方法は数十億ドルのプロジェクトになり得ます。 Jain氏は、「当社は、既存のカメラと最新のAI技術を使用して、空港がソフトウェア企業のように考えることができるプラットフォームを提供しています。それにより、より迅速でコスト効果の高い、さらに正確なソリューションを展開することが可能になります。」と述べています。 空港運用の高速化 トロントピアソンでは、ターミナルのインフラをアップグレードするか新たに建設する通常の数か月または数年かかる作業ではなく、数週間で運用を改善する方法が必要でした。 Zensors AIプラットフォームは、空港の既存のカメラシステムからの映像フィードを構造化データに変換します。 匿名化された映像を使用して、プラットフォームは待ち列の旅行者数をカウントし、混雑したエリアを特定し、パッセンジャーの待ち時間を予測するなどのタスクを実行し、リアルタイムでスタッフに通知して運用を迅速化します。 このプラットフォームはまた、運用チームがパフォーマンスを評価し、より効果的に計画し、最適な効率性のためにスタッフを再配置するための分析レポートも提供します。 Zensors AIによるリアルタイムの待ち時間統計データは、トロントピアソンのオンラインダッシュボードおよびターミナル内の電子ディスプレイに公開されます。これにより、旅客は関税手続きやセキュリティ手続きにかかる時間について正確な情報に簡単にアクセスできます。また、全体的な顧客満足度を向上させ、接続便に乗ることができるかどうかについての潜在的な不安を軽減します。 トロントピアソンの運営会社であるGreater Toronto Airport Authorityの空港IT計画開発ディレクターであるZeljko Cakic氏は、「Zensorsプラットフォームから得られる分析は非常に正確であることがわかっています。全体的な顧客体験を向上させ、待ち時間を短縮することを目指しており、Zensorsプラットフォームを通じて収集されるデータはこの結果を推進する意思決定のための主要な要素の一つです。」と述べています。 NVIDIAによる高精度AI Zensors…

ChatGPTの初めての記念日:AIインタラクションの未来を変える

私たちの包括的な記事で、ChatGPTの1年間の旅とオープンソースのLarge Language Models(LLMs)の進化を探求してください技術の進歩、産業への応用、医療への影響、そしてAIの未来についての洞察を深く掘り下げますまた、OpenAIの噂されるQ*モデルについても触れます

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us