Learn more about Search Results Otte - Page 3

この人工知能論文は、大規模なマルチモーダルモデル(GLaMM)を導入していますこれは、画像と領域の両方の入力を処理する柔軟性を備えた、エンドツーエンドトレーニングされた大規模なマルチモーダルモデルで、ビジュアルグラウンディング能力を提供します

大型マルチモーダルモデル(LMM)は、生成型AIの波によって推進され、言語とビジュアルタスクの間のギャップを埋める重要な存在になりました。LLaVa、miniGPT4、Otter、InstructBLIP、LLaMA-Adapter v2、およびmPLUGOWLは、入力された写真に応じて効率的なテキストの回答を示す早期バージョンの例です。これらのモデルは洗練されていますが、その決定は視覚環境に基づかなければなりません。地域限定のコンテンツの変更、対話型の具現エージェント、深いビジュアル理解などの高度な応用では、このアンカリングが必要です。最近の研究では、この制約を克服するために、モデル内でバウンディングボックスを使用してユーザー定義のゾーンを分析する作業が始まっています。 最近の研究では、根付いたテキスト応答生成が注目されていますが、ピクセルレベルの正確な根付けを提供していません。さらに、関連するセグメンテーションの文献では、自然な写真におけるテキストの説明をアンカリングする試みが行われています。しかし、それらは単一のアイテムをアンカリングするだけであり、実際の一貫した会話を行うことはできません。これにより、書かれた情報や視覚的な材料の徹底的な理解を必要とする対話型の仕事での有用性が制限されます。本論文では、深層学習戦略(図1)を介して、詳細な領域認識、ピクセルレベルの根付け、および会話の能力を同時に提供するGrounding LMM(GLaMM)を提案します。 図1:GLaMMベースのGrounded Conversation Generation マルチモーダル対話モデルを使用すると、入力画像のピクセルレベルに根ざした自然言語の応答を生成することができます。オブジェクトの属性(白い家、赤い屋根、きれいに手入れされた芝生)やオブジェクトの関係(芝生が歩道に広がり、建物の上には空が広がる)といったさまざまなレベルの詳細が、出力の根づけに代表されています。例えば、物(建物、木)、もの(芝生、空、歩道)、およびオブジェクトの部分(屋根は建物の一部)などです。 彼らは、視覚的に根付いた対話の基準の不足に対処するために、Grounded Conversation Generation(GCG)というユニークな仕事を提供しています。GCGの目標は、自然言語の応答と交互に配置されたオブジェクトのセグメンテーションマスクを生成することです。この困難な課題では、フレーズの根付け、画像と領域レベルのキャプション付け、参照表現のセグメンテーション、ビジョン言語の相互作用など、通常は別々に処理されるさまざまなコンピュータビジョンのタスクが組み合わさっています。そのため、組み合わせモデルと提案された事前訓練データセットは、会話型のQA、領域レベルのキャプション付け、画像キャプション付け、および表現セグメンテーションなどのさまざまなダウンストリームタスクで成功裏に使用することができます。 モハメドビンザイードAI大学、オーストラリア国立大学、Aalto大学、カーネギーメロン大学、カリフォルニア大学メルセド、リンシェーピング大学、およびGoogle Researchの研究者は、この困難な課題に特化して作成された最初のモデルであるGLaMMを紹介しています。従来の取り組みとは異なり、GLaMMはテキストとビジュアルの提案と視覚的に根付いた結果を使用して、多様なユーザーエクスペリエンスを提供します。領域レベルでの詳細な理解のために、領域ごとの包括的なアノテーションを収集する煩雑な作業が必要です。彼らは、労力のかかる手作業のラベリングプロセスを削減するために、包括的なGrounding-anything Dataset(GranD)の自動ワークフローを提案しています。GranDは、特定の検証プロセスを持つコンピュータ化されたパイプラインを使用し、セグメンテーションマスクを伴う810百万の領域にアンカーされた750万の異なるアイデアを持っています。 このデータセットは、先進的なビジョンと言語モデルを利用して、マルチレベル階層的手法を使用してSAMの写真にアノテーションを付けています。GranDは、1100万枚の写真と33,000万枚の根付いたキャプション、8400万の参照用語などの特性を持つことで包括性を再定義しています。彼らは、根付いた会話や自動生成されたGCGデータセットのために、以前に手動でアノテーションされたデータセットをGPT-4を用いたインコンテキスト学習を使用して再定義しました。彼らは、大規模な自動生成データをGranDpとし、高品質なデータセットをGranDfと指定しており、フィネチューニングに適しています。GLaMMは、GranDfとGranDpを使用してプリトレーニング-フィネチューニングのフェーズでトレーニングされます。 結論として、彼らの研究は主に3つの貢献があります: • Grounding Large Multimodal Model(GLaMM)の導入: これは、オブジェクトセグメンテーションマスクとスムーズに組み合わされた自然言語の応答を提供する初めてのモデルです。現行のモデルとは異なり、GLaMMは視覚的な手がかりとテキストの両方をサポートしており、マルチモーダルなユーザーエンゲージメントが向上しています。 • 新しいタスクと評価基準:…

このAIニュースレターは、あなたが必要とするすべてです#73

今週の会話は、再びOpenAIのDevdayの余波、新製品のリリース、そしてGPTStoreの将来の可能性についての推測で占められていましたすでに10,000以上のGPTが作成されています...

「貪欲アルゴリズムについてのすべて | 初心者ガイド」

「新しい目的地への旅に出かけると想像してくださいおそらくGPSナビゲーションを使用して最短経路を見つけるでしょうまるで見知らぬ道で時間効率の良い経路を探すかのように、貪欲アルゴリズム...」

「LLaVAと一緒にあなたのビジョンチャットアシスタントを作りましょう」

大規模な言語モデルは、革命的な技術であることが証明されていますその能力を活用した数多くのアプリケーションがすでに開発されており、まもなくさらに多くのアプリケーションが期待されています...

「40歳以上の方にオススメのAIツール(2023年11月版)」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオと画像を作成したいすべての人のためのAIベースのツールです。ビデオ、写真、ミーム、古い映画、GIFなど、あらゆるコンテンツをリフェーシングしてコンテンツを作成することは非常に簡単です。このアプリはコンテンツの制限がないため、ユーザーは任意のコンテンツの素材をアップロードすることができます。また、初めて製品の定期購読者になると、50%オフの特典があります。 Aragon Aragonを使用して驚くほど素晴らしいプロフェッショナルなヘッドショットを簡単に作成しましょう。最新のAI技術を活用して、自分自身の高品質なヘッドショットを瞬時に作成しましょう!写真スタジオの予約や着飾る手間を省略しましょう。写真の編集と修正をすばやく行い、数日後ではなくすぐに受け取りましょう。次の仕事を得るための優位性をもたらす40枚のHD写真を受け取りましょう。 AdCreative.ai AdCreative.aiを使用して、広告とソーシャルメディアのパフォーマンスを向上させましょう。究極の人工知能ソリューションであるAdCreative.aiによって、数秒で変換率の高い広告やソーシャルメディア投稿を生成する手間を省けます。AdCreative.aiを使って成功を最大化し、努力を最小化しましょう。 Hostinger AI Website Builder Hostingerは最先端の人工知能エンジンの力を借りて、すべてのウェブサイトオーナーのために最高のAIウェブサイトビルダーを作成しています。ビルダーはデザインプロセスを案内し、レイアウト、カラースキーム、コンテンツの配置を自分のニーズに合わせて提案します。あらゆるデバイスに対応したレスポンシブデザインを維持しながら、細部を自由にカスタマイズする自由を受け入れましょう。 Otter AI Otter.AIを使用することで、リアルタイムの会議の要約、検索、アクセス可能性、セキュリティを備えた共有可能な会議のノートの作成が可能になります。音声を録音し、メモを取り、自動的にスライドをキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Notion Notionは、高度なAI技術を活用してユーザーベースを拡大しようとしています。最新の機能であるNotion AIは、ノートの要約、会議でのアクションアイテムの特定、テキストの作成と修正などのタスクをサポートする堅牢な生成型AIツールです。Notion AIは、煩雑なタスクを自動化し、ユーザーに提案やテンプレートを供給することでワークフローを効率化し、ユーザーエクスペリエンスを簡素化し、改善します。 Codium AI 忙しい開発者向けに意味のあるテストを生成します。CodiumAIを使用すると、IDE内で直接提案される複雑な(および単純な)テストを取得できるため、スマートにコーディングし、価値を高め、押し込む際の自信を持つことができます。CodiumAIを使用することで、開発者はテストとコードの分析に費やす時間を節約しながら、より速くイノベーションを実現できます。 Docktopus AI Docktopusは、100以上のカスタマイズ可能なテンプレートを備えたAIパワープレゼンテーションツールで、オンラインコンテンツ作成を簡素化します。数秒でプロフェッショナルなプレゼンテーションを作成できます。…

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレースに初参入したxAIのGrok GPT-3クラスモデルはかき消されてしまった...

「AIではなく、データプライバシー法の欠如が存在の脅威です」

今年の夏には、新しい「Black Mirror」のエピソードが公開され、再び不安な問いを投げかけましたもし私たちが技術的な世界の限界を一歩進みすぎたらどうなるのか?生成AIへのアクセスが広まる中で…

このAIニュースレターは、あなたが必要とするすべてです#71

今週、ジョー・バイデン大統領は人工知能の規制を再び注目させるために、人工知能の監督を目的とする行政命令に署名しましたこの指令は様々な政府機関に要請し、…

「50以上の最新の最先端人工知能(AI)ツール(2023年11月)」

AIツールは急速に開発が進んでおり、定期的に新しいツールが導入されています。以下にいくつかのAIツールを紹介します。これらは日常のルーティンを強化することができます。 AdCreative.ai AdCreative.aiは、究極の人工知能ソリューションであることから、広告とソーシャルメディアの活動を強化することができます。 Hostinger AIウェブサイトビルダー Hostinger AIウェブサイトビルダーは、直感的なインターフェースと高度なAI機能を組み合わせ、どんな目的にも対応できるウェブサイトの作成をサポートします。 Motion Motionは、会議、タスク、プロジェクトを考慮した毎日のスケジュールを作成するためにAIを使用する賢いツールです。 Otter AI 人工知能を活用したOtter.AIは、共有可能で検索可能でアクセスしやすく安全な会議のメモのリアルタイムトランスクリプションを提供します。 Sanebox Saneboxは、AI駆動のメール最適化ツールです。SaneBoxのA.I.は重要なメールを特定し、残りを自動的に整理して集中力を高めるお手伝いをします。 Notion AI Notion AIは、Notionのワークスペース内で直接執筆、ブレインストーミング、編集、要約を手助けする執筆アシスタントです。 Pecan AI Pecan AIは、予測アナリティクスを自動化して、今日のビジネスの課題である予算縮小、コスト上昇、データサイエンスとAIリソースの限られた資源を解決します。Pecanの低コード予測モデリングプラットフォームは、データに基づいた意思決定を導き、ビジネスチームが目標を達成するのをサポートします。 Aragon Aragonを使用すると、最新のAI技術を活用して、迅速に自分自身の高品質のプロフェッショナルなヘッドショットを作成することができます。写真スタジオの予約やドレッシングアップの手間を省くことができます。…

サイバーセキュリティにおいてAIを活用して人間を補完する

セキュリティを加速するためにAIを使用する利点がありますしかし、完全な自動化には人間の洞察力が必要です人間の創造力と機械の速度の適切な組み合わせを見つけましょう

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us