Learn more about Search Results Flick
- You may be interested
- 「AIドクター」は、入院後の再入院やその...
- マシンラーニング手法の鉄道欠陥検索への...
- 北京大学の研究者たちは、ChatLawというオ...
- 「DALL·E2に対する哲学的かつ芸術的な視点」
- PlotlyとPandas:効果的なデータ可視化の...
- 「2023年における最高のAIファイナンスツ...
- MPT-7Bを紹介します:新しいオープンソー...
- 「#30DayMapChallenge」の私の2週目」
- テキストから音声へ – 大規模な言語...
- 「生成AIに関する一般的な迷信を解明する ...
- トム・ハンクスがAI生成のディープフェイ...
- 「Python を使用した簡単な株式トレーディ...
- 「2023年のトップ8のAIトレンド:年間レビ...
- TensorFlow Recommendersを使用した暗黙の...
- 銀行向けのGoogleの新しいマネーロンダリ...
「Flick Review リーチを向上させるための最高のInstagramハッシュタグツール」
「トップパフォーミングハッシュタグでInstagramのリーチを広げたいですか?市場で最も優れたハッシュタグツールを提供しているFlickのレビューをチェックしてください」
サークルブームのレビュー:最高のAIパワードソーシャルメディアツール?
「サークルブームの参考文献として、サークルブームの力を発見してみてくださいそれは最高のAIパワードソーシャルメディアツールですか?」
マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています
人工一般知能(AGI)システムでは、タスクに関係なく利点を提供する事前トレーニング可能な適応的表現の使用に向けた noticeable な傾向が見られました。自然言語処理(NLP)は、この傾向の良い例です。洗練されたモデルは、明快な指示で複数のドメインとタスクをカバーする包括的な知識を持つ柔軟性を示します。NLPの人気は、コンピュータビジョンにおいて補完的な戦略を促しています。特徴やマスキングされた輪郭、オブジェクト配置など、コンピュータビジョンでは特徴的な視覚データの処理が必要です。コンピュータビジョンにおいて普遍的な表現を実現するためには、図1に示されるように、2次元に配置されたさまざまな厳しい課題を上手に処理する必要があります。 図1 空間の階層性:モデルは、細部のピクセル情報と画像レベルのアイデアを理解することで異なるサイズの空間情報を認識する必要があります。図に示したビジョンにおける複雑な空間の階層をサポートするためには、モデルはさまざまな粒度を管理できる能力を持たなければなりません。 意味的な粒度:コンピュータビジョンでは、普遍的な表現はさまざまな意味的な粒度をカバーする必要があります。抽象的なタイトルからより詳細な説明へのパラダイムの変化により、さまざまな使用方法に対する柔軟な理解が提供されます。 この追求は、特異性と重要な挑戦に特徴付けられます。主要な障害は、より多くのデータの必要性であり、空間の階層性と意味的な粒度の複雑なニュアンスを捉える基盤モデルの開発を妨げます。ImageNet、COCO、Flickr30k Entitiesなどの既存のデータセットは、特殊なアプリケーション向けに広範に人間によってラベル付けされています。この制約に対処するためには、より大規模なスケールで各画像の詳細な注釈を生成することが不可欠です。また、コンピュータビジョンで空間の階層性と意味的な粒度をシームレスに統合するモデルが存在しません。タスク固有のデザインにより、従来のモデルは、意味的セグメンテーション、オブジェクト識別、画像キャプションなどのタスクで優れたパフォーマンスを発揮します。ただし、異なるビジョンタスクに対してタスク非依存的な方法で適応できる完全で統一的なモデルを作成することは、重要です。 統一された事前トレーニングとネットワークデザインを通じて、このモデルは、コンピュータビジョンにおける空間、時間、多モーダルの特徴の統合を先駆的に行っています。最初の進化的イテレーションは、ノイズのあるテキスト-イメージのペアリングでの事前トレーニングとカスタマイズされたアダプタを使用したタスク固有の微調整を通じて転送学習に優れています。ただし、大規模なタスク固有のデータセットとアダプタへの依存は、上記の2つの主要な問題に取り組む際にギャップを生じさせる原因となります。この研究では、Azureの研究者が、豊富なビジュアル注釈を使用して獲得された普遍的なバックボーンを提供しています。これにより、不完全かつ包括的なデータと均一なアーキテクチャの不足を成功裏に解決できる、様々なビジョンタスクに対するプロンプトベースの統一された表現が実現されます。 多タスク学習には、大規模で高品質な注釈付きデータが必要です。時間のかかる人間の注釈に頼らずに、彼らのデータエンジンは、\fld という広範なビジュアルデータセットを作成します。このエンジンには2つの効果的な処理モジュールがあります。第1のモジュールでは、特化モデルを使用して写真に共同でおよび自律的に注釈を付けることにより、従来の単一および手動の注釈戦略から脱却します。集団の知恵理論に類似して、多くのモデルが協力して一致を作り出し、より公平で信頼性のある画像解釈を実現します。習得された基本モデルを使用して、第2のモジュールはこれらの自動注釈を反復的に洗練し、フィルタリングします。 彼らのモデルは、この大規模なデータセットを活用して、シーケンス対シーケンス(seq2seq)アーキテクチャを使用して、イメージエンコーダとマルチモダリティエンコーダ‐デコーダを統合しています。このアーキテクチャは、タスク固有のアーキテクチャの調整を必要とせずに、さまざまなビジョンタスクをサポートします。これは、NLPコミュニティの柔軟なモデル作成と統一された基盤の目標と一致しています。データセット内のすべての注釈は、一貫してテキストの出力に標準化されます。これにより、目標と同じ損失関数を使用して単一の多タスク学習戦略を一貫して最適化することが可能になります。その結果、統一されたパラメータを持つ単一のモデルの制御下で、オブジェクト認識、キャプション付け、およびグラウンディングを含むさまざまな機能を処理できる柔軟なビジョン基盤モデル、またはモデルが作成されます。大規模な言語モデル(LLM)が使用する方法と一致して、テキストをプロンプトとして活用することにより、タスクを活性化させます。 彼らの方法は、一般的な表現を達成し、多くの視覚的タスクで広範な利用が可能です。主な見つかりとしては以下のとおりです: モデルは柔軟なビジョン基礎モデルであり、RefCOCOでの参照表現の理解、Flick30kでの視覚的根拠、およびCOCOでのキャプション作成などのタスクにおいて、新しい最先端のゼロショット性能を提供します。 モデルは小さなサイズにもかかわらず、公開された人間によるアノテーションデータを使用して微調整した後、より専門化されたモデルと競合します。特に、改良されたモデルはRefCOCOで新しいベンチマークの最先端スコアを設定しています。 事前に学習されたバックボーンは、下流のタスクであるCOCOオブジェクト検出、インスタンスセグメンテーション、およびADE20K意味セグメンテーションにおいて、教師付きおよび自己教師付きモデルを上回ります。彼らのモデルは、Mask-RCNN、DINO、およびUperNetフレームワークを使用しており、COCOおよびADE20Kデータセットに対してそれぞれ6.9、5.5、および5.9ポイントの大幅な向上をもたらし、またImageNetでの事前学習モデルのトレーニング効率を4倍にしています。
デジタル図書館とインターネットアーカイブの保存
「デジタル時代における「真実とそれへのアクセス権」に関する闘い」
中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル
ビジュアル言語モデルのモデルは強力かつ柔軟です。次に、トークン予測を使用して、画像キャプション、ビジュアルクエスチョンアンサリング、ビジュアルグラウンディング、さらにはセグメンテーションなど、さまざまなビジョンとクロスモダリティのタスクを作成できます。VLMがスケールアップされると、ダウンストリームアクティビティの強化とともに、インコンテキスト学習などの有用なスキルも現れます。 LLAMA2のような訓練済みの純粋な言語モデルと同じNLPパフォーマンスを持つVLMをスタートから訓練するのはより困難であり、既に大規模な言語モデルを導入すること自体が困難なタスクです。そのため、利用可能な事前訓練済みの言語モデルを使用してVLMを訓練するプロセスを見ることは合理的です。 BLIP-2に代表される広く使用されている浅いアラインメント技術は、トレーナブルなQ-Formerまたは線形層を使用して、凍結された事前訓練ビジョンエンコーダと言語モデルを接続し、画像特徴を言語モデルの入力埋め込み空間に変換します。このアプローチは収束速度が速いですが、PaLI-Xのように言語とビジョンのモジュールを同時に訓練すると同等のパフォーマンスは発揮されません。MiniGPT-4、LLAVA、およびVisualGLMなどの浅いアラインメント技術を使用して教えられたチャットスタイルのVLMの場合、ビジュアルの理解力の不足が幻覚として現れます。自然言語処理(NLP)の能力を損なうことなく、大規模言語モデルの視覚的な理解能力を向上させることは可能ですか? Zhipu AIと清華大学の研究者は、これに「はい」と答えています。彼らはCogVLMを紹介しました。この強力なオープンソースのビジュアル言語基礎モデルは、言語とビジュアル情報の深い統合の不足が浅いアラインメントアプローチのパフォーマンス低下の主な理由であると考えています。この考えは、効果的な微調整の2つのアプローチを比較することから生まれました:p-tuningは入力のタスク接頭辞埋め込みを学習します。LoRAは各レイヤーのモデルの重みを調整するために低ランク行列を使用します。その結果、LoRAはより効果的かつ安定して機能します。浅いアラインメント技術の画像特徴は、p-tuningのプレフィックス埋め込みと同様に振る舞いますので、VLMでも同様の現象が起こる可能性があります。 p-tuningと浅いアラインメントの性能低下のさらなる具体的な原因は次のとおりです: 1. テキストトークンが言語モデルの凍結された重みを訓練します。テキスト領域は、ビジュアル特性に完全に一致するだけです。ビジュアル特性は、多層の変更に続く深層の重みの入力分布と一致しなくなるかもしれません。 2. たとえば画像キャプションの仕事の文章スタイルやキャプションの長さは、浅いアラインメントのアプローチでは事前トレーニング中にビジュアル特性にのみエンコードされる可能性があります。ビジュアル要素とコンテンツの一貫性を強めることができるでしょう。Qwen-VLやPaLIが使用する画像テキストの組み合わせトレーニングに言語モデルを適応させることは、1つの可能な対策です。 ただし、これによりNLPが不要に損なわれ、画像ベースの詩の作成や画像の文脈の提供などのテキスト中心のアクティビティに影響を与える場合があります。PaLM-EによるVLMの事前トレーニング中に言語モデルを訓練可能にすると、厄介な忘却が起こり、8B言語モデルのNLGパフォーマンスが87.3%減少します。その代わりに、CogVLMは訓練可能なビジュアルエキスパートを使用して言語モデルを強化します。各レイヤーは、シーケンス内の画像特徴のための独自のQKV行列と、テキスト特性のためのMLP層を使用します。ビジュアルエキスパートは同じFLOPを維持しますが、パラメータの数を増やします。入力シーケンスに画像がない場合、すべてのパラメータが固定されているため、振る舞いは元の言語モデルと同じです。 NoCaps、Flicker30k、COCOなどの14の典型的なクロスモーダルベンチマークでは、Vicuna-7Bから訓練されたCogVLM-17Bは、最新技術または第2位の性能を達成しています。TDIUC、ScienceQAなどの3つのマルチチョイスデータセット、RefCOCO、RefCOCO+、RefCOCOg、Visual7Wなどのビジュアルグラウンディングデータセットが含まれていません。彼らはChatGLM-12Bから訓練されたCogVLM-28B-zhを商業用に中国語と英語の両方をサポートするために使用しました。過去の最も有名なVLM、例えばFlamingo、SimVLM、Coca、BEIT-3、GIT2、PaLI、PaLI-Xなどのほとんどはクローズドソースであるため、CogVLMのオープンソース化がビジュアルの理解の研究と産業応用に重大な影響を与えると予想されています。 を日本語に翻訳すると、 となります。
『FastSpeech:論文の概要と実装』
2019年、FastSpeechはニューラルテキスト音声変換のフロンティアを推し進め、推論速度を大幅に改善しながら、単語の繰り返しや省略を防ぐ堅牢性を保ちましたそれは...
SSDを使用したリアルタイム物体検出:シングルショットマルチボックス検出器
イントロダクション リアルタイムオブジェクト検出では、従来のパラダイムは通常、バウンディングボックスの提案、ピクセルまたは特徴のリサンプリング、高品質の分類器の適用など、複数のステップの手法を採用してきました。このアプローチは高い精度を実現していますが、計算上の要求がリアルタイムアプリケーションには適さないことがしばしばありました。しかし、シングルショットマルチボックスディテクター(SSD)は、ディープラーニングに基づくオブジェクト検出の革新的な飛躍を表しています。SSDは、バウンディングボックスの提案段階でピクセルや特徴のリサンプリングが不要なため、高い速度で例外的な精度を維持します。代わりに、SSDは小さな畳み込みフィルタを使用して、特徴マップ上でオブジェクトのカテゴリとバウンディングボックスのオフセットを直接予測します。 研究者は、このプロセスの異なるステージを最適化することでより高速な検出器を作ろうと試みましたが、通常は精度の低下につながります。しかし、この論文では、精度を維持しながら高速化を実現する画期的なディープラーニングベースのオブジェクト検出器であるSSD(シングルショットマルチボックスディテクター)を紹介しています。SSDは、バウンディングボックスの提案においてピクセルや特徴のリサンプリングが不要であり、小さな畳み込みフィルタを特徴マップに適用することで、オブジェクトのカテゴリとバウンディングボックスのオフセットを直接予測します。 学習目標 画像や動画のオブジェクト検出のためのSSDの原則とアーキテクチャを理解する。 速度と精度の観点で、SSDが従来のオブジェクト検出モデルに対してどのような利点を持つのかを探求する。 デフォルトのバウンディングボックスの概念とそれらがSSDにおけるマルチスケールオブジェクト検出で果たす役割を把握する。 SSDの効率的なオブジェクト検出機能によって恩恵を受けるさまざまなアプリケーションや産業の洞察を得る。 この記事はデータサイエンスブログマラソンの一環として掲載されました。 シングルショットディテクター(SSD)とは何ですか? シングルショットディテクター(SSD)は、コンピュータビジョンの革新的なオブジェクト検出アルゴリズムです。画像またはビデオフレーム内のオブジェクトを迅速かつ正確に検出して位置を特定する能力によって注目されています。SSDの特徴は、これをディープニューラルネットワークの一通りで実現できることであり、非常に効率的でリアルタイムアプリケーションに理想的です。 SSDは、特徴マップの複数の位置に異なるアスペクト比を持つアンカーボックスを使用しています。これらのアンカーボックスにより、異なるサイズや形状のオブジェクトを効果的に扱うことができます。さらに、SSDはマルチスケールな特徴マップを使用して、画像内の小さなオブジェクトや大きなオブジェクトを正確に識別します。SSDは複数のオブジェクトクラスを同時に検出する能力を持つため、単一の画像内で多数のオブジェクトカテゴリを扱うタスクにおいて有用なツールです。速度と精度のバランスが取れているため、歩行者や車両の検出などのアプリケーション、そして自動運転、監視、ロボティクスなどの領域におけるより広いオブジェクト検出において人気の選択肢となっています。 SSDはリアルタイムでのオブジェクト検出能力で知られており、自動運転、監視、拡張現実などのさまざまなアプリケーションで広く採用されています。 SSDの主な特長 シングルショット:一部の従来のオブジェクト検出モデルが2段階のアプローチ(まず関心領域の提案をし、それからそれらの領域を分類する)を使用するのとは異なり、SSDはネットワークを通じて一度にオブジェクト検出を行います。オブジェクトの存在とバウンディングボックスの座標を一度のショットで直接予測し、より速く効率的に行います。 マルチボックス:SSDは、入力画像の複数の場所に異なるスケールとアスペクト比のデフォルトのバウンディングボックス(アンカーボックス)のセットを使用します。これらのデフォルトボックスは、オブジェクトが現れる可能性が高い場所についての事前知識となります。SSDはこれらのデフォルトボックスの調整を予測し、オブジェクトを正確に位置づけます。 マルチスケール検出:SSDは異なる解像度の複数の特徴マップで操作を行うことで、さまざまなサイズのオブジェクトを検出することができます。異なるスケールで予測を行い、さまざまな粒度でオブジェクトを捉えます。 クラススコア:SSDはバウンディングボックスの座標だけでなく、各デフォルトボックスにクラススコアを割り当てます。これは特定のカテゴリ(例:車、歩行者、自転車など)に属するオブジェクトの可能性を示します。 ハードネガティブマイニング:トレーニング時にSSDはハードネガティブマイニングを使用して、困難な例に焦点を当ててモデルの精度を向上させます。 SSDのキーポイントは何ですか? Single Shot MultiBox Detector(SSD)は、効率的かつ正確なパフォーマンスを可能にするいくつかのキーポイントを持つ複雑な物体検出モデルです。以下はSSDのキーポイントです:…
最新のデータを使ってファンデーションモデルを最新の状態に保つ方法は? AppleとCMUの研究者が、VLMの継続的なトレーニングのための最初のウェブスケールの時系列連続性(TiC)ベンチマークを導入しましたこれには12.7Bのタイムスタンプ付きのイメージとテキストのペアが含まれています
CLIP、Flamingo、およびStable Diffusionなどの大規模なマルチモーダル基盤モデルの貢献により、画像生成とゼロショット汎化の以前に考えられなかった改善が実現し、マルチモーダル学習におけるパラダイムの変革が起こっています。これらのベースラインモデルは通常、大規模なウェブスケールの静的データセットを用いてトレーニングされます。OpenAIのCLIPモデルなどの従来のモデルが、2020年までのインターネットスケールのデータでトレーニングされた場合に、将来のデータでどのように機能するかは不明です。 まず、AppleとCarnegie Mellon Universityの研究者たちは、OpenAIのCLIPモデルが、2022年までの最新のキュレーションされたウェブデータセットを使用して開発されたOpenCLIPリポジトリのモデルと比較して、ロバスト性の点でどのように優れているかを調査しています。CLIPモデルを測るための標準が存在しないため、2014年から2022年までの動的な分類および検索のタスクをカバーするデータセットを作成しました。OpenCLIPモデルはパフォーマンスを維持している一方、OpenAIモデルは2021年から2022年のデータと2014年から2016年のデータとの間で検索パフォーマンスに大きな差があることがわかりました。OpenAIのCLIPモデルはわずかによりロバストであるものの、これはImageNetの分布シフトにおける正確性などの典型的なテストに完全に反映されていません。 彼らの研究は、静的ベンチマーク(ImageNetなど)を使用することには限界があり、モデルはデータの分布が変化するに伴って適応・進化する必要があることを明らかにしました。データの変化に対応するための単純で頻繁な手法の1つは、新しい画像テキストデータを得た場合に再びトレーニングを開始し、新しいCLIPモデルをトレーニングすることです。この方法の理論的な根拠は、既存のモデルから新しい入力にモデルの振る舞いを適応させることはより困難であるというものです。ただし、新たな基盤モデルを始めからトレーニングするのに必要な時間とエネルギーを何度も投資することは現実的ではありません。 最近のCLIPモデルの持続的学習技術に焦点を当てた取り組みは、一つの後続タスクまたは少数のタスクで効率を向上させることを目的としています。最近の研究の一部はこれらの課題に取り組み始めていますが、現在のベンチマークは範囲が狭すぎるか、画像テキストデータが関連していないため、真に有用ではありません。 CLIPモデルの時系列トレーニングへの第一歩として、研究者たちは時間の経過によるデータ分布の自然な変化を観察しました。既存のCommonPoolデータセットに「クロールタイム」データを含めることにより、彼らはCLIPモデルの時系列連続トレーニングのための新たなベンチマークであるTIC-DataCompを確立しました。研究者たちはまた、RedditやFlickrなどから収集したインターネットの大規模データセットを再利用して、新たな目的に使用しました。特に、YFCCとRedcapsが提供する時系列情報を使用して、それぞれTIC-YFCCとTICRedCapsを編集しました。新しいデータセットが利用可能になるたびに、この研究は時間の制約内で機能する持続学習技術を構築することを目指しています。これらの戦略は、新しいデータが受け取られるたびにトレーニングパラメータをリセットし、累積計算予算を新しいモデルに費やすOracleとは逆の方向を示しています。 研究者たちは、TIC-CLIPフレームワークでトレーニングされたモデルのゼロショット評価を行いました。評価には、ImageNetやImageNetの分布シフト、Flickrなどの28の確立された分類および検索タスクが使用されました。最後に、彼らは自身のベンチマークを使用して、リプレイバッファ、学習率スケジュール、ウォームスタート、パッチング、蒸留など、さまざまな持続学習アプローチを設計・テストしました。 チームは、最新のチェックポイントでトレーニングを開始し、過去のすべてのデータをリプレイすることにより、累積技術がOracleと同等のパフォーマンスを2.7倍の計算効率で実現することを示す重要な教訓を得ました。彼らはまた、順次トレーニングのための学習率スケジュールや、静的および動的パフォーマンスのためのバッファサイズの間における興味深いトレードオフを示しました。彼らの結果は、11Mサンプルから3Bまでのデータセットにわたる傾向を強調し、テクニックによって一貫性を持たせました。既存のデータセットに追加で収集されたコードとタイミングデータは、近々公開され、広いコミュニティが提案されたベンチマークを使用できるようにする予定です。研究チームは、この未開拓のトピックに光を当てることで、基盤モデルの持続トレーニングへの道を切り開くことを望んでいます。
『完全な初心者のための量子コンピューティング』
「地球の資源に対する人類の支配の数千年ぶりを、人新世と形容する者もいるこの言葉は、ギリシャ語の「anthropo」で人間を意味し、「cene」で最近を意味するものである最後の...」
AIにおける幻覚の克服:事実に基づく強化学習ハイブリッドフレームワークが大規模な多モーダルモデルのビジョン・言語の整合性を最適化する方法
追加の事前訓練による画像とテキストのペアリング、または専門的なビジュアルインストラクションチューニングデータセットでの微調整を通じて、大規模言語モデルは多様なモーダルドメインに潜入し、パワフルな大規模マルチモーダルモデルを生み出すことができます。しかし、LMM(Large Multimodal Models)を構築する上で障害があります。特に、多様なデータとテキストのみのデータセットの質と量の間には食い違いがあります。例えば、LMMモデルLLaVAは、事前訓練されたビジュアルエンコーダとインストラクション用に調整された言語モデルを初期化したものです。このモデルは、1800のタスクに対して100M以上の例を使用するテキストのみのモデルと比較して、はるかに少ないインスタンスでトレーニングされます。具体的には、このモデルはわずか150Kの人工的な画像ベースの会話でトレーニングされます。このようなデータ制約のため、ビジュアルと言語のモダリティが正確に整列しない場合があります。 その結果、LMMは、画像が与える文脈と不正確に関連付けられた幻覚的な出力を生成する可能性があります。UC Berkeley、CMU、UIUC、UW-Madison、UMass Amherst Microsoft Research、MIT-IBM Watson AI Labの研究者たちは、LLMMトレーニングのための高品質なビジュアルインストラクションチューニングデータの不在によって引き起こされる問題に対処するために、改良されたマルチモーダル整列のために訓練されたビジョン言語モデルLLaVA-RLHFを提示しています。彼らの主な貢献の1つは、マルチモーダルの整列を強化するために、強化学習からの人間のフィードバックによって報酬信号をキャリブレーションすることです。この手法では、幻覚の認識に焦点を当てた人間の好みを収集し、それらの好みを強化学習に使用します。 この戦略により、比較的安価(例えば、10Kの人間の好みを収集するために$3000)でマルチモーダルの整列が改善される可能性があります。彼らの知識と既存の人間の好みデータに基づいて、報酬モデルが既存の言語モデルを適切に使用できるようにすることを試みる、よりデータ効率の良いオプションが提案されています。 図1:LLMMトレーニングの教示された微調整(SFT)フェーズ中の幻覚の可能性と、報酬モデルの容量が低い問題に対処するために、事実に基づくRLHFがSFTモデルから初期化される方法を示すダイアグラムです。 まず、より高解像度の優れたビジュアルエンコーダと大きな言語モデルを使用して、報酬モデルの全体的な機能を向上させます。第二に、図1に示すように、写真の説明や確定的なマルチチョイスオプションなどの追加情報で報酬信号を補完するファクチュアル・オーグメントドRLHFアルゴリズムを提案します。さらに、Supervised Fine-Tuningステージでは、既存の高品質な人間によるマルチモーダルデータを会話形式に変換して、合成ビジョンインストラクションチューニングデータを拡張することで、LMMの一般的な能力を向上させます。具体的には、Flickr30kをスポットキャプショニングの課題に変換し、VQA-v2とA-OKVQAをマルチラウンドQAタスクに変換し、新しいデータセットを使用してLLaVA-SFT+モデルをトレーニングします。 最後に、実世界の状況でのLMMのマルチモーダルの整列を評価する方法について考えます。特に、幻覚を罰することに注意を払います。彼らが開発したベンチマーク質問であるMMHAL-BENCHは、COCOの12の主要なオブジェクトカテゴリを網羅し、8つのジョブ種別から成ります。彼らの分析によると、このベンチマークデータセットは、特に反幻覚のためのスコアが考慮される場合、人間の評価に非常に近いものです。RLHFでトレーニングされた最初のLMMとして、LLaVA-RLHFは実験的評価で優れたパフォーマンスを発揮しました。LLaVA-Benchでは94%の改善、MMHAL-Benchでは60%の改善、MMBenchでは52.4%の新記録、POPEでは82.7% F1の新記録を達成しました。GitHubでは、コード、モデル、データを一般に提供しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.