Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です

Googleの研究者は、オープンボキャブラリー検出の改善のためのビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法であるRO-ViTを紹介します

最近の進歩により、コンピュータは人間の視覚のように、世界から視覚情報を解釈し理解することができるようになりました。画像と動画から情報を処理、分析、抽出することを含みます。コンピュータビジョンは、視覚解釈を必要とするタスクの自動化を実現し、手作業の介入を減らすことができます。オブジェクト検出は、画像やビデオフレーム内の複数の興味深いオブジェクトを識別し、位置を特定するコンピュータビジョンのタスクです。

オブジェクト検出は、シーン内に存在するオブジェクトを判別し、それらが画像内のどこに位置しているかに関する情報を提供することを目指しています。ほとんどの現代のオブジェクト検出器は、領域とクラスラベルの手動注釈に依存していますが、これにより語彙サイズが制限され、さらなるスケーリングが高価になります。

代わりに、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるために、ビジョン-言語モデル(VLM)を使用することができます。ただし、そのようなモデルの事前学習プロセスでオブジェクト/領域の概念を適切に活用する必要があります。

Google Brainの研究者らは、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるためのシンプルなモデルを提案しています。彼らは、領域に意識を持たせたオープンボキャブラリービジョントランスフォーマー(RO-ViT)を提案しています。

RO-ViTは、オープンボキャブラリーオブジェクト検出のために、ビジョントランスフォーマーを領域に意識した方法で事前学習するためのシンプルな手法です。通常の事前学習では、画像全体の位置埋め込みが必要ですが、研究者は、全画像の位置埋め込みの代わりに、ランダムに領域の位置埋め込みを切り取り、リサイズすることを提案しています。これを「切り取られた位置埋め込み」と呼びます。

研究チームは、焦点損失を使用した画像テキストの事前学習が既存のソフトマックスCE損失よりも効果的であることを示しています。また、さまざまな新しいオブジェクト検出技術も提案しています。彼らは、既存のアプローチでは、オブジェクトの候補のステージで新しいオブジェクトを見逃すことがよくあると主張しています。なぜなら、候補はよりバランスが取れる必要があるからです。

チームは、モデルRO-ViTが最先端のLVISオープンボキャブラリー検出ベンチマークを達成していると述べています。その統計によると、イメージテキスト検索ベンチマークの12メトリックのうち9つでそれを達成しているとのことです。これは、学習された表現が領域レベルで有益であり、オープンボキャブラリー検出で非常に効果的であることを反映しています。

オブジェクト検出技術の進歩に伴い、責任ある開発、展開、規制が重要になります。その正の影響を最大化し、潜在的なリスクを軽減するためです。全体として、オブジェクト検出技術の持続的な進歩は、産業の革新、安全性と生活の質の向上、かつてはSFと考えられていたイノベーションを実現することによって、より明るい未来に貢献することが期待されています。

論文とGoogleブログをチェックしてください。この研究に関しては、このプロジェクトの研究者によるものです。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している29k+のML SubReddit40k+のFacebookコミュニティDiscordチャンネルEmailニュースレターにもぜひ参加してください。

私たちの業績が気に入ったら、ニュースレターも気に入るでしょう。

この記事はMarkTechPostで最初に公開されました。Googleの研究者は、オープンボキャブラリー検出を改善するために、リージョンに意識した方法でビジョントランスフォーマーを事前学習する単純なAI手法、RO-ViTを紹介しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

クロスバリデーションの助けを借りて、あなたの機械学習モデルに自信を持ちましょう

「訓練された機械学習モデルを訓練データ自体で評価することは基本的に間違っていますもし評価が行われれば、モデルは訓練中...

機械学習

ChatGPTのためのエニグマ:PUMAは、LLM推論のための高速かつ安全なAIアプローチを提案するものです

大規模言語モデル(LLM)は人工知能の領域で革命を起こしています。ChatGPTのリリースはLLMの時代の火付け役となり、それ以来...

機械学習

サムスンは、「Gauss」という新しいAI言語モデルを発表し、ChatGPTの支配に挑む

サムスンは、Gaussという新しい人工知能(AI)言語モデルを発表しました。これはOpenAIのChatGPTと競合するものとして注目さ...

人工知能

「OpenLLMの紹介:LLMのためのオープンソースライブラリ」

「大規模言語モデル(LLM)を本番環境で操作するためのユーザーフレンドリーなプラットフォームで、ファインチューニング、サ...

AI研究

スタンフォードの研究者が「予測音楽トランスフォーマー」を紹介:音楽作曲における創造的な制御を向上させる画期的なAIツール

美しい画像や感動的なエッセイを生成するジェネレーティブAIは、多くの場合、ユーザーにはほとんど制御が残されません。一部...

機械学習

OpenAIとLangChainによるMLエンジニアリングとLLMOpsへの導入

「OpenAI LLMsの操作方法とPythonでの人気のあるLangChainツールキットの使用方法を理解する書籍『Machine Learning Engineer...