マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革新する「大規模検索モデル」フレームワークをご紹介!

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせないツールとなりました。これらのデジタルプラットフォームは、情報の広大な海での航海を支援し、個々の人々が効率的かつ正確に特定の詳細にアクセスできるようにします。ユーザーは、学術研究から日常的な実用的な質問まで、さまざまな主題について照会を開始できます。検索エンジンは、情報の発見だけでなく、関連性に基づいてデータを整理し優先順位付けする重要な役割も果たしています。

現代の検索エンジンは、検索エンジン結果ページ(SERP)に含まれるマルチメディアコンテンツ、知識パネル、関連クエリ、直接回答、および注目スニペットなどの有用な情報を十分に活用するための複雑な基盤上に構築されています。この基盤には、ユーザーの照会の理解、データの取得、複数の段階での結果の順位付け、およびクエリの回答など、いくつかの部分からなります。

以前は、これらのコンポーネントは、タスク固有のデータセットを使用して、BERTやT5などの事前トレーニング済みの言語モデルを強化することによって、独立して開発および調整されることが多かったです。より柔軟なシステムが必要です。幅広い意思決定が可能で、適応可能なインターフェースを備えたシステムであるべきです。このようなシステムの重要性は時と共に増しています。

したがって、マイクロソフトの研究者は、「Large Search Model: LLM時代のSearch Stackの再定義」という論文を発表しました。この論文では、複数のコンポーネントの組み合わせにより、この「大規模検索モデル」とも呼ばれるフレームワークが従来の検索スタックの変革を予測しています。

この手法は、複雑な検索プロセスをよりシンプルで迅速に行い、検索結果を向上させます。異なる検索に対して大規模検索モデルをカスタマイズするには、プロンプトを与えることにより、単一のモデリング方法を使用します。検索のような通常の部分、つまり情報の検索と整理から検索エンジン結果ページ(SERP)の作成まで、引き続き存在します。研究チームは、この大規模検索モデルを個別の大規模言語モデル(LLM)と呼んでいます。これは、さまざまな種類の情報タスクを処理でき、自然言語プロンプトを使用して何をするかを指示することができます。

さらに、大規模検索モデルは、検索状況に適応するよう調整できるため、柔軟性を持っています。このカスタマイズは、商用検索エンジンでよく利用できる特定の領域に特化したデータを使用してモデルを微調整することで実現されます。重要なことは、この能力により、モデルが直接トレーニングされていない新しいタスクに対しても知識を活用できるようになることです。このプロセスはゼロショット学習として知られています。

研究チームは、提案されたモデルの有効性を支持する実世界の例を提供しました。彼らのモデルは、複数の頑健な密な検索と従来のBM25疎な検索を上回りました。トレーニング後の大規模検索モデルは、予想されるモデルよりも優れたパフォーマンスを発揮し、ベンチマークのパフォーマンスを上回りました。

大規模検索モデルは、検索エンジンにおける注目すべき進歩となっています。大規模言語モデルの適応性と堅牢な能力を活用することで、検索結果の品質を向上し、複雑な検索プロセスを簡素化する可能性を秘めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

ML プレゼンテーションに PowerPoint を使うのをやめて、代わりにこれを試してみてください

悪いパワーポイントは、注意散漫な聴衆を生み出します(彼らはカメラをオフにし、複数のタスクを同時に行います)また、その...

機械学習

テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな...

機械学習

「GPTCacheとは:LLMクエリセマンティックキャッシュの開発に役立つライブラリを紹介します」

ChatGPTと大規模言語モデル(LLM)は非常に柔軟性があり、多くのプログラムの作成が可能です。ただし、LLM APIの呼び出しに関...

人工知能

「AIはどこで起こるのか?」

「将来の研究者はどの分野に集まるべきですか?学界か産業界か?」

データサイエンス

「Amazon SageMaker Data Wranglerを使用して、生成型AIのデータ準備をシンプルにする」

生成型人工知能(生成型AI)モデルは、高品質のテキスト、画像、およびその他のコンテンツを生成する能力を見せていますしか...

機械学習

「機械学習をマスターするための10のGitHubリポジトリ」

ブログは機械学習コース、ブートキャンプ、書籍、ツール、インタビューの質問、チートシート、MLOpsプラットフォームなどをカ...