このAI研究は、OpenAIの埋め込みを使用した強力なベクトル検索のためのLuceneの統合を提案します

This AI research proposes integrating Lucene with the use of OpenAI embeddings for powerful vector search.

最近、機械学習の検索分野において、深層ニューラルネットワークを応用することで大きな進歩がありました。特に、バイエンコーダーアーキテクチャ内の表現学習に重点を置いています。このフレームワークでは、クエリ、パッセージ、さらには画像などのマルチメディアなど、さまざまな種類のコンテンツが、密なベクトルとして表されるコンパクトで意味のある「埋め込み」として変換されます。このアーキテクチャに基づいて構築されたこれらの密な検索モデルは、大規模な言語モデル(LLM)内の検索プロセスの強化の基盤として機能します。このアプローチは人気があり、現在の生成的AIの広い範囲でLLMの全体的な能力を高めるのに非常に効果的であることが証明されています。

この論文では、多くの密なベクトルを処理する必要があるため、企業は「AIスタック」に専用の「ベクトルストア」または「ベクトルデータベース」を組み込むべきだと示唆しています。一部のスタートアップ企業は、これらのベクトルストアを革新的で不可欠な現代の企業アーキテクチャの要素として積極的に推進しています。有名な例には、Pinecone、Weaviate、Chroma、Milvus、Qdrantなどがあります。一部の支持者は、これらのベクトルデータベースが従来のリレーショナルデータベースをいずれ置き換える可能性さえ示しています。

この論文では、この説に対して反論を示しています。その議論は、既存の多くの組織で存在し、これらの機能に大きな投資がなされているという点を考慮した、簡単なコスト対効果分析を中心に展開されています。生産インフラストラクチャは、Elasticsearch、OpenSearch、Solrなどのプラットフォームによって主導されている、オープンソースのLucene検索ライブラリを中心とした広範なエコシステムによって支配されています。

https://arxiv.org/abs/2308.14963

上記の画像は、標準的なバイエンコーダーアーキテクチャを示しており、エンコーダーがクエリとドキュメント(パッセージ)から密なベクトル表現(埋め込み)を生成します。検索はベクトル空間内のk最近傍探索としてフレーム化されています。実験は、ウェブから抽出された約880万のパッセージから構成されるMS MARCOパッセージランキングテストコレクションに焦点を当てて行われました。評価には、標準の開発クエリとTREC 2019およびTREC 2020 Deep Learning Tracksのクエリが使用されました。

調査結果は、今日ではLuceneを直接使用してOpenAIの埋め込みを使用したベクトル検索のプロトタイプを構築することが可能であることを示唆しています。埋め込みAPIの人気の増加は、私たちの主張を支持しています。これらのAPIは、コンテンツから密なベクトルを生成する複雑なプロセスを簡素化し、実践者にとってよりアクセスしやすくしています。実際には、今日の検索エコシステムを構築する際に必要なのはLuceneだけです。しかし、時間が経って初めて正しいかどうかがわかります。最後に、これはコストと利益を比較することが主要な考え方であり続けることを思い起こさせてくれるものです。急速に進化するAIの世界でも同様です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

音楽作曲における創造的なジェネレーティブAIの交響曲

はじめに 生成型AIは、教科書、画像、音楽などの新しいデータを生成できる人工知能です。音楽作曲では、生成型AIは作曲家に新...

AIニュース

パーソナライズされたA.I.エージェントがここにあります世界は彼らに対して準備ができていますか?

「自律型AIアシスタントの時代は、大きな影響をもたらす可能性があります」

AI研究

AIを使って若返る方法:新しい抗加齢薬が発見される

AIアルゴリズムが突破口を開き、老化や年齢関連疾患と戦う可能性のある潜在的な薬剤を特定するのに重要な役割を果たしました...

機械学習

「ガードレールでLLMを保護する」

大規模言語モデル(LLM)アプリケーションの使用が一般化し、より大規模な企業に拡大するにつれて、本番環境における効果的な...

機械学習

「AIの学び方」 AIを学ぶ方法

初心者の一般的な誤解は、最新のアルゴリズムを実装したいくつかのチュートリアルからAI/MLを学べるということですそのため、...

AI研究

AIシステムは、構造設計のターゲットを満たす新しいタンパク質を生成することができます

これらの調整可能なタンパク質は、強靭性や柔軟性など、特定の機械的特性を持つ新しい材料を作成するために使用することがで...