このAI研究は、OpenAIの埋め込みを使用した強力なベクトル検索のためのLuceneの統合を提案します

This AI research proposes integrating Lucene with the use of OpenAI embeddings for powerful vector search.

最近、機械学習の検索分野において、深層ニューラルネットワークを応用することで大きな進歩がありました。特に、バイエンコーダーアーキテクチャ内の表現学習に重点を置いています。このフレームワークでは、クエリ、パッセージ、さらには画像などのマルチメディアなど、さまざまな種類のコンテンツが、密なベクトルとして表されるコンパクトで意味のある「埋め込み」として変換されます。このアーキテクチャに基づいて構築されたこれらの密な検索モデルは、大規模な言語モデル(LLM)内の検索プロセスの強化の基盤として機能します。このアプローチは人気があり、現在の生成的AIの広い範囲でLLMの全体的な能力を高めるのに非常に効果的であることが証明されています。

この論文では、多くの密なベクトルを処理する必要があるため、企業は「AIスタック」に専用の「ベクトルストア」または「ベクトルデータベース」を組み込むべきだと示唆しています。一部のスタートアップ企業は、これらのベクトルストアを革新的で不可欠な現代の企業アーキテクチャの要素として積極的に推進しています。有名な例には、Pinecone、Weaviate、Chroma、Milvus、Qdrantなどがあります。一部の支持者は、これらのベクトルデータベースが従来のリレーショナルデータベースをいずれ置き換える可能性さえ示しています。

この論文では、この説に対して反論を示しています。その議論は、既存の多くの組織で存在し、これらの機能に大きな投資がなされているという点を考慮した、簡単なコスト対効果分析を中心に展開されています。生産インフラストラクチャは、Elasticsearch、OpenSearch、Solrなどのプラットフォームによって主導されている、オープンソースのLucene検索ライブラリを中心とした広範なエコシステムによって支配されています。

https://arxiv.org/abs/2308.14963

上記の画像は、標準的なバイエンコーダーアーキテクチャを示しており、エンコーダーがクエリとドキュメント(パッセージ)から密なベクトル表現(埋め込み)を生成します。検索はベクトル空間内のk最近傍探索としてフレーム化されています。実験は、ウェブから抽出された約880万のパッセージから構成されるMS MARCOパッセージランキングテストコレクションに焦点を当てて行われました。評価には、標準の開発クエリとTREC 2019およびTREC 2020 Deep Learning Tracksのクエリが使用されました。

調査結果は、今日ではLuceneを直接使用してOpenAIの埋め込みを使用したベクトル検索のプロトタイプを構築することが可能であることを示唆しています。埋め込みAPIの人気の増加は、私たちの主張を支持しています。これらのAPIは、コンテンツから密なベクトルを生成する複雑なプロセスを簡素化し、実践者にとってよりアクセスしやすくしています。実際には、今日の検索エコシステムを構築する際に必要なのはLuceneだけです。しかし、時間が経って初めて正しいかどうかがわかります。最後に、これはコストと利益を比較することが主要な考え方であり続けることを思い起こさせてくれるものです。急速に進化するAIの世界でも同様です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AIを学校に持ち込む:MITのアナント・アガルワルとの対話

NVIDIAのAI Podcastの最新エピソードで、edXの創設者であり2Uの最高プラットフォーム責任者であるAnant Agarwal氏は、オンラ...

機械学習

ビデオオブジェクトセグメンテーションの革命:高度なオブジェクトレベルのメモリ読み取り技術による可愛い子の明らかな化身

オープンボキャブラリーで定義されたフレームアノテーションからのオブジェクトのトラッキングとセグメンテーションは、ビデ...

機械学習

[GPT-4V-Actと出会いましょう:GPT-4V(ision)とウェブブラウザを調和させたマルチモーダルAIアシスタント]

最新プロジェクトのGPT-4V-Actのリリースを、Machine Learningの研究者が最近Redditコミュニティと共有しました。このアイデ...

機械学習

LLMの出力解析:関数呼び出し対言語チェーン

「LLMを使用したツールの作成には、ベクトルデータベース、チェーン、エージェント、ドキュメント分割ツールなど、複数のコン...

機械学習

「深層学習による遺伝子制御の解明:オルタナティブスプライシングの理解に向けた新たなAIアプローチ」

オルタナティブスプライシングは、遺伝子の制御において基本的なプロセスであり、単一の遺伝子が複数のmRNAバリアントと様々...

AI研究

シンガポール国立大学(NTU)の研究者が提案する「OtterHD-8B」という革新的なマルチモーダルAIモデルは、「Fuyu-8B」から進化したものである

シンガポールのナニヤン工科大学のS-Labの研究者たちは、高解像度の視覚入力を正確に解釈するために特別に設計された画期的な...