「検索拡張生成のための情報検索」

Information retrieval for search extension generation

パフォーマンスを劇的に向上させるための3つの実戦済みのヒント

Retrieval Augmented Generation (RAG) は、情報検索 (IR) コンポーネントをコンテキスト生成プロセスに使用する大規模言語モデル (LLM) ベースのアプリケーションを指します。LLMに関連情報を提供する高性能なIRコンポーネントを持つことは、堅牢なRAGアプリケーションの構築に不可欠です。この記事では、情報検索システムのパフォーマンスを劇的に向上させることができる3つ（半分）のシンプルなヒントについて詳しく説明します。さあ、早速見ていきましょう！

ヒント0.5 – IRのパフォーマンスを評価する

情報検索は、検索クエリに関連する膨大なデータから情報を見つけるプロセスを指します。RAGアプリケーションでは、取得したテキストはユーザーが提供した質問に添付され、LLMに送信されるプロンプトを作成します。

Retrieval Augmented Generation. Image by author. Icons from Flaticons.

パフォーマンスを向上させるためのヒントについて話す前に、情報検索のパフォーマンスを信頼性のある方法で測定する必要があります。

評価セットの作成

評価セットには、代表的なクエリQのリスト、ドキュメントDのリスト、およびどのドキュメントがどのクエリに対して関連しているかを示すバイナリ行列が含まれている必要があります。代表的なクエリは、ユーザーがシステムで一般的に行うさまざまな種類の検索を示すものです。

ヒント：特定のドキュメントが特定のクエリに対して関連情報を含んでいるかどうかを尋ねることで、行列を構築するためにLLMを利用してください。

A binary document relevance matrix. Created by author — バイナリドキュメント関連行列。作者による作成

適切な評価指標の選択

IRシステムが関連するすべてのドキュメントを返すかどうか（再現率が高いか）と、実際に関連するドキュメントのみを返すかどうか（適合率が高いか）を確認したいです。使用ケースによっては、一方が他よりも重要な場合があります。

IRシステムを構築する際に、返されるドキュメントの数Kを決定する必要があります。これは多少の技術的な判断が必要です。ノイズ（および潜在的なコスト）を減らすためにKをできるだけ小さくしたい一方で、関連情報をできるだけ多く含む結果を得たいと考えています。そのため、さまざまなK値に対する期待される品質を測定することの重要性があります。

これらの2つの考慮事項に基づいて、ほとんどの使用ケースにおいて推奨する評価指標は、ランクkにおける適合率（P@k）および再現率（R@k）です。使用ケースに適した適切な評価指標の選択に時間をかけることが重要です。詳細については、Pineconeの以下のブログ記事を強くお勧めします。

Know your toolbox and select the right tool for the job. Source. — ツールを知り、適切なツールを選択する。出典。

ベースラインを確立し、私のヒントが有効かどうかを確認するためのツールがあるので、さあ、本題に入りましょう。

ヒント1- 類似距離のためにTF/IDFを統合する

埋め込み空間のコサイン類似度以上の類似距離について教えてくれていますか？それは、はい。

すべての洗練された埋め込みベースの距離計算よりも、IRシステムはTF/IDFに基づいていました。これは、特定のドキュメントで頻繁に発生する用語を基にドキュメントの類似性を直感的に計算するアプローチですが、全体のドキュメントコレクションでは希少です。実際、埋め込みベースの検索に加えて、TF/IDFのバリエーションを類似性計算に統合することで、大幅なパフォーマンス向上が得られることがわかります。

これは、各ドキュメントを密な埋め込みベクトルと疎な単語の集合ベクトルの組み合わせとして表現することで実現できます。このメソッドは、ベクトルストアプロバイダーであるPinecone、Weaviateなどの人気のあるベクトルストアプロバイダーにはデフォルトでサポートされています。

組み合わせは、それぞれの部分よりも強力です。Gilthorは、Optimus PrimeとMegatronの組み合わせです。

Tip 2 — テキストをそのまま埋め込まないでください

埋め込みの方法やモデルに関係なく、その目的は「似ている」テキストを「似ている」埋め込みベクトルにマッピングすることです。

問題は、保存された情報が取得クエリと全く異なる形式を持っている場合に発生します。たとえば、質問応答では、保存された情報は長い情報文書であり、取得クエリは短い質問である可能性があります。

この問題を緩和するためには、埋め込みプロセスの最初のステップとして、保存された情報と取得クエリを共通の構造にフォーマットする必要があります。これは、保存された情報の埋め込み手順、取得クエリ、またはその両方で行うことができます。フォーマット操作はユースケースとドメインに依存します。

ヒント：多くのユースケースでは、フォーマット操作はLLMによって実行できます。

例：

質問と回答 — 各保存ドキュメントに対して、LLMに「このドキュメントはどの質問の回答を提供していますか？」と尋ね、この応答の埋め込みをドキュメントの表現として使用します。
JSONなどの非テキスト形式は、それらに格納されている情報を説明するテキストの段落に変換することができます。

Tip 3 — 文章ではなく段落を埋め込む

より小さいテキストオブジェクトに焦点を当てることは、次の理由から全体的な検索結果の品質を向上させる可能性があります：

より正確な埋め込み：段落は通常、1つのトピックに焦点を当てるため、埋め込みベクトルはより良いコンテキスト保存を持ちますが、ドキュメントは複数のトピックにまたがる可能性があります。
ノイズが少ない：返される結果はより焦点を絞り、オフトピックの情報が少なくなります。
RAGに特に適しています — コンテキストウィンドウにより多くのドキュメントの情報を収めることができます。

一方で、いくつかの注目すべき欠点もあります：

埋め込みベクトルの数が大幅に増加し、それらに基づいた距離計算の数も増加します。
一部の段落には、ドキュメントのコンテキストなしでは理解できない情報が含まれる場合があります。

結論

Retrieval Augmented Generationの効率は、情報検索コンポーネントの効果に大きく依存します。したがって、情報検索コンポーネントを正確に評価し、それを改善するための取り組みが重要です。

情報の保存方法や類似性検索方法にわずかな変更を加えることで、情報検索の品質を劇的に向上させることができます。この記事で議論された3つのヒントは、戦闘テスト済みで、統合されたアプリケーションのパフォーマンスを向上させることが証明されています。

約束された効果をもたらすヒントの統合や、ご自身の効果があった追加のヒントについてのご意見をお待ちしています。

Nadav BarakはDeepchecksというスタートアップ企業の実践的な研究者であり、組織にMachine Learningベースのシステムを検証および監視するツールを提供しています。Nadavはデータサイエンスの豊富なバックグラウンドを持ち、生成的なNLPアプリケーションの構築と改善におけるドメインエキスパートです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Information RetrievalLarge Language ModelsNLPPerformanceRag

Was this article helpful?

93 out of 132 found this helpful

「検索拡張生成のための情報検索」

パフォーマンスを劇的に向上させるための3つの実戦済みのヒント

ヒント0.5 – IRのパフォーマンスを評価する

ヒント1- 類似距離のためにTF/IDFを統合する

Tip 2 — テキストをそのまま埋め込まないでください

Tip 3 — 文章ではなく段落を埋め込む

結論

Was this article helpful?

「2023年にデータストラテジストになる方法」

スコルテックとAIRIの研究者は、ニューラルネットワークを使用してドメイン間の最適なデータ転送のための新しいアルゴリズムを開発しました

機械学習

オープンAIがインドに進出：現地チームの設立

AIを活用した空中監視：UCSBイニシアチブがNVIDIA RTXを使い、宇宙の脅威を撃退する目的で立ち上がる

「解釈力を高めたk-Meansクラスタリングの改善」

Google フォトのマジックエディター：写真を再構築するための新しいAI編集機能

2023年にディープラーニングのためのマルチGPUシステムを構築する方法

このAI論文は、柔軟なタスクシステムと手順的生成による強化学習を革新するNeural MMO 2.0を紹介しています