高度なRAGテクニック：イラスト入り概要

洗練されたRAGテクニック：イラスト入り解説

Groningen, Martinitoren, 記事がNoorderplatsoenの平和の中で作成された場所 — Groningen、Martinitoren、記事がNoorderplatsoenの平和の中で作成された場所

高度な検出補完生成技術とアルゴリズムの包括的な研究。記事には、各種の実装と言及された研究を参照する私の知識ベースのリンクのコレクションが付属しています。

この記事の目的は、使用可能なRAG（検索補完生成）アルゴリズムと技術の概要と説明を行うことです。実装の詳細には触れず、参照し、豊富なドキュメントやチュートリアルを利用してください。

紹介

RAGコンセプトに精通している場合は、高度なRAGパートにスキップしてください。

RAGは、LLM（言語モデル）に情報を提供し、生成された回答を裏付けるために、いくつかのデータソースから抽出された情報を提供するものです。基本的にRAGは検索+LLMプロンプトです。モデルに対して検索アルゴリズムで見つかった情報を文脈として与え、クエリに対して回答するようにモデルに依頼します。

2023年において、RAGはLLMベースのシステムの中で最も人気のあるアーキテクチャです。ウェブ検索エンジンとLLMを組み合わせた質問応答サービスから、数百ものデータと対話するアプリまで、RAGに基づく製品は多数存在します。

ベクトル検索の領域もその期待によって沸き立っています。2019年には埋め込みベースの検索エンジンがfaissで作られました。chroma、weavaite.io、pineconeなどのベクトルデータベースのスタートアップは、主にfaissやnmslibといった既存のオープンソースの検索インデックスを基にし、入力テキストのための追加ストレージやその他のツールを最近追加しています。

LLMベースのパイプラインやアプリケーションのための2つの最も有名なオープンソースライブラリがあります — LangChainとLlamaIndexです。これらのプロジェクトは2022年10月と11月に立ち上げられ、ChatGPTのローンチに触発され、2023年に大きな支持を得ています。

この記事の目的は、主要な高度なRAG技術を体系的にまとめ、その実装（主にLlamaIndex）に言及することで、他の開発者がその技術に深く入り込むのを助けることです。

問題は、チュートリアルの多くが1つまたはいくつかの技術を選択し、それらの実装方法を詳細に説明するだけでなく、利用可能なツールのバラエティを説明していないことです。

また、LlamaIndexおよびLangChianの両方は素晴らしいオープンソースプロジェクトですが、その発展速度は既に2016年の機械学習のテキストブックよりも厚くなっています。

ナイーブRAG

この記事のRAGパイプラインの開始点は、テキスト文書のコーパスです。コーパス以前の部分は省略し、YoutubeからNotionまであらゆる想像可能なソースに接続する素晴らしいオープンソースデータローダーに任せます。

バニラ RAG ケースは次のように簡単に見えます：テキストをチャンクに分割し、それらのチャンクをトランスフォーマーエンコーダーモデルでベクトルに埋め込みます。そして、これらのベクトルをインデックスに格納し、最終的にはユーザーのクエリに対してモデルに対してコンテキストを提供するLLMのプロンプトを作成します。実行時には、同じエンコーダーモデルを使用してユーザーのクエリをベクトル化し、このクエリベクトルをインデックスに対して検索し、上位k件の結果を見つけ、対応するテキストチャンクをデータベースから取得し、それらをLLMプロンプトのコンテキストとしてフィードします。

プロンプトは次のようになります：

RAGプロンプトの例

プロンプトエンジニアリングは、RAGパイプラインを向上させるために試してみることができる最も安価な方法です。包括的なOpenAIプロンプトエンジニアリングガイドを確認してください。

明らかに、OpenAIはLLMプロバイダーの市場リーダーであるにもかかわらず、AnthropicのClaudeやMistralのMixtralなどの最近のトレンディな小型ですが非常に能力が高いモデル、それに加えてマイクロソフトのPhi-2などの選択肢があります。そして、Llama2、OpenLLaMA、Falconなどの多くのオープンソースのオプションもありますので、RAGパイプラインのための「脳」の選択肢があります。

高度なRAG

では、高度なRAGの概要について詳しく見てみましょう。以下のスキームは、関連するコアステップとアルゴリズムを示しています。一部の論理ループや複雑な多段階のエージェント行動は、スキームの可読性を保つために省略されています。

スキーム上の緑色の要素は、さらに詳しく説明されるRAGのコア技術です。青色の要素は、テキストです。すべての高度なRAGのアイデアを単一のスキーム上で視覚化することは容易ではありません。たとえば、さまざまなコンテキスト拡大のアプローチは省略されています。これらについては、途中でさらに詳しく見ていきます。

1. チャンキング＆ベクトル化

まず、ドキュメントの内容を表すベクトルのインデックスを作成し、実行時にはこれらのベクトルと最も近い意味を持つクエリベクトルとの最小コサイン距離を検索します。

1.1 チャンキング トランスフォーマーモデルは固定された入力シーケンス長を持っており、入力コンテキストウィンドウが大きくても、1つの文のベクトルまたは複数の文のベクトルの方が、それらの意味をより良く表します（モデルにもよりますが、一般的にはそうです）。ですので、データをチャンクに分割してください（文または段落でテキストを分割しますが、1つの文を2つの部分に分割しないでください）。このタスクに対応できるさまざまなテキスト分割ツールがあります。

チャンクのサイズは考慮すべきパラメーターです – 使用する埋め込みモデルとそのトークン容量に依存します。BERTベースのセンテンストランスフォーマーなどの標準のトランスフォーマーエンコーダーモデルは最大で512トークンを使用します。OpenAI ada-002は8191トークンなどのより長いシーケンスを取り扱うことができます、ただし、ここでの妥協はLLMの推論に対する十分なコンテキストと、効率的な検索のための特定のテキスト埋め込みの間のバランスです。ここで、チャンクサイズの選択に関する研究がいくつか紹介されています。LlamaIndexでは、NodeParserクラスがこれをカバーしています。高度なオプションを備えていました。独自のテキスト分割ツール、メタデータ、ノード/チャンクの関係などを定義します。

1.2 ベクトル化次のステップは、チャンクを埋め込むためのモデルを選択することです — いくつかのオプションがありますが、私は検索最適化されたモデルであるbge-largeやE5の埋め込みファミリーを選びます — 最新の情報はMTEBリーダーボードをチェックしてください。

チャンキング & ベクトル化ステップのエンドツーエンドの実装については、LlamaIndexの完全なデータインジェスションパイプラインの例をご覧ください。

2. 検索インデックス2.1 ベクトルストアインデックス

このスキームおよび以降のテキスト全体で、エンコーダブロックを省略し、クエリを直接インデックスに送信してスキームを簡略化しています。もちろん、クエリは常に最初にベクトル化されます。トップkのチャンクについても同様です — インデックスはチャンクではなくベクトルのトップkを取得しますが、取得するのは簡単なステップなので、そこにチャンクを置き換えます。</figcaption></figure><p><strong>RAGパイプラインの重要な部分は、検索インデックス</strong>です。前のステップで取得したベクトル化されたコンテンツを格納します。もっとも素朴な実装では、フラットインデックス — クエリベクトルとすべてのチャンクのベクトルとの間の距離の計算を行います。</p><p><strong>効率的な検索を最適化するための適切な検索インデックス</strong>は、<a href= — ドキュメントはチャンクの階層に分割され、最小のリーフチャンクはインデックスに送信されます。検索時には、k個のリーフチャンクを取得し、同じ親チャンクを参照するn個のチャンクがある場合は、これらを親チャンクで置き換えてLLMに送信して回答を生成します。

ドキュメントはチャンクの階層に分割され、最小のリーフチャンクはインデックスに送信されます。検索時には、k個のリーフチャンクを取得し、同じ親チャンクを参照するn個のチャンクがある場合は、これらを親チャンクで置き換えてLLMに送信して回答を生成します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AILLMMLNLPRetrieval Augmented

Was this article helpful?

93 out of 132 found this helpful

高度なRAGテクニック：イラスト入り概要

高度な検出補完生成技術とアルゴリズムの包括的な研究。記事には、各種の実装と言及された研究を参照する私の知識ベースのリンクのコレクションが付属しています。

紹介

ナイーブRAG

高度なRAG

1. チャンキング＆ベクトル化

2. 検索インデックス2.1 ベクトルストアインデックス

2. 2 階層インデックス

2.3 仮説的な質問とHyDE

2.4 コンテキストの豊かさ

2.5 融合リトリーバーまたはハイブリッド検索

3. 再ランキングとフィルタリング

4. クエリ変換

参考文献

5. チャットエンジン

6. クエリルーティング

7. RAG内のエージェント

8. レスポンス合成器

エンコーダーとLLMの微調整

エンコーダーの微調整

ランカーの微調整

LLMの微調整

評価

結論

Was this article helpful?

「Githubの使い方？ステップバイステップガイド」というテキスト

スタンフォード研究者がGLOWとIVESを使用して、分子ドッキングとリガンド結合位姿の予測を変革しています

AIテクノロジー

「クロスブラウザテストが適切に実施されない場合、何が起こるか」

「AIは善良な存在です：その理由」

「ファイナンシャルアドバイザーがAIを活用してより多くの価値を引き出す方法」

宇宙探索と最先端技術

「2024年に注目すべきトップ5のWeb3企業」

2023年の最高の人工知能（AI）ニュースレター

高度なRAGテクニック：イラスト入り概要

高度な検出補完生成技術とアルゴリズムの包括的な研究。 記事には、各種の実装と言及された研究を参照する私の知識ベースのリンクのコレクションが付属しています。

紹介

ナイーブRAG

高度なRAG

1. チャンキング＆ベクトル化

2. 検索インデックス2.1 ベクトルストアインデックス

2. 2 階層インデックス

2.3 仮説的な質問とHyDE

2.4 コンテキストの豊かさ

2.5 融合リトリーバーまたはハイブリッド検索

3. 再ランキングとフィルタリング

4. クエリ変換

参考文献

5. チャットエンジン

6. クエリルーティング

7. RAG内のエージェント

8. レスポンス合成器

エンコーダーとLLMの微調整

エンコーダーの微調整

ランカーの微調整

LLMの微調整

評価

結論

Was this article helpful?

高度な検出補完生成技術とアルゴリズムの包括的な研究。記事には、各種の実装と言及された研究を参照する私の知識ベースのリンクのコレクションが付属しています。