「リトリーバル増強生成」とは何ですか?
「リトリーバル増強生成」とは何ですか?- 美容とファッションの世界で輝くための秘訣
最新の生成型AIの進展を理解するには、法廷を想像してみてください。
判事は法律の一般的な理解に基づいて事件を審理し、判決を下します。時には、医療過誤訴訟や労働紛争などの場合には専門の知識が必要となり、判事は裁判事務官を法律図書館に派遣して先例や特定の判例を探し出し、引用する必要があります。
優れた判事のように、大規模な言語モデル(LLM)はさまざまな人間のクエリに応答することができます。しかし、出典を引用した権威ある回答を提供するためには、モデルに調査を行うアシスタントが必要です。
AIの裁判事務官としてのプロセスは、検索補完生成(RAG)と呼ばれています。
- 未来を点火する:TensorRT-LLMのリリースにより、AI推論のパフォーマンスが向上し、RTXを搭載したWindows 11 PCで新しいモデルのサポートが追加されました
- 「速さの中で:NVIDIAがオムニバースクラウドサービスをMicrosoft Azure上で発表し、自動車のデジタル化を加速する」
- 「言語モデルは単語以上に推論できるのか?複雑なタスクのための多層隠れ状態における暗黙の推論の探求」
名前の由来
2020年の論文の主著者であるパトリック・ルイスは、この肩書きのアクロニムが成長する方法や将来の生成型AIの代表であると信じており、数百の論文や商用サービスにまたがる数々の手法を説明するため、名前があまりにも失礼なものになったことを申し訳なく思っています。
「私たちは、自分たちの研究がこのように広まるとは知っていたなら、名前にもっと考えを巡らせていたでしょう」とルイスはシンガポールでのインタビューで述べ、彼のアイデアをデータベース開発者の地域会議で共有していました。
「もともとより魅力的な名前を持つつもりでしたが、論文を書く時には誰もより良いアイデアを持っていませんでした」とルイスは言い、現在はAIスタートアップCohereでRAGチームを率いています。
では、検索補完生成とは何ですか?
検索補完生成は、外部ソースから取得した事実によって生成型AIモデルの正確性と信頼性を高める技術です。
言い換えると、LLMの機能にあるギャップを埋める役割を果たします。LLMはネットワークの一部であり、通常はそのパラメータの数で測定されます。LLMのパラメータは、基本的には人間が文を形成する際の一般的なパターンを表します。
この深い理解は、パラメータ化された知識と呼ばれることもあり、LLMが迅速に一般的なプロンプトに応答するのに役立ちます。しかし、現在のトピックやより具体的なトピックにさらに深く入り込みたいユーザーには役立ちません。
内部、外部のリソースの結合
ルイスとその同僚たちは、検索補完生成を開発して、生成型AIサービスを特に最新の技術的詳細が豊富な外部リソースにリンクさせました。
この論文は、かつてのFacebook AI Research(現在はMeta AI)、ロンドン大学、ニューヨーク大学の共著者たちとともに、RAGを「汎用の微調整レシピ」と呼んでいます。なぜなら、ほとんどのLLMがほぼすべての外部リソースに接続するために使用できるからです。
ユーザーの信頼構築
検索補完生成によって、モデルはユーザーが確認できるような引用可能な情報源を得ることができます。これによって信頼性が高まります。
さらに、この技術はユーザーのクエリの曖昧さを解消するのにも役立ちます。そして、モデルが誤った予測を行う可能性を減らし、幻覚と呼ばれる現象を防ぎます。
RAGのもう1つの大きな利点は、実装が比較的簡単であるということです。ルイスと論文の共著者3人によるブログによれば、開発者はたった5行のコードでプロセスを実装することができます。
これにより、追加のデータセットでモデルを再訓練することよりも速く、費用を抑えることができます。また、ユーザーは新しいソースを瞬時に切り替えることができます。
検索補完生成がどのように利用されているのか
検索補完生成により、ユーザーは事実の情報源と対話することができ、新しい種類の体験が可能になります。つまり、RAGの応用範囲は利用可能なデータセット数の何倍もになります。
例えば、医療指数を補完した生成型AIモデルは、医師や看護師にとって素晴らしいアシスタントとなり得ます。金融アナリストは、市場データとリンクされたアシスタントを利用することで利益を得ることができます。
実際、ほとんどのビジネスは、技術やポリシーマニュアル、ビデオ、またはログをナレッジベースと呼ばれるリソースに変換することができ、LLMsを向上させることができます。それらの情報源は、顧客やフィールドサポート、従業員のトレーニング、開発者の生産性などの使用例を可能にします。
この広範なポテンシャルから、AWS、IBM、Glean、Google、Microsoft、NVIDIA、Oracle、そしてPineconeなどの企業がRAGを採用しています。
検索補完生成の始め方
ユーザーが始めるのを支援するために、NVIDIAは検索補完生成のための参考アーキテクチャを開発しました。これには、サンプルのチャットボットと、この新しい方法で自分自身のアプリケーションを作成するために必要な要素が含まれています。
ワークフローでは、ユーザーが開発およびカスタマイズが可能な生成型AIモデルのフレームワークであるNVIDIA NeMo、およびNVIDIA Triton Inference ServerやNVIDIA TensorRT-LLMなどのソフトウェアを使用して、生成型AIモデルを本番環境で実行します。
これらのソフトウェアコンポーネントは、NVIDIA AI Enterpriseの一部であり、ビジネスが必要とするセキュリティ、サポート、および安定性を備えた、本番用のAIの開発と展開を加速するソフトウェアプラットフォームです。
RAGワークフローの最高のパフォーマンスを得るためには、データの移動と処理に大量のメモリと計算が必要です。288GBの高速HBM3eメモリと8ペタフロップの計算能力を持つNVIDIA GH200 Grace Hopper Superchipは理想的であり、CPUを使用する場合に比べて150倍の高速化を実現できます。
企業がRAGに慣れてくると、さまざまな市販のまたはカスタムのLLMを内部または外部のナレッジベースと組み合わせることで、従業員や顧客をサポートするさまざまなアシスタントを作成することができます。
RAGにはデータセンターは必要ありません。NVIDIAのソフトウェアにより、LLMはWindows PCでも利用可能であり、ユーザーはノートまたは記事などのプライベートな情報源にリンクして応答を改善することができます。ユーザーは、データソース、プロンプト、および応答がすべてプライベートかつ安全であることを確信することができます。
NVIDIA RTX GPUを搭載したPCでAIモデルをローカルで実行することができます。PCでRAGを使用することにより、ユーザーは電子メール、メモ、記事などのプライベートな情報源にリンクすることで応答を改善することができます。ユーザーは、データソース、プロンプト、および応答がすべてプライベートかつ安全であることを確信することができます。
最近のブログでは、TensorRT-LLMを使用したWindows向けのRAGの例が紹介され、より良い結果を迅速に得ることができます。
検索補完生成の歴史
この技術のルーツは少なくとも1970年代初頭までさかのぼります。情報検索の研究者たちは、当初は野球などの特定のトピックに関連するテキストにアクセスするために、自然言語処理(NLP)を使用するアプリケーションである質問回答システムをプロトタイプ化しました。
この種のテキストマイニングの背後にある概念は、長い間ほぼ不変のままでした。しかし、それを駆動する機械学習エンジンは大幅に成長し、その有用性と人気は高まっています。
1990年代半ば、Ask Jeevesサービス(現在のAsk.com)がよく身なりの良い従者のキャラクターで人気を博したことで、質問に答えることが一般化しました。IBMのワトソンは2011年にジェパディ!のゲームショーで人間のチャンピオン2名を圧倒的に打ち負かしたことでテレビのセレブリティとなりました。
現在、LLMは質問応答システムを新たなレベルに引き上げています。
ロンドンの研究所からの洞察
2020年の画期的な論文は、LewisがUniversity College LondonでNLPの博士号を追求し、新しいロンドンのAI研究所でMetaで働いていた当時に発表されました。チームは、LLMのパラメータにより多くの知識を詰め込む方法を探し、それを測定するために開発したベンチマークを使用して進歩を測定していました。
以前の手法を基にし、Googleの研究者の論文に触発されたグループは、「中間に検索インデックスがあるトレーニングされたシステムの魅力的なビジョンを持っていました。したがって、あなたが望む任意のテキスト出力を学習し生成することができる」とLewisは振り返ります。
Lewisが別のMetaチームが進行中の有望な検索システムを接続したとき、最初の結果は予想外に素晴らしかったです。
「私は上司に見せましたが、彼は『うわー、勝利を収めた。こういうのはあまり頻繁に起こらないことだ』と言いました。なぜなら、これらのワークフローは最初に正しくセットアップするのが難しい場合があるからです」と彼は述べています。
Lewisは、ニューヨーク大学のEthan PerezとFacebook AI ResearchのDouwe Kielaも大きな貢献をしました。
NVIDIAのGPUクラスタ上で実行されたこの作業は、生成型AIモデルをより権威ある信頼性のあるものにする方法を示しています。この論文は後に数百の論文で引用され、研究の活発な領域で概念を拡張するとともに、それらを強化しました。
検索増強型生成の仕組み
大まかに言えば、ここでNVIDIAの技術的な概要ではRAGプロセスが説明されています。
ユーザーがLLMに質問すると、AIモデルはクエリを別のモデルに送信し、数値形式に変換して機械が読み取れるようにします。クエリの数値バージョンは、埋め込みまたはベクトルと呼ばれることもあります。
埋め込みモデルは、これらの数値値を利用可能な知識ベースのベクトルと比較します。一致または複数の一致が見つかると、関連するデータを取得し、それを人間が読める言葉に変換してLLMに戻します。
最後に、LLMは取得した単語とクエリへの独自の応答を組み合わせて、ユーザーに提示する最終的な回答を作成します。埋め込みモデルが見つけたソースを引用することもあります。
ソースを最新の状態で保つ
背景では、埋め込みモデルは、新しい知識ベースや更新された知識ベースについて、継続的に機械が読み取れるインデックス(ベクトルデータベースとも呼ばれることがあります)を作成および更新します。
多くの開発者は、LangChainというオープンソースのライブラリが、LLM(Language Model)を連鎖させるのに特に役立つと考えています。また、埋め込みモデルや知識ベースを連結する際にも有用です。NVIDIAは、検索増強型生成のための参照アーキテクチャでLangChainを使用しています。
LangChainコミュニティでは、RAGプロセスの説明を提供しています。
将来的には、生成型AIの未来は、さまざまなLLMや知識ベースを創造的に連鎖させて、ユーザーが検証できる権威ある結果を提供する新しい種類のアシスタントを作り出すことにあります。
このNVIDIA LaunchPad labでは、AIチャットボットを使用した検索増強型生成を体験することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「ストリーミングLLMの紹介 無限長の入力に対するLLM」
- 自分自身のGPTをChatGPTのGPTで作成しましょう!
- 3Dボディモデルに音声が付きました:Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介
- Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです
- 「Amazon Comprehend を使用して有害なコンテンツを検出しましょう」
- ディープマインドのグラフキャストに会いましょう:機械学習による天気予報の飛躍
- このAI論文は、機械学習パイプライン内のさまざまなタイプの漏えいについて包括的な概要と議論を提供しています