「エンタープライズAIの処理のための表現能力を向上させる鍵は、RAG + ファインチューニングです以下にその理由を説明します」

エンタープライズAIの性能向上の鍵はRAG + ファインチューニング!その理由を解説します

LLM(Large Language Models)の周りのブームは前例のないものですが、それには十分な根拠があります。AIが生成したバレンシアガの全身コーディネートのポープ像鼓動のないカスタマーサポートエージェントなどを見ると、生成AIは私たちが知る社会を変革する潜在能力を持っています。

そして、LLMによってデータエンジニアがますます貴重な存在になることは、興奮するものです!

それでも、上司にデータ探索ツールやテキストからSQLへの変換器のクールなデモを見せることは一つのことですが、自社独自のデータ、さらには顧客データと一緒に使用することは別の話です。

多くの企業が、自社の実験の財務と組織への影響を十分に見越さずにAIアプリケーションの構築に取り組むことは珍しくありません。その原因は彼らにあるわけではありません- 新しい技術全般に関して、経営陣や役員が「急いで進んで行け」という考え方の背後に立っています(NFTを覚えていますか?)。

AI-特に生成AI-が成功するためには、一歩下がって任意のソフトウェアがエンタープライズ対応になるためにはどのようになるべきかを思い起こす必要があります。そこに到達するためには、他の業界からヒントを得ることでエンタープライズの対応性がどのようなものかを理解し、これらの原則を生成AIに適用することができます。

私の意見では、エンタープライズ対応の生成AIは次の要素を備えている必要があります:

  • 安全性とプライバシー: AIアプリケーションは、データの安全性、プライバシー、規制準拠を確保する必要があります。アクセス制御を適切に行うことを考えましょう。セキュリティオペレーション(SecOps)と同じ感覚です。

  • スケーラブル: AIアプリケーションは、展開、使用、アップグレードが容易であり、費用対効果が高い必要があります。数ヶ月かかるようなデータアプリケーション、使いづらいもの、他に問題を引き起こさないアップグレードが不可能なものを購入または構築しないでしょう。AIアプリケーションに対しても同じように対応するべきです。

  • 信頼性がある: AIアプリケーションは、十分に信頼性があり、一貫性がある必要があります。信頼性の低いコードを生成するか、不十分で誤解を招く洞察を生み出す製品を購入または構築しようとするCTOはなかなか見つかりません。

これらのガードレールを念頭に置いた上で、生成AIにそれにふさわしい注意を払う時が来ました。しかし、それは簡単ではありません…

なぜエンタープライズAIの達成は困難なのか?

単純に言えば、LLMアプリケーションをスケール、安全、運用するための基盤はまだ整っていません。

ほとんどのアプリケーションとは異なり、AIは非常にブラックボックスです。私たちは入力するもの(生の、通常は非構造化のデータ)がわかりますし、そこから得られる結果もわかりますが、それがどのように生まれたのかはわかりません。そして、それをスケール、安全、運用することは困難です。

例えば、GPT-4を取ってみましょう。GPT-4は、一部のタスク(SATやAP Calculus AB試験など)ではGPT 3.5を圧倒しましたが、一部の出力は幻想に満ちたものであり、これらのタスクを適切に達成するためには必要なコンテキストが欠けていました。幻覚は、固定化の悪い埋め込みや知識の切り捨てなど、さまざまな要素によって引き起こされ、一般に公開されているまたはインターネットからスクレイピングした情報でトレーニングされたオープンなLLMモデルで生成される応答の品質に頻繁に影響を及ぼします。

幻覚を減らし、さらに重要なビジネスの質問に答えるためには、企業は独自のプロプライエタリデータを用いてLLMを拡張する必要があります。これには必要なビジネスの文脈を含みます。例えば、顧客が航空会社のチャットボットにチケットのキャンセルを依頼する場合、モデルは顧客に関する情報、過去の取引に関する情報、キャンセルポリシーに関する情報、および他の情報が必要です。これらは現在、データベースやデータウェアハウスに存在しています。

その文脈がなければ、AIは元々トレーニングに使用されたインターネット上に公開されている一般的な情報で推論することしかできません。ここに問題があります-企業のプロプライエタリデータを露出し、ビジネスワークフローや顧客体験に組み込むということは、常に堅固なセキュリティ、スケーラビリティ、信頼性が必要とされるということです。

エンタープライズ対応のAIには2つの手法があります:RAGとFine Tuning

AIをエンタープライズ対応にする際、最も重要な部分はLLM開発プロセスの最後にあります:retrieval augmented generation(RAG)およびfine tuningです。retrieval augmented generation(RAG)およびfine tuningは、相互排他的なアプローチではなく、特定のニーズとユースケースに基づいてレバレッジされるべきです。

RAGを使用する場合

画像提供:著者

RAGは、モデルがプロンプトに回答しようとする際にデータベースへのアクセスを提供し、LLMの出力品質を向上させるフレームワークです。データベースはキュレーションされた信頼できるプロプライエタリデータの一部であり、モデルは最新かつ信頼性のある情報を応答と推論に組み込むことができます。このアプローチは、顧客サポートの応答(フライトキャンセルの例など)や企業のコミュニケーションプラットフォームでの意味検索など、追加の文脈情報を必要とするAIアプリケーションに最適です。

RAGアプリケーションは、応答を生成する前にナレッジソースから関連情報を取得するように設計されており、ベクトルデータベースやフィーチャーストアなどの構造化および非構造化データソースのクエリに適しています。出力生成時のLLMの正確性と信頼性を向上させるために情報を取得することにより、RAGは幻覚を減らすだけでなく、トレーニングコストを抑えるのに非常に効果的です。RAGはまた、モデルが新しい応答を生成するためにパイプにデータを送る元データのソースを知ることができるため、チームに透明性を提供します。

RAGアーキテクチャについて注意すべき点は、パフォーマンスがエンタープライズデータをAIモデルに利用可能にする効果的なデータパイプラインの構築能力に大きく依存することです。

画像提供:著者

Fine tuningは、既存のLLMをタスクに特化したラベル付きの小さなデータセットでトレーニングし、この新しいデータに基づいてモデルのパラメータと埋め込みを調整するプロセスです。 Fine tuningは情報検索だけでなく、ドメインのニュアンスや用語にも情報提供をする事前キュレーションデータセットに依存しています。

私たちの経験から、fine tuningは法的な書面や顧客サポートチケットなど、ドメイン固有の状況に最適です。また、情報の偏りや言語の繰り返しや矛盾といった制約を克服するのにも適しています。過去の研究では、fine-tunedモデルがGPT-3や他のパブリックモデルよりも有意に優れたパフォーマンスを示すことが示されています。多くのユースケースでは、大規模な汎用モデルよりも小規模なfine-tunedモデルの方が優れていることが確立されており、コスト効率化のための合理的な手法となっています。

RAGとは異なり、fine tuningはより少ないデータを必要としますが、それにはより多くの時間と計算リソースが必要です。さらに、fine tuningはブラックボックスのように動作するため、新しい応答の根拠を特定することは困難であり、幻覚も重要な懸念事項となります。

RAGアーキテクチャと同様に、fine tuningには(ラベル付きの)エンタープライズデータをfine tuningプロセスで利用可能にする効果的なデータパイプラインの構築が必要です。

なぜRAGがおそらくチームに適しているのか

RAGとfine tuningは相互排他的なアプローチではなく、異なる強みと弱点を持ち、一緒に使用することができます。ただし、ほとんどのユースケースでは、エンタープライズの生成型AIアプリケーションを提供する際には、RAGが最も適している可能性が高いです。

以下の理由により、RAGが最も適していると言えます:

  • RAGのセキュリティとプライバシーは管理しやすい:データベースには組み込みの役割とセキュリティがあり、AIモデルとは異なり、誰が何を見るかは標準のアクセス制御によってかなり理解されています。さらに、セキュアかつプライベートな所有データのコーパスにアクセスすることで、使用するデータをより制御できます。一方、fine tuningでは、トレーニングセットに含まれるデータはアプリケーションのすべてのユーザに公開されるため、誰が何を見るかを管理する明確な方法はありません。多くの実践的なシナリオでは、特に顧客データに関しては、そのような制御が不可欠です。

  • RAGはスケーラブル性に優れています:fine tuningよりもRAGの方が費用が安く、後者は大規模なモデルのすべてのパラメータを更新し、広範な計算パワーが必要です。さらに、RAGはラベリングやトレーニングセットの作成などの人手を必要とするプロセスがなく、モデルごとに数週間から数か月かかる可能性のある時間がかかります。

  • RAGはより信頼性のある結果を提供します:RAGは、最新のデータセットから構成されたキュレーションデータセットから確定的な結果を生成するため、動的なデータに適しています。一方、fine tuningはブラックボックスのように動作するため、モデルが特定の結果を生成する理由を特定することは困難であり、信頼性と透明性が低下します。また、fine tuningでは幻覚や不正確さが発生する可能性があります。ビジネス情報を損失のある方法でモデルの重みにエンコードするためです。

私の謙虚な意見では、エンタープライズ対応のAIは主にRAGに頼ることになるでしょう。微調整はより微妙なケースや特定のドメインに関わる場合に関与します。ほとんどのアプリケーションにとって、微調整はニッチなシナリオでの必須ではなく、業界がAIを大規模に実行するために必要なコストとリソースを減らせるようになってから、より頻繁に活用されるでしょう。

しかし、どちらを使うにせよ、AIアプリケーション開発にはパイプラインが必要です。これらのモデルに企業データを供給するためのパイプラインは、SnowflakeやDatabricksなどのデータストア、Pineconeのようなスタンドアロンのベクターデータベース、または他の何かによって提供されます。結局のところ、生成AIが非構造化データから分析や洞察を抽出するための内部プロセスで使用されるなら、それはデータパイプラインの中で使用されることになります。

RAGを使用するにはデータの可観測性が必要です

画像:Zach Wilson氏(LinkedIn)より提供

2010年代初頭、機械学習は、その特徴に完璧な重みを与えれば、命令に従って奇跡を起こす魔法のアルゴリズムだと謳われました。しかし、通常、MLのパフォーマンスが改善されるのは、高品質の特徴と特にデータの品質への投資です。

同様に、エンタープライズAIが機能するためには、生成モデルが依存するデータの品質と信頼性に焦点を当てる必要があります。これはRAGアーキテクチャを通じて行われるでしょう。

RAGは動的なデータ(時には最新のデータ)に依存しているため、エンタープライズ対応の期待に応えるためにはデータの可観測性が必要です。データは、第三者のデータの書式設定の誤り、変換コードの不具合、またはAirflowジョブの失敗など、さまざまな理由で壊れる可能性があります。そしてそれは常に起こります。

データの可観測性により、チームはデータエコシステム全体にわたってスケーラブルかつ自動化された方法でデータやパイプラインの問題を監視、アラート、トライアージ、解決する能力を得ることができます。数年間、これは現代のデータスタックにおける必須のレイヤーでした。RAGの重要性が高まり、AIが成熟するにつれて、可観測性はLLM開発において重要なパートナーとなるでしょう。

RAG – そしてエンタープライズAI – が機能する唯一の方法は、データに信頼できることです。チームは、データの信頼性を確保するためにスケーラブルで自動化された方法が必要です。また、問題の原因を特定し、迅速に解決するためのエンタープライズグレードの手段も必要です。なぜなら、それがLLMへの影響を与える前に。

では、デファクトのLLMスタックとは何か?

AIツールのインフラと技術的なロードマップは現在進行中であり、さまざまな問題を解決するために毎日新しいスタートアップが登場し、業界の巨人たちもこの課題に取り組んでいると主張しています。エンタープライズデータをAIに組み込む際、私はこの競争において3つの主要な選択肢があると考えています。

最初の選択肢は、ベクターデータベースです。PineconeやWeaviateなどは、RAGアーキテクチャを駆動するための必須のデータベースプラットフォームとして名を馳せています。これらのテクノロジーは非常に有望ですが、セキュリティ、スケーラビリティ、信頼性の観点から、新しいスタックの一部を立ち上げ、それをサポートするワークフローを作成する必要があります。

二番目の選択肢は、OpenAIやAnthropicなどのサードパーティLLM開発者が作成したモデルのホステッドバージョンです。現在、ほとんどのチームは、これら台頭するAIリーダーのAPIを介して生成AIを利用しています。OpenAIのAPIに接続し、数分で最先端のモデルを活用することができます。コードを生成したり、パブリック情報に基づいてよく知られた非特定のプロンプトを解決したりする場合、この方法は非常に便利です。これらのモデルに専有情報を組み込みたい場合は、これらのプラットフォームが提供する組み込みの微調整やRAG機能を使用できます。

そして最後に、三番目の選択肢は現代のデータスタックです。SnowflakeやDatabricksは、既存のワークフローに既に格納および処理されているデータをLLMに組み込むためのベクターデータベースおよび他のツールをプラットフォームに組み込むことを発表しています。これは多くの場合に非常に合理的であり、AIイニシアティブを担当するデータチームが既に使用しているツールを利用できるようにします。基盤を築いているのに、車輪を再発明する必要はありません。従来の関係データとベクターデータを簡単に結合できる可能性もあります。前述の他の2つの選択肢と同様に、この手法にはいくつかの欠点もあります。Snowflake Cortex、Lakehouse AI、およびその他のMDS + AI製品は新興であり、ベクターサーチやモデルトレーニングを既存のワークフローに組み込むための前向きな投資が必要です。この手法の詳細については、Meltanoの関連記事をご覧ください。

どのような馬を選んでも、インターネット上のデータで訓練されたモデルで貴重なビジネスの問いに答えることはできません。企業内の文脈を持つ必要があります。そして、この文脈を安全かつスケーラブルで信頼できる方法で提供することにより、エンタープライズ対応のAIを実現することができます。

エンタープライズAIの未来はあなたのパイプラインにあります

AIがこのポテンシャルに応えるためには、データとAIチームがLLMの増強を適切に扱い、セキュリティ、スケーラビリティ、信頼性を第一に考える必要があります。RAGやファインチューニングのいずれかを必要とする場合でも、データスタックの基盤が整っていることを確保する必要があります。これにより、コストを低くし、パフォーマンスを一貫させ、信頼性を高めることができます。

データは安全かつプライベートである必要があり、LLMの展開はスケーラブルである必要があります。そして、結果は信頼できるものである必要があります。データ品質を見守ることで、これらの要求を満たすことが重要です。

シーロートXのデモからエンタープライズ対応のAIへの進化の最良の部分は何でしょうか? RAGはデータエンジニアにとって、生成型AIへの投資の所有とROIの推進において最良のポジションを提供します。

私はエンタープライズ対応のAIに準備ができています。あなたは準備はいいですか?

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more