「LLMsにおけるエンタープライズ知識グラフの役割」
「エンタープライズ知識グラフの重要性:LLMsにおける役割」
紹介
大規模言語モデル(LLM)と生成AIは、人工知能と自然言語処理の革新的なブレークスルーを表します。彼らは人間の言語を理解し、生成することができ、テキスト、画像、音声、合成データなどのコンテンツを生成することができるため、さまざまなアプリケーションで非常に柔軟に使用できます。生成AIはコンテンツ作成の自動化や強化、ユーザーエクスペリエンスの個別化、ワークフローの効率化、創造性の促進など、現実世界のアプリケーションで非常に重要な役割を果たしています。この記事では、エンタープライズがオープンLLMと統合できるように、エンタープライズナレッジグラフを効果的にプロンプトに基づいて構築する方法に焦点を当てます。
学習目標
- LLM/Gen-AIシステムと対話しながら、グラウンディングとプロンプトの構築に関する知識を獲得する。
- グラウンディングのエンタープライズへの関連性と、オープンなGen-AIシステムとの統合によるビジネス価値を例を挙げながら理解する。
- 知識グラフとベクトルストアという2つの主要なグラウンディング競争解決策を、さまざまな側面で分析し、どちらがどのような場合に適しているかを理解する。
- パーソナライズされたおすすめの顧客シナリオにおいて、知識グラフ、学習データモデリング、およびグラフモデリングを活用したグラウンディングとプロンプトのサンプルエンタープライズ設計を研究する。
この記事はData Science Blogathonの一環として公開されました。
大規模言語モデルとは何ですか?
大規模言語モデルは、深層学習技術を用いて大量のテキストや非構造化データをトレーニングした高度なAIモデルです。これらのモデルは人間の言語と対話し、人間らしいテキスト、画像、音声を生成し、さまざまな自然言語処理タスクを実行することができます。
- (sekai no toppu 10 no sōsei AI sutātappu)
- サイバー犯罪の推進者’ (Saibā hanzai no suishinsha)
- コンピュータサイエンスにおける包括性のギャップを埋める
一方、言語モデルの定義は、テキストコーパスの分析に基づいて単語のシーケンスに対して確率を割り当てることを指します。言語モデルは、シンプルなn-gramモデルからより洗練されたニューラルネットワークモデルまでさまざまなものがあります。ただし、”大規模言語モデル”という用語は、深層学習技術を使用し、パラメータが数百万から数十億に及ぶモデルを通常指します。これらのモデルは、言語の複雑なパターンを捉え、しばしば人間が書いた文と区別のつかないテキストを生成することができます。
プロンプトとは何ですか?
LLMまたは同様のチャットボットAIシステムへのプロンプトとは、会話やAIとの対話を開始するために提供するテキストベースの入力やメッセージのことです。LLMは柔軟で、さまざまなタスクに使用されるため、プロンプトのコンテキスト、範囲、品質、明瞭さは、LLMシステムから受け取る応答に重要な影響を与えます。
グラウンディング/RAGとは何ですか?
自然言語LLM処理の文脈におけるグラウンディング、またはリトリーバル拡張生成(RAG)は、プロンプトをコンテキスト、追加のメタデータ、および範囲で豊かにすることを指します。これにより、AIシステムは必要な範囲とコンテキストに合わせてデータを理解し、解釈するのに役立ちます。LLMの研究によれば、応答の品質はプロンプトの品質に依存することが示されています。
これはAIの基本的な概念であり、生データと人間の理解と範囲を一致する形でデータを処理および解釈する能力とのギャップを埋める役割を果たします。これにより、AIシステムの品質と信頼性が向上し、正確かつ有用な情報や応答を提供する能力が高まります。
LLMの欠点は何ですか?
GPT-3などの大規模言語モデル(LLM)はさまざまなアプリケーションで注目と利用が進んでいますが、いくつかの欠点も存在します。LLMの主な欠点には以下があります:
1. バイアスと公平性:LLMはしばしば訓練データからバイアスを引き継ぎます。これにより、バイアスを持ったまたは差別的なコンテンツの生成が生じ、有害なステレオタイプを強化し、既存のバイアスを固定化する可能性があります。
2. 幻覚: LLMは自分が生成する内容を真に理解していません。彼らはトレーニングデータのパターンに基づいてテキストを生成します。そのため、彼らは事実に反する情報や意味をなさない情報を生成することがあり、医療診断や法的アドバイスなどの重要なアプリケーションには適していません。
3. 計算リソース: LLMのトレーニングと実行には莫大な計算リソースが必要であり、GPUやTPUなどの特殊なハードウェアが必要です。これにより、LLMの開発と維持には高額な費用がかかります。
4. データプライバシーとセキュリティ: LLMはテキスト、画像、音声などの説得力のある偽のコンテンツを生成することができます。これにより、データのプライバシーとセキュリティが危険にさらされ、詐欺的なコンテンツの作成や個人のなりすましが行われる可能性があります。
5. 倫理的な懸念: ディープフェイクや自動生成コンテンツなど、さまざまなアプリケーションでLLMを使用することは、その悪用の可能性や社会への影響について倫理的な問題を提起します。
6. 規制上の課題: LLM技術の急速な発展は規制の枠組みを上回っており、LLMに関連する潜在的なリスクや課題に適切なガイドラインや規制を確立することが困難です。
これらのデメリットの多くはLLMに固有のものではなく、むしろ彼らの開発、展開、使用方法を反映しています。これらの欠点を軽減し、LLMをより責任あるものにし、社会にとって有益なものにするための取り組みが進められています。エンタープライズにとって、グラウンディングとマスキングを活用することは非常に重要な要素です。
グラウンディングのエンタープライズへの重要性
エンタープライズは、Large Language Models (LLMs) をミッションクリティカルなアプリケーションに導入することを目指します。彼らはLLMsがさまざまな領域でもたらす潜在的な価値を理解しています。LLMsをビルドし、事前学習および微調整することは非常に高価で手間のかかる作業です。それよりも、市場で利用可能なオープンAIシステムを使用してエンタープライズのユースケースにグラウンディングとマスキングを施すことができます。
したがって、グラウンディングはエンタープライズにとって主要な考慮事項であり、応答品質の向上だけでなく、幻覚やデータセキュリティ、コンプライアンスに対する懸念を克服するのに役立ちます。市場で提供されているオープンLLMから驚異的なビジネス価値を生み出すことができます。
**** エンタープライズへの利点
グラウンディングをLLMと組み合わせて実装することには、エンタープライズにとっていくつかの利点があります:
1. 信頼性の向上: LLMが生成する情報やコンテンツが検証済みのデータソースに基づいていることを保証することで、エンタープライズはコミュニケーション、レポート、コンテンツの信頼性を向上させることができます。これにより、顧客、クライアント、ステークホルダーとの信頼関係を築くことができます。
2. 意思決定の改善: データ分析や意思決定支援に関連するエンタープライズアプリケーションでは、データをグラウンディングしたLLMの使用により、より信頼性のある洞察が提供されます。これにより、戦略計画とビジネスの成長のために必要なよりよい判断を下すことができます。
3. 規制の遵守: 多くの業界はデータの正確性と規制の要件に従う必要があります。データのグラウンディングをLLMと組み合わせることで、これらの規制基準を満たすことができます。これにより、法的または規制上の問題のリスクを軽減することができます。
4. 質の高いコンテンツ生成: LLMはマーケティング、顧客サポート、製品説明などのコンテンツ作成によく使用されます。データのグラウンディングにより、生成されるコンテンツが事実に基づいていることが保証され、虚偽や誤った情報、幻覚の拡散のリスクが減少します。
5. 誤情報の削減: フェイクニュースや誤情報の時代において、データのグラウンディングは企業が検証済みのデータソースに基づいて生成または共有するコンテンツによって、誤った情報の拡散に対抗することを助けることができます。
6. 顧客満足度: 正確で信頼性の高い情報を顧客に提供することは、企業の製品やサービスに対する顧客の満足度と信頼度を高めることができます。
7. リスク軽減: データのグラウンディングは、不正確または不完全な情報に基づいて意思決定するリスクを軽減するのに役立ちます。これにより、財務上または評判上の損害を引き起こすリスクが軽減されます。
例: 顧客向け商品推薦シナリオ
データのグラウンディングが企業のユースケースでどのように役立つかを、openAI chatGPTを使用した例で見てみましょう。
基本的なプロンプト
お客様に推奨製品のクーポンを追加した短いメールを生成してください
ChatGPTによって生成されるレスポンスは非常に一般的で、文脈に関係なく生のままです。これは手動で更新/マッピングする必要があり、それにはコストがかかります。データの接地技術を使用してこれを自動化する方法について見てみましょう。
例えば、エンタープライズは既にエンタープライズの顧客データと、顧客に対してクーポンと推薦を生成できるインテリジェントな推薦システムを持っているとしましょう。上記のプロンプトを正しいメタデータで豊かにすることで、ChatGPTから生成される電子メールのテキストは望むものとまったく同じになり、手動の介入なしで顧客にメールを送信するために自動化できます。
接地エンジンが顧客データから正しい豊富なメタデータを取得し、以下のプロンプトを更新すると仮定しましょう。接地されたプロンプトに対するChatGPTの応答がどのようなものになるか見てみましょう。
接地されたプロンプト
以下のクーポンと商品を顧客テイラーに追加し、チームAatagonaからハッピーホリデーシーズンのご挨拶をしましょう。Aatagona.comからのWinter Jacket Mens - [https://atagona.com/men/winter/jackets/123.html] - 20% offRodeo Beanie Men’s - [https://atagona.com/men/winter/beanies/1234.html] - 15% offの割引クーポンをご利用ください。
接地プロンプトによって生成されたレスポンスは、企業が顧客に通知したいと望む方法とまったく同じです。豊かな顧客データをGen AIの電子メール応答に埋め込むことは、企業の拡大と持続にとって非常に注目に値する自動化です。
ソフトウェアシステム向けのエンタープライズLLM接地ソリューション
エンタープライズシステムのデータを接地するための複数の方法があり、これらの技術を組み合わせることで、特定のユースケースに対する効果的なデータ接地とプロンプト生成を行うことができます。検索促進型生成(接地)を実装するための主要な解決策としては、次の2つがあります。
- アプリケーションデータ|ナレッジグラフ
- ベクトル埋め込みとセマンティック検索
これらの解決策の使用は、ユースケースと適用する接地によって異なります。例えば、ベクトルストアによって提供される応答は不正確であいまいな場合がありますが、ナレッジグラフは正確で、人が読みやすい形式で保存されます。
上記に加えて、以下の戦略が重ねて適用される可能性があります。
- 外部API、検索エンジンへのリンク
- データマスキングとコンプライアンス対応システム
- 内部データストア、システムとの統合
- 複数のソースからのリアルタイム統一データ
このブログでは、エンタープライズアプリケーションデータグラフで実現できるサンプルソフトウェア設計を見てみましょう。
エンタープライズ知識グラフ
知識グラフは、さまざまなエンティティとそれらの関係の意味情報を表現することができます。エンタープライズの世界では、顧客や製品などの知識を格納します。エンタープライズの顧客グラフは、データを効果的に接地し、豊かなプロンプトを生成する強力なツールとなります。知識グラフは、グラフベースの検索を可能にし、ユーザーがリンクされた概念やエンティティを通じて情報を探索できるため、より正確かつ多様な検索結果につながることがあります。
ベクトルデータベースとの比較
接地のための解決策の選択は、ユースケースに依存します。ただし、グラフにはベクトルに比べて複数の利点があります。たとえば、ベクトルストアによる応答は不正確であいまいな場合がありますが、ナレッジグラフは正確であり、人が読みやすい形式で保存されます。
高レベルデザイン
ナレッジグラフとオープンLLMを使用するエンタープライズでシステムがどのように見えるかを、非常に高レベルで見てみましょう。
ベースレイヤーには、エンタープライズの顧客データとメタデータが、さまざまなデータベースやデータウェアハウス、データレイクに分散して格納されます。このデータからデータナレッジグラフを構築し、グラフデータベースに保存するサービスがあるかもしれません。これらのデータストアに対話するエンタープライズサービス|マイクロサービスが、分散クラウドネイティブの世界で存在する場合があります。これらのサービスの上には、基盤となるインフラを活用するさまざまなアプリケーションが存在するかもしれません。
アプリケーションは、シナリオやインテリジェントな自動顧客フローにAIを組み込むための様々なユースケースを持つことができます。これには内部および外部のAIシステムとの対話が必要です。生成ベースのAIシナリオの場合、例えば、企業がホリデーシーズン中にパーソナライズされたおすすめ商品に割引を提供するための電子メールを顧客に送りたいとします。これは、AIをより効果的に活用するために、一流の自動化を利用して達成することができます。
ワークフロー
- 電子メールを送信したいワークフローは、顧客コンテキストに基づいたデータと共に基盤となるGen-AIシステムの助けを借りることができます。
- ワークフローアプリケーションは、GenAIシステムを活用して電子メールのテキストを取得するためにバックエンドサービスにリクエストを送信します。
- バックエンドサービスは、プロンプト生成サービスにサービスをルーティングし、それがグラウンディングエンジンにルーティングします。
- グラウンディングエンジンは、サービスの1つで顧客のメタデータを全て取得し、顧客データの知識グラフを取得します。
- グラウンディングエンジンは、グラフをノードと関係性を横断し、必要な最終情報を抽出してプロンプト生成サービスに送り返します。
- プロンプト生成サービスは、ユースケース用の既存のテンプレートとグラウンディングされたデータを追加し、企業が統合する選択したオープンAIシステム(例:OpenAI/Cohere)にグラウンディングされたプロンプトを送信します。
- Open GenAIシステムは、より関連性の高いコンテキストを持つ応答をエンタープライズに返し、電子メールで顧客に送信されます。
これを2つのパートに分けて詳細に説明しましょう。
1. 顧客知識グラフの生成
以下のデザインは、上記の例に合うものであり、要件に応じて様々な方法でモデリングできます。
データモデリング:ノードと関係性の形でモデル化されたさまざまなテーブルを持つと仮定します。この例では、以下が必要です
- 顧客データを保持するテーブル
- 商品データを保持するテーブル
- パーソナライズされたおすすめのための顧客のクリックデータを保持するテーブル
- 商品割引データを保持するテーブル
効果的に顧客に届けるために、エンタープライズは複数のデータソースからこれらのデータを取り込み、定期的に更新する責任があります。
これらのテーブルがどのようにモデル化され、顧客グラフに変換されるかを見てみましょう。
2. グラフモデリング
上記のグラフビューアからは、顧客ノードがクリックエンゲージメントデータに基づいてさまざまな商品と関連しており、さらに割引ノードにつながっていることがわかります。グラウンディングサービスは、これらの顧客グラフをクエリし、関係性を介してノードをトラバースし、対応する顧客に適用される割引情報を取得するのは容易です。
上記の場合、グラフノードとリレーションシップのJAVA POJOsは次のようになります
public class KnowledgeGraphNode implements Serializable { private final GraphNodeType graphNodeType; private final GraphNode nodeMetadata;}public interface GraphNode {}public class CustomerGraphNode implements GraphNode { private final String name; private final String customerId; private final String phone; private final String emailId;}public class ClicksGraphNode implements GraphNode { private final String customerId; private final int clicksCount;}public class ProductGraphNode implements GraphNode { private final String productId; private final String name; private final String category; private final String description; private final int price;}public class ProductDiscountNode implements GraphNode { private final String discountCouponId; private final int clicksCount; private final String category; private final int discountPercent; private final DateTime startDate; private final DateTime endDate;}
public class KnowledgeGraphRelationship implements Serializable { private final RelationshipCardinality cardinality;}public enum RelationshipCardinality { ONE_TO_ONE, ONE_TO_MANY}
このシナリオでは、サンプルの生のグラフは以下のようになります。
顧客のノード「Taylor Williams」からグラフをトラバースすることで、問題を解決し、適切な製品の推薦と割引を取得することができます。
3. 産業における人気のあるグラフストア
市場には、企業のアーキテクチャに適した多くのグラフストアがあります。Neo4j、TigerGraph、Amazon Neptune、OrientDBは、グラフデータベースとして広く採用されています。
この記事では、新しいグラフデータレイクのパラダイムを紹介します。これにより、湖、データウェアハウス、およびレイクハウスのタブularデータ(構造化データ)でグラフクエリを実行できるようになります。これは、以下の新しいソリューションを利用して、グラフデータストアのデータを水分補給または永続化する必要なく実現されます(Zero-ETLを活用)。
- PuppyGraph(グラフデータレイク)
- Timbr.ai
コンプライアンスと倫理的な考慮事項
データ保護: GDPRおよびその他の個人情報保護法に従って、企業は顧客データの保存と使用に責任を持つ必要があります。データの保存は処理および洗浄の前に管理され、再利用および洞察やAIの適用のために行われる必要があります。
幻覚と調停: 企業は、データ内の誤情報を特定し、クエリの経路を遡って修正する調停サービスを追加することもできます。これにより、LLMの精度を向上させることができます。知識グラフでは、格納されているデータが透明で人間が読めるため、比較的簡単に実現できるはずです。
制限的な保持ポリシー:データ保護を遵守し、オープンなLLMシステムとのやり取り中に顧客データの誤用を防ぐために、追加の分析やビジネス目的のために要求されたプロンプトデータを保持しないゼロ保持ポリシーを持つことが非常に重要です。
結論
結論として、大規模言語モデル(LLM)は人工知能と自然言語処理の驚くべき進歩を表しています。自然言語の理解と生成から複雑なタスクの支援まで、さまざまな産業とアプリケーションを変革することができます。ただし、LLMの成功と責任ある使用には、さまざまな重要な分野における堅固な基盤が必要です。
重要事項
- 企業は、さまざまなシナリオでLLMを効果的に適用するための堅固な根拠とプロンプトを活用することで大きな利益を得ることができます。
- ナレッジグラフとベクトルストアは人気のあるグラウンディングソリューションであり、選択は解決策の目的によります。
- ナレッジグラフは、追加のセキュリティとコンプライアンスレイヤーを追加することなく、より正確かつ信頼性の高い情報を提供するため、エンタープライズのユースケースに優位性をもたらします。
- 従来のデータモデリングをエンティティと関係で行ったものを、ノードとエッジを持つ知識グラフに変換します。
- エンタープライズナレッジグラフを既存のビッグデータストレージエンタープライズのさまざまなデータソースと統合します。
- ナレッジグラフは、分析クエリに理想的です。グラフデータレイクを使用することで、タブularデータをエンタープライズデータストレージ内のグラフとしてクエリすることができます。
よくある質問
この記事に表示されているメディアはAnalytics Vidhyaが所有しておらず、著者の裁量によって使用されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles