Search Results Vector Embeddings

プロンプトエンジニアリング：検索強化生成（RAG）

このブログでは、リトリーバル拡張生成というプロンプトエンジニアリング技術について理解し、Langchain、ChromaDB、GPT 3.5を使って実装します

「Amazon SageMaker 上での LLM を使用した多言語対応の知識型ビデオおよび音声の質疑応答システム」

「デジタルアセットは、ますますデジタル化される世界において、ビジネスにとって製品やサービス、文化、ブランドアイデンティティの重要な視覚的表現ですデジタルアセットは、記録されたユーザーの行動とともに、インタラクティブでパーソナライズされた体験を提供することにより、顧客エンゲージメントを促進し、企業がターゲットオーディエンスとより深い関係を築くことができます特定のデジタルアセットを効率的に見つけたり検索したりすることは、[…]」

「LLMsを使用したEコマース製品検索の強化」

近年、ウェブ検索エンジンは、検索能力を向上させるために、急速に大規模言語モデル（LLM）を取り入れるようになっています最も成功した例の一つはBERTによってパワードされたGoogle検索です...

PythonでのZeroからAdvancedなPromptエンジニアリングをLangchainで

大規模言語モデル（LLM）の重要な要素は、これらのモデルが学習に使用するパラメータの数ですモデルが持つパラメータが多いほど、単語やフレーズの関係をより理解することができますつまり、数十億のパラメータを持つモデルは、さまざまな創造的なテキスト形式を生成し、開放的な質問に回答する能力を持っています

「AIの文の埋め込み、解明された」

このブログ投稿では、コンピュータが文やドキュメントを理解する方法を解説しますこのディスカッションを開始するために、文を表現する最も初期の方法から時間を巻き戻します...

ChatGPTにおけるCSVファイルのクエリパフォーマンス向上

洗練された言語モデル（例：ChatGPT）の出現により、表形式のデータへのクエリの新しい有望なアプローチがもたらされましたしかし、トークンの制限により、クエリを直接実行することができません...

NLPの探求 – NLPのキックスタート（ステップ＃3）

「以下は、特に単語の埋め込みについて、私が週間で学んだいくつかの概念です実際に手を動かして試してみましたので、その一部を近々シリーズとして共有します！ここで、サチン氏に感謝を述べたいと思います...」

「LangChainを使用して、強力な大規模言語モデルを使用してデータフレームをクエリしてください」

「前回の記事では、ChromaDBのようなベクトルデータベースを使って情報を保存し、Hugging FaceのLarge Language Modelsへのクエリにパワフルなプロンプトを作成する方法を説明しました…」

「LangChainとOpenAI APIを使用した生成型AIアプリケーションの構築」

イントロダクション生成AIは、現在の技術の最先端をリードしています。画像生成、テキスト生成、要約、質疑応答ボットなど、生成AIアプリケーションが急速に拡大しています。OpenAIが最近大規模な言語モデルの波を牽引したことで、多くのスタートアップがLLMを使用した革新的なアプリケーションの開発を可能にするツールやフレームワークを開発しました。そのようなツールの一つがLangChainです。LangChainは、LLMによるアプリケーションの構築を可能にする柔軟性と信頼性を備えたフレームワークです。LangChainは、世界中のAI開発者が生成AIアプリケーションを構築するための定番ツールとなっています。LangChainは、外部データソースと市場で利用可能な多くのLLMとの統合も可能にします。また、LLMを利用したアプリケーションは、後で取得するデータを格納するためのベクトルストレージデータベースが必要です。この記事では、OpenAI APIとChromaDBを使用してアプリケーションパイプラインを構築することで、LangChainとその機能について学びます。学習目標： LangChainの基礎を学んで生成AIパイプラインを構築する方法を学ぶオープンソースモデルやChromadbなどのベクトルストレージデータベースを使用したテキスト埋め込み LangChainを使用してOpenAI APIを統合し、LLMをアプリケーションに組み込む方法を学ぶこの記事は、データサイエンスブログマラソンの一環として公開されました。 LangChainの概要 LangChainは、最近大規模言語モデルアプリケーションのための人気のあるフレームワークになりました。LangChainは、LLM、外部データソース、プロンプト、およびユーザーインターフェースとの対話を提供する洗練されたフレームワークを提供しています。 LangChainの価値提案 LangChainの主な価値提案は次のとおりです：コンポーネント：これらは言語モデルで作業するために必要な抽象化です。コンポーネントはモジュール化されており、多くのLLMの使用例に簡単に適用できます。既製のチェーン：特定のタスク（要約、Q&Aなど）を達成するためのさまざまなコンポーネントとモジュールの構造化された組み立てです。プロジェクトの詳細 LangChainはオープンソースプロジェクトであり、ローンチ以来、54K＋のGithubスターを集めています。これは、プロジェクトの人気と受け入れられ方を示しています。プロジェクトのreadmeファイルでは、次のようにフレームワークを説明しています：大規模言語モデル（LLM）は、以前は開発者ができなかったアプリケーションを作成するための変革的な技術として現れつつあります。ただし、これらのLLMを単独で使用するだけでは、本当に強力なアプリを作成するには不十分なことがしばしばあります。真のパワーは、他の計算ソースや知識と組み合わせるときに発揮されます。出典：プロジェクトリポジトリ明らかに、フレームワークの目的を定義し、ユーザーの知識を活用したアプリケーションの開発を支援することを目指しています。 LangChainコンポーネント（出典：ByteByteGo） LangChainには、LLMアプリケーションを構築するための6つの主要なコンポーネントがあります：モデルI/O、データ接続、チェーン、メモリ、エージェント、およびコールバック。このフレームワークは、OpenAI、Huggingface Transformers、Pineconeやchromadbなどのベクトルストアなど、多くのツールとの統合も可能にします。…

「Chroma DBガイド | 生成AI LLMのためのベクトルストア」

イントロダクション GPTやPaLMなどの生成型の大規模言語モデルは、大量のデータで訓練されます。これらのモデルはデータセットからそのままのテキストを取得するのではなく、コンピュータはテキストを理解することができないため、数値のみを理解できます。埋め込みは、テキストを数値形式で表現したものです。大規模言語モデルへの情報の出入りは、すべてこれらの埋め込みを介して行われます。これらの埋め込みに直接アクセスすることは時間がかかります。そのため、効率的なストレージと埋め込みの取得のために特別に設計されたベクトルデータベースと呼ばれるものが存在します。このガイドでは、広く使用されているオープンソースのベクトルストア/データベースであるChroma DBに焦点を当てます。学習目標 ChromaDBと埋め込みモデルを使用した埋め込みの生成 Chromaベクトルストア内でのコレクションの作成ドキュメント、画像、および埋め込みのコレクションへの保存データの削除と更新、コレクションの名前変更などのコレクション操作の実行最後に、関連情報を抽出するためのクエリの実行この記事はData Science Blogathonの一部として公開されました。埋め込みの短い紹介埋め込みまたはベクトル埋め込みは、データ（テキスト、画像、音声、ビデオなど）を数値形式で表現する方法です。正確には、n次元空間（数値ベクトル）内の数値の形式でデータを表現する方法です。この方法により、埋め込みを使用して似たデータをクラスタ化することができます。これらの入力を受け取り、ベクトルに変換するモデルが存在します。その一つの例はWord2Vecです。Googleが開発した人気のある埋め込みモデルで、単語をベクトルに変換します（ベクトルはn次元の点です）。すべての大規模言語モデルは、それぞれの埋め込みモデルを持ち、それらのLLMのための埋め込みを作成します。これらの埋め込みは何に使用されるのですか？単語をベクトルに変換することの利点は、それらを比較できることです。コンピュータは単語をそのまま比較することはできませんが、数値の形式で与えれば、つまりベクトル埋め込みとして与えれば比較できます。似たような埋め込みを持つ単語のクラスタを作成することができます。たとえば、”King”、”Queen”、”Prince”、”Princess”という単語は他の単語と関連しているため、同じクラスタに表示されます。このように、埋め込みを使用することで、与えられた単語に類似した単語を取得することができます。これを文に組み込むこともできます。文を入力し、提供されたデータから関連する文を取得します。これはセマンティックサーチ、文の類似性、異常検出、チャットボットなど、さまざまなユースケースの基盤です。PDFやドキュメントからの質問応答を実行するために構築したチャットボットでは、この埋め込みの概念を利用しています。すべての生成型の大規模言語モデルは、与えられたクエリに類似した内容を取得するためにこのアプローチを使用します。ベクトルストアとその必要性先述のように、埋め込みは数値形式で表現されたデータの表現です。通常、非構造化データをn次元空間で表現します。では、これらをどこに保存するのでしょうか？伝統的なRDMS（リレーショナルデータベース管理システム）では、これらのベクトル埋め込みを保存することはできません。ここでベクトルストア/ベクトルデータベースが登場します。ベクトルデータベースは、ベクトル埋め込みを効率的に保存および取得するために設計されています。さまざまなベクトルストアが存在し、それらはサポートする埋め込みモデルや類似ベクトルを取得するために使用する検索アルゴリズムの種類によって異なります。なぜそれが必要なのでしょうか？それは、必要なデータへの高速なアクセスを提供するためです。PDFに基づいたチャットボットを考えてみましょう。ユーザーがクエリを入力すると、まずはPDFから関連コンテンツを取得し、この情報をチャットボットにフィードする必要があります。そして、チャットボットはこのクエリに関連する情報を取得し、ユーザーに適切な回答を提供するためにこの情報を使用します。では、ユーザーのクエリに関連するPDFから関連コンテンツをどのように取得するのでしょうか？答えは簡単な類似度検索です。データがベクトル埋め込みで表現されると、データの異なる部分間で類似性を見つけ、特定の埋め込みに類似したデータを抽出することができます。クエリはまず埋め込みモデルによって埋め込みに変換され、その後ベクトルストアはこのベクトル埋め込みを受け取り、データベース内に保存されている他の埋め込みとの類似性検索（検索アルゴリズムを介して）を実行し、関連するデータをすべて取得します。これらの関連するベクトル埋め込みは、最終的な回答を生成するチャットボットで使用される大規模言語モデルに渡されます。 Chroma DBとは何ですか？ Chromaは、Chromaという会社が提供するベクトルストア/ベクトルDBです。Chroma…

Learn more about Search Results Vector Embeddings - Page 8