Search Results ベクトルストア

「Chroma DBガイド | 生成AI LLMのためのベクトルストア」

イントロダクション GPTやPaLMなどの生成型の大規模言語モデルは、大量のデータで訓練されます。これらのモデルはデータセットからそのままのテキストを取得するのではなく、コンピュータはテキストを理解することができないため、数値のみを理解できます。埋め込みは、テキストを数値形式で表現したものです。大規模言語モデルへの情報の出入りは、すべてこれらの埋め込みを介して行われます。これらの埋め込みに直接アクセスすることは時間がかかります。そのため、効率的なストレージと埋め込みの取得のために特別に設計されたベクトルデータベースと呼ばれるものが存在します。このガイドでは、広く使用されているオープンソースのベクトルストア/データベースであるChroma DBに焦点を当てます。学習目標 ChromaDBと埋め込みモデルを使用した埋め込みの生成 Chromaベクトルストア内でのコレクションの作成ドキュメント、画像、および埋め込みのコレクションへの保存データの削除と更新、コレクションの名前変更などのコレクション操作の実行最後に、関連情報を抽出するためのクエリの実行この記事はData Science Blogathonの一部として公開されました。埋め込みの短い紹介埋め込みまたはベクトル埋め込みは、データ（テキスト、画像、音声、ビデオなど）を数値形式で表現する方法です。正確には、n次元空間（数値ベクトル）内の数値の形式でデータを表現する方法です。この方法により、埋め込みを使用して似たデータをクラスタ化することができます。これらの入力を受け取り、ベクトルに変換するモデルが存在します。その一つの例はWord2Vecです。Googleが開発した人気のある埋め込みモデルで、単語をベクトルに変換します（ベクトルはn次元の点です）。すべての大規模言語モデルは、それぞれの埋め込みモデルを持ち、それらのLLMのための埋め込みを作成します。これらの埋め込みは何に使用されるのですか？単語をベクトルに変換することの利点は、それらを比較できることです。コンピュータは単語をそのまま比較することはできませんが、数値の形式で与えれば、つまりベクトル埋め込みとして与えれば比較できます。似たような埋め込みを持つ単語のクラスタを作成することができます。たとえば、”King”、”Queen”、”Prince”、”Princess”という単語は他の単語と関連しているため、同じクラスタに表示されます。このように、埋め込みを使用することで、与えられた単語に類似した単語を取得することができます。これを文に組み込むこともできます。文を入力し、提供されたデータから関連する文を取得します。これはセマンティックサーチ、文の類似性、異常検出、チャットボットなど、さまざまなユースケースの基盤です。PDFやドキュメントからの質問応答を実行するために構築したチャットボットでは、この埋め込みの概念を利用しています。すべての生成型の大規模言語モデルは、与えられたクエリに類似した内容を取得するためにこのアプローチを使用します。ベクトルストアとその必要性先述のように、埋め込みは数値形式で表現されたデータの表現です。通常、非構造化データをn次元空間で表現します。では、これらをどこに保存するのでしょうか？伝統的なRDMS（リレーショナルデータベース管理システム）では、これらのベクトル埋め込みを保存することはできません。ここでベクトルストア/ベクトルデータベースが登場します。ベクトルデータベースは、ベクトル埋め込みを効率的に保存および取得するために設計されています。さまざまなベクトルストアが存在し、それらはサポートする埋め込みモデルや類似ベクトルを取得するために使用する検索アルゴリズムの種類によって異なります。なぜそれが必要なのでしょうか？それは、必要なデータへの高速なアクセスを提供するためです。PDFに基づいたチャットボットを考えてみましょう。ユーザーがクエリを入力すると、まずはPDFから関連コンテンツを取得し、この情報をチャットボットにフィードする必要があります。そして、チャットボットはこのクエリに関連する情報を取得し、ユーザーに適切な回答を提供するためにこの情報を使用します。では、ユーザーのクエリに関連するPDFから関連コンテンツをどのように取得するのでしょうか？答えは簡単な類似度検索です。データがベクトル埋め込みで表現されると、データの異なる部分間で類似性を見つけ、特定の埋め込みに類似したデータを抽出することができます。クエリはまず埋め込みモデルによって埋め込みに変換され、その後ベクトルストアはこのベクトル埋め込みを受け取り、データベース内に保存されている他の埋め込みとの類似性検索（検索アルゴリズムを介して）を実行し、関連するデータをすべて取得します。これらの関連するベクトル埋め込みは、最終的な回答を生成するチャットボットで使用される大規模言語モデルに渡されます。 Chroma DBとは何ですか？ Chromaは、Chromaという会社が提供するベクトルストア/ベクトルDBです。Chroma…

高度なRAGテクニック：イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず、参照のみ行い、それについては放置します

「Langchainの使い方：ステップバイステップガイド」

LangChain（ラングチェーン）は、プログラマーが大きな言語モデルを使用してアプリケーションを開発するための人工知能フレームワークです。LangChainの使用方法について詳しく見ていきましょう。ステップ1：セットアップ LangChainを始める前に、適切に構成された開発環境があることを確認してください。PythonまたはJavaScriptなどの必要な依存関係をインストールしてください。LangChainは両方の言語に対応しており、開発者に柔軟性を提供します。 pip install langchain conda install langchain -c conda-forge ステップ2： LLM（Language Models） LangChainを効果的に使用するためには、モデルプロバイダーやデータストア、APIなどのさまざまなコンポーネントと統合することがしばしば必要です。ここでは、LangChainをOpenAIのモデルAPIと統合します。また、Hugging Faceを使用しても同様に行うことができます。 !pip install openaiimport osos.environ["OPENAI_API_KEY"] ="YOUR_OPENAI_TOKEN" from langchain.llms…

「AGIに向かって：LLMと基礎モデルが人生の学びの革命で果たす役割」

過去10年間、特にディープラーニングの成功を受けて、人工汎用知能（AGI）の構築の可能性について議論が続いています最終目標は...

すべての開発者が知るべき6つの生成AIフレームワークとツール

この記事では、トップのジェネラティブAIフレームワークとツールについて探求しますあなたの想像力を解き放ち、ジェネラティブAIの可能性を探究するために必要なリソースを発見してください

LangChainの発見：ドキュメントとのチャット、チャットボット翻訳、ウィキペディアとのチャット、合成データ生成

「ジェネラティブAIの世界の成長は、重要なPythonライブラリであるLangChainのおかげで可能になっています興味も最近の数ヶ月間で増しており、次のチャートで示されています」

「Langchainを利用した半構造化データのためのRAGパイプラインの構築」

イントロダクション Retrieval Augmented Generation（RAG）は長い間存在しています。この概念を基にしたツールやアプリケーションが多数開発されており、ベクトルストア、検索フレームワーク、LLMなどがあり、カスタムドキュメント、特にLangchainを使用した半構造化データとの作業が容易で楽しくなっています。長くて密度のあるテキストとの作業はこれまでになく簡単で楽しいものとなりました。従来のRAGはDOC、PDFなどのドキュメントやファイル形式の非構造化テキストにはうまく対応していますが、PDFの埋め込みテーブルなどの半構造化データには対応していません。半構造化データとの作業時には通常2つの問題が生じます。従来の抽出およびテキスト分割方法ではPDFのテーブルを考慮していません。通常、テーブルが分割されてしまい、情報が失われます。テーブルの埋め込みは正確な意味ベースの検索には適さない場合があります。そのため、本記事ではLangchainを使用して半構造化データ用の検索生成パイプラインを構築し、これらの2つの問題に対処します。学習目標構造化、非構造化、半構造化データの違いを理解する。 RAGとLangchainの基本をおさらいする。 Langchainを使用して半構造化データを処理するためのマルチベクトル検索生成システムを構築する方法を学ぶ。この記事はData Science Blogathonの一環として公開されました。データの種類通常、データには構造化データ、半構造化データ、非構造化データの3つのタイプがあります。構造化データ：構造化データは標準化されたデータです。データは事前に定義されたスキーマ（行と列など）に従います。SQLデータベース、スプレッドシート、データフレームなどが該当します。非構造化データ：非構造化データは、構造化データとは異なり、データモデルに従いません。データはランダムな形式となっています。たとえば、PDF、テキスト、画像などです。半構造化データ：これは前述のデータタイプの組み合わせです。構造化データとは異なり、厳密な定義済みのスキーマを持ちませんが、データはいくつかのマーカーに基づいて階層的な順序を保持しています。これは非構造化データとは異なります。たとえば、CSV、HTML、PDFの埋め込みテーブル、XMLなどが該当します。 RAGとは何ですか？ RAGはRetrieval Augmented Generation（検索拡張生成）の略であり、大規模言語モデルに新しい情報を提供する最も簡単な方法です。RAGについて簡単に説明しましょう。…

「ODSC West 2023の優れたバーチャルセッションをこちらでご覧ください」

ODSCウエストは終了し、私たちは1年間待たなければならないでしょうそれまでに、仮想セッションの録画がオンデマンドで利用可能になりました！ソリューションショーケースのトークやキーノートのトークは無料で利用できますトピックに関する詳細な情報を提供するトレーニングセッションなどもあります...

West 2023

ユーザーエクスペリエンスの向上：インタラクティブなチャットボットにOpenAIアシスタントAPIを実装する

イントロダクション OpenAIによるChatGPTとGPT 3モデルの導入により、世界はAIを統合したアプリケーションの使用にシフトしました。私たちが日常的に使用しているすべてのアプリケーション、電子商取引から銀行のアプリケーションまで、AIはアプリケーションのいくつかの部分、特に大規模な言語モデルを組み込んでいます。その中の1つがOpenAIアシスタントAPIであり、チャットボットと呼ばれます。OpenAIは最近、ユーザーエクスペリエンスを向上させるために設計されたベータ版のアシスタントAPIをリリースしました。学習目標特定の指示を持つ目的に特化したAIアシスタントの作成プロセスを学ぶ。アシスタントAPIにおける永続性と無限に長いスレッドの概念を探求する。 OpenAIライブラリを使用してAIアシスタントを作成し、名前、指示、モデル、ツールなどのパラメータを指定する方法を実演する。特定のスレッドでAIアシスタントを実行するためのランの作成プロセスを学ぶ。言語モデルトークン、コードインタプリタセッション、およびリトリーバルツールの使用などの要素を考慮したアシスタントAPIの価格体系を理解する。この記事はデータサイエンスブログアソンの一環として公開されました。アシスタントAPIとは何か？何ができるのか？ OpenAIは最近、ベータ版のアシスタントAPIを発表しました。このAPIを使用すると、OpenAIの大規模な言語モデルとツールを使用してAIアシスタントを構築および統合することができます。企業はこれらのアシスタントを特定の目的に合わせてカスタマイズし、その特定の用途のための関連データを提供します。このアシスタントの例としては、天気情報を提供するAI天気アシスタントや、旅行に関するクエリに答えるAIトラベルアシスタントなどがあります。これらのアシスタントは状態を保持するように設計されています。つまり、以前の会話を大部分で保持し、開発者が状態管理を心配する必要がなくなります（それをOpenAIに任せます）。典型的な流れは以下の通りです：アシスタントの作成：データの選択、使用するモデル、アシスタントへの指示、使用するツールを選択します。次に、スレッドを作成します。スレッドはユーザーのメッセージとLLM（Large Language Models）の返信を保存します。このスレッドはアシスタントの状態を管理し、OpenAIがそれに対応します。スレッドにメッセージを追加します。これはユーザーがAIアシスタントに入力するメッセージやアシスタントの応答です。最後に、そのスレッド上でアシスタントを実行します。スレッド上のメッセージに基づいて、AIアシスタントは適切な応答を提供するためにOpenAI LLMを呼び出し、次のセクションで説明する一部のツールにも連絡する場合があります。これらのアシスタント、スレッド、メッセージ、およびランはアシスタントAPIにおけるオブジェクトと呼ばれます。これらのオブジェクトに加えて、アシスタントが実行中に実行された詳細なステップを提供するRun Stepという別のオブジェクトもあります。これにより、内部の機能に関する洞察が提供されます。ツール –…

「RAGとLLM：動的言語モデリングの新たなフロンティア」

「LLM（Legal and Letters of Masters）はどんな課題をもたらすのか？ GPT-4やLlama2などの従来の言語モデルには固有の制限がありますそれらの静的な性質は、最後のトレーニング日以降の進歩についての知識を持たせることができず、彼らが認識しないまま固定された知識の切り捨てに縛られています彼らは膨大な量のデータを包含していますが、彼らの知識には制限があります...」

Qwak

Learn more about Search Results ベクトルストア