Search Results ベクトルストア

「Rustベースのベクトルデータベース、Qdrantに深く潜る」

イントロダクションベクトルデータベースは、非構造化および構造化データの表現を格納および索引化するための主要な場所となっています。これらの表現は、埋め込みモデルによって生成されるベクトル埋め込みです。ベクトルストアは、ディープラーニングモデル、特に大規模な言語モデルを使用したアプリの開発で重要な役割を果たしています。ベクトルストアの領域は常に進化しており、最近導入されたQdrantはその1つで、機能が充実しています。さあ、それについてもっと詳しく見ていきましょう。学習目標 Qdrantの専門用語に慣れることで、より理解を深める Qdrant Cloudにダイブし、クラスタを作成するドキュメントの埋め込みを作成し、Qdrantコレクションに保存する方法を学ぶ Qdrantでクエリがどのように機能するかを探る Qdrantのフィルタリングを弄って、その動作を確認するこの記事はData Science Blogathonの一環として公開されました。埋め込みとは何ですか？ベクトル埋め込みは、データを数値形式で表現する手段です。つまり、テキスト、写真、音声、ビデオなどのデータの種類に関係なく、n次元空間または数値ベクトルとして表します。埋め込みを使用すると、関連するデータをグループ化することができます。特定の入力は、特定のモデルを使用してベクトルに変換することができます。Googleによって作成された有名な埋め込みモデルであるWord2Vecは、単語をベクトル（ベクトルはn次元の点です）に変換します。各大規模言語モデルには、LLMの埋め込みを生成する埋め込みモデルがあります。埋め込みは何に使用されますか？単語をベクトルに変換する利点の1つは、比較が可能であるということです。数値入力またはベクトル埋め込みとして2つの単語が与えられた場合、コンピュータはそれらを直接比較することはできませんが、それらを比較することができます。類似した埋め込みを持つ単語をグループ化することが可能です。王、女王、王子、王女といった用語は、関連するクラスタに表示されます。この意味で、埋め込みは、与えられた用語に関連する単語を特定するのに役立ちます。これは、文に使用され、入力された文に関連する文を返すデータが提供される場合に使用されます。これは、チャットボット、文の類似度、異常検知、セマンティックサーチなどの多くのユースケースの基礎となります。私たちが提供するPDFまたはドキュメントに基づいて質問に答えるために開発するチャットボットは、この埋め込みの概念を利用しています。これは、すべての生成的大規模言語モデルが、それらに供給されるクエリに同様に関連付けられたコンテンツを取得するために使用する方法です。ベクトルデータベースとは何ですか？先述のように、埋め込みは、通常非構造化データの場合に数字形式で表される、あらゆる種類のデータの表現です。それでは、それらをどこに保存するのでしょうか？伝統的なRDBMS（リレーショナルデータベース管理システム）では、これらのベクトル埋め込みを保存することはできません。これがベクトルストア/ベクトルデータベースの登場する場所です。ベクトルデータベースは、効率的な方法でベクトル埋め込みを保存および取得するために設計されています。埋め込みモデルのサポートや似たようなベクトルを取得するために使用する検索アルゴリズムの種類によって異なる多くのベクトルストアが存在します。 Qdrantとは何ですか？ Qdrantは、新しいベクトル類似度検索エンジンおよびベクトルデータベースであり、安全性で知られるRust言語で構築された本番向けのサービスを提供しています。 Qdrantは、メタデータであるペイロードが付加された高次元ポイント（ポイントはベクトル埋め込みのこと）を保存、検索、管理するために設計されたユーザーフレンドリーなAPIを備えています。これらのペイロードは有用な情報となり、検索の精度向上およびユーザーへの洞察を提供します。Chromaなど他のベクトルデータベースに精通している方であれば、ペイロードはメタデータに似ており、ベクトルに関する情報を含んでいます。 Rustで書かれていることにより、Qdrantは高負荷下でも高速で信頼性のあるベクトルストアとなっています。他のデータベースとの違いは、Qdrantが提供するクライアントAPIの数です。現在、QdrantはPython、TypeScript/JavaScript、Rust、およびGoをサポートしています。QdrantはベクトルインデックスにHSNW（階層ナビゲーション小世界グラフ）を使用しており、コサイン、ドット、ユークリッドなどの多くの距離尺度を備えています。また、ボックスから推奨APIも利用できます。 Qdrantの用語を知る…

「知識の回復が中心舞台に登場する」

消費者からビジネス展開への転換をするために、GenAIにはリトリーバルセントリックジェネレーション（RCG）を使用したモデル外部の情報を主に基にしたソリューションが構築されるべきですジェネレーティブAIとして...

LangChain チートシート — すべての秘密を1ページにまとめました

作成されたワンページは、LangChainの基本をまとめたものですこの記事では、コードのセクションを進めて行き、LangChainで成功するために必要なスターターパッケージについて説明しますLangChainにおけるモデルは…

「画像のためのモダンなセマンティック検索」

「数年前の「あの一枚の写真」を見つけたいんですね場面に関するいくつかの具体的な情報を覚えているんですが、Apple Photosでは意味検索ができず、Google Photosでも制限がありますので…」

『RAG データとの会話の仕方』

「以前の記事では、ChatGPTを使用してトピックモデリングを行う方法についてご紹介しました私たちのタスクは、さまざまなホテルチェーンの顧客からのコメントを分析し、それぞれに言及された主要なトピックを特定することでした...」

コースを安定させる：LLMベースのアプリケーションの評価をナビゲートする

大型言語モデル（LLM）は話題になっており、多くの人々がそれを自分のアプリケーションに取り入れています関係データベース上の質問に答えるチャットボットやサポートするアシスタントなど...

テキスト生成の新時代：RAG、LangChain、およびベクトルデータベース

はじめに革新的な技術によって、自然言語処理の急速に変化するランドスケープの中で、機械が人間の言語を理解し生成する方法が常に再構築されています。そのような画期的なアプローチの1つが、Retrieval Augmented Generation（RAG）です。これは、GPT（Generative Pretrained Transformer）などの生成モデルのパワーとベクトルデータベースとLangchainの効率を組み合わせています。 RAGは機械が言語を処理する方法のパラダイムシフトを象徴し、従来に比べて類前の文脈理解と反応性を実現するために生成モデルと検索モデルの隔たりを埋める役割を果たしています。このブログ記事では、RAGのコアコンセプト、GPTモデルとの統合、ベクトルデータベースの役割、および現実世界での応用について説明します。学習目標 Retrieval Augmented Generation（RAG）の基礎を理解する。ベクトルデータベースとそのベクトルを使用した革新的なデータ保存および検索手法に洞察する。 RAG、LangChain、およびベクトルデータベースがユーザーのクエリを解釈し、関連情報を取得し、一貫した応答を生成するためにどのように連携するかを理解する。特定の応用に統合されたテクノロジーの実践スキルを開発する。この記事はData Science Blogathonの一部として公開されました。 RAGとは何ですか？ Retrieval Augmented Generation（RAG）は生成モデルと検索モデルを融合させたものです。これにより、生成モデルの創造的な能力と検索システムの正確さをシームレスに組み合わせることで、多様で文脈に即したコンテンツの生成が可能となります。テキストの補完や質問応答など、一部の従来の言語生成タスクでは、GPT（Generative Pretrained Transformer）などの生成モデルが豊富なトレーニングデータセットに基づいて文脈に即したテキストを生成する能力が優れていることが示されています。しかし、入力コンテキストが曖昧であるかデータが不足している場合、誤った応答や一貫性のない応答を生成する可能性があります。…

高度なRAG 01：小から大への検索

RAG（Retrieval-Augmented Generation）システムは、与えられた知識ベースから関連情報を検索することで、事実に基づいて文脈に即した特定のドメインに関連する情報を生成することができます...

Embedchainの紹介- LLM向けのデータプラットフォーム

イントロダクション LangChainやLangFlowのようなツールを紹介することで、Large Language Modelsを使ったアプリケーションの構築が容易になりました。さまざまなLarge Language Modelsを選択してアプリケーションを構築することが容易になった一方で、データのアップロード部分では、データがさまざまなソースから取得されるため、開発者にはデータをプレーンテキストに変換してベクトルストアに注入する必要があるため、依然として時間がかかることがあります。このような場合には、Embedchainが登場します。Embedchainを使用すると、さまざまなデータタイプのデータを簡単にアップロードしてLLMを瞬時にクエリできます。この記事では、embedchainの使い方について探っていきます。学習目標 Large Language Models（LLMs）のデータの管理とクエリに関して、embedchainの重要性を理解する。非構造化データを効果的に統合し、embedchainにアップロードする方法を学ぶ。これにより、さまざまなデータソースでシームレスに作業を行うことができる。 embedchainがサポートしているさまざまなLarge Language Modelsとベクトルストアについて知る。ウェブページやビデオなどのさまざまなデータソースをベクトルストアに追加し、データの取り込み方法を理解する。この記事はData Science Blogathonの一部として公開されました。 Embedchainとは何ですか？ EmbedchainはPython/JavaScriptライブラリであり、開発者はこれを使ってLarge Language Modelsと多くのデータソースをシームレスに接続することができます。Embedchainを使用すると、非構造化データをアップロード、インデックス化、検索することができます。非構造化データには、テキスト、ウェブサイト/YouTube動画へのURL、画像など、いかなるタイプのデータも含まれます。 Emdechainを使ってこれらの非構造化データをアップロードする場合、単一のコマンドでデータをアップロードし、それらに対してベクトル埋め込みを作成し、接続されたLLMと即座にクエリを開始することができます。内部では、embedchainがデータをソースからロードし、チャンキングし、ベクトル埋め込みを作成し、最終的にベクトルストアに格納する処理を行います。 Embedchainを使った最初のアプリの作成…

「Pythonにおける構造化LLM出力の保存と解析」

イントロダクションジェネラティブAIは現在、世界中で広く使用されています。大規模言語モデルのテキスト理解能力とそれに基づいたテキスト生成能力により、チャットボットからテキスト分析まで様々なアプリケーションが生まれました。しかし、これらの大規模言語モデルは非構造化な形式でテキストを生成することが多いです。時には、LLM（大規模言語モデル）によって生成された出力を、構造化された形式、例えばJSON（JavaScript Object Notation）形式にしたいケースもあります。例えば、LLMを使用してソーシャルメディアの投稿を分析し、LLMによって生成された出力をJSON/python変数としてコード内で扱い他のタスクを実行する必要があるかもしれません。このような場合に、プロンプトエンジニアリングを使ってこれを実現することは可能ですが、プロンプトの調整には多くの時間がかかります。そこで、LangChainでは出力パースを導入しており、これによりLLMの出力を構造化された形式に変換することができます。学習目標大規模言語モデルによって生成された出力の解釈 Pydanticを使用したカスタムデータ構造の作成プロンプトテンプレートの重要性とLLMの出力を整形してプロンプトを生成する方法の理解 LangChainを使用してLLMの出力のフォーマット指示を作成する方法の学習 JSONデータをPydanticオブジェクトにパースする方法の理解この記事はデータサイエンスブログマラソンの一環として掲載されました。 LangChainと出力パースとは？ LangChainは、大規模言語モデルを使用したアプリケーションを短時間で構築できるPythonライブラリです。OpenAI GPT LLM、GoogleのPaLM、そしてFalcon、LlamaなどのHugging Faceのオープンソースモデルなど、さまざまなモデルに対応しています。LangChainを使用すると、大規模言語モデルへのプロンプトのカスタマイズが容易になり、組込みのベクトルストアを提供するため、入出力の埋込みを保存することができます。そのため、数分でドキュメントをクエリできるアプリケーションを作成することができます。 LangChainは、大規模言語モデルがインターネットから情報を取得できるようにするためのエージェント機能も提供しています。また、出力パーサーも提供しており、大規模言語モデルによって生成されたデータを構造化することができます。LangChainには、リストパーサー、日時パーサー、列挙型パーサーなどさまざまな出力パーサーがあります。この記事では、LLMが生成した出力をJSON形式にパースすることができるJSONパーサーについて説明します。以下の図は、LLMの出力がPydanticオブジェクトにパースされる一般的なフローを示しており、Python変数で即座に使用できるデータが作成されます。はじめに – モデルのセットアップこのセクションでは、LangChainを使用してモデルをセットアップします。この記事全体を通して、PaLMをLarge Language Modelとして使用します。環境としてGoogle Colabを使用しますが、PaLMを他のどのLarge…

Learn more about Search Results ベクトルストア - Page 2