Search Results 意味的検索

『Google Vertex AI Search＆Conversationを使用してRAGチャットボットを構築する』

「Googleは最近、彼らの管理されたRAG（Retrieval Augmented Generator）サービス、Vertex AI Search＆ConversationをGA（一般公開）にリリースしましたこのサービスは、以前はGoogleとして知られていました...」

RAGアプリケーションデザインにおける実用的な考慮事項

「RAG（Retrieval Augmented Generation）アーキテクチャは、LLMの入力長制限と知識切り上げの問題を効率的に克服することが証明されています現在のLLMテクニカルスタックでは、RAGが…」

「Amazon EUデザインと建設のためにAmazon SageMakerで動作する生成AIソリューション」

アマゾンEUデザイン・コンストラクション（Amazon D&C）チームは、ヨーロッパとMENA地域全体でアマゾン倉庫を設計・建設するエンジニアリングチームですプロジェクトの設計と展開のプロセスには、アマゾンとプロジェクト固有のガイドラインに関するエンジニアリング要件についての情報リクエスト（RFI）の多くの種類が含まれますこれらのリクエストは、基本ラインの取得から簡単なものから始まります [...]

「OpenAIキーなしでPDFおよび記事のための強力なチャットアシスタントを作成する」

イントロダクション自然言語処理の世界は、特に大規模な言語モデルの登場により、膨大な拡大を遂げています。これらのモデルは、この分野を革新し、誰でも利用できるようにしました。この記事では、オープンソースライブラリを使用して、与えられた記事（またはPDF）を基に質問に応答できる強力なチャットアシスタントを作成するためのNLP（自然言語処理）のテクニックを探求し、実装していきます。OpenAIのAPIキーは必要ありません。この記事は、データサイエンスブログマラソンの一環として公開されています。ワークフローこのアプリケーションのワークフローは以下の通りです：ユーザーは、PDFファイルまたは記事のURLを提供し、質問を行います。このアプリケーションは、提供されたソースに基づいて質問に答えることを試みます。私たちは、PYPDF2ライブラリ（PDFファイルの場合）またはBeautifulSoup（記事のURLの場合）を使用してコンテンツを抽出します。次に、langchainライブラリのCharacterTextSplitterを使用して、それをチャンクに分割します。各チャンクに対して、all-MiniLM-L6-v2モデルを使用して、対応する単語埋め込みベクトルを計算します。このモデルは、文章や段落を384次元の密なベクトル空間にマッピングするためのものです（単語埋め込みは、単語/文章をベクトルとして表現する技術の一つです）。同じ技術がユーザーの質問にも適用されます。これらのベクトルは、sentence_transformersというPythonのフレームワークが提供する意味的検索関数に入力されます。sentence_transformersは、最先端の文、テキスト、画像埋め込みを行うためのフレームワークです。この関数は、答えを含む可能性があるテキストチャンクを返し、質問応答モデルは、semantic_searchとユーザーの質問の出力に基づいて最終的な答えを生成します。注意すべてのモデルは、HTTPリクエストのみを使用してAPI経由でアクセス可能です。コードはPythonを使用して書かれます。 FAQ-QNは、より詳細な情報についてはFAQセクションを参照することを示すキーワードです。実装このセクションでは、実装についてのみに焦点を当て、詳細はFAQセクションで提供されます。依存関係依存関係をダウンロードし、それらをインポートすることから始めます。 pip install -r requirements.txt numpytorchsentence-transformersrequestslangchainbeautifulsoup4PyPDF2 import…

「Amazon Rekognition、Amazon SageMaker基盤モデル、およびAmazon OpenSearch Serviceを使用した記事のための意味論的画像検索」

デジタルパブリッシャーは、新しいコンテンツをできるだけ迅速に生成し、公開するために、メディアのワークフローを効率化し自動化する方法を常に探していますパブリッシャーは、何百万もの画像を含むリポジトリを持っており、これらの画像を記事間で再利用することで費用を節約する必要がありますこのようなスケールのリポジトリ内で、記事に最も適した画像を見つけることは、時間のかかる繰り返しの手作業であり、自動化することができますまた、リポジトリ内の画像が正しくタグ付けされていることも自動化できます（お客様の成功事例については、Aller Media Finds Success with KeyCore and AWSを参照してください）この記事では、Amazon Rekognition、Amazon SageMaker JumpStart、Amazon OpenSearch Serviceを使用して、このビジネスの問題を解決する方法を示します

LangChainとPinecone Vector Databaseを使用したカスタムQ&Aアプリケーションの構築

イントロダクション大規模な言語モデルの登場は、現代における最もエキサイティングな技術の進展の一つです。これにより、人工知能の分野でさまざまな産業において実際の問題に対する解決策を提供する無限の可能性が開かれました。これらのモデルの魅力的な応用の一つは、個人や組織のデータソースから取得した情報をもとに、カスタムの質疑応答やチャットボットを開発することです。しかし、一般的なデータで訓練された大規模言語モデルは、常にエンドユーザーにとって特定の回答または有用な回答を提供するわけではありません。この問題を解決するために、LangChainなどのフレームワークを使用して、データに基づいた特定の回答を提供するカスタムチャットボットを開発することができます。この記事では、Streamlit Cloudでの展開を伴うカスタムQ&Aアプリケーションの構築方法について学びます。学習目標この記事に深く入る前に、主な学習目標を以下に概説しましょう：カスタムの質疑応答のワークフロー全体を学び、各コンポーネントの役割を理解する Q&Aアプリケーションの利点を知り、カスタムの言語モデルの微調整との比較を行う Pineconeベクトルデータベースの基礎を学び、ベクトルの保存と取得を行う OpenAIの言語モデル、LangChain、およびPineconeベクトルデータベースを使用してセマンティックサーチパイプラインを構築し、Streamlitアプリケーションを開発するこの記事はData Science Blogathonの一部として公開されました。 Q&Aアプリケーションの概要出典：ScienceSoft 質疑応答または「データに基づくチャット」は、LLMsとLangChainの広範なユースケースです。LangChainは、ユースケースに対して見つけることができるすべてのデータソースをロードするための一連のコンポーネントを提供しています。LangChainは多くのデータソースとトランスフォーマーをサポートし、ベクトルデータベースに保存するために文字列のシリーズに変換します。データがデータベースに保存されたら、リトリーバーと呼ばれるコンポーネントを使用してデータベースにクエリを送信することができます。さらに、LLMsを使用することで、ドキュメントを大量に参照することなく、チャットボットのような正確な回答を得ることができます。 LangChainは以下のデータソースをサポートしています。画像で確認できるように、様々なデータソースに接続するための120以上の統合が可能です。出典：LangChain Docs Q&Aアプリケーションのワークフロー LangChainがサポートするデータソースについて学びました。これにより、LangChainで利用可能なコンポーネントを使用して、質疑応答パイプラインを開発することができます。以下に、ドキュメントのロード、保存、リトリーバル、LLMによる出力生成に使用されるコンポーネントを示します。ドキュメントローダー：ユーザードキュメントをベクトル化および保存するためにロードするためのコンポーネントテキストスプリッター：これらは、ドキュメントを固定のチャンク長に変換して効率的に保存するドキュメントトランスフォーマーですベクトル保存：入力テキストのベクトル埋め込みを保存するためのベクトルデータベースの統合ドキュメントリトリーバル：データベースからユーザークエリに基づいてテキストを取得するためのコンポーネント。類似性検索技術を使用して取得します…

オープンソースのベクトルデータベースChromaDBを使用して、セマンティック検索アプリケーションを構築する

はじめに AIアプリケーションとユースケースの台頭に伴い、AIアプリケーションを容易にし、AI開発者が実世界のアプリケーションを構築するためのさまざまなツールとテクノロジーが増えています。そのようなツールの中で、今日はChromaDBの動作と機能について学びます。ChromaDBは、GPT3.5、GPT-4、またはその他のOSモデルなどのAIモデルからの埋め込みを格納するためのオープンソースのベクトルデータベースです。埋め込みは、任意のAIアプリケーションパイプラインの重要なコンポーネントです。コンピュータはベクトルのみを処理するため、すべてのデータは埋め込みの形式でベクトル化されて意味検索アプリケーションで使用される必要があります。それでは、実際のコード例を使用してChromaDBの動作について詳しく説明しましょう！この記事はData Science Blogathonの一部として公開されました。 ChromaDBの基礎とライブラリのインストール ChromaDBは、大規模な言語モデルアプリケーションを開発および構築するためにベクトル埋め込みを格納するために設計されたオープンソースのベクトルデータベースです。このデータベースは、LLMアプリケーションのための知識、スキル、および事実を格納するために簡単にします。 ChromaDBは、LLMアプリケーションと統合された場合のChromaDBの動作を示しています。ChromaDBを使用すると、次の機能を実行できます。埋め込みとそのメタデータをIDとともに格納するドキュメントとクエリを埋め込む埋め込みを検索する ChromaDBは非常に使いやすく、LLMパワードアプリケーションと簡単に設定できます。開発者の生産性を向上させるために設計されており、開発者にとって使いやすいツールです。それでは、Python環境とJavascript環境にChromaDBをインストールしましょう。Jupyter Notebookでも実行でき、データサイエンティストや機械学習エンジニアがLLMモデルで実験できます。 Pythonのインストール # Python環境にChromaDBをインストール pip install chromadb Javascriptのインストール # JS環境にChromaDBをインストール…

「インプレッションGPT：放射線学報告書要約のためのChatGPTベースの反復最適化フレームワークに会いましょう」

効果的かつ正確なテキスト要約モデルの必要性は、一般的および医療分野のデジタルテキスト情報のボリュームが驚くほど拡大するにつれて増加しています。テキストの要約は、長い文章を簡潔な概要にまとめながら、その内容の意味と価値を保持することを意味します。これは、自然言語処理（NLP）の研究の中心テーマとなっています。ニューラルネットワークとディープラーニングの技術、特にエンコーダ・デコーダアーキテクチャを使用したシーケンス・トゥ・シーケンスモデルを導入することで、良好な結果が報告されました。これらのアプローチによって生成される要約は、ルールベースや統計ベースの方法と比較して、より自然で文脈に適したものでした。治療の現場での精度を求めるというニーズと、このような結果の文脈的および関係的な特徴を保持する必要性が、この取り組みをさらに困難にしています。研究者は、放射線報告書の要約にChatGPTを使用し、改善しました。ChatGPTの文脈学習能力を最大限に活用し、相互作用を通じて継続的に改善するために、迅速なエンジニアリングを用いて新しい反復的最適化手法を開発し、実装しました。より具体的には、類似性検索アルゴリズムを使用して、意味的および臨床的に比較可能な既存の報告書を組み込んだ動的なプロンプトを作成します。これらの並行した報告書でChatGPTを訓練し、類似した画像表現のテキスト説明と要約を理解するようにします。主な貢献類似性検索により、データがスパースである言語モデル（LLM）の文脈学習が可能になります。コーパス内で最も比較可能なケースを特定し、LLMに最も関連性の高いデータを含む動的なプロンプトを作成します。反復的最適化手法に対する動的なプロンプトシステムの作成。反復プロンプトは最初にLLMが生成した回答を評価し、その後の反復ではさらにその方法についての指示を与えます。既存のLLMからドメイン固有のモデルを迅速かつ効果的に開発する際に活用する、ドメイン固有の情報を最大限に活用する新しいアプローチ。提案された手法は、大量の医療テキストデータを事前学習に使用する他の手法と比較して優れた性能を発揮しています。この研究は、現代の人工汎用知能において、さらなるドメイン固有の言語モデルを構築するための基盤としても役立ちます。手法可変プロンプト動的なサンプルは、入力の放射線報告書に類似した例を取得するために意味的検索を使用します。最終的なクエリは、同じ予め定義された問い合わせと、テスト報告書の「所見」部分を組み合わせたものであり、タスクの説明が役割を表しています。反復による最適化反復的最適化コンポーネントを使用することで、興味深いことができます。このアプローチの目的は、ChatGPTが反復的なプロンプトを使用して回答を継続的に改善できるようにすることです。高リスクな放射線報告書の要約などの応用に重要な役割を果たし、また回答の品質を確認するための応答レビュー手順も必要です。少数のトレーニングサンプルと反復的な手法に基づいて入力プロンプトを改善することで、大規模言語モデル（LLM）を用いた放射線報告書の要約における使用の実現可能性を調査しました。コーパスから適切なインスタンスを探し出し、文脈の中でLLMを学習するために使用し、対話的な手がかりを提供するために使用しました。さらに出力を向上させるために、反復的最適化手法を使用しました。この手続きでは、自動評価フィードバックに基づいて、LLMにとって良いとされる応答と悪いとされる応答を教えることが含まれています。大量の医療テキストデータを事前トレーニングに使用する他の手法と比較して、私たちの戦略は優れていることが証明されています。また、この研究は、さらなるドメイン固有の言語モデルの構築の基礎としても利用できます。 ImpressionGPTの反復フレームワークで作業をしている間に、モデルの出力応答の品質を評価することが重要であるが困難なタスクであることに気付きました。研究者は、ドメイン固有と一般ドメインのテキスト間の大きな変動が、スコアの観察される相違に寄与していると考えています。そのため、得られた結果の詳細を検証するために、細かい評価尺度を用いることで、結果の詳細を検討しています。将来的には、データのプライバシーと安全性の問題に対処しながら、公共およびローカルのデータソースからドメイン固有のデータをより良く組み込むための迅速な設計の最適化を続けます。特に多くの組織と取り組む場合には。また、プロンプトの設計を現在のドメイン知識に適応させるために、ナレッジグラフを使用することも検討しています。最後に、放射線科医などの人間の専門家を、プロンプトの最適化プロセスに組み込み、システムによって提供される結果に対する客観的なフィードバックを提供することを計画しています。人間の専門家の判断と視点を組み合わせることで、より正確な結果を得ることができます。

「あなたのデータに基づいたLLMにドメイン固有の知識を追加する方法」

最近の数ヶ月間、大規模言語モデル（LLM）は私たちの仕事やテクノロジーとのインタラクションの仕方を根本的に変え、様々な領域で役立つツールとなりました文章の作成などで役に立つことが証明されています

文のトランスフォーマーを使用してプレイリスト生成器を構築する

数時間前に、Sentence TransformersとGradioを使用して構築したプレイリスト生成器を公開しました。それに続いて、プロジェクトを効果的な学習体験として活用する方法について考察しました。しかし、実際にプレイリスト生成器をどのように構築したのでしょうか？この投稿では、そのプロジェクトを解説し、埋め込みの生成方法と多段階のGradioデモの構築方法について説明します。以前のHugging Faceブログの記事でも探求したように、Sentence Transformers（ST）は文の埋め込みを生成するためのツールを提供するライブラリです。使用できる歌詞のデータセットにアクセスできたため、STの意味的検索機能を活用して与えられたテキストプロンプトからプレイリストを生成することにしました。具体的には、プロンプトから埋め込みを作成し、その埋め込みを事前生成された歌詞の埋め込みセット全体で意味的検索に使用し、関連するソングのセットを生成することでした。これはすべて、Hugging Face Spacesでホストされた新しいBlocks APIを使用したGradioアプリに包括されます。 Gradioのやや高度な使用方法について説明しますので、ライブラリに初めて取り組む方は、この投稿のGradio固有の部分に取り組む前に、Blocksの紹介を読むことをお勧めします。また、歌詞のデータセットは公開しませんが、Hugging Face Hubで歌詞の埋め込みを試すことができます。それでは、始めましょう！ 🪂 Sentence Transformers：埋め込みと意味的検索埋め込みはSentence Transformersの鍵です！以前の記事で埋め込みが何であり、どのように生成するかについて学びましたので、この投稿を続ける前にそれをチェックすることをお勧めします。 Sentence Transformersには、事前学習された埋め込みモデルの大規模なコレクションがあります！独自のトレーニングデータを使用してこれらのモデルを微調整するチュートリアルも用意されていますが、多くのユースケース（歌詞のコーパスを対象とした意味的検索など）では、事前学習されたモデルが問題なく機能します。ただし、利用可能な埋め込みモデルが非常に多いため、どれを使用するかをどのように知ることができるのでしょうか？ STのドキュメントでは、多くの選択肢が強調されており、評価メトリックといくつかの使用ケースの説明も示されています。MS MARCOモデルはBing検索エンジンのクエリでトレーニングされていますが、他のドメインでも優れたパフォーマンスを発揮するため、このプロジェクトではこれらのいずれかを選択することができると判断しました。プレイリスト生成器に必要なのは、いくつかの意味的な類似性を持つ曲を見つけることであり、特定のパフォーマンス指標に達成することにはあまり興味がないため、sentence-transformers/msmarco-MiniLM-L-6-v3を任意に選びました。 STの各モデルには、設定可能な入力シーケンス長があります（最大値まで）。その後、入力は切り捨てられます。私が選んだモデルは最大シーケンス長が512ワードピースであり、これは歌を埋め込むのに十分ではないことがわかりました。幸いなことに、歌詞をモデルが解析できるように小さなチャンクに分割する簡単な方法があります。それは、詩です！歌を詩に分割し、各詩を埋め込んだ後、検索がはるかに優れた結果を示すことになります。歌は詩に分割され、それぞれの詩は埋め込まれます。実際に埋め込みを生成するには、Sentence Transformersモデルの.encode()メソッドを呼び出し、文字列のリストを渡すだけです。その後、埋め込みを好きな方法で保存できます。この場合は、pickle形式で保存することにしました。…

Learn more about Search Results 意味的検索 - Page 2