Search Results Redis

ML向けETLの構築に関するベストプラクティス

この記事では、トレーニングデータセットを構築するためのETLのいくつかのベストプラクティスについて取り上げていますMLに適用されるいくつかのソフトウェアエンジニアリングの技術とパターンについて深く探求しています

Data Engineering

「ベクターデータベースを使用してLLMアプリを作成する方法」

イントロダクション人工知能の領域では、OpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama、Falcon、GoogleのPalmなど、Large Language Models（LLMs）やGenerative AIモデルが問題解決の方法を革新しています。LLMsはディープラーニングの技術を使用して、自然言語処理のタスクを実行します。この記事では、ベクトルデータベースを使用してLLMアプリを構築する方法を紹介します。おそらくAmazonの顧客サービスやFlipkartのDecision Assistantのようなチャットボットと対話したことがあるかもしれません。それらは人間に近いテキストを生成し、実際の会話と区別がつきにくいインタラクティブなユーザーエクスペリエンスを提供します。しかし、これらのLLMsは最適化する必要があります。特定のユースケースに対して非常に関連性が高く具体的な結果を生成するようにするためには。例えば、Amazonの顧客サービスアプリに「Androidアプリで言語を変更する方法は？」と尋ねた場合、正確にこのテキストでトレーニングされていないため、答えることができないかもしれません。ここでベクトルデータベースが助けになります。ベクトルデータベースは、ドメインのテキスト（この場合はヘルプドキュメント）と、注文履歴などを含むすべてのユーザーの過去のクエリを数値の埋め込みとして保存し、リアルタイムで似たようなベクトルの検索を提供します。この場合、このクエリを数値ベクトルにエンコードし、ベクトルデータベース内で類似のベクトルを検索し、最も近い隣人を見つけるために使用します。このようなヘルプを通じて、チャットボットはユーザーを正しくAmazonアプリの「言語設定の変更」セクションに案内できます。学習目標 LLMsの動作原理、制約、およびベクトルデータベースの必要性について学ぶ。埋め込みモデルの紹介と、アプリケーションでのエンコードと使用方法について学ぶ。ベクトルデータベースとそれがLLMアプリケーションアーキテクチャの一部である方法について学ぶ。ベクトルデータベースとTensorFlowを使用してLLM/Generative AIアプリケーションをコーディングする方法を学ぶ。この記事はデータサイエンスブログマラソンの一環として公開されました。 LLMsとは何ですか？ Large Language Models（LLMs）は、自然言語を処理し理解するためにディープラーニングアルゴリズムを使用する基本的な機械学習モデルです。これらのモデルは大量のテキストデータでトレーニングされ、言語のパターンやエンティティの関係を学習します。LLMsは、言語の翻訳、感情分析、チャットボットの会話などのさまざまなタイプの言語タスクを実行することができます。彼らは複雑なテキストデータを理解し、エンティティとそれらの間の関係を識別し、統率的で文法的に正確な新しいテキストを生成することができます。 LLMsについてもっと詳しく読む。 LLMsはどのように動作するのですか？ LLMsは大量のデータ（しばしばテラバイト、さらにはペタバイト）を使用してトレーニングされ、数十億または数兆のパラメータを持ち、ユーザーのプロンプトやクエリに基づいて関連する応答を予測および生成することができます。入力データをワード埋め込み、自己注意層、およびフィードフォワードネットワークを通じて処理し、意味のあるテキストを生成します。LLMアーキテクチャについてもっと読むことができます。 LLMsの制約 LLMsは非常に高い精度で応答を生成するように見えますが、多くの標準化テストでは人間を超える結果を示すことがありますが、それでもこれらのモデルには制約があります。まず第一に、彼らは自身のトレーニングデータに頼ることだけで推論を行い、データ内の特定の情報や現在の情報が欠けているかもしれません。これにより、モデルが誤ったまたは異常な応答を生成することがあります（「幻覚」とも言われます）。これを軽減するための取り組みが継続中です。第二に、モデルはユーザーの期待に合致するように振る舞ったり応答するとは限りません。…

現代の生成的AIアプリケーションにおけるベクトルデータベースの役割

大規模な生成AIアプリケーションがうまく機能するためには、多くのデータを処理できる良いシステムが必要ですそのような重要なシステムの一つが、ベクトルデータベースですこのデータベースは特別なもので、テキスト、音声、画像、動画などの多様なデータを数値/ベクトル形式で扱いますベクトルデータベースとは何ですか？ベクトルデータベースは、...

「LLMにおけるリトリーバル・オーグメンテッド・ジェネレーションについての深い探求」

「リトリーバル拡張型生成（Retrieval-Augmented Generation）を探求しましょうこのフレームワークは、大規模言語モデルを外部データソースとシームレスに統合し、幻覚やその他の一般的な欠点を排除します」

MailchimpにおけるMLプラットフォーム構築の教訓

この記事はもともと、「MLプラットフォームポッドキャスト」という番組のエピソードでしたこの番組では、ピオトル・ニェジヴィエツとアウリマス・グリチューナスが、MLプラットフォームの専門家たちと一緒に、設計の選択肢、ベストプラクティス、サンプルのツールスタック、そして最高のMLプラットフォームの専門家たちからの実際の学びを話し合っていますこのエピソードでは、ミキコ・バゼリーがMLの構築から学んだことを共有します...