スタンフォードの研究者たちは、DSPyを紹介します：言語モデル（LM）と検索モデル（RM）を用いた高度なタスクの解決のための人工知能（AI）フレームワーク

Stanford researchers introduce DSPy an AI framework for solving advanced tasks using Language Model (LM) and Retrieval Model (RM).

言語モデルと検索モデルを使用することで、さまざまな複雑なタスクを簡単に解決することができます。言語モデル（GPT-3など）は、受け取った入力に基づいて人間らしいテキストを生成するために設計されています。一方、検索モデルは、データベースやドキュメントのコレクションから関連する情報を取得するために使用されます。解決したいタスクを明確に定義することで、新しいテキストを生成するか、既存の情報源からデータを取得するかが決まります。

GPT-3や同様のモデルを使用する場合、タスクを説明するプロンプトを提供し、モデルに基づいてテキストを生成させる必要があります。望ましい出力を得るために、プロンプトの文言や構造を試行錯誤する必要があります。これには、言語モデルから生成されたテキストとデータベースから取得した情報を組み合わせることが含まれる場合があります。これには、取得した情報に基づいて要約や洞察を生成することも含まれます。

スタンフォード大学の研究者たちは、言語モデル（LM）と検索モデル（RM）を使用して高度なタスクを解決するためのフレームワークを構築しました。それをDSPyと呼んでいます。 DSPyには、LMをプロンプトし、微調整し、推論と検索の拡張を改善するためのさまざまな技術が含まれています。 DSPyは、Pythonicな構文を基にしており、LMへの指示のための組み立て可能で宣言的なモジュールを提供しています。

DSPyには、プログラムの宣言的なステップを実行するためにLMをトレーニングする自動コンパイラもあります。このコンパイラは、手動で中間段階のラベルを必要とせずに、最小限のデータから微調整を行うことができます。これにより、文字列操作の代わりにモジュールとトレーニング可能なパーツの体系的な空間を使用します。

DSPyでは、書いたプログラムをコンパイルするための2つのシンプルな概念、「シグネチャ」と「テレプロンター」を使用します。シグネチャは、DSPyモジュールの入出力の動作の宣言的な仕様です。一方、テレプロンターは、任意のプログラムのモジュールに対して効果的なプロンプトを学習してブートストラップし、選択することができる強力な最適化ツール（DSPyに含まれています）です。

シグネチャは、サブタスクの最小限の説明と、LMに対して尋ねられる1つ以上の入力質問から構成されます。また、LMから期待される質問の回答も説明します。テレプロンターは、自動的な遠隔プロンプトです。他のものと比較して、DSPyは非常に少ないラベリングが必要とされると言います。ユーザーのパイプラインをサポートするために必要な中間ラベルをブートストラップします。

DSPyフレームワークは他のライブラリと大きく異なるため、使用ケースに基づいて使用するタイミングを容易に正当化できます。研究者によると、この統一されたフレームワークは、NLP/AIの研究者や新しいパイプラインや新しいタスクを探索して高度で複雑な問題を解決しようとする人にとって役立つものだと言います。使いやすくするために、インストールユーザーマニュアルが公開されています。さらに、将来的には様々な入門チュートリアルやリファレンス資料を公開する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

スタンフォードの研究者たちは、DSPyを紹介します：言語モデル（LM）と検索モデル（RM）を用いた高度なタスクの解決のための人工知能（AI）フレームワーク

Was this article helpful?

ETL vs ELT vs ストリーミングETL

「マシンラーニングによるNBAの給与予測」

AI研究

「拡散を通じた適応学習：先進のパラダイム」

マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました

ソニーの研究者がBigVSANを提案：GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化

ハイカーディナリティのカテゴリカル変数に対する混合効果機械学習-第I部：異なる手法の実証的比較

このAI研究は、ポイントクラウドを2D画像、言語、音声、およびビデオと一致させる3Dマルチモダリティモデルである「Point-Bind」を紹介します

バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています