「あなたのLLMパイプラインは目標を達成していますか?」

「LLMパイプラインは目標を達成していますか?」

LLMパイプラインで評価するのに最も重要な要素とその測定方法を探索します。

AI Photo by Piret Ilver on Unsplash

LLMパイプラインを効果的に実装するために必要な鍵となる要素の1つは、パイプラインの効果を評価する方法です。つまり、LLM自体やプロンプトだけでなく、LLMとプロンプト、および温度や最小および最大トークンなどの設定の相互作用の結果である最終出力を評価する必要があります。

GPT APIにアクセスするための定型コードを考えてみましょう(自動生成):

import os
import openai

openai.api_key = os.getenv("OPENAI_API_KEY")
response = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[],
  temperature=1,
  max_tokens=256,
  top_p=1,
  frequency_penalty=0,
  presence_penalty=0)

この ‘response’ を作成する関数には7つの引数があり、それぞれが最終出力を変更します。これらの引数の異なる値によって生成される出力を評価し、最適な組み合わせを選択することができる能力は、重要です。

これは、論文やLLMメーカーのウェブサイトで最も一般的に見つかるLLMの評価とは異なる問題です。これらの情報源で宣伝されているようなバー試験などに合格できるLLMを使用しているかもしれませんが、作成したプロンプトと選択した設定によって、必要な形式で法的文書の集合を要約することができるとは限りません。

特に、外部ユーザー向けのパイプラインを構築している場合、プロンプトを即座に調整することはできません。たとえば、カタログの特定のアイテムの説明を生成するために、LLM APIを使用してLLMソリューションを埋め込みたい場合を考えてみましょう。適合性を考慮するためには、2つのレベルがあります:

第一に、生成される回答は目的に適していますか?

第二に、将来のイテレーションでも回答が適していることに依存できますか?

ある意味では、第一のレベルは1つまたは複数の回答を単体で見て評価することで評価できます。適切と判断されれば、問題ありません。ただし、長期的な信頼性を評価するには…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

人工知能

「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 - インタビューシリーズ」

ソフトウェアエンジニアリングの副社長として、DougはCornelis Networksのソフトウェアスタック全体、Omni-Path Architecture...