「Tiktokenを使用して、OpenAI APIのコストを簡単に見積もることができます」
Using Tiktoken, you can easily estimate the cost of the OpenAI API.
トークンをカウントして、OpenAI APIの使用で破産しないようにしましょう
私が知っている多くの人々は、OpenAIの大規模言語モデル(LLM)を使って遊びたいと思っています。しかし、LLMのホスティングは高価であり、そのため、OpenAIのアプリケーションプログラミングインターフェース(API)などの推論サービスは無料ではありません。しかし、推論コストがどれくらいかかるのかわからずに支払い情報を入力するのは少し抵抗があります。
通常、私は記事の解説にAPIのコストの指標を含めることで、読者が何を予想しているかを知り、推論のコストについて感覚を得ることができるようにしています。
この記事では、OpenAIの基礎モデルの推論コストを推定するために使用するtiktoken
ライブラリについて紹介します。
tiktokenとは何ですか?
tiktoken
は、OpenAIが開発したオープンソースのバイトペアエンコーディング(BPE)トークナイザーで、彼らのLLMでテキストをトークン化するために使用されます。これにより、OpenAIのエンドポイントにコールを行う前にテキスト内にいくつのトークンがあるかを開発者が数えることができます。
- 「2023年のトップ18のAIベースのウェブサイトビルダー」
- あなたのモデルは良いですか?Amazon SageMaker Canvasの高度なメトリクスについての詳細な調査
- 「Amazon SageMakerを使用して、薬剤探索を加速するためのタンパク質折り畳みワークフローを構築する」
したがって、OpenAI APIの使用に関連するコストを推定するのに役立ちます。なぜなら、そのコストはOpenAIの価格ページ[1]によって「1,000トークンの単位で請求されるからです。
GitHub — openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI’s models.
tiktoken is a fast BPE tokeniser for use with OpenAI’s models. — GitHub — openai/tiktoken: tiktoken is a fast BPE…
github.com
トークンとトークナイズ
トークンはテキスト内の共通の文字列であり、トークナイズはテキスト文字列をトークンのリストに分割することです。トークンは単語に等しい場合もありますが、通常は複数のトークンで単語が構成されます。
自然言語処理(NLP)モデルはトークンで訓練され、それらの間の関係を理解します。したがって、入力テキストはNLPモデルが処理する前にトークナイズされます。
ただし、単語がどのようにトークナイズされるかは使用されるトークナイザーに依存します。
以下に、テキストをトークナイズする例を示します。
「アリスはオウムを飼っています。
アリスのペットはどんな動物ですか?」
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles