「Tiktokenを使用して、OpenAI APIのコストを簡単に見積もることができます」

Using Tiktoken, you can easily estimate the cost of the OpenAI API.

トークンをカウントして、OpenAI APIの使用で破産しないようにしましょう

新鮮なトークン!1キロあたり0.0015ドル!

私が知っている多くの人々は、OpenAIの大規模言語モデル(LLM)を使って遊びたいと思っています。しかし、LLMのホスティングは高価であり、そのため、OpenAIのアプリケーションプログラミングインターフェース(API)などの推論サービスは無料ではありません。しかし、推論コストがどれくらいかかるのかわからずに支払い情報を入力するのは少し抵抗があります。

通常、私は記事の解説にAPIのコストの指標を含めることで、読者が何を予想しているかを知り、推論のコストについて感覚を得ることができるようにしています。

この記事では、OpenAIの基礎モデルの推論コストを推定するために使用するtiktokenライブラリについて紹介します。

tiktokenとは何ですか?

tiktokenは、OpenAIが開発したオープンソースのバイトペアエンコーディング(BPE)トークナイザーで、彼らのLLMでテキストをトークン化するために使用されます。これにより、OpenAIのエンドポイントにコールを行う前にテキスト内にいくつのトークンがあるかを開発者が数えることができます。

したがって、OpenAI APIの使用に関連するコストを推定するのに役立ちます。なぜなら、そのコストはOpenAIの価格ページ[1]によって「1,000トークンの単位で請求されるからです。

GitHub — openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI’s models.

tiktoken is a fast BPE tokeniser for use with OpenAI’s models. — GitHub — openai/tiktoken: tiktoken is a fast BPE…

github.com

トークンとトークナイズ

トークンはテキスト内の共通の文字列であり、トークナイズはテキスト文字列をトークンのリストに分割することです。トークンは単語に等しい場合もありますが、通常は複数のトークンで単語が構成されます。

自然言語処理(NLP)モデルはトークンで訓練され、それらの間の関係を理解します。したがって、入力テキストはNLPモデルが処理する前にトークナイズされます。

ただし、単語がどのようにトークナイズされるかは使用されるトークナイザーに依存します。

以下に、テキストをトークナイズする例を示します。

「アリスはオウムを飼っています。

アリスのペットはどんな動物ですか?」

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAIニュースレターは、あなたが必要とするすべてです#71

今週、ジョー・バイデン大統領は人工知能の規制を再び注目させるために、人工知能の監督を目的とする行政命令に署名しました...

機械学習

Google AIがFlan-T5をオープンソース化 NLPタスクにおいてテキスト対テキストアプローチを使用するトランスフォーマーベースの言語モデル

大規模な言語モデル、例えばPaLM、Chinchilla、およびChatGPTは、自然言語処理(NLP)のタスクを実行する新たな可能性を開い...

AI研究

メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化

強化学習(RL)は、エージェントが適切なアクションを取り、報酬を最大化するために学習する機械学習のサブフィールドです。...

AI研究

MITとUC Berkeleyの研究者は、最小限の努力で人間がロボットに望むことを素早く教えることができるフレームワークを提案しました

ニューヨーク大学とカリフォルニア大学バークレー校との共同研究により、MITの研究者たちは、人間が最小限の努力で家庭のタス...

機械学習

「SEINEをご紹介します:シーン間のスムーズでクリエイティブなトランジションがある高品質な拡張ビデオのためのショートトゥロングビデオ拡散モデル」

テキストから画像を生成する拡散モデルの成功を受けて、ビデオ生成技術が急速に発展し、この領域での興味深い応用が見られる...

データサイエンス

「データストーリーテリングとアナリティクスにおける生成AIのインパクトの公開」

導入 データ分析の広大な領域の中で、ゲネラティブ人工知能(GAI)はゲームを変える最も重要な進展の一つです。これは、歴史...