「なぜOpenAIのAPIは英語以外の言語に対してより高価なのか」

なぜOpenAIのAPIは英語以外の言語に対して高価なのか

言葉を超えて: バイトペアエンコーディングと Unicode エンコーディングが価格格差にどのように影響するか

英語ではフレーズ「Hello world」が2つのトークンを持ち、ヒンディー語では12個のトークンを持つことができるのはなぜですか?

OpenAIのAPIのコストを推定する方法について最近の記事を公開した後、中国語、日本語、韓国語(CJK文字を使用する言語)など、英語よりもOpenAI APIの価格がはるかに高いことに気づいたという興味深いコメントを受け取りました。

tiktokenライブラリを使用してOpenAIのAPIのコストを推定する方法に関する私の最近の記事に読者からのコメント

私はこの問題については知りませんでしたが、すぐにこれは活発な研究分野であることに気づきました。今年の初めに、Petrovらによる「言語モデルトークナイザーによる言語間の公平性の低下」という論文[2]が、「同じテキストを異なる言語に翻訳すると、トークン化の長さが劇的に異なることがあり、一部の場合には15倍の違いがある」と示しています。

トークン化とは、テキストをトークンのリストに分割するプロセスであり、トークンはテキスト内の一般的な文字の連続です。

トークン化の例

トークン化の長さの違いは問題です。なぜなら、OpenAIのAPIは1,000トークンの単位で請求されるからです。したがって、同等のテキストにおいて15倍のトークンがある場合、APIのコストは15倍になります。

実験: 異なる言語でのトークン数

フレーズ「Hello world」を日本語に翻訳(こんにちは世界)し、ヒンディー語に転写(हैलो वर्ल्ड)してみましょう。OpenAIのGPTモデルで使用されるcl100k_baseトークナイザーで新しいフレーズをトークン化すると、次の結果が得られます(これらの実験に使用したコードは記事の最後にあります)。

英語、日本語、ヒンディー語でのフレーズ「Hello world」の文字数とトークン数(cl100k_base)

上記のグラフから、2つの興味深い観察ができます:

  1. 文字数は…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

すべての開発者が知るべき6つの生成AIフレームワークとツール

この記事では、トップのジェネラティブAIフレームワークとツールについて探求しますあなたの想像力を解き放ち、ジェネラティ...

人工知能

7つの最高の履歴書ビルダーAIツール

これらのAI履歴書ビルダーツールは、人々の90%以上よりも優れた文章を書き、100%の人々よりも速く作成します

データサイエンス

「データ注釈は機械学習の成功において不可欠な役割を果たす」

「自動車から医療まで、AIの成功におけるデータアノテーションの重要な役割を発見しましょう方法、応用、そして将来のトレン...

データサイエンス

「AIと倫理の架け橋:医療実施における包括的な解決策」

「この記事では、AIの倫理的な考慮事項について掘り下げ、医療の分野でAIの力を責任を持ってかつ公正に活用する方法について...

AI研究

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは...

機械学習

大規模な言語モデルにおけるコンテキストに基づく学習アプローチ

言語モデリング(LM)は、単語のシーケンスの生成的な尤度をモデル化することを目指し、将来の(または欠損している)トーク...