「初心者のためのバイトペアエンコーディング」

「初心者のためのバイトペアエンコーディング入門ガイド」

バイトペアエンコーディング(BPE)トークナイザーへのイラスト付きガイド

Image by author

この記事では、BERTファミリー、BART、およびGPTファミリーなど、最先端の大規模言語モデルで使用される、最もよく知られたトークン化アルゴリズムの1つであるByte-Pair Encoding(BPE)について紹介します。

さあ始めましょう。

バイトペアエンコーディング(BPE)

バイトペアエンコーディング(BPE)はコーパスベースのサブワードトークナイゼーションアルゴリズムです。 これは、トレーニングコーパスを使用して頻出の文字(または記号)を学習し、それらを1つの記号に結合します。そして、サブワードトークナイザーでもあります。これは、テキストを単語以下の単位に分割します。

下の画像は、文章「雨が降っています」のサブワードトークナイゼーションを示しています。 「it」と「is」は完全な単語トークンですが、「rain」と「ing」は「raining」のサブワードです。

BPEアルゴリズムには、トークンの学習器とトークンのセグメンターの2つのメインパーツがあります。

1- トークンの学習器:これはテキストのコーパスを取り、トークンを含むボキャブラリーを作成します。このコーパスはトレーニングコーパスとして機能します。

token learner takes a corpus of text and build a vocabulary — image by the author

2- トークンのセグメンター:これは文などのテキストを取り、トークンに分割します。このテキストはテストデータです。前のステップで得た知識を使用して、テキストをトークナイズします。

token segmenter converts a sentence to its tokens — image by the author

言及する価値がありますが、

「バイトペアエンコーディング(BPE)(Gage、1994)は、連続する最も頻度の高いバイトのペアを未使用のバイト1つに反復的に置換する古いデータ圧縮技術です。」[1]

現在のトークナイゼーションのために知られているBPEアルゴリズムは、このアルゴリズムに基づいていますが、頻繁なバイトのペアをマージする代わりに、頻繁な文字(または…+

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more