「初心者のためのバイトペアエンコーディング」
「初心者のためのバイトペアエンコーディング入門ガイド」
バイトペアエンコーディング(BPE)トークナイザーへのイラスト付きガイド
この記事では、BERTファミリー、BART、およびGPTファミリーなど、最先端の大規模言語モデルで使用される、最もよく知られたトークン化アルゴリズムの1つであるByte-Pair Encoding(BPE)について紹介します。
さあ始めましょう。
バイトペアエンコーディング(BPE)
バイトペアエンコーディング(BPE)はコーパスベースのサブワードトークナイゼーションアルゴリズムです。 これは、トレーニングコーパスを使用して頻出の文字(または記号)を学習し、それらを1つの記号に結合します。そして、サブワードトークナイザーでもあります。これは、テキストを単語以下の単位に分割します。
下の画像は、文章「雨が降っています」のサブワードトークナイゼーションを示しています。 「it」と「is」は完全な単語トークンですが、「rain」と「ing」は「raining」のサブワードです。
- 「ML(Machine Learning)製品に自信を持つことを忘れないでください」
- タイムズネット:時系列予測の最新の進歩
- ドメインを橋渡しする:MLリスク管理における金融、プライバシー、ソフトウェアのベストプラクティスの注入
BPEアルゴリズムには、トークンの学習器とトークンのセグメンターの2つのメインパーツがあります。
1- トークンの学習器:これはテキストのコーパスを取り、トークンを含むボキャブラリーを作成します。このコーパスはトレーニングコーパスとして機能します。
2- トークンのセグメンター:これは文などのテキストを取り、トークンに分割します。このテキストはテストデータです。前のステップで得た知識を使用して、テキストをトークナイズします。
言及する価値がありますが、
「バイトペアエンコーディング(BPE)(Gage、1994)は、連続する最も頻度の高いバイトのペアを未使用のバイト1つに反復的に置換する古いデータ圧縮技術です。」[1]
現在のトークナイゼーションのために知られているBPEアルゴリズムは、このアルゴリズムに基づいていますが、頻繁なバイトのペアをマージする代わりに、頻繁な文字(または…+
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles