「階層トランスフォーマー ― パート2」

「階層トランスフォーマー ― パート2」を楽しく魅力的に

階層的な注意は速いです

この記事では、標準のトランスフォーマーとその動作についての知識が必要です。もし初心者で、トランスフォーマーについて知りたい場合は、初心者のためのトランスフォーマーの記事をご覧ください。

Hierarchical Transformer — part 1では、私たちは「階層的なトランスフォーマー」とは何を意味するのかを定義し、Hourglassと呼ばれるこの分野の有名な作品の一つを見てきました。

この記事では、別のよく知られた作品であるHierarchical Attention Transformers (HAT)を調べていきます。

さあ、始めましょう。

Hierarchical Attention Transformer(HAT)

この手法は、通常数千単語の長さを持つ長い文書を分類するために提案されました。この手法のユースケースとしては、通常非常に長い法律文書やバイオメディカル文書を分類することがあります。

トークナイズとセグメンテーション

HATの方法は、入力ドキュメントを取り、Byte-Pair Encoding(BPE)トークナイザを使用してテキストをサブワード/トークンに分割することで機能します。このトークナイザは、BERT、RoBERTA、GPTファミリーなど、多くの有名な大規模言語モデルで使用されています。

次に、トークン化されたドキュメントをN個の同じサイズのチャンクに分割します。すなわち、Sを入力ドキュメントとすると、S = [C1, …., CN] はN個の同じサイズのチャンクです(この記事では、時々「セグメント」と呼ばれることもありますが、同じ概念です)。各チャンクは、最初のトークンであるCLSトークンを表すWi[cls]を含むk個のトークンのシーケンスCi = [Wi[cls]、Wi1、…、Wik-1]です。

画像で見たように、各チャンクは、最初のトークンがCLSトークンであるトークンのシーケンスです。

モデルのアーキテクチャ

入力シーケンスのトークナイズとセグメンテーションを行った後、HATトランスフォーマーモデルに送信されます。HATモデルは、エンコーダトランスフォーマーであり、主要な2つのコンポーネントから構成されています:

  1. セグメントごとのエンコーダ(SWE):これは、セグメント(またはチャンク)のシーケンスを受け取り、処理する共有エンコーダブロックです。
  2. クロスセグメントエンコーダ(CSE):これは、すべてのセグメント(またはチャンク)のCLSトークンを受け取り、クロスセグメントの関係を処理する別のエンコーダブロックです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more