「大規模言語モデルのパディング — Llama 2を用いた例」

Padding in Large Language Models An Example Using Llama 2

因果的LLMのトレーニング例をパッドするためのベストプラクティス

作者による画像—Pixabayの画像を元に作成

パディングは、大規模言語モデル(LLM)において最も文書化されていない側面の一つです。なぜでしょうか?それは、通常、LLMはパディングなしで事前学習されるためです。

ただし、カスタムデータセットでのLLMのファインチューニングには、パディングが必要です。トレーニング例を正しくパディングしないと、トレーニング中のヌルロスまたは無限ロス、過剰生成、または推論中の空の出力など、さまざまな予期しない動作が発生する可能性があります。

この記事では、まずパディングとは何か、なぜ必要なのかを説明します。次に、パディングなしで事前学習されたLLMに適切なパディング戦略を見つける方法を示します。Hugging FaceのTransformersを使用してLLMにパディングサポートを追加するための2つの異なる解決策も提案します。

記事の最後には、Llama 2のトレーニング例をパディングする方法を示す例も提供します。

この記事を読むと、ドキュメントやチュートリアルを読まずに、自分自身でLLMのトレーニング例をパディングする方法を理解できるようになるはずです。

パッドとバッチ

パディングとは何か、なぜパディングするのか?

ファインチューニングに使用する例を1つ取り上げましょう。

example = "あなたはチャットボットではありません。"

この例をトークンのシーケンスに変換する必要があります。Transformersなどのライブラリでは、通常、次の手順に従ってトークン化されます:

  • 与えられた語彙に基づいて、例をサブワードに分割する:
example = ["▁あなた", "▁は", "▁チャット", "ボット", "ではありません", "。"]
  • 単語を語彙のインデックスで置き換えて、整数のシーケンスを得る:
example = [887, 526, 451, 263, 13563, 7451, 29889]
  • シーケンスに特殊トークンを追加する:BOSトークン、EOSトークン、UNKトークン、PADトークンなど
example = [1, 887, 526, 451, 263, 13563, 7451, 29889]

注意:この例では、Llama 2のトークナイザーを使用しています。以下で詳しく説明します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

7つの最高の履歴書ビルダーAIツール

これらのAI履歴書ビルダーツールは、人々の90%以上よりも優れた文章を書き、100%の人々よりも速く作成します

AIニュース

世界初のAI搭載アーム:知っておくべきすべて

人工知能がバイオニックアームを制御する世界を想像したことがありますか? スーパーヒーローの映画から出てきたコンセプトの...

AI研究

「AWS 研究者がジェミニを紹介:大規模な深層学習トレーニングにおける画期的な高速障害回復」

ライス大学とAmazon Web Servicesの研究者チームが、GEMINIと呼ばれる分散トレーニングシステムを開発しました。このシステム...

AI研究

シャージャ大学の研究者たちは、アラビア語とその方言を自然言語処理に取り入れるための人工知能ソリューションを開発しました

アラビア語は4億2200万人以上の国民の公用語であり、世界で5番目に広く使用されています。しかし、自然言語処理ではほとんど...

AIニュース

アマゾンがベッドロックを展開:AIモデルの評価と人間のベンチマーキング

開発において、Amazon Bedrockは、特定のニーズに合わせて選択し、比較し、最適なファウンデーションモデル(FM)を選択する...

機械学習

「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部...