兆のトークンからリトリーブして言語モデルを向上させる

Retrieve from trillions of tokens to improve language models.

近年、Transformerモデルのパラメータ数を増やすことにより、自己回帰言語モデリングの性能が大幅に向上しました。これにより、トレーニングエネルギーコストが莫大に増加し、100億以上のパラメータを持つ密な「大規模言語モデル」(LLM)が生成されました。同時に、ウェブページ、書籍、ニュース、コードを含む兆候のワードを含む大規模データセットが収集され、これらのLLMの訓練を容易にしました。

私たちは言語モデルの改善のための別のアプローチを探求しています。つまり、テキストパッセージのデータベースを検索することで、Transformerに機能を追加します。このデータベースには、ウェブページ、書籍、ニュース、コードなどが含まれています。私たちはこの方法を「Retrieval Enhanced TRansfOrmers(RETRO)」と呼んでいます。

図1:Retrieval Enhanced TransfOrmers(RETRO)の概要

従来のTransformer言語モデルでは、モデルのサイズとデータのサイズの利点はリンクしています。データセットが十分に大きい限り、言語モデリングの性能はモデルのサイズに制約されます。しかし、RETROではモデルはトレーニング中に見たデータに制限されません-リトリーバルメカニズムを介してトレーニングデータセット全体にアクセスできます。これにより、同じパラメータ数を持つ標準のTransformerと比較して、大幅な性能向上が実現されます。リトリーバルデータベースのサイズを増やすと、言語モデリングが連続して改善することを示します。少なくとも2兆トークン-連続的な読書の175倍の寿命まで。

図2:リトリーバルデータセットのサイズを増やすと、モデルの性能が大幅に向上します。

各テキストパッセージ(おおよそ文書の段落)ごとに、最近傍検索が実行され、トレーニングデータベースで見つかった類似のシーケンスとそれらの継続が返されます。これらのシーケンスは、入力テキストの継続を予測するのに役立ちます。RETROアーキテクチャは、文書レベルでの通常の自己アテンションと、より詳細なパスレベルでの取得された近隣との交差アテンションを交互に行います。これにより、より正確で事実に基づいた継続が実現されます。さらに、RETROはモデルの予測の解釈可能性を高め、テキスト継続の安全性を向上させるためにリトリーバルデータベースを介した直接的な介入のルートを提供します。Pileという標準の言語モデリングベンチマークでの実験では、75億パラメータのRETROモデルは、1750億パラメータのJurassic-1に対して16個のデータセットのうち10個で優れ、280B Gopherに対して16個のデータセットのうち9個で優れています。

以下に、7Bのベースラインモデルと7.5BのRETROモデルから抽出した2つのサンプルを示します。これらのサンプルは、RETROのサンプルがベースラインのサンプルよりも事実に即しており、トピックに沿っていることを強調しています。

図3:ベースラインは正しい数字を2つしか生成しません。RETROでは、データベースから取得された後に正しい数字が生成されます。
図4:RETROモデルは、ベースラインのサンプルよりもトピックに沿っています。ここにキャプションを入力します(オプション)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...

機械学習

このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル(Code-LLMs)はコ...

人工知能

関数呼び出し:GPTチャットボットを何にでも統合する

OpenAIのGPTの新しい関数呼び出し機能を探索し、チャットボットが外部ツールやAPIと対話できるようにしますAIパワーを活用し...

データサイエンス

メタAIのもう一つの革命的な大規模モデル — 画像特徴抽出のためのDINOv2

Mete AIは、画像から自動的に視覚的な特徴を抽出する新しい画像特徴抽出モデルDINOv2の新バージョンを紹介しましたこれはAIの...

機械学習

AI倫理の役割:革新と社会的責任のバランス

「人工知能は急速に拡大している分野を表しており、AIが引き起こす倫理的なジレンマを認識することが重要です」

AI研究

このAI研究論文は、視覚の位置推定とマッピングのための深層学習に関する包括的な調査を提供しています

もし私があなたに「今どこにいるの?」または「周りの様子はどうですか?」と尋ねたら、人間の多感覚知覚という独特な能力の...