兆のトークンからリトリーブして言語モデルを向上させる

Retrieve from trillions of tokens to improve language models.

近年、Transformerモデルのパラメータ数を増やすことにより、自己回帰言語モデリングの性能が大幅に向上しました。これにより、トレーニングエネルギーコストが莫大に増加し、100億以上のパラメータを持つ密な「大規模言語モデル」(LLM)が生成されました。同時に、ウェブページ、書籍、ニュース、コードを含む兆候のワードを含む大規模データセットが収集され、これらのLLMの訓練を容易にしました。

私たちは言語モデルの改善のための別のアプローチを探求しています。つまり、テキストパッセージのデータベースを検索することで、Transformerに機能を追加します。このデータベースには、ウェブページ、書籍、ニュース、コードなどが含まれています。私たちはこの方法を「Retrieval Enhanced TRansfOrmers(RETRO)」と呼んでいます。

図1:Retrieval Enhanced TransfOrmers(RETRO)の概要

従来のTransformer言語モデルでは、モデルのサイズとデータのサイズの利点はリンクしています。データセットが十分に大きい限り、言語モデリングの性能はモデルのサイズに制約されます。しかし、RETROではモデルはトレーニング中に見たデータに制限されません-リトリーバルメカニズムを介してトレーニングデータセット全体にアクセスできます。これにより、同じパラメータ数を持つ標準のTransformerと比較して、大幅な性能向上が実現されます。リトリーバルデータベースのサイズを増やすと、言語モデリングが連続して改善することを示します。少なくとも2兆トークン-連続的な読書の175倍の寿命まで。

図2:リトリーバルデータセットのサイズを増やすと、モデルの性能が大幅に向上します。

各テキストパッセージ(おおよそ文書の段落)ごとに、最近傍検索が実行され、トレーニングデータベースで見つかった類似のシーケンスとそれらの継続が返されます。これらのシーケンスは、入力テキストの継続を予測するのに役立ちます。RETROアーキテクチャは、文書レベルでの通常の自己アテンションと、より詳細なパスレベルでの取得された近隣との交差アテンションを交互に行います。これにより、より正確で事実に基づいた継続が実現されます。さらに、RETROはモデルの予測の解釈可能性を高め、テキスト継続の安全性を向上させるためにリトリーバルデータベースを介した直接的な介入のルートを提供します。Pileという標準の言語モデリングベンチマークでの実験では、75億パラメータのRETROモデルは、1750億パラメータのJurassic-1に対して16個のデータセットのうち10個で優れ、280B Gopherに対して16個のデータセットのうち9個で優れています。

以下に、7Bのベースラインモデルと7.5BのRETROモデルから抽出した2つのサンプルを示します。これらのサンプルは、RETROのサンプルがベースラインのサンプルよりも事実に即しており、トピックに沿っていることを強調しています。

図3:ベースラインは正しい数字を2つしか生成しません。RETROでは、データベースから取得された後に正しい数字が生成されます。
図4:RETROモデルは、ベースラインのサンプルよりもトピックに沿っています。ここにキャプションを入力します(オプション)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

OpenAI GPT(ジェネラル プロダクト トランスフォーマー):自分自身で作るChatGPTを活用した対話型AI

私たちの詳細な記事でカスタムGPTについて学びましょうその中では、あなたのニーズに合わせたAIチャットボットを簡単に作成す...

データサイエンス

情報とエントロピー

1948年、数学者のクロード・E・シャノンが「通信の数学的理論」という記事を発表し、機械学習における重要な概念であるエント...

AIテクノロジー

「ヌガーで科学文書処理を高める」

イントロダクション 自然言語処理および人工知能の分野では、科学的なPDFなどの非構造化データソースから価値ある情報を抽出...

データサイエンス

「研究データ管理の変革:AIの役割によるデベロッパーのエンパワーメント」

「人工知能(AI)は、開発者にとって便利な友達のような存在ですAIは大量のデータの中から情報を見つけることを簡単にします」

データサイエンス

「LangchainなしでPDFチャットボットを構築する方法」

はじめに Chatgptのリリース以来、AI領域では進歩のペースが減速する気配はありません。毎日新しいツールや技術が開発されて...

AI研究

芝浦工業大学の研究者たちは、深層学習を用いて顔方向検出を革新します:隠れた顔の特徴や広がる画角の課題に挑戦しています

コンピュータビジョンと人間との相互作用において、顔の向き推定という重要なタスクは、多様な応用を持つ重要な要素として浮...