アバカスAIは、新しいオープンロングコンテキスト大規模言語モデルLLM「ジラフ」を紹介します

アバカスAIは、ジラフという新しいLLM言語モデルを紹介します

最近の言語モデルは長い文脈を入力として受け取ることができますが、それらが長い文脈をどれだけ効果的に使用しているかについてはさらなる知見が必要です。LLMsは長い文脈に拡張することができるのでしょうか?これは未解決の問いです。Abacus AIの研究者たちは、Llamaというモデルの文脈長の能力を開発するためのさまざまな手法を用いた実験を行いました。このモデルは、文脈長2048で事前学習されています。彼らはこれらのモデルをIFTを用いてスケール4および16で線形にスケールアップしました。モデルをスケール16にスケールアップすると、16kの文脈長または20-24kの文脈長までのワールドタスクを実行することができます。

文脈長を拡張するための異なる手法には、線形スケーリング、回転位置埋め込み(RoPE)のフーリエ基底のスケーリング、フーリエ基底の切り捨て、および位置ベクトルのランダム化があります。Abacus AIの研究者たちは、これらの手法を実装することでRedPajamaデータセットとVicunaデータセットを組み合わせてfine-tuningしました。彼らは、線形スケーリングは堅牢であるが、モデルの文脈長を増加させることがわかりました。切り捨てとランダム化はパープレキシティのスコアが高いが、リトリーバルタスクでは性能が低い結果となりました。

これらのモデルの評価には、LMSys、オープンブックの質問応答データセット、およびWikiQAからのデータセットを使用しました。LMSysデータセットは、文脈内の部分文字列を特定するために使用されました。WikiQAタスクは、Wikipediaのドキュメント内の情報に基づいて質問に答えるタスクです。

チームは、Google Natural Questionsのショートアンサーフォーマットデータに基づいたQAタスクを構築しました。出力は、元のドキュメントからコピー&ペーストした短い単語の回答だけであることを保証しています。これにより、LLMがどこを参照する必要があるのかを正確に特定することができ、回答を異なる位置に配置することで拡張された文脈長の各部分を効果的に評価することができます。彼らはまた、異なるサイズの同じWikipediaドキュメントの複数のバージョンを作成し、モデルのサイズにわたる公平な評価を行うことができました。

Wikipediaベースのデータセットの問題点は、モデルが事前学習されたテキストから回答を出力してしまうことです。研究者たちは、数値の回答のみを持つ質問からなる変更されたデータセットを作成することで、この問題を解決しました。彼らは回答とドキュメント内のすべての出現箇所を異なる数字に変更しました。これにより、モデルが事前学習テキストから再現する場合に誤った回答をするようになります。元のQAタスクをFree Form QA(FFQA)とし、変更されたタスクをAltered Numerical QA(AltQA)としました。

AbacusAIの研究者たちは、QAタスクの両バージョンのすべての例における存在精度を評価しました。存在精度は、モデルの生成された解答に回答が部分文字列として存在するかどうかを測定する指標です。彼らは、IFTによる精度の向上がモデルが達成できる文脈長の範囲を拡張しないことを観察しました。

研究者たちは、スケールされた文脈とIFTの組み合わせによる性能の飛躍的な向上を示しています。彼らは、スケールされた文脈ファクターによって補間されたすべての位置で、FFQAでは2倍、AltQAでは2.5倍の改善を観察しました。最後に、彼らの研究は、テーマをより良く捉え、より簡単に表現することができるより大きな文脈の言語モデルを提案しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Amazon Qをご紹介します:ビジネスの卓越性のためのチャットボットをご紹介します!」

今日の速いビジネスの世界では、効果的なコミュニケーションが成功の鍵となります。AmazonはAmazon Qを導入し、データとのや...

機械学習

「NVIDIAは、最大級のAmazon Titan Foundationモデルのトレーニングを支援しています」

大型言語モデルに関するすべての情報は大きいです。巨大なモデルは、数千台のNVIDIA GPU上で大規模なデータセットをトレーニ...

AI研究

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

データサイエンス

Deep Learningモデルのトレーニングをスーパーチャージ

90%に到達すると精度が初めのほうでは簡単に向上しますが、それ以上の改善を得るためには非常に力を入れなければならないとい...

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...