メタAI研究者が高度な長文脈LLMsを提案します:アップサンプリング、トレーニングテクニック、およびGPT-3.5-Turbo-16kの性能を超えるための深い探求

「美容とファッションのエキスパートがおすすめするメタAI研究者の提案:アップサンプリング、トレーニングテクニック、そして深い探求でGPT-3.5-Turbo-16kを凌駕する高度な長文脈LLMs」

“`html

大規模言語モデル(LLM)の出現は、自然言語処理における画期的な進展を示しています。これらのモデルは膨大な量のデータで訓練され、膨大な計算リソースを活用することで、人間のデジタル世界との相互作用を変革することを約束しています。スケールと迅速な展開を通じて進化することで、これらのモデルの潜在的なユースケースはますます複雑になります。例えば、知識豊富な文書の分析、より本物らしく魅力的なチャットボット体験の向上、コーディングやデザインなどの反復的な創造的プロセスを支援するといったタスクに彼らは能力を拡張しています。

この進化を可能にする重要な特徴の一つは、長い文脈の入力を効果的に処理する能力です。つまり、LLMは適切な前文脈に基づいてテキストを理解し、生成することができる必要があります。これは、長い文書、マルチターンの会話、または複雑な問題解決に関わるタスクに特に重要です。

しかし、ここまでのところ、長文脈の機能が強力なLLMは主にプロプライエタリなLLM API経由で利用可能であり、研究者や開発者が利用できる解決策にはギャップがありました。価値のあるオープンソースの長文脈モデルは存在しますが、評価ではしばしば不十分でした。通常、これらのモデルは言語モデリングの損失と合成タスクに焦点を当てますが、これは情報提供にはなりますが、多様な現実世界のシナリオにおいて効果的であることを包括的に示すものではありません。さらに、これらのモデルの多くは、標準的な短文脈のタスクでも高いパフォーマンスを維持する必要性を見落とし、これらの評価を回避したり、劣った結果を報告したりしています。

これらの課題に対応するために、新しいメタ研究では、すべての既存のオープンソースモデルを凌駕する長文脈LLM構築手法を提案しています。この手法は、LLAMA 2のチェックポイントから継続的な事前訓練を行い、追加の4000億トークンを使用して広範な訓練シーケンスを構築します。これらのシーケンスは、長文脈の理解の要点を捉えるように設計されています。この研究では、32,768トークンのシーケンスで訓練された小型の7B/13Bモデルと、16,384トークンのシーケンスで訓練された大型の34B/70Bモデルなど、さまざまなモデルバリアントを提供しています。

この手法の特徴は、評価プロセスの徹底さです。以前の研究とは異なり、チームはモデルのパフォーマンスを複数の側面で評価しています。これには、言語モデリングの能力、合成タスクのパフォーマンス、そして何よりも重要なことに、さまざまな実世界のベンチマークでの能力の評価が含まれます。彼らは長文脈と短文脈のタスクをカバーし、モデルの能力の包括的なビューを提供しています。

研究の結果は、スケーリングの挙動がモデルの能力を一貫して高めることを示し、文脈の長さをLLMのさらなる拡大の重要な要素として強調しています。

研究ベンチマークにおけるLLAMA 2と比較して、この手法では長文脈のタスクにおいて大きな改善が見られ、標準的な短文脈のタスクでも僅かな向上があります。これらの改善は、コーディング、数学的問題解決、知識関連のタスクにおいて特に顕著です。さらに、チームは人間によって注釈付けられたデータなしで達成される連続的に事前訓練された長いモデルの命令微調整のための簡単で費用効果の高い手順を探索しています。その結果、この手法は一連の長文脈ベンチマークでgpt-3.5-turbo-16kのパフォーマンスを凌駕するチャットモデルを実現しています。

全体として、この手法はプロプライエタリとオープンソースの長文脈LLMのギャップを埋めるための大きな進歩です。優れたパフォーマンスを持つモデル、さまざまな側面にわたる包括的な評価、および能力に影響を与える要素のより深い理解を提供しています。最終的には、研究者や開発者が長文脈LLMの潜在能力を広範なアプリケーションに活用することを可能にしたいと考えています。これにより、自然言語処理の新時代が訪れることになります。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「OceanBaseを使用して、ゼロからLangchainの代替を作成する」

「オーシャンベースとAIの統合からモデルのトレーニングやチャットボットの作成まで、興味深い旅を通じてこのトピックを探求...

機械学習

ロボットが「グリップ」のアップグレードを取得:AO-Graspがロボットに物を落とさない技術を教えます!

近年、ロボットは製造業から医療まで、様々な産業でますます使用されています。しかし、彼らのタスクを遂行する効果は、環境...

AIニュース

Amazon SageMakerを使用した生成型AIモデルにおいて、Forethoughtがコストを66%以上削減する方法

この記事は、Forethought Technologies, Inc.のエンジニアリングディレクターであるJad Chamounと、同社のシニアMLエンジニア...

機械学習

このAIツールは、AIが画像を「見る」方法と、なぜアストロノートをシャベルと間違える可能性があるのかを説明します

人工知能(AI)が近年大きな進歩を遂げ、驚異的な成果と突破的な成果をもたらしていることは広く認識されています。ただし、A...

AIニュース

ChatHNに会いましょう:ハッカーニュースフィード上のリアルタイムAIパワーチャット

ChatHNはAIによって駆動され、最近Hacker News Feedで開始されました。ChatHNは、OpenAI FunctionsとVercel AI SDKを使用して...

データサイエンス

「固有表現とニュース」

「オランダのニュース記事のデータセットに対して適用された固有表現認識を用いた実験による自動要約、推薦、およびその他の...