ボストン大学の研究者たちは、プラチプスファミリーと称されるファインチューニングされたLLMsを公開しました:ベースLLMsの安価で高速かつパワフルな改良を実現するために

Boston University researchers have released fine-tuned LLMs called the Prachipus family achieving inexpensive, fast, and powerful improvements to base LLMs.

大規模言語モデル(LLM)は世界中で大きな注目を浴びています。これらの非常に効果的で効率的なモデルは、人工知能の最新の驚異として立ち現れています。文脈を理解し、テキストを生成し、論理的に対話する能力を持つことで、彼らは人間と機械の間のコミュニケーションを再定義する能力を備えています。研究者たちは、パラメータ効率のチューニング(PEFT)と呼ばれる手順によって、ベースの大規模言語モデルのパフォーマンスを向上させることに焦点を当てており、これは小規模で強力なOpen-Platypusデータセット上でLLMを最適化することを意味しています。

最近、ボストン大学の研究者チームが、Platypusという独自の改良と結合された大規模言語モデルの一群を紹介しました。これらのモデルは、比類のないパフォーマンスを達成し、現在HuggingFaceのOpen LLM Leaderboardでトップの位置を維持しています。Open-Platypusとして知られる厳選されたデータセットは、他の無料データセットから慎重に選ばれたもので、一般の人々にもアクセス可能になっています。これは、LLMのパフォーマンス向上に重要な要素に焦点を当てた大規模なデータセットの一部であり、注意深くカリキュレーションされています。

チームの目標は、ドメイン固有の情報を活用しながら、事前学習されたLLMの強力な事前知識を維持し、LoRAモジュールを微調整およびマージすることです。より包括的な知識を初期トレーニング中に蓄積するため、モデルは特定のタスクに合わせて調整することができます。LoRAモジュールが組み合わさることで、より強力なLLMが生み出されます。シナジーのおかげで、モデルの潜在能力と専門的なドメイン知識が明らかになります。

この研究の重要な側面の一つは、テストデータの正確性を検証し、トレーニングデータ内の潜在的な汚染を特定するために行われた徹底した取り組みです。Platypusシリーズのモデルの信頼性と正確性をサポートする包括的なチェックがいくつかあり、この検証手順の方法を公開することは、さらなる現地調査の手引きとなる可能性があります。

モデルのサイズが異なるPlatypusファミリーは、量的なLLMメトリックで優れたパフォーマンスを発揮しています。これは、戦略の効果を証明するOpen LLM Leaderboardのトップに位置しています。チームは、彼らのモデルが他の最先端の微調整されたLLMと同等のパフォーマンスを発揮する一方で、微調整データと計算リソースの一部しか使用していないことを共有しています。例えば、13BのPlatypusモデルは、たったの5時間で単一のA100 GPUとわずか25,000の質問を使用して成功裏にトレーニングすることができます。この驚異的な効率性は、Open-Platypusデータセットの優れた品質を強調し、この分野でのさらなる進展の道を切り開いています。

貢献は以下のようにまとめることができます:

  1. STEMおよび論理的な知識を強化するために導入された11の公開テキストデータセットからなるコンパクトなデータセットであるOpen-Platypus。
  1. このデータセットは、主に人間が設計した質問から構成されており、微調整時間とコストを最小限に抑えて強力なパフォーマンスを提供します。
  1. データセットのサイズと冗長性を減らすための類似データの除外プロセスの説明が共有されています。
  1. LLMトレーニングセットにおけるデータ汚染の課題とデータフィルタリングプロセスについて探求されています。
  1. 専門的に微調整されたLoRAモジュールの選択とマージアプローチの説明が共有されており、LLMの全体的なパフォーマンス向上に貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AIニュース

「AnthropicがClaude 2を発表:コーディングを革新する次世代AIチャットプログラム」

人工知能スタートアップのAnthropicは、テックジャイアントのGoogleによるバックアップを受けて、人気のあるチャットプログラ...

データサイエンス

次元の呪いの真の範囲を可視化する

非常に多くの特徴を持つ観測の振る舞いを視覚化するために、モンテカルロ法を使用する

AIニュース

「人工知能(AI)のトップコンテンツ検出ツール」

人工知能(AI)および自然言語処理(NLP)の技術は、AIコンテンツの検出プロセスで使用され、テキストのコンテンツを自動的に...

機械学習

このAI論文では、これらの課題に対処しながらMoEsの利点を維持するために、完全に微分可能な疎なTransformerであるSoft MoEを提案しています

大きなTransformerが適切に機能するには、より多くの計算コストが必要です。最近の研究では、モデルのサイズとトレーニングデ...

AI研究

シカゴ大学の研究者が3Dペイントブラシを導入:テキストを入力として使用してメッシュ上にローカルスタイルのテクスチャを生成するためのAIメソッド

3Dのペイントブラシは通常、3Dモデリングやスカルプトアプリケーションで使用され、3Dオブジェクトやモデルを作成および操作...

データサイエンス

AIの目に見えない敵:デジタルの「ダークマター」の課題に立ち向かう

デジタルダークマターは、科学者がコンピュータビジョンAIから計算技術を借用することによって生まれたものです