ボストン大学の研究者たちは、プラチプスファミリーと称されるファインチューニングされたLLMsを公開しました:ベースLLMsの安価で高速かつパワフルな改良を実現するために

Boston University researchers have released fine-tuned LLMs called the Prachipus family achieving inexpensive, fast, and powerful improvements to base LLMs.

大規模言語モデル(LLM)は世界中で大きな注目を浴びています。これらの非常に効果的で効率的なモデルは、人工知能の最新の驚異として立ち現れています。文脈を理解し、テキストを生成し、論理的に対話する能力を持つことで、彼らは人間と機械の間のコミュニケーションを再定義する能力を備えています。研究者たちは、パラメータ効率のチューニング(PEFT)と呼ばれる手順によって、ベースの大規模言語モデルのパフォーマンスを向上させることに焦点を当てており、これは小規模で強力なOpen-Platypusデータセット上でLLMを最適化することを意味しています。

最近、ボストン大学の研究者チームが、Platypusという独自の改良と結合された大規模言語モデルの一群を紹介しました。これらのモデルは、比類のないパフォーマンスを達成し、現在HuggingFaceのOpen LLM Leaderboardでトップの位置を維持しています。Open-Platypusとして知られる厳選されたデータセットは、他の無料データセットから慎重に選ばれたもので、一般の人々にもアクセス可能になっています。これは、LLMのパフォーマンス向上に重要な要素に焦点を当てた大規模なデータセットの一部であり、注意深くカリキュレーションされています。

チームの目標は、ドメイン固有の情報を活用しながら、事前学習されたLLMの強力な事前知識を維持し、LoRAモジュールを微調整およびマージすることです。より包括的な知識を初期トレーニング中に蓄積するため、モデルは特定のタスクに合わせて調整することができます。LoRAモジュールが組み合わさることで、より強力なLLMが生み出されます。シナジーのおかげで、モデルの潜在能力と専門的なドメイン知識が明らかになります。

この研究の重要な側面の一つは、テストデータの正確性を検証し、トレーニングデータ内の潜在的な汚染を特定するために行われた徹底した取り組みです。Platypusシリーズのモデルの信頼性と正確性をサポートする包括的なチェックがいくつかあり、この検証手順の方法を公開することは、さらなる現地調査の手引きとなる可能性があります。

モデルのサイズが異なるPlatypusファミリーは、量的なLLMメトリックで優れたパフォーマンスを発揮しています。これは、戦略の効果を証明するOpen LLM Leaderboardのトップに位置しています。チームは、彼らのモデルが他の最先端の微調整されたLLMと同等のパフォーマンスを発揮する一方で、微調整データと計算リソースの一部しか使用していないことを共有しています。例えば、13BのPlatypusモデルは、たったの5時間で単一のA100 GPUとわずか25,000の質問を使用して成功裏にトレーニングすることができます。この驚異的な効率性は、Open-Platypusデータセットの優れた品質を強調し、この分野でのさらなる進展の道を切り開いています。

貢献は以下のようにまとめることができます:

  1. STEMおよび論理的な知識を強化するために導入された11の公開テキストデータセットからなるコンパクトなデータセットであるOpen-Platypus。
  1. このデータセットは、主に人間が設計した質問から構成されており、微調整時間とコストを最小限に抑えて強力なパフォーマンスを提供します。
  1. データセットのサイズと冗長性を減らすための類似データの除外プロセスの説明が共有されています。
  1. LLMトレーニングセットにおけるデータ汚染の課題とデータフィルタリングプロセスについて探求されています。
  1. 専門的に微調整されたLoRAモジュールの選択とマージアプローチの説明が共有されており、LLMの全体的なパフォーマンス向上に貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

人工知能

AIの今週、8月7日:ジェネレーティブAIがJupyterとStack Overflowに登場• ChatGPTのアップデート

「This Week in AI」はVoAGIで提供される、人工知能の最新情報をまとめた週刊記事です最新のヘッドラインニュースや学術論文...

データサイエンス

「リアルタイムの高度な物体認識を備えたLego Technicソーターの構築」

「Nullspace Roboticsでのインターンシップ中、私は会社の能力を高めるプロジェクトに取り組む機会を得ました物体検出と機械...

AI研究

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル(LLM)の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、...

機械学習

人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて

研究者は、ChatGPTの形態能力を厳密に評価し、英語、ドイツ語、タミル語、トルコ語の4つの言語で比較します。ChatGPTは専門シ...

AIニュース

MicrosoftエンジニアのAIイノベーションとリーダーシップへのガイド

「マイクロソフトのシニアソフトウェアエンジニア、マナス・ジョシとともにAIイノベーションの洞察に飛び込もう:次世代のた...