ボストン大学の研究者たちは、プラチプスファミリーと称されるファインチューニングされたLLMsを公開しました:ベースLLMsの安価で高速かつパワフルな改良を実現するために
Boston University researchers have released fine-tuned LLMs called the Prachipus family achieving inexpensive, fast, and powerful improvements to base LLMs.
大規模言語モデル(LLM)は世界中で大きな注目を浴びています。これらの非常に効果的で効率的なモデルは、人工知能の最新の驚異として立ち現れています。文脈を理解し、テキストを生成し、論理的に対話する能力を持つことで、彼らは人間と機械の間のコミュニケーションを再定義する能力を備えています。研究者たちは、パラメータ効率のチューニング(PEFT)と呼ばれる手順によって、ベースの大規模言語モデルのパフォーマンスを向上させることに焦点を当てており、これは小規模で強力なOpen-Platypusデータセット上でLLMを最適化することを意味しています。
最近、ボストン大学の研究者チームが、Platypusという独自の改良と結合された大規模言語モデルの一群を紹介しました。これらのモデルは、比類のないパフォーマンスを達成し、現在HuggingFaceのOpen LLM Leaderboardでトップの位置を維持しています。Open-Platypusとして知られる厳選されたデータセットは、他の無料データセットから慎重に選ばれたもので、一般の人々にもアクセス可能になっています。これは、LLMのパフォーマンス向上に重要な要素に焦点を当てた大規模なデータセットの一部であり、注意深くカリキュレーションされています。
チームの目標は、ドメイン固有の情報を活用しながら、事前学習されたLLMの強力な事前知識を維持し、LoRAモジュールを微調整およびマージすることです。より包括的な知識を初期トレーニング中に蓄積するため、モデルは特定のタスクに合わせて調整することができます。LoRAモジュールが組み合わさることで、より強力なLLMが生み出されます。シナジーのおかげで、モデルの潜在能力と専門的なドメイン知識が明らかになります。
- IBMの研究者が、深層学習推論のためのアナログAIチップを紹介:スケーラブルなミックスドシグナルアーキテクチャの重要な構成要素を披露
- アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」
- Salesforceの研究者は、XGen-Image-1を導入しました:複数の事前学習済みコンポーネントを再利用するために訓練されたテキストから画像への潜在的な拡散モデル
この研究の重要な側面の一つは、テストデータの正確性を検証し、トレーニングデータ内の潜在的な汚染を特定するために行われた徹底した取り組みです。Platypusシリーズのモデルの信頼性と正確性をサポートする包括的なチェックがいくつかあり、この検証手順の方法を公開することは、さらなる現地調査の手引きとなる可能性があります。
モデルのサイズが異なるPlatypusファミリーは、量的なLLMメトリックで優れたパフォーマンスを発揮しています。これは、戦略の効果を証明するOpen LLM Leaderboardのトップに位置しています。チームは、彼らのモデルが他の最先端の微調整されたLLMと同等のパフォーマンスを発揮する一方で、微調整データと計算リソースの一部しか使用していないことを共有しています。例えば、13BのPlatypusモデルは、たったの5時間で単一のA100 GPUとわずか25,000の質問を使用して成功裏にトレーニングすることができます。この驚異的な効率性は、Open-Platypusデータセットの優れた品質を強調し、この分野でのさらなる進展の道を切り開いています。
貢献は以下のようにまとめることができます:
- STEMおよび論理的な知識を強化するために導入された11の公開テキストデータセットからなるコンパクトなデータセットであるOpen-Platypus。
- このデータセットは、主に人間が設計した質問から構成されており、微調整時間とコストを最小限に抑えて強力なパフォーマンスを提供します。
- データセットのサイズと冗長性を減らすための類似データの除外プロセスの説明が共有されています。
- LLMトレーニングセットにおけるデータ汚染の課題とデータフィルタリングプロセスについて探求されています。
- 専門的に微調整されたLoRAモジュールの選択とマージアプローチの説明が共有されており、LLMの全体的なパフォーマンス向上に貢献しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- UCサンタクルーズの研究者たちは、概念や価値観間の暗黙的なステレオタイプと、画像内のそれらを定量化する画像対テキスト関連性テストツールを提案しています
- 「これまでに見たことのない新しいコンセプトをどのように生成できるのか?テルアビブ大学の研究者たちは、ConceptLabという名前の新しいアイデア生成手法を提案していますこれは拡散事前制約を用いた創造的な生成手法です」
- メタAIの研究者たちは、大規模な言語モデルの生成物を批評するための新しいAIモデルを紹介しました
- ペンシルベニア大学の研究者たちは、腎臓のマッチングを改善し、移植片の失敗リスクを減らすための機械学習戦略の開発を行っています
- バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです
- 中国からの新しいAI研究が、RecycleGPTを紹介しましたRecycleGPTは、完全なモデルを複数のステップで実行せずに、事前生成されたモデルの状態をリサイクルすることで、高速なデコーディングスピード(1.4倍)を持つ生成言語モデルです
- 研究者たちは、肩越しに画面をのぞき見する人々から身を守るためのスクリーン保護システムを開発しました