アデプトAIラボは、Persimmon-8Bという強力なフルパーミッシブライセンスの言語モデルをオープンソース化しました

Adept AI Lab open-sourced the powerful, fully permissive language model called Persimmon-8B.

近年、人工知能の分野では、特に言語モデルの開発において著しい進歩が見られています。Marktechpost Mediaでは、様々なパラメータやSOTAの性能に基づく多くの言語モデルを取り上げてきました。このトレンドに続いて、今回はAdept AI LabsからPersimmon-8Bがリリースされました。Persimmon-8Bは8Bクラスのオープンソースで、完全に許容されるライセンスモデルです。このモデルは、さまざまなコンピュータ関連のタスクでユーザーをサポートすることを目的としており、広範なアプリケーションにおいて非常に大きな潜在能力を秘めています。ただし、生の形で使用すると、モデルが潜在的な有害性を持つ出力を生成する可能性があることに注意する必要があります。これは、より洗練された評価技術の必要性について重要な懸念を提起します。

より小さな言語モデルが印象的な能力を示してきましたが、Persimmon-8Bは大きな飛躍を遂げています。LLaMA2のコンテキストサイズの4倍、GPT-3などのモデルの8倍のコンテキストサイズを誇り、より洗練されたコンテキストに関連するタスクに対処できるようになっています。さらに、その性能は、データ量がはるかに少ないにも関わらず、同じサイズ範囲内の他のモデルと同等、もしくはそれ以上のパフォーマンスを発揮します。これは、モデルのトレーニングプロセスの効率性と効果を示しています。

Persimmon-8Bの能力を評価するために、Adeptチームは独自のアプローチを採用しています。暗黙の確率だけに頼るのではなく、モデルに回答を生成させるというより直接的なインタラクションによって評価を行っています。この方法論は、ユーザーが質問を投げかけて回答を予測する現実の言語モデルとの相互作用を反映しています。Adeptはプロンプトを公開することで、コミュニティによる再現と検証を招待しています。

その結果、Persimmon-8Bの能力は明白です。LLama 2やMPT 7B Instructなどの同じサイズ範囲の他のモデルと比較して、Persimmon-8B-FTはさまざまな指標において最も優れたパフォーマンスを発揮します。ベースモデルであるPersimmon-8B-Baseですら、データの一部しか使用していないにも関わらず、LLama 2と比較してほぼ同等のパフォーマンスを示します。これは、モデルが多様なタスクを処理する際の効率性と効果を強調しています。

技術的な詳細については、Persimmon-8Bはデコーダーのみのトランスフォーマーであり、いくつかのアーキテクチャの改良を備えています。通常の代替手段を上回る、二乗ReLU活性化と回転位置符号化を活用しています。モデルのチェックポイントは約93億のパラメータを含み、効率的なトレーニングが最適化されています。特に、入力と出力の埋め込みの分離は、トレーニングプロセスを効率化するシステムレベルの改良となっています。

推論速度に関しては、Persimmon-8Bは印象的なパフォーマンスを発揮します。最適化されたコードを使用することで、単一の80GB A100 GPU上で約56トークン/秒の生成が可能です。これにより、リアルタイムアプリケーションにおいて非常に効率的なツールとなります。

まとめると、Persimmon-8Bのリリースは言語モデルの分野における重要なマイルストーンです。その能力とAdeptが採用した革新的な評価手法は、対話型AIアプリケーションの新たな時代を切り開いています。このモデルをオープンソース化することで、Adeptはコミュニティに対してその基盤を築き、このダイナミックな分野におけるさらなるイノベーションを推進することを招待しています。モデルの採用が広がるにつれて、人々がコンピュータシステムとの対話を革新するさまざまなドメインで応用される可能性が高まるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「GPTBotの公開:OpenAIがウェブのクロールに踏み出す大胆な一手」

デジタル革新の渦中で、OpenAIはGPTBotというウェブクローラーをリリースすることで注目を浴びています。この取り組みはAIの...

AI研究

天候の変化:AI、高速計算がより速く、効率的な予測を提供することを約束します

2050年までに、極端な天候や気候の頻度と厳しさが増すことにより、ミュンヘン再保険会社によれば、年間100万人の命が失われ、...

AIテクノロジー

「最も価値のあるコードは、書くべきでないコードです」

伝統的なプログラミング言語のコーディングスキルは、AIが進化するにつれてますます重要ではなくなります私はコーディングな...

機械学習

AIコードの意図

現代のIDEには、コードの意図を含む機能がありますこれにより、コンテキストに基づいてコードに対して事前に定義されたアクシ...

データサイエンス

推論:可観測性のAI主導の未来?

この記事では、オペラビリティの後続としての推論、AIOpsからの教訓、その成功の不足、および推論ソリューションの新興原則に...

AI研究

スタンフォード研究者がGLOWとIVESを使用して、分子ドッキングとリガンド結合位姿の予測を変革しています

ディープラーニングは、スコアリング関数の改善により、分子ドッキングの向上の可能性を持っています。現在のサンプリングプ...