アデプトAIラボは、Persimmon-8Bという強力なフルパーミッシブライセンスの言語モデルをオープンソース化しました

Adept AI Lab open-sourced the powerful, fully permissive language model called Persimmon-8B.

近年、人工知能の分野では、特に言語モデルの開発において著しい進歩が見られています。Marktechpost Mediaでは、様々なパラメータやSOTAの性能に基づく多くの言語モデルを取り上げてきました。このトレンドに続いて、今回はAdept AI LabsからPersimmon-8Bがリリースされました。Persimmon-8Bは8Bクラスのオープンソースで、完全に許容されるライセンスモデルです。このモデルは、さまざまなコンピュータ関連のタスクでユーザーをサポートすることを目的としており、広範なアプリケーションにおいて非常に大きな潜在能力を秘めています。ただし、生の形で使用すると、モデルが潜在的な有害性を持つ出力を生成する可能性があることに注意する必要があります。これは、より洗練された評価技術の必要性について重要な懸念を提起します。

より小さな言語モデルが印象的な能力を示してきましたが、Persimmon-8Bは大きな飛躍を遂げています。LLaMA2のコンテキストサイズの4倍、GPT-3などのモデルの8倍のコンテキストサイズを誇り、より洗練されたコンテキストに関連するタスクに対処できるようになっています。さらに、その性能は、データ量がはるかに少ないにも関わらず、同じサイズ範囲内の他のモデルと同等、もしくはそれ以上のパフォーマンスを発揮します。これは、モデルのトレーニングプロセスの効率性と効果を示しています。

Persimmon-8Bの能力を評価するために、Adeptチームは独自のアプローチを採用しています。暗黙の確率だけに頼るのではなく、モデルに回答を生成させるというより直接的なインタラクションによって評価を行っています。この方法論は、ユーザーが質問を投げかけて回答を予測する現実の言語モデルとの相互作用を反映しています。Adeptはプロンプトを公開することで、コミュニティによる再現と検証を招待しています。

その結果、Persimmon-8Bの能力は明白です。LLama 2やMPT 7B Instructなどの同じサイズ範囲の他のモデルと比較して、Persimmon-8B-FTはさまざまな指標において最も優れたパフォーマンスを発揮します。ベースモデルであるPersimmon-8B-Baseですら、データの一部しか使用していないにも関わらず、LLama 2と比較してほぼ同等のパフォーマンスを示します。これは、モデルが多様なタスクを処理する際の効率性と効果を強調しています。

技術的な詳細については、Persimmon-8Bはデコーダーのみのトランスフォーマーであり、いくつかのアーキテクチャの改良を備えています。通常の代替手段を上回る、二乗ReLU活性化と回転位置符号化を活用しています。モデルのチェックポイントは約93億のパラメータを含み、効率的なトレーニングが最適化されています。特に、入力と出力の埋め込みの分離は、トレーニングプロセスを効率化するシステムレベルの改良となっています。

推論速度に関しては、Persimmon-8Bは印象的なパフォーマンスを発揮します。最適化されたコードを使用することで、単一の80GB A100 GPU上で約56トークン/秒の生成が可能です。これにより、リアルタイムアプリケーションにおいて非常に効率的なツールとなります。

まとめると、Persimmon-8Bのリリースは言語モデルの分野における重要なマイルストーンです。その能力とAdeptが採用した革新的な評価手法は、対話型AIアプリケーションの新たな時代を切り開いています。このモデルをオープンソース化することで、Adeptはコミュニティに対してその基盤を築き、このダイナミックな分野におけるさらなるイノベーションを推進することを招待しています。モデルの採用が広がるにつれて、人々がコンピュータシステムとの対話を革新するさまざまなドメインで応用される可能性が高まるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Microsoft BingはNVIDIA Tritonを使用して広告配信を高速化

Jiusheng Chen氏のチームは加速しました。 彼らは、NVIDIA Triton Inference ServerをNVIDIA A100 Tensor Core GPUで実行する...

機械学習

NVIDIAは、Generative AIを用いて薬物探索を加速させるためにGenentechと協力

ジェネンテック(ロシュグループの一員)は、 生成AI を使って新しい治療法を発見し、患者に効果的に治療を提供することを先...

データサイエンス

「ワイルドワイルドRAG…(パート1)」

「RAG(Retrieval-Augmented Generation)は、外部の知識源を取り込むことで言語モデルによって生成された応答の品質を向上さ...

AI研究

「GoogleはDeepfakeへの対策として、AIによって生成された画像にウォーターマークを付けます」

誤解を招くコンテンツの急増に対抗する重要な一歩として、Googleは革新的なソリューションを導入し、ディープフェイクに対す...

AIニュース

「アソシエーテッド・プレスがジャーナリスト向けのAIガイドラインを発表」

人工知能(AI)の急速な進歩は、ジャーナリズムを含むさまざまな産業への統合の道を開いています。最近、アソシエーテッドプ...

機械学習

一緒にAIを学びましょう−Towards AIコミュニティニュースレター#5

おはようございます、AI愛好家の皆さん!今週のポッドキャストのエピソードは必聴で、これまでの24エピソードの中でも一番優...