スタビリティAIが日本語のStableLMアルファを発表:日本語言語モデルの飛躍的な進化

Stability AI announces Japanese StableLM Alpha significant evolution of Japanese language model

日本の生成型AIの領域を向上させる重要な一歩として、Stability AIは、Stable Diffusionを開発した先駆的な生成型AI企業として、日本語言語モデル(LM)であるJapanese StableLM Alphaを初めて発表しました。この画期的なローンチは、同社のLMが日本語話者向けに提供される最も優れた公開モデルであるという主張によって注目を集めています。この主張は、他の4つの日本語LMとの包括的なベンチマーク評価によって裏付けられています。

この新しく導入されたJapanese StableLM Alphaは、70億のパラメータを持つ印象的なアーキテクチャを誇り、Stability AIの技術進歩への取り組みを証明しています。このモデルは、さまざまな言語タスクに対応できる多目的で高性能なツールです。その優れた性能は、複数のカテゴリーで競合他社を凌駕し、業界のリーダーとしての地位を確立しています。

日本語のStableLM Base Alpha 7Bの商業版は、広く認知されているApache License 2.0の下でリリースされる予定です。この専門モデルは、オンラインリポジトリから入手した日本語と英語のテキストの7500億トークンを網羅した巨大なデータセットによる詳細なトレーニングを通じて精巧に作り上げられました。

この成果の基盤は、協力的な取り組みにも負うところがあります。Stability AIは、EleutherAI Polyglotプロジェクトの日本チームの専門知識を活用し、Stability AIの日本コミュニティによって作成されたデータセットを活用しています。この共同の取り組みは、Stability AIの開発プロセスの基盤となるEleutherAIのGPT-NeoXソフトウェアの拡張バージョンの活用によってさらに促進されています。

並行して行われるイノベーションであるJapanese StableLM Instruct Alpha 7Bもまた、注目すべき重要な節目を示しています。このモデルは主に研究目的に開発され、研究アプリケーションに専用です。これは、複数のオープンデータセットを利用した方法論的なアプローチであるSupervised Fine-tuning(SFT)によって、ユーザーの指示に従う特異な能力を発揮します。

これらのモデルは、EleutherAIのLanguage Model Evaluation Harnessを使用して厳密な評価が行われました。モデルは、文の分類、文のペアの分類、質問応答、文の要約など、さまざまなドメインで検証され、平均スコア54.71%という素晴らしい成績を収めました。Stability AIは、この性能指標が日本語のStableLM Instruct Alpha 7Bを他のモデルよりも優れていることを明確に示し、その優位性を強調しています。

興味深いことに、Stability AIの日本語LMのローンチは、ソフトバンクの最近の発表との関連でさらなる興味を引く要素を持っています。先週、ソフトバンクは、日本市場向けに設計された自社製の大型言語モデル(LLM)への参入を発表しました。同社の取り組みは、今年後半にデビュー予定の生成型AIコンピューティングプラットフォームに約200億円(約1億4000万ドル)を投じることによってさらに強調されています。

風景が展開し続ける中、生成型AIのダイナミックで進化する分野で最終的にどの日本語言語モデルが優位性を確立するかを確認するのは待つしかありません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

TaatikNet(ターティクネット):ヘブライ語の翻字のためのシーケンス・トゥ・シーケンス学習

この記事では、TaatikNetとseq2seqモデルの簡単な実装方法について説明していますコードとドキュメントについては、TaatikNet...

機械学習

「NVIDIAは、最大級のAmazon Titan Foundationモデルのトレーニングを支援しています」

大型言語モデルに関するすべての情報は大きいです。巨大なモデルは、数千台のNVIDIA GPU上で大規模なデータセットをトレーニ...

機械学習

「PyTorchモデルのパフォーマンス分析と最適化 - パート3」

これは、PyTorch ProfilerとTensorBoardを使用してPyTorchモデルの分析と最適化を行うトピックに関するシリーズ投稿の3部目で...

機械学習

マルチクエリアテンションの解説

マルチクエリアテンション(MQA)は、モデルのパフォーマンスを保証しながら、デコーダ内のトークン生成の速度を加速すること...

AI研究

タイタン向けのOpenAIのミニAIコマンド:スーパーアライメントの解読!

AI(人工知能)の超人型人工知能(AI)への迫り来る課題に取り組むため、OpenAIが画期的な研究方向、つまり弱から強の汎化を...

データサイエンス

デジタルネイティブ(クラウドで生まれた人々)のデータストリーミングの現状

クラウドに生まれたデジタルネイティブを探索し、イノベーションと新しいビジネスモデルにApache Kafkaを活用し、トレンド、...