「インセプション、MBZUAI、そしてCerebrasが『Jais』をオープンソース化：世界最先端のアラビア語大規模言語モデル」の記事が公開されました

Article on 'Inception, MBZUAI, and Cerebras Open-Sourcing 'Jais' World's Most Advanced Arabic Language Large-scale Language Model' has been published.

大規模言語モデル（GPT-3など）とその社会への影響は、大いに関心と議論の的です。大規模言語モデルは、自然言語処理（NLP）の分野を大きく前進させました。それらは、翻訳、感情分析、要約、質問応答など、さまざまな言語関連のタスクの精度を向上させました。大規模言語モデルによって強化されたチャットボットや仮想アシスタントは、複雑な会話を処理する能力が向上しています。これらは、顧客サポート、オンラインチャットサービス、一部のユーザーにとってはさえ仲間として使用されています。

アラビア語の大規模言語モデル（LLM）を構築することは、アラビア語の特徴やその方言の多様性のために独自の課題を持ちます。他の言語の大規模言語モデルと同様に、アラビア語のLLMはトレーニングデータからバイアスを受け継ぐ可能性があります。これらのバイアスに対処し、アラビア語のコンテキストでのAIの責任ある使用を確保することは、継続的な関心事です。

Inception、Cerebras、Mohamed bin Zayed University of Artificial Intelligence（UAE）の研究者たちは、新しいアラビア語ベースの大規模言語モデルJaisとJais-chatを紹介しました。彼らのモデルは、GPT-3の生成的事前学習アーキテクチャに基づいており、たった13Bのパラメータのみを使用しています。

彼らの主な課題は、モデルのトレーニングのための高品質なアラビア語データを入手することでした。英語のデータに比べて、2兆トークンまでのコーパスが利用可能である一方、アラビア語のコーパスはかなり小さいものでした。コーパスとは、言語学、自然言語処理（NLP）、テキスト分析のための研究や言語モデルのトレーニングに使用される、大規模で構造化されたテキストのコレクションです。コーパスは、言語のパターン、意味論、文法などを研究するための貴重なリソースとして活用されます。

彼らは、これを解決するために、限られたアラビア語の事前トレーニングデータを豊富な英語の事前トレーニングデータで補完するためにバイリンガルモデルをトレーニングしました。彼らは、Jaisを3950億トークン、その中に72 billionのアラビア語トークンと2320億の英語トークンを含むように事前トレーニングしました。彼らは、高品質なアラビア語データを生成するために、徹底的なデータフィルタリングとクリーニングを含む専門のアラビア語テキスト処理パイプラインを開発しました。

彼らは、彼らのモデルの事前学習と微調整の機能が、既知のすべてのオープンソースのアラビア語モデルを上回り、より大規模なデータセットでトレーニングされた最新のオープンソースの英語モデルと同等であると述べています。LLMの固有の安全上の懸念を考慮し、彼らはさらに安全志向の指示で微調整しました。安全プロンプト、キーワードベースのフィルタリング、外部分類器の形で追加のガードレールを設けました。

彼らは、Jaisが中東のNLPとAIの景観の重要な進化と拡大を表していると述べています。それはアラビア語の理解と生成を前進させ、主権的でプライベートな展開オプションを持つ地元のプレーヤーを支援し、応用とイノベーションの活発なエコシステムを育成します。この研究は、より言語的に包括的で文化的に意識の高い時代を築くためのデジタルとAIの転換の広範な戦略的イニシアチブをサポートしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「インセプション、MBZUAI、そしてCerebrasが『Jais』をオープンソース化：世界最先端のアラビア語大規模言語モデル」の記事が公開されました

Was this article helpful?

YOLOV8によるANPR

『チュートリアルを超えて LangChainのPandasエージェントでデータ分析を学ぶ』

AI研究

言語学習モデルにおけるOpenAIの関数呼び出しの力：包括的なガイド

ディープラーニングライブラリーの紹介：PyTorchとLightning AI

「PolyLM（Polyglot Large Language Model）に会ってください：640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です」

ライトオンAIは、Falcon-40Bをベースにした新しいオープンソースの言語モデル（LLM）であるAlfred-40B-0723をリリースしました

機械学習モデルのための高度な特徴選択技術

AIシステム：発見されたバイアスと真の公正性への魅力的な探求