「PolyLM(Polyglot Large Language Model)に会ってください:640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です」

PolyLM(Polyglot Large Language Model)は、640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です

最近、大規模言語モデル(LLM)の導入により、その多様性と能力が人工知能の分野で注目されています。これらのモデルは、膨大な量のデータで訓練され、自然言語の指示に基づいてテキストを理解し、推論し、生成するという、人間に近い能力を持っています。これらのモデルは、ゼロショットおよびフューショットのタスクで優れたパフォーマンスを発揮し、さまざまなタスクセットで微調整することで、自然言語で与えられた指示に基づいて予期しない課題に対応することができます。

現在のLLMとその開発は、英語やリソース豊富な言語に焦点を当てています。既存のLLMのほとんどは、英語のために特別に設計され、訓練されており、これらのモデルの研究と開発において英語に対する優位性が顕著です。この制限に対処するために、DAMO AcademyとAlibaba Groupの研究者チームは、POLYLM(Polyglot Large Language Model)と呼ばれるマルチリンガルLLMを提案しました。既存のマルチリンガルLLMには13Bモデルが欠けているという特徴があり、チームはPOLYLM-13BとPOLYLM-1.7Bをリリースして使用を容易にしました。

POLYLMは、Wikipedia、mC4、CC-100などの一般にアクセス可能なソースからの640Bトークンの巨大なデータセットを使用して構築されました。チームはまた、低資源言語の不十分なデータの問題に対処するために、カリキュラム学習技術を提案しています。この方法は、トレーニング中に高品質な低資源言語の割合を徐々に増やすことを含みますが、最初は英語に重点を置いています。英語から他の言語への一般的な知識の転送に焦点が当てられています。

チームはまた、教師付き微調整(SFT)フェーズのためのマルチリンガルな指示データセットであるMULTIALPACAを開発しました。既存のマルチリンガルSFTデータセットは、手動注釈によって取得されるか、機械翻訳によって取得されるが、手間と費用がかかるか、翻訳エラーが発生し、文化的なニュアンスが欠ける可能性があります。このマルチリンガル自己指示アプローチは、これらの制約を克服するために高品質なマルチリンガルな指示データを自動的に提供し、英語のシード、多言語への翻訳、指示の生成、およびフィルタリングシステムを活用します。

評価とLLMの多言語能力の評価のために、チームは既存のマルチリンガルタスクから派生したベンチマークを開発しました。これには、質問応答、言語理解、テキスト生成、クロスリンガル機械翻訳などのタスクを含みます。チームは広範な実験により、彼らの事前学習済みモデルが、非英語圏の言語において、同等のサイズのオープンソースモデルよりも優れたパフォーマンスを発揮することを示しました。提案されたカリキュラムトレーニング戦略は、英語の習熟度を維持しながら、多言語のパフォーマンスを向上させます。マルチリンガルな指示データの使用は、さらにPOLYLMの多言語ゼロショットタスクの処理能力を大幅に向上させます。

チームは以下の貢献をまとめています。

  1. スペイン語、ロシア語、アラビア語、日本語、韓国語、タイ語、インドネシア語、中国語など、主要な非英語圏の言語で優れたパフォーマンスを発揮する13Bスケールのモデルが実現されました。このモデルは、これらの言語の習熟度が不足しているか、同等の能力を持つより小さなバージョンがない既存のオープンソースモデルを補完します。
  1. 英語で主に獲得された一般的な知識を多様な非英語圏の言語や機械翻訳などの特定の自然言語処理タスクに効果的に転送するための高度なカリキュラム学習アプローチが提案されました。
  1. 既存の指示データセットを補完するMULTIALPACAというデータセットが提案されました。これにより、LLMは非英語圏の英語を母国語としない話者からのマルチリンガルな指示をより良く理解することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「インドが最新のAIを活用してペイメント詐欺に取り組む方法」

今日のデジタル時代において、オンライン取引に関連する詐欺は増加しており、金融機関と規制当局に重大な課題をもたらしてい...

AI研究

AIを使って若返る方法:新しい抗加齢薬が発見される

AIアルゴリズムが突破口を開き、老化や年齢関連疾患と戦う可能性のある潜在的な薬剤を特定するのに重要な役割を果たしました...

機械学習

AIによる生産性向上 生成AIが様々な産業において効率の新たな時代を開く

2022年11月22日、ほとんど仮想的な瞬間が訪れ、それは地球上のほぼすべての産業の基盤を揺るがしました。 その日、OpenAIは史...

人工知能

デヴオプスにおけるジェネレーティブAI:ピークなデヴオプスパフォーマンスを実現するスマートな(そして効果的な)方法

ジェネレーティブAIがDevOpsでチームワークを改善し、手続きを迅速化し、よりアジャイルかつ効率的な職場を作り出す方法を調...

データサイエンス

データ汚染とモデル崩壊:迫りくるAIの災害

AI生成コンテンツの存在は、疫病のように広がり、検索結果を毒し、さらにAIモデルを崩壊させるでしょう

人工知能

AIを使用して画像をビデオに変換する(Runway 2 チュートリアル)

RunwayMLは、ユーザーが静止画像を数秒でビデオに変換することができるAIツールです