「PolyLM(Polyglot Large Language Model)に会ってください:640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です」
PolyLM(Polyglot Large Language Model)は、640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です
最近、大規模言語モデル(LLM)の導入により、その多様性と能力が人工知能の分野で注目されています。これらのモデルは、膨大な量のデータで訓練され、自然言語の指示に基づいてテキストを理解し、推論し、生成するという、人間に近い能力を持っています。これらのモデルは、ゼロショットおよびフューショットのタスクで優れたパフォーマンスを発揮し、さまざまなタスクセットで微調整することで、自然言語で与えられた指示に基づいて予期しない課題に対応することができます。
現在のLLMとその開発は、英語やリソース豊富な言語に焦点を当てています。既存のLLMのほとんどは、英語のために特別に設計され、訓練されており、これらのモデルの研究と開発において英語に対する優位性が顕著です。この制限に対処するために、DAMO AcademyとAlibaba Groupの研究者チームは、POLYLM(Polyglot Large Language Model)と呼ばれるマルチリンガルLLMを提案しました。既存のマルチリンガルLLMには13Bモデルが欠けているという特徴があり、チームはPOLYLM-13BとPOLYLM-1.7Bをリリースして使用を容易にしました。
POLYLMは、Wikipedia、mC4、CC-100などの一般にアクセス可能なソースからの640Bトークンの巨大なデータセットを使用して構築されました。チームはまた、低資源言語の不十分なデータの問題に対処するために、カリキュラム学習技術を提案しています。この方法は、トレーニング中に高品質な低資源言語の割合を徐々に増やすことを含みますが、最初は英語に重点を置いています。英語から他の言語への一般的な知識の転送に焦点が当てられています。
- 「2023年のトップコンピュータビジョンツール/プラットフォーム」
- 非ユークリッド空間における機械学習
- 「アルマンド・ソラール・レザマが初代ディスティングイッシュド・カレッジ・オブ・コンピューティング・プロフェッサーに任命されました」
チームはまた、教師付き微調整(SFT)フェーズのためのマルチリンガルな指示データセットであるMULTIALPACAを開発しました。既存のマルチリンガルSFTデータセットは、手動注釈によって取得されるか、機械翻訳によって取得されるが、手間と費用がかかるか、翻訳エラーが発生し、文化的なニュアンスが欠ける可能性があります。このマルチリンガル自己指示アプローチは、これらの制約を克服するために高品質なマルチリンガルな指示データを自動的に提供し、英語のシード、多言語への翻訳、指示の生成、およびフィルタリングシステムを活用します。
評価とLLMの多言語能力の評価のために、チームは既存のマルチリンガルタスクから派生したベンチマークを開発しました。これには、質問応答、言語理解、テキスト生成、クロスリンガル機械翻訳などのタスクを含みます。チームは広範な実験により、彼らの事前学習済みモデルが、非英語圏の言語において、同等のサイズのオープンソースモデルよりも優れたパフォーマンスを発揮することを示しました。提案されたカリキュラムトレーニング戦略は、英語の習熟度を維持しながら、多言語のパフォーマンスを向上させます。マルチリンガルな指示データの使用は、さらにPOLYLMの多言語ゼロショットタスクの処理能力を大幅に向上させます。
チームは以下の貢献をまとめています。
- スペイン語、ロシア語、アラビア語、日本語、韓国語、タイ語、インドネシア語、中国語など、主要な非英語圏の言語で優れたパフォーマンスを発揮する13Bスケールのモデルが実現されました。このモデルは、これらの言語の習熟度が不足しているか、同等の能力を持つより小さなバージョンがない既存のオープンソースモデルを補完します。
- 英語で主に獲得された一般的な知識を多様な非英語圏の言語や機械翻訳などの特定の自然言語処理タスクに効果的に転送するための高度なカリキュラム学習アプローチが提案されました。
- 既存の指示データセットを補完するMULTIALPACAというデータセットが提案されました。これにより、LLMは非英語圏の英語を母国語としない話者からのマルチリンガルな指示をより良く理解することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「コーヒーマシンを介して侵害された – 知っておくべき6つのスマートホームセキュリティの脅威」
- 「Transformerモデルの実践的な導入 BERT」
- 「Text2Cinemagraphによるダイナミックな画像の力を探索:テキストプロンプトからシネマグラフを生成するための革新的なAIツール」
- 「生成型AIアプリケーションにおける効果的なプロンプトエンジニアリング原則」
- 「Underrepresented Groupsの存在下での学習について」
- アリババのChatGPTの競合相手、統一千文と出会ってください:その大規模言語モデルは、Tmall Genieスマートスピーカーや職場メッセージングプラットフォームのDingTalkに組み込まれる予定です
- 「ニューラルネットワークとディープラーニング:教科書(第2版)」