このAIの論文では、非英語の言語で事前学習されたLLMsを強化するために、言語間で意味の整合性を構築することを提案しています

このAIの論文では、非英語の言語で事前学習されたLLMsの強化のために、言語間で意味の整合性を構築することを提案しています' The condensed result is 'This AI paper proposes building semantic coherence across languages to enhance LLMs pretrained in non-English languages.

ChatGPTで英語以外の言語で質問したことはありますか?おそらく、お問い合わせに対して奇妙で関連性のない回答を得ることがあります。これは、これらのモデルが英語に偏っているためです。LLMsがどの言語でも動作すると便利ではありませんか?

国家重点实验室研究者たちは、英語以外の言語で事前学習されたLLMを提案しています。LLMsの通常の性能は、事前学習コーパスと指示調整データが英語であるため、非英語の言語では低いです。大規模な単言語データで継続的に事前学習することで、性能を向上させることができます。

研究者は、LLMsに対して翻訳タスクを用いて指示調整を行い、2つの言語間の対応を改善するためにクロスリングガルな一般タスクを使用します。彼らは、事前学習されたLLMとしてLLaMA-7Bを使用し、英語アルファベットに似た6つの言語を考慮します。LLaMAはLarge Language Model Meta AIの略です。

各言語ごとに言語固有のデータを使用してx-LLaMAを取得し、それをLLMsと比較します。この言語モデリングでは、接頭辞シーケンスに基づいて次のトークンを予測する必要があります。大規模なコーパスと翻訳データでLLMを訓練する必要があります。翻訳データは、意味的な整合性を学習するための最も有用なリソースの1つであり、人間の専門家によって注釈付けされた翻訳データを使用して、LLMの翻訳性能を向上させることができます。

研究者は、公開されている文レベルの翻訳データセットを使用して、翻訳タスクの指示データを構築します。これにより、彼らの手法はスケーラブルで再現性があり、さらに多言語への展開も可能です。彼らは、翻訳データをターゲット側に配置することで、非英語のタスクでのLLMのパフォーマンスを向上させることができることを発見しました。

研究者は、意味的な整合性を知るためにバイリンガルの翻訳パフォーマンスをパラメータとして使用しました。彼らは、翻訳タスクの指示データの規模も整合性に大きな影響を与えることを見つけました。彼らは、指示データの規模と翻訳パフォーマンスの関係についての式を導出しました。この式は、指数関数の対数的な依存性を持っています。英語と同一の言語よりも類似性の低い言語では、意味的な整合性を構築するためにより多くの翻訳データが必要です。

x-LLaMAを比較するために、研究者はAlpaca-7B(LLaMA)を設計し、英語の指示で調整されたもの、人間によって注釈付けされた翻訳データで調整されたParrot-7B、人間による対話型翻訳で調整されたBayling-7Bを使用しました。彼らは、x-LLaMAが6つの非英語の言語でAlpaca-7Bよりも42.50%優れていることを発見しました。x-LLaMAにおける非英語のタスクの正確性は、Alpaca-7Bにおける英語のタスクと同じでした。

最後に、これはクロスリングガルな指示調整が効果的な方法であることを証明しています。彼らのアプローチと結果は、非英語の言語向けのより強力なLLMsの開発の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

サイバーセキュリティにおける生成AIの約束と危険性

セキュリティにおける生成型AIの利点と欠点を探求してくださいヒント:セキュリティにおける自動化とスケーリングの必要性を...

人工知能

バードの未来展望:よりグローバルで、よりビジュアル的で、より統合されたもの

「Bardのウェイトリストを終了し、より多くの地域をサポートするようになり、画像を導入し、パートナーアプリと連携すること...

人工知能

コード生成のための5つのChatGPTの代替手段:超高速開発へのハイパードライブ

「ChatGPT の代わりにコード生成を強化し、開発を加速させるための 5 つの強力な代替手段を見つけよう最高のツールをいくつか...

人工知能

バードは論理と推論力においてますます上達しています

精度の高い回答を得るための2つの改善点と、Google Sheetsへのエクスポートに向けた改善点がBardに導入されます

データサイエンス

「機械学習におけるデータの重要性:AI革命の推進力」

マシンラーニングの進歩やAI革命を促進する上でデータの重要な役割を探求し、その意義を明らかにします

機械学習

AudioPaLMの紹介:Googleの言語モデルにおける突破口

テック巨人Googleが、ジェネラティブAIの分野で重要な進展を遂げ、最先端のマルチモーダル言語モデルであるAudioPaLMを発表し...