このAIの論文では、非英語の言語で事前学習されたLLMsを強化するために、言語間で意味の整合性を構築することを提案しています

このAIの論文では、非英語の言語で事前学習されたLLMsの強化のために、言語間で意味の整合性を構築することを提案しています' The condensed result is 'This AI paper proposes building semantic coherence across languages to enhance LLMs pretrained in non-English languages.

ChatGPTで英語以外の言語で質問したことはありますか?おそらく、お問い合わせに対して奇妙で関連性のない回答を得ることがあります。これは、これらのモデルが英語に偏っているためです。LLMsがどの言語でも動作すると便利ではありませんか?

国家重点实验室研究者たちは、英語以外の言語で事前学習されたLLMを提案しています。LLMsの通常の性能は、事前学習コーパスと指示調整データが英語であるため、非英語の言語では低いです。大規模な単言語データで継続的に事前学習することで、性能を向上させることができます。

研究者は、LLMsに対して翻訳タスクを用いて指示調整を行い、2つの言語間の対応を改善するためにクロスリングガルな一般タスクを使用します。彼らは、事前学習されたLLMとしてLLaMA-7Bを使用し、英語アルファベットに似た6つの言語を考慮します。LLaMAはLarge Language Model Meta AIの略です。

各言語ごとに言語固有のデータを使用してx-LLaMAを取得し、それをLLMsと比較します。この言語モデリングでは、接頭辞シーケンスに基づいて次のトークンを予測する必要があります。大規模なコーパスと翻訳データでLLMを訓練する必要があります。翻訳データは、意味的な整合性を学習するための最も有用なリソースの1つであり、人間の専門家によって注釈付けされた翻訳データを使用して、LLMの翻訳性能を向上させることができます。

研究者は、公開されている文レベルの翻訳データセットを使用して、翻訳タスクの指示データを構築します。これにより、彼らの手法はスケーラブルで再現性があり、さらに多言語への展開も可能です。彼らは、翻訳データをターゲット側に配置することで、非英語のタスクでのLLMのパフォーマンスを向上させることができることを発見しました。

研究者は、意味的な整合性を知るためにバイリンガルの翻訳パフォーマンスをパラメータとして使用しました。彼らは、翻訳タスクの指示データの規模も整合性に大きな影響を与えることを見つけました。彼らは、指示データの規模と翻訳パフォーマンスの関係についての式を導出しました。この式は、指数関数の対数的な依存性を持っています。英語と同一の言語よりも類似性の低い言語では、意味的な整合性を構築するためにより多くの翻訳データが必要です。

x-LLaMAを比較するために、研究者はAlpaca-7B(LLaMA)を設計し、英語の指示で調整されたもの、人間によって注釈付けされた翻訳データで調整されたParrot-7B、人間による対話型翻訳で調整されたBayling-7Bを使用しました。彼らは、x-LLaMAが6つの非英語の言語でAlpaca-7Bよりも42.50%優れていることを発見しました。x-LLaMAにおける非英語のタスクの正確性は、Alpaca-7Bにおける英語のタスクと同じでした。

最後に、これはクロスリングガルな指示調整が効果的な方法であることを証明しています。彼らのアプローチと結果は、非英語の言語向けのより強力なLLMsの開発の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「生成AIの時代における品質保証の再考」

「GenAI が生成したコードに追いつくために、テストエンジニアはGenAIツールを活用し、QA計画の基礎を形成する必要があります」

データサイエンス

「生成AIにおけるバイアスの軽減」

イントロダクション 現代の世界では、生成型AIは創造性の限界を押し広げており、機械が人間のようなコンテンツを作り出すこと...

AIニュース

「AIがウクライナの戦場に参戦を望む!」

最近、ウクライナはAI企業のゴールドマインとなっています。世界のテック企業がウクライナに押し寄せ、革新的な人工知能(AI...

機械学習

エンジニアにとって役立つ6つのリソース

「このリソースのコレクションは、さまざまな経験レベルを持つ多くのAIのプロフェッショナルに役立つでしょうブックマークに...

人工知能

「5つ星アプリを構築する:AIと自動化を利用したモバイルテストの向上」

ソフトウェア開発チームは、高品質なモバイルアプリ体験を提供するために、強力で低コストのツールが必要ですAIと自動化は解...

AIニュース

「RBIは、Conversational AIとオフライン決済の使用をUPIで採用する」

デジタル決済において新たな地平を切り開くため、インド準備銀行(RBI)は高度な統合支払いインターフェース(UPI)の機能を...