チューリッヒ大学の研究者たちは、スイスの4つの公用語向けの多言語言語モデルであるSwissBERTを開発しました

Researchers at the University of Zurich have developed SwissBERT, a multilingual language model for the four official languages of Switzerland.

有名なBERTモデルは、最近の自然言語処理の主要な言語モデルの1つです。この言語モデルは、入力シーケンスを出力シーケンスに変換するいくつかのNLPタスクに適しています。BERT(Bidirectional Encoder Representations from Transformers)は、Transformerのアテンションメカニズムを使用しています。アテンションメカニズムは、テキストのコーパス内の単語やサブワード間の文脈的な関係を学習します。BERT言語モデルは、NLPの進歩の最も顕著な例の1つであり、自己教師あり学習の技術を使用しています。

BERTモデルを開発する前、言語モデルは訓練時にテキストシーケンスを左から右に解析したり、左から右および右から左の組み合わせで解析することがありました。この一方向のアプローチは、次の単語を予測してシーケンスに追加し、それを繰り返して完全な意味のある文を生成するためにうまく機能しました。BERTでは、双方向のトレーニングが導入され、以前の言語モデルと比較して言語の文脈と流れのより深い理解が得られました。

元々のBERTモデルは英語向けにリリースされました。その後、フランス語向けのCamemBERTやイタリア語向けのGilBERToなど、他の言語モデルが開発されました。最近、チューリッヒ大学の研究者チームがスイスのための多言語言語モデルを開発しました。SwissBERTと呼ばれるこのモデルは、スイス標準ドイツ語、フランス語、イタリア語、ロマンシュグリシュンで21,000万以上のスイスのニュース記事をトレーニングし、合計120億トークンでトレーニングされました。

SwissBERTは、スイスの研究者が多言語タスクを実行することができないという課題に対処するために導入されました。スイスは主に4つの公用語、ドイツ語、フランス語、イタリア語、ロマンシュ語を持っており、各言語ごとに個別の言語モデルを組み合わせて多言語タスクを実行することは困難です。また、第4の国語であるロマンシュ語のための独立したニューラル言語モデルはありません。NLPの分野では多言語タスクの実装がやや困難であるため、SwissBERTの前にスイスの国語のための統一されたモデルは存在しませんでした。SwissBERTは、これらの言語の記事を単純に組み合わせて、共通のエンティティとイベントを暗黙的に利用して多言語表現を作成することで、この課題を克服します。

SwissBERTモデルは、81の言語で共に事前トレーニングされたクロスリンガルモジュラープリトレーニング(X-MOD)トランスフォーマーからリモデルされました。研究者は、カスタム言語アダプタをトレーニングすることで、プリトレーニング済みのX-MODトランスフォーマーを自分たちのコーパスに適応させました。彼らはSwissBERTのためのスイス固有のサブワード語彙を作成し、その結果得られたモデルは総パラメータ数が1億5300万にもなります。

研究チームは、SwissBERTのパフォーマンスを様々なタスクで評価しました。これには、現代のニュース(SwissNER)での固有名詞の認識や、スイスの政治に関するユーザー生成コメントでの立場の検出などが含まれます。SwissBERTは、一般的なベースラインを上回り、XLM-Rに比べて立場の検出においても改善が見られました。また、ロマンシュ語でのモデルの能力を評価した結果、SwissBERTは、言語でトレーニングされていないモデルに比べて、ゼロショットのクロスリンガル転送やドイツ語-ロマンシュ語の単語や文の整列において優れたパフォーマンスを発揮しました。ただし、モデルは、歴史的なOCR処理されたニュースでの固有名詞の認識にはあまり優れていませんでした。

研究者は、SwissBERTをダウンストリームタスクのファインチューニングのための例と共に公開しました。このモデルは将来の研究や非営利目的においても有望です。さらなる適応により、ダウンストリームタスクはモデルの多言語性の恩恵を受けることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「カスタムファインチューニングされた大規模言語モデルの安全性への深い潜入」

画期的な共同研究により、IBM Research、プリンストン大学、バージニア工科大学は大規模言語モデル(LLM)に関する重要な懸念...

AIニュース

ChatHNに会いましょう:ハッカーニュースフィード上のリアルタイムAIパワーチャット

ChatHNはAIによって駆動され、最近Hacker News Feedで開始されました。ChatHNは、OpenAI FunctionsとVercel AI SDKを使用して...

機械学習

医療界はAIに備えているのか? 医師、コンピューターサイエンティスト、政策立案者たちは、慎重な楽観主義を示しています

人工知能の会話が今では主流となり、2023年のMIT-MGB AI Curesカンファレンスの参加者数は過去の年に比べ倍増しました

機械学習

医学論文のLLaMAのFine-tuning:バイオメディカルQAベンチマークで高い性能を発揮するPMC-LLaMA-Aモデルに出会ってください

大規模言語モデル(LLM)の開発、例えばOpenAIのChatGPTやGPT-4などは、自然言語処理、コンピュータビジョン、バイオメディカ...

データサイエンス

AIが脳の液体の流れを示すのに役立つ

科学者たちのチームが、人間の脳の脳血管周りの流体の流れを定量化するために、人工知能に基づく速度測定を作成しました

データサイエンス

「AIがあなたの問題を解決できるでしょうか?」

「AIの能力を製品やサービスに組み込むことを目指す製品企業では、AIに詳しくない人々をAIの流れに乗せるという課題が常に存...