もう1つの大規模言語モデル!IGELに会いましょう:指示に調整されたドイツ語LLMファミリー

Another large-scale language model! Meet IGEL a German LLM family tailored for instructions.

IGELはテキストのための指示に調整されたドイツの大規模言語モデルです。 IGELバージョン001(Instruct-igel-001)は、既存のオープンソースモデルとドイツ語に翻訳された指示データセットの組み合わせからドイツ語の指示に調整されたモデルを構築することが可能かどうかを判断するために使用するための基本的なコンセプトの証明です。

IGELの最初のバージョンは、Malte Ostendorffによってドイツ語にローカライズされたBigScience BLOOMに基づいています。 IGELは、感情分析、言語翻訳、質問応答など、自然言語理解に関連するさまざまなタスクを高い精度と信頼性で実行するように設計されています。

チームは、LLMsがドイツ語の指示ベースのモデリングタスクをどれだけうまく実行するかを実験したかった。これを達成するために、予め学習されたカスタマイズされたBLOOMモデル(6B)を使用し、翻訳された指示に基づいたデータセットを用いてファインチューニングしました。データセットを構築するために、英語の指示をドイツ語に自動翻訳する手法が使用されました。この戦略により翻訳エラーが発生する可能性が高くなりましたが、彼らの目標は、モデルが依然として指示的な応答を生成することを学ぶことができるかどうかを判断することでした。

Instruct-igel-001には、Hugging Face Transformersで使用するために結合されたウェイトを持つLoRAに調整されたBLOOM-CLP Deutsch(6.4Bパラメータ)が含まれています。instruct-igel-001が単純な翻訳された指示データセットでトレーニングされる前に、データのクリーニング、フィルタリング、および後処理にはほとんど注意が払われません。

チームは、幻覚、有害性、およびステレオタイプ化がinstruct-igel-001にあると述べており、これらはすべて言語モデルに共通する問題です。彼らは、チャットモデルを開発し、会話インターフェースを作成することで、データの品質を伝統的な要求と応答の方法を超えて向上させる予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Transformerの簡略化:あなたが理解する言葉を使った最先端のNLP — part 3 — アテンション」

「トランスフォーマーは、AIの分野で、おそらく世界中で重大な影響を与えていますこのアーキテクチャはいくつかのコンポーネ...

機械学習

MITの新しいAI研究は、深層ニューラルネットワークが私たちとは異なる方法で世界を見ていることを示しています

人間の感覚システムの複雑な機能を模倣することを目指して、神経科学と人工知能の研究者は、計算モデルと人間の知覚の間の不...

データサイエンス

「PaLM 2はどのように動作しますか?完全ガイド」

「PaLM 2の機能を完全に解説するガイドで、内部の仕組みを探求しましょうこの強力な言語モデルがどのように人間らしいテキス...

機械学習

「大規模言語モデルの微調整方法:ステップバイステップガイド」

2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル(LLM)の台頭は、人工知能の民主化の傾向を示し...

データサイエンス

ビジネス戦略において機械学習を使用する時と使用しない時の選択

それは明らかな質問ではありません初心者のデータサイエンティストにとっては、すぐに機械学習モデルを推進することは間違い...

機械学習

「企業におけるAIの倫理とESGへの貢献の探求」

全世界がAIで賑わっている中で、これらの技術によってもたらされる重要な課題には、倫理的な影響とESGへの関心があります”