ミストラルAI オープンソースのラマ2を超える新たな基準を設定する
ミストラルAI:ラマ2を超える新たな基準を設定するオープンソース
大規模言語モデル(LLM)は、ChatGPTのような優れたパフォーマンスを示すモデルの登場により、最近注目されています。MetaがLlamaモデルを発表したことで、オープンソースのLLMへの関心が再燃しました。目的は、GPT-4のようなトップティアモデルと同等の品質を持ちながら、価格や複雑さの面でより手頃なオープンソースのLLMを作成することです。
この手頃さと効率の組み合わせは、研究者や開発者に新たな道を拓き、自然言語処理の技術革新の新たな時代を築きました。
最近では、生成型AIスタートアップが資金調達で好調です。合計で$2000万を調達し、オープンソースAIの形成を目指しています。Anthropicはまた、$4億5000万を資金調達し、Google Cloudと提携したCohereは2022年6月に$2億7000万を確保しました。
Mistral 7Bの紹介:サイズと入手の可用性
Mistral AIは、GoogleのDeepMindとMetaの出身者によって設立され、パリを拠点としています。彼らは最初の大規模言語モデルであるMistral 7Bを発表しました。このモデルはGitHubから誰でも簡単にダウンロードすることができ、13.4ギガバイトのトレントでも入手可能です。
このスタートアップは製品をリリースする前に破格のシード資金を確保しました。Mistral AIの最初のモデルである70億パラメータモデルは、全てのテストでLlama 2の13Bを上回り、多くの指標でLlama 1の34Bを上回りました。
Llama 2などの他のモデルと比較して、Mistral 7Bは同等またはより優れた能力を提供しますが、計算コストは低くなっています。GPT-4などの基本モデルはそれ以上のことが可能ですが、価格が高く、主にAPIを介してしかアクセスできません。
コーディングのタスクに関しては、Mistral 7BはCodeLlama 7Bにも引けを取りません。また、13.4 GBとコンパクトなため、標準的なマシンで実行することができます。
さらに、特に教育用データセットにチューニングされたMistral 7B Instructは、Hugging Face上で優れたパフォーマンスを発揮しています。MT-Benchでは他の7Bモデルを上回り、13Bのチャットモデルと肩を並べる実力を持っています。
パフォーマンスのベンチマーク
詳細なパフォーマンス分析で、Mistral 7BはLlama 2ファミリーモデルと比較されました。その結果は明確でした:Mistral 7BはあらゆるベンチマークでLlama 2の13Bを大幅に上回りました。実際、コードと推論のベンチマークではLlama 34Bとのパフォーマンスが一致しました。
ベンチマークは、常識的推論、世界知識、読解力、数学、コードなどのカテゴリに分けられました。特に注目すべき観察結果は、Mistral 7Bのコストパフォーマンス指標である「同等モデルサイズ」です。推論や理解の領域では、Mistral 7Bは自身のサイズの3倍のLlama 2モデルに匹敵するパフォーマンスを示し、メモリの節約とスループットの向上を意味しています。ただし、知識のベンチマークでは、パラメータの制約によりMistral 7BはLlama 2の13Bと近い結果となりました。
ミストラル 7B モデルが他のほとんどの言語モデルよりも優れている本当の理由は何ですか?
アテンションメカニズムの簡素化
アテンションメカニズムの微妙な点は技術的であるが、その基本的なアイデアは比較的簡単です。本を読んで重要な文をハイライトするイメージで、アテンションメカニズムはシーケンス内の特定のデータポイントを「ハイライト」するか、重要視します。
言語モデルの文脈において、これらのメカニズムはモデルが入力データの最も関連性のある部分に焦点を当て、出力が一貫してコンテキストに即したものになるようにします。
標準のトランスフォーマーでは、アテンションスコアは以下の式で計算されます:
トランスフォーマーのアテンションの式
これらのスコアのための式には、重要なステップが含まれています – Q と K の行列積の計算です。ここでの課題は、シーケンスの長さが増えるにつれて、両方の行列がそれに応じて拡大してしまい、計算量が増えてしまうことです。このスケーラビリティの問題は、標準のトランスフォーマーが特に長いシーケンスを扱う場合に遅くなる理由の1つです。
アテンションメカニズムはモデルが入力データの特定の部分に焦点を当てるのを助けます。通常、これらのメカニズムは「ヘッド」と呼ばれるものを使用して、このアテンションを管理します。ヘッドが多ければ多いほど、アテンションはより特定されますが、同時に複雑になり、遅くなります。トランスフォーマーやアテンションメカニズムの詳細については、こちらをご覧ください。
マルチクエリアテンション(MQA)は、1つの ‘key-value’ ヘッドセットを使用して処理を高速化しますが、品質が低下することもあります。では、MQAの速度とマルチヘッドアテンションの品質を組み合わせることはできないのでしょうか?それがグループクエリアテンション(GQA)の登場です。
グループクエリアテンション(GQA)
グループクエリアテンション
GQAは中間の解決策です。単一または複数の ‘key-value’ ヘッドだけでなく、それらをグループ化します。これにより、GQAは詳細なマルチヘッドアテンションにほぼ匹敵するパフォーマンスを達成しますが、MQAのスピードを実現します。Mistralのようなモデルにとっては、効率的なパフォーマンスを維持しつつ、あまり品質を犠牲にすることなく実現することができます。
スライディングウィンドウアテンション(SWA)
スライディングウィンドウ は、アテンションシーケンスの処理に使用される別の方法です。この方法では、各トークンの周囲に固定サイズのアテンションウィンドウを使用します。このウィンドウアテンションを複数のレイヤーでスタッキングすることで、上位のレイヤーは最終的に広範な視野を持ち、入力全体の情報を包括するようになります。このメカニズムは、畳み込みニューラルネットワーク(CNN)で見られる受容野と類似しています。
一方、Longformer モデルの「拡張スライディングウィンドウアテンション」は、概念的にはスライディングウィンドウメソッドと似ていますが、QKT 行列のいくつかの対角線のみを計算します。この変更により、メモリ使用量が2次的ではなく線形に増加し、より長いシーケンスに対して効率的な方法となります。
Mistral AIの透明性と分散化における安全性の懸念
Mistral AIは発表で、「トリックも、独自のデータもなし」という透明性を強調しています。しかし、現時点で唯一利用可能なモデルである’Mistral-7B-v0.1’は事前学習ベースモデルですので、モデレーションなしに任意のクエリに応答することができます。これには潜在的な安全性の懸念が高まります。GPTやLlamaのようなモデルは、応答のタイミングを判断するメカニズムを持っていますが、Mistralの完全な分散化の性質は悪意のある行為者によって悪用される可能性があります。
ただし、大規模言語モデルの分散化にはメリットもあります。それを誤用する人もいますが、人々はそれを社会的な善として活用し、知識を全ての人にアクセス可能にすることができます。
展開の柔軟性
ミストラル7Bのハイライトの1つは、Apache 2.0ライセンスで利用可能であることです。これは、個人用途、大企業、政府機関など、どんな目的にも利用する際の実際の障壁がないことを意味します。ただし、それを実行するための適切なシステムが必要であり、クラウドリソースへの投資が必要な場合もあります。
MITライセンスや協力的なCC BY-SA-4.0など、よりシンプルなライセンスもありますが、Apache 2.0は大規模なプロジェクトに堅固な基盤を提供します。
最後の考え
Mistral 7Bのようなオープンソースの大規模言語モデルの台頭は、AI業界における画期的な転換を示しており、高品質の言語モデルをより広範なユーザーにアクセス可能にしています。Mistral AIの革新的な手法、グループ化クエリアテンションやスライディングウィンドウアテンションなどは、効率的なパフォーマンスを約束しつつも品質を損なうことはありません。
Mistralの分散型の性質が特定の課題をもたらす一方で、その柔軟性とオープンソースのライセンスがAIの民主化の可能性を強調しています。環境が変化するにつれて、これらのモデルのパワーと倫理的な考慮事項、安全メカニズムのバランスを取ることが不可避でしょう。
Mistralの次はどうなるのか?7Bモデルはただの始まりでした。チームは近々さらに大きなモデルをリリースすることを目指しています。もしこれらの新モデルが7Bのパフォーマンスに匹敵するならば、Mistralは彼らのファーストイヤー内に業界のトッププレーヤーとして急速に台頭するかもしれません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles