「技術的な視点からのGoogleの最強のマルチモーダルモデルGeminiの紹介」
(Gijutsuteki kanten kara mita Google no saikyo na maruchi mōdaru moderu Gemini no miryoku)
2023年12月6日、Googleは最大かつ最もパワフルなマルチモーダルモデルであるGeminiをリリースしました。
Geminiはマルチモーダルの事前学習を通じてさまざまな入力の理解と推論を実現しています。Geminiはマルチモーダルのベンチマークで人間のエキスパートを超える初のモデルであり、コードの理解、生成などで卓越したパフォーマンスを示します。
Googleの技術レポート[1]は62ページで、そのほとんどがモデルの評価、参考文献、寄稿者のリストに費やされています。詳細な技術情報はほとんど議論されていません。
この記事では、技術レポートの価値ある部分に基づいて、この優れたマルチモーダルモデルについて簡単に紹介します。
モデルファミリー
Geminiには3つの異なるスケールのモデルが含まれており、現在はオープンソースではありません:
- マイクロソフトがアメリカの労働組合と手を結び、AI労働力に関する議論に参加します
- Windows 12はAIの魔法機能を搭載:テクノロジーの未来への一端
- 『AI規制に関するEUの予備的な合意:ChatGPTへの影響』
- Ultra:推論やマルチモーダルタスクを含む各種の高度な複雑なタスクで最先端のパフォーマンスを提供する最もパワフルなモデル。
- Pro:コストとレイテンシを最適化目標とした性能最適化型モデルであり、さまざまなタスクでの大幅なパフォーマンス向上を提供します。
- Nano:デバイス上で実行するために設計された最も効率的なモデル。Nanoには2つのバージョンがあり、Nano-1は18億のパラメータを持ち、Nano-2は32.5億のパラメータを持ちます。それぞれ低メモリと高メモリのデバイスを対象としています。Nanoは大きなGeminiモデルを蒸留し、4ビットに量子化して構築されています。なぜクラウドベースのUltraモデルを直接使用せずにnanoモデルを構築するのでしょうか?おそらくユーザーのプライバシーを保護することを目的としており、スマートフォンなどのデバイスがユーザーデータをクラウドに送信する必要がないようにします。さらに、推論のコストをクラウドからデバイスに移すことで、通信コストを節約します。
モデルアーキテクチャ
モデルアーキテクチャの詳細は技術レポートで明示されておらず、半ページ程度で簡単に説明されています。要約は以下の通りです:
- Transformerデコーダーの構造に基づいています[2]。
- 自然画像、グラフ、スクリーンショット、PDF、ビデオなど、図1に示すようなさまざまな音声および視覚的な入力とともにテキスト入力をサポートしています。
- モデルは画像とテキストの両方を出力することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles