「技術的な視点からのGoogleの最強のマルチモーダルモデルGeminiの紹介」

(Gijutsuteki kanten kara mita Google no saikyo na maruchi mōdaru moderu Gemini no miryoku)

2023年12月6日、Googleは最大かつ最もパワフルなマルチモーダルモデルであるGeminiをリリースしました。

Geminiはマルチモーダルの事前学習を通じてさまざまな入力の理解と推論を実現しています。Geminiはマルチモーダルのベンチマークで人間のエキスパートを超える初のモデルであり、コードの理解、生成などで卓越したパフォーマンスを示します。

Googleの技術レポート[1]は62ページで、そのほとんどがモデルの評価、参考文献、寄稿者のリストに費やされています。詳細な技術情報はほとんど議論されていません。

この記事では、技術レポートの価値ある部分に基づいて、この優れたマルチモーダルモデルについて簡単に紹介します。

モデルファミリー

Geminiには3つの異なるスケールのモデルが含まれており、現在はオープンソースではありません:

  • Ultra:推論やマルチモーダルタスクを含む各種の高度な複雑なタスクで最先端のパフォーマンスを提供する最もパワフルなモデル。
  • Pro:コストとレイテンシを最適化目標とした性能最適化型モデルであり、さまざまなタスクでの大幅なパフォーマンス向上を提供します。
  • Nano:デバイス上で実行するために設計された最も効率的なモデル。Nanoには2つのバージョンがあり、Nano-1は18億のパラメータを持ち、Nano-2は32.5億のパラメータを持ちます。それぞれ低メモリと高メモリのデバイスを対象としています。Nanoは大きなGeminiモデルを蒸留し、4ビットに量子化して構築されています。なぜクラウドベースのUltraモデルを直接使用せずにnanoモデルを構築するのでしょうか?おそらくユーザーのプライバシーを保護することを目的としており、スマートフォンなどのデバイスがユーザーデータをクラウドに送信する必要がないようにします。さらに、推論のコストをクラウドからデバイスに移すことで、通信コストを節約します。

モデルアーキテクチャ

モデルアーキテクチャの詳細は技術レポートで明示されておらず、半ページ程度で簡単に説明されています。要約は以下の通りです:

  • Transformerデコーダーの構造に基づいています[2]。
  • 自然画像、グラフ、スクリーンショット、PDF、ビデオなど、図1に示すようなさまざまな音声および視覚的な入力とともにテキスト入力をサポートしています。
  • モデルは画像とテキストの両方を出力することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

北京大学の研究者たちは、ChatLawというオープンソースの法律用の大規模言語モデルを紹介しましたこのモデルには、統合された外部知識ベースが搭載されています

人工知能の成長と発展により、大規模な言語モデルが広く利用可能になりました。ChatGPT、GPT4、LLaMA、Falcon、Vicuna、ChatG...

AIニュース

実際の無人運転車を仮想環境でテストする

オハイオ州立大学の研究者が開発した「Vehicle-in-Virtual-Environment」ソフトウェアは、完全に安全な仮想環境で自動運転車...

機械学習

『AI論文によると、大規模な言語モデルの一般的なパターンマシンとしての異なるレベルの専門知識を説明します』

LLM(Large Language Models)は、言語の構造に織り込まれている多くのパターンを取り入れるように教えられます。これらはロ...

人工知能

「AIレポート2023年」を解説する

アニュアルAIレポートは、人工知能の急速に進化する領域での明確さと方向性を提供する重要な基準として機能しますその包括的...

AI研究

メタリサーチは、システム2アテンション(S2A)を導入します:入力コンテキストの重要な部分を決定するためのAI技術で、優れた応答を生成する能力がございます

大型言語モデル(LLM)は、さまざまな言語タスクにおいて非常に優れた能力を示していますが、非常に単純なミスを犯すことがあ...

人工知能

3日間でAIアプリを作成しました

ChatGPTに感銘を受けた後、ユーザーのスキルを求人要件にマッチさせて、カスタマイズされた適切な応募書類を自動化する革新的...