「このAIニュースレターは、あなたが必要とするすべてです #77」

「あなたが必要とするすべてを提供するAIニュースレター #77」

今週のAIニュース by ルイ

今週のAIのニュースは、Google（Gemini）とミストラル（8x7B）からの新しいLarge Language Modelのリリースによって支配されました。モデルの発表方法（報道イベントとデモ動画 vs 一つのツイートでのモデルのウェイトのトレントリンク）は、モデルのリリース方法（クローズドAPI vs オープンソース）の異なるエソスとアプローチを強調しています。両方のモデルは非常に重要であり、Googleは初のGPT-4レベルのLLMの競合モデルを発表しました。一方、ミストラルは高性能なオープンソースのMixture of Expertsモデルをリリースしました。

GoogleのGeminiモデルは、印象的な機能とベンチマークスコアとともに物議を醸しました。このモデルは、マルチモダリティに特に強く、これらのベンチマークのほとんどでGPT-4よりも優れた結果を示していますが、テキストやコードのベンチマークにおける相対的なパフォーマンスはより近く、より多様です。特に、マルチモダリティはGeminiにより組み込まれており、一方でGPT-4はDalle-3などの外部モデルにアクセスすることがあります。「Geminiモデルのビジュアルエンコーディングは、私たち自身のFlamingoにおける基盤となる研究に触発されていますが、モデルは最初からマルチモダルであり、離散的な画像トークンを使用して画像を出力することができます。ただし、これがどのように実装されたのかの詳細は不明です。」

Geminiの2つの小さなモデルは、すでに多くのGoogle製品で展開されています。しかし、最も興味深く能力のあるUltraモデルはまださらなるテストが必要です。Geminiモデルのリリースは、マルチモダルビデオ分析機能のビデオデモが誤解を招いたことが明らかになった後、いくつかの反発を受けました。私たちはこれが恥ずかしい必要のないミスであると思いますが、これはGoogleとDeepmindのエンジニアによる優れた仕事をそこにいるという事実を損なうものではありません。

ミストラルの静かなツイートトレントリリースによる8x7BのスパースなMixture of Expertsモデル（SMoE）は、Googleの騒動とははっきり対照的です。これは最初のオープンソースのMoEモデルではありませんが、最も能力と包括性があります。既に行われているテストは、より大きなモデルと比較していくつかの印象的な機能を示しています。MoEモデルは、以前の主流であった密なトランスフォーマーアーキテクチャと比較して、トレーニング、推論効率、機能の面で潜在的な利点があります。GPT-4がMoEであると広く信じられている一方、Geminiのアーキテクチャの具体的な詳細は開示されていません。

なぜあなたが気にする必要があるのか？

Geminiのリリースにより、GPT-4の競合他社や代替となるオプションが存在することは非常に喜ばしいことです。特に商業製品でLLMモデルがさらに展開されるにつれ、GPT-4のバックアップとして使用できる高性能なマルチモーダルLLMを持っていることは重要です。

ミストラルモデルの導入は、GPT 3.5クラスよりもGPT-4に近いです。このリリースは、Mixture of Experts（MoE）モデルでのファインチューニングと構築をより多くの人々が試すことができるようになるため、オープンソースの領域でイノベーションを推進する可能性があるため、重要です。

– ルイ・ピーターズ — Towards AI 共同創設者兼CEO

学び続けるための5分間の記事/動画

ジェンAIフロンティア：LLM研究論文2023年のトランスフォーメーション10選 LLaMAからGPT-4まで

https://www.topbots.com/top-llm-research-papers-2023/

2023年には、AI研究における大規模言語モデル（LLM）の進歩がありました。この記事では、言語モデルが洗練され、スケールダウンされ、さらには外部ツールと統合されることで、さまざまなタスクに取り組むための変革的な研究が垣間見えます。

2. Claude 2.1のための長いコンテキストプロンプティング

最新バージョンのClaude（Claude 2.1）は、200Kトークンのコンテキストウィンドウを持ち、情報を効果的に思い出すことができます。ただし、文書内に挿入されたり場違いな単文に基づいて質問に答えることには慎重です。このブログの実験では、プロンプト技術を使用してClaudeが最も関連性の高い文を思い出すためのガイドを作成しています。

3. RAG vs. コンテキストウィンドウのGPT-4：精度、コスト、およびレイテンシー

この記事では、著者がRAGとGPT-4-Turboのコンテキストウィンドウを3つのキーメトリックで「ハヤスタックの中の針」の圧力テストを行いました：精度、コスト、およびレイテンシー。彼らは2つの異なるRAGパイプラインをベンチマークにしました：Llama-IndexとOpenAIの新しいアシスタントAPIリトリーバルツール。これにより、RAGはわずか4％のコストでより優れたパフォーマンスを発揮することが示されました。

4. 作り方：マルチモーダルプロンプティングを介したGeminiとのインタラクション

GoogleのGeminiに関するブログでは、研究者がモデルに画像を表示し、正しい回答をするようにプロンプトと共に提示することで、マルチモーダルなプロンプティングを行った方法が説明されています。これはGeminiで可能なことを理解するための良い入門ガイドです。

5. StripedHyena-7B、トランスフォーマーを超えた世界を垣間見るオープンソースモデル

このブログ記事では、長いコンテキストのための新しいアーキテクチャ、改良されたトレーニング、および推論パフォーマンスがTransformerアーキテクチャよりも優れているStripedHyenaを紹介しています。

リポジトリとツール

1.MotionDirectorは、テキストからビデオの拡散モデルをカスタマイズして、望ましい動きのあるビデオを生成することができます。

2. Taskade カスタム AI エージェントは、研究、タスク管理、コンテンツ作成などのルーティン業務を自動化するための5つの AI ツールのスイートです。

3. Practical-tutorials/ project-based-learningは、異なる主要プログラミング言語を使用したプロジェクトベースのプログラミングチュートリアルの厳選されたリストです。

4. Mamba Chatは、状態空間モデルアーキテクチャに基づいたチャット言語モデルです。同じサイズのトランスフォーマーよりも優れた検索能力を持っています。

今週のトップ論文

テキスト埋め込みは（ほぼ）テキストと同じ情報を示す

この研究では、「埋め込みの逆転」という概念が提案され、密なテキスト埋め込みから完全なテキストを再構築することが可能であることが示されています。研究者たちは、多段階の方法を用いて制御されたテキストを生成することにおいて高い成功率を達成しています。この研究はまた、テキスト埋め込みから機密性の高い個人データを抽出する可能性を示しており、機械学習における改善されたプライバシー対策の必要性を強調しています。

2. Mamba: セレクティブな状態空間を使用した直線時間系列モデリング

この研究では、長い系列に対するトランスフォーマーの効率の悪さを克服するためのハードウェアに適した並列アルゴリズムである Mamba が紹介されています。セレクティブな状態空間を実装することで、Mamba は高速な推論、線形なスケーラビリティ、およびより大きなトランスフォーマーのモデルと競合するパフォーマンスを実現しています。

3. MVDD: マルチビューデプス拡散モデル

この論文は、マルチビューデプスを活用し、拡散モデル MVDD を用いて複雑な３D形状を２Dデータ形式で表現することを提案しています。MVDD は、細かい詳細を持つ高品質で密なポイントクラウドを生成することができます。

4. アテンションなしの拡散モデル

DiffuSSM は、細部の品質を損なうことなく高解像度の画像を生成するための拡散モデルを高速化することを目指した新しいモデルです。アテンションメカニズムをスケーラブルな状態空間モデルバックボーンで置き換えることで、ImageNet と LSUN データセットでのパフォーマンスを向上させ、計算リソースを節約することができます。

5. SparQ Attention: バンド幅効率の良い LLM 推論

SparQ Attention は、メモリバンド幅の必要性を削減することで大規模言語モデルの効率を向上させる技術です。事前トレーニングや微調整への変更を必要とせず、注意リソースの要件を大幅に減少させることができます。