「このAIニュースレターは、あなたが必要とするすべてです #77」

「あなたが必要とするすべてを提供するAIニュースレター #77」

今週のAIニュース by ルイ

今週のAIのニュースは、Google(Gemini)とミストラル(8x7B)からの新しいLarge Language Modelのリリースによって支配されました。モデルの発表方法(報道イベントとデモ動画 vs 一つのツイートでのモデルのウェイトのトレントリンク)は、モデルのリリース方法(クローズドAPI vs オープンソース)の異なるエソスとアプローチを強調しています。両方のモデルは非常に重要であり、Googleは初のGPT-4レベルのLLMの競合モデルを発表しました。一方、ミストラルは高性能なオープンソースのMixture of Expertsモデルをリリースしました。

GoogleのGeminiモデルは、印象的な機能とベンチマークスコアとともに物議を醸しました。このモデルは、マルチモダリティに特に強く、これらのベンチマークのほとんどでGPT-4よりも優れた結果を示していますが、テキストやコードのベンチマークにおける相対的なパフォーマンスはより近く、より多様です。特に、マルチモダリティはGeminiにより組み込まれており、一方でGPT-4はDalle-3などの外部モデルにアクセスすることがあります。「Geminiモデルのビジュアルエンコーディングは、私たち自身のFlamingoにおける基盤となる研究に触発されていますが、モデルは最初からマルチモダルであり、離散的な画像トークンを使用して画像を出力することができます。ただし、これがどのように実装されたのかの詳細は不明です。」

Geminiの2つの小さなモデルは、すでに多くのGoogle製品で展開されています。しかし、最も興味深く能力のあるUltraモデルはまださらなるテストが必要です。Geminiモデルのリリースは、マルチモダルビデオ分析機能のビデオデモが誤解を招いたことが明らかになった後、いくつかの反発を受けました。私たちはこれが恥ずかしい必要のないミスであると思いますが、これはGoogleとDeepmindのエンジニアによる優れた仕事をそこにいるという事実を損なうものではありません。

ミストラルの静かなツイートトレントリリースによる8x7BのスパースなMixture of Expertsモデル(SMoE)は、Googleの騒動とははっきり対照的です。これは最初のオープンソースのMoEモデルではありませんが、最も能力と包括性があります。既に行われているテストは、より大きなモデルと比較していくつかの印象的な機能を示しています。MoEモデルは、以前の主流であった密なトランスフォーマーアーキテクチャと比較して、トレーニング、推論効率、機能の面で潜在的な利点があります。GPT-4がMoEであると広く信じられている一方、Geminiのアーキテクチャの具体的な詳細は開示されていません。

なぜあなたが気にする必要があるのか?

Geminiのリリースにより、GPT-4の競合他社や代替となるオプションが存在することは非常に喜ばしいことです。特に商業製品でLLMモデルがさらに展開されるにつれ、GPT-4のバックアップとして使用できる高性能なマルチモーダルLLMを持っていることは重要です。

ミストラルモデルの導入は、GPT 3.5クラスよりもGPT-4に近いです。このリリースは、Mixture of Experts(MoE)モデルでのファインチューニングと構築をより多くの人々が試すことができるようになるため、オープンソースの領域でイノベーションを推進する可能性があるため、重要です。

– ルイ・ピーターズ — Towards AI 共同創設者兼CEO

最新ニュース

  1. GoogleがGeminiを導入

GoogleはGeminiという新しいモデルを、Ultra、Pro、Nanoの3つのサイズで導入しました。Geminiは、さまざまな学術ベンチマークで他のモデルを凌駕するネイティブなマルチモーダル性を持ちます。特に、Gemini Ultraはマルチタスク言語理解テストで画期的なスコアを達成し、OCRシステムに依存せずに画像ベンチマークで優れた性能を発揮します。

2. Mistral AIがMixtral 8x7Bをリリース

Mixtral 8x7Bは、オープンなウェイトを持つスパースなエキスパートモデル(SMoE)です。このモデルは複数の言語に対応しており、32kトークンの文脈を持ちます。指示に従うモデルにファインチューニングできます。Mixtral 8x7Bは、Llama 2 70Bに比べてほとんどのベンチマークで優れたパフォーマンスを発揮し、推論速度も6倍速くなります。

3. EUが画期的なAI法案で合意し、米国を先駆ける

欧州連合の関係者は、世界的に最も野心的なAIを規制する法律に関して画期的な合意に達し、リスクの分類、透明性の確保、テック企業への非遵守に対する罰則の金銭的処罰を推進するためのグローバルな基準になる可能性があります。欧州のAI法は、AIの進歩に監視が伴い、その最高リスクの使用が禁止されることを確保します。

4. GoogleのGemini AIデモ動画は捏造されました

Googleは、派手なGeminiデモ動画がモデルをより印象的に見せるために編集と指示を駆使していることを認めたことで批判を浴びています。BloombergのParmy Olsonが報じたところによれば、研究者たちはモデルに静止画像を与え、成功した応答を編集し合わせることで、モデルの能力を部分的に誤解させています。

5. Stability AIがStableLM Zephyr 3Bを発売

StableLM Zephyr 3Bは、StableLM 3B-4e1tモデルの拡張としてリリースされる、30億パラメータの新しいチャットモデルです。これはZephyr 7Bモデルからインスピレーションを得て設計されており、特に指示の追従やQ&Aの文脈で効率的なテキスト生成に使用され、Direct Preference Optimizationアルゴリズムを使用して複数のデータセットで微調整されています。

Geminiデモについてのご意見はありますか?コメントで共有してください!

学び続けるための5分間の記事/動画

  1. ジェンAIフロンティア:LLM研究論文2023年のトランスフォーメーション10選 LLaMAからGPT-4まで
https://www.topbots.com/top-llm-research-papers-2023/

2023年には、AI研究における大規模言語モデル(LLM)の進歩がありました。この記事では、言語モデルが洗練され、スケールダウンされ、さらには外部ツールと統合されることで、さまざまなタスクに取り組むための変革的な研究が垣間見えます。

2. Claude 2.1のための長いコンテキストプロンプティング

最新バージョンのClaude(Claude 2.1)は、200Kトークンのコンテキストウィンドウを持ち、情報を効果的に思い出すことができます。ただし、文書内に挿入されたり場違いな単文に基づいて質問に答えることには慎重です。このブログの実験では、プロンプト技術を使用してClaudeが最も関連性の高い文を思い出すためのガイドを作成しています。

3. RAG vs. コンテキストウィンドウのGPT-4:精度、コスト、およびレイテンシー

この記事では、著者がRAGとGPT-4-Turboのコンテキストウィンドウを3つのキーメトリックで「ハヤスタックの中の針」の圧力テストを行いました:精度、コスト、およびレイテンシー。彼らは2つの異なるRAGパイプラインをベンチマークにしました:Llama-IndexとOpenAIの新しいアシスタントAPIリトリーバルツール。これにより、RAGはわずか4%のコストでより優れたパフォーマンスを発揮することが示されました。

4. 作り方:マルチモーダルプロンプティングを介したGeminiとのインタラクション

GoogleのGeminiに関するブログでは、研究者がモデルに画像を表示し、正しい回答をするようにプロンプトと共に提示することで、マルチモーダルなプロンプティングを行った方法が説明されています。これはGeminiで可能なことを理解するための良い入門ガイドです。

5. StripedHyena-7B、トランスフォーマーを超えた世界を垣間見るオープンソースモデル

このブログ記事では、長いコンテキストのための新しいアーキテクチャ、改良されたトレーニング、および推論パフォーマンスがTransformerアーキテクチャよりも優れているStripedHyenaを紹介しています。

リポジトリとツール

1.MotionDirectorは、テキストからビデオの拡散モデルをカスタマイズして、望ましい動きのあるビデオを生成することができます。

2. Taskade カスタム AI エージェントは、研究、タスク管理、コンテンツ作成などのルーティン業務を自動化するための5つの AI ツールのスイートです。

3. Practical-tutorials/ project-based-learningは、異なる主要プログラミング言語を使用したプロジェクトベースのプログラミングチュートリアルの厳選されたリストです。

4. Mamba Chatは、状態空間モデルアーキテクチャに基づいたチャット言語モデルです。同じサイズのトランスフォーマーよりも優れた検索能力を持っています。

今週のトップ論文

  1. テキスト埋め込みは(ほぼ)テキストと同じ情報を示す

この研究では、「埋め込みの逆転」という概念が提案され、密なテキスト埋め込みから完全なテキストを再構築することが可能であることが示されています。研究者たちは、多段階の方法を用いて制御されたテキストを生成することにおいて高い成功率を達成しています。この研究はまた、テキスト埋め込みから機密性の高い個人データを抽出する可能性を示しており、機械学習における改善されたプライバシー対策の必要性を強調しています。

2. Mamba: セレクティブな状態空間を使用した直線時間系列モデリング

この研究では、長い系列に対するトランスフォーマーの効率の悪さを克服するためのハードウェアに適した並列アルゴリズムである Mamba が紹介されています。セレクティブな状態空間を実装することで、Mamba は高速な推論、線形なスケーラビリティ、およびより大きなトランスフォーマーのモデルと競合するパフォーマンスを実現しています。

3. MVDD: マルチビューデプス拡散モデル

この論文は、マルチビューデプスを活用し、拡散モデル MVDD を用いて複雑な3D形状を2Dデータ形式で表現することを提案しています。MVDD は、細かい詳細を持つ高品質で密なポイントクラウドを生成することができます。

4. アテンションなしの拡散モデル

DiffuSSM は、細部の品質を損なうことなく高解像度の画像を生成するための拡散モデルを高速化することを目指した新しいモデルです。アテンションメカニズムをスケーラブルな状態空間モデルバックボーンで置き換えることで、ImageNet と LSUN データセットでのパフォーマンスを向上させ、計算リソースを節約することができます。

5. SparQ Attention: バンド幅効率の良い LLM 推論

SparQ Attention は、メモリバンド幅の必要性を削減することで大規模言語モデルの効率を向上させる技術です。事前トレーニングや微調整への変更を必要とせず、注意リソースの要件を大幅に減少させることができます。

1. イーロン・マスクの AI スタートアップ X.AI が最大 10 億ドル調達するための株式公開を計画しています。SECの申告書によると、同社は4つの投資家から合計1億3500万ドルを調達し、最初の売却は11月29日に行われました。

2. Metaが Purple Llama を発表しました。これは、安全で責任ある生成型 AI エクスペリエンスの構築を促進することを目指す新しいプロジェクトです。研究と商業利用のための許可されたツール、評価、モデルを提供します。

3. IBM と Meta は AI アライアンスを設立しました。50人以上の創設メンバーや協力者が参加しており、このアライアンスはAIプロジェクトを推進し、ベンチマークを設定し、オープンモデルを向上させ、安全で有益なAIの開発を確保することを目指しています。

AI分野の求人情報

シニアソフトウェアエンジニア、フルスタック @Ledger Investing(リモート)

テクニカルプロダクトマネージャー @InStride Health(ボストン、マサチューセッツ州、アメリカ)

プロダクトオペレーションアソシエイト @Pathrise(リモート)

クラウドエンジニア @Dark Wolf Solutions(メルボルン、フロリダ州、アメリカ)

ユーザーエクスペリエンスリサーチャー @Cleo(リモート)

ソフトウェアエンジニア—API/アイデンティティマネジメント @Paidy Inc/Paidy(東京、日本)

求人情報を共有したい場合は、に連絡してください。

次の機械学習インタビューの準備をしている場合は、私たちのリーディングなインタビュー準備ウェブサイトconfettiをぜひチェックしてください!

https://www.confetti.ai/

友達も楽しんでくれると思いますか?ニュースレターを共有して会話に参加させましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取...

機械学習

Mozilla Common Voiceでの音声言語認識-第II部:モデル

これはMozilla Common Voiceデータセットに基づく音声認識に関する2番目の記事です最初の部分ではデータの選択と最適な埋め込...

人工知能

「先延ばしハック:ChatGPTを使ってプロジェクトをビデオゲームに変える」

「あなたのやるべきことリストを、ドーパミンが絶えず放出されるワクワクするビデオゲームに変えましょう」

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

人工知能

「アフリカのコミュニティが気候変動に適応するためにAIが助ける3つの方法」

先週、ケニアのナイロビで初めて開催されたアフリカ気候サミット(ACS)に参加し、アフリカの指導者と共に気候危機に対処する...

AI研究

CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています

世界中で、約8人に1人が精神の問題を抱えています。しかし、精神保健障害は、心の専門家の不足、劣悪な治療法、高額な費用、...