「このAIニュースレターは、あなたが必要とするすべてです #77」

「あなたが必要とするすべてを提供するAIニュースレター #77」

今週のAIニュース by ルイ

今週のAIのニュースは、Google(Gemini)とミストラル(8x7B)からの新しいLarge Language Modelのリリースによって支配されました。モデルの発表方法(報道イベントとデモ動画 vs 一つのツイートでのモデルのウェイトのトレントリンク)は、モデルのリリース方法(クローズドAPI vs オープンソース)の異なるエソスとアプローチを強調しています。両方のモデルは非常に重要であり、Googleは初のGPT-4レベルのLLMの競合モデルを発表しました。一方、ミストラルは高性能なオープンソースのMixture of Expertsモデルをリリースしました。

GoogleのGeminiモデルは、印象的な機能とベンチマークスコアとともに物議を醸しました。このモデルは、マルチモダリティに特に強く、これらのベンチマークのほとんどでGPT-4よりも優れた結果を示していますが、テキストやコードのベンチマークにおける相対的なパフォーマンスはより近く、より多様です。特に、マルチモダリティはGeminiにより組み込まれており、一方でGPT-4はDalle-3などの外部モデルにアクセスすることがあります。「Geminiモデルのビジュアルエンコーディングは、私たち自身のFlamingoにおける基盤となる研究に触発されていますが、モデルは最初からマルチモダルであり、離散的な画像トークンを使用して画像を出力することができます。ただし、これがどのように実装されたのかの詳細は不明です。」

Geminiの2つの小さなモデルは、すでに多くのGoogle製品で展開されています。しかし、最も興味深く能力のあるUltraモデルはまださらなるテストが必要です。Geminiモデルのリリースは、マルチモダルビデオ分析機能のビデオデモが誤解を招いたことが明らかになった後、いくつかの反発を受けました。私たちはこれが恥ずかしい必要のないミスであると思いますが、これはGoogleとDeepmindのエンジニアによる優れた仕事をそこにいるという事実を損なうものではありません。

ミストラルの静かなツイートトレントリリースによる8x7BのスパースなMixture of Expertsモデル(SMoE)は、Googleの騒動とははっきり対照的です。これは最初のオープンソースのMoEモデルではありませんが、最も能力と包括性があります。既に行われているテストは、より大きなモデルと比較していくつかの印象的な機能を示しています。MoEモデルは、以前の主流であった密なトランスフォーマーアーキテクチャと比較して、トレーニング、推論効率、機能の面で潜在的な利点があります。GPT-4がMoEであると広く信じられている一方、Geminiのアーキテクチャの具体的な詳細は開示されていません。

なぜあなたが気にする必要があるのか?

Geminiのリリースにより、GPT-4の競合他社や代替となるオプションが存在することは非常に喜ばしいことです。特に商業製品でLLMモデルがさらに展開されるにつれ、GPT-4のバックアップとして使用できる高性能なマルチモーダルLLMを持っていることは重要です。

ミストラルモデルの導入は、GPT 3.5クラスよりもGPT-4に近いです。このリリースは、Mixture of Experts(MoE)モデルでのファインチューニングと構築をより多くの人々が試すことができるようになるため、オープンソースの領域でイノベーションを推進する可能性があるため、重要です。

– ルイ・ピーターズ — Towards AI 共同創設者兼CEO

最新ニュース

  1. GoogleがGeminiを導入

GoogleはGeminiという新しいモデルを、Ultra、Pro、Nanoの3つのサイズで導入しました。Geminiは、さまざまな学術ベンチマークで他のモデルを凌駕するネイティブなマルチモーダル性を持ちます。特に、Gemini Ultraはマルチタスク言語理解テストで画期的なスコアを達成し、OCRシステムに依存せずに画像ベンチマークで優れた性能を発揮します。

2. Mistral AIがMixtral 8x7Bをリリース

Mixtral 8x7Bは、オープンなウェイトを持つスパースなエキスパートモデル(SMoE)です。このモデルは複数の言語に対応しており、32kトークンの文脈を持ちます。指示に従うモデルにファインチューニングできます。Mixtral 8x7Bは、Llama 2 70Bに比べてほとんどのベンチマークで優れたパフォーマンスを発揮し、推論速度も6倍速くなります。

3. EUが画期的なAI法案で合意し、米国を先駆ける

欧州連合の関係者は、世界的に最も野心的なAIを規制する法律に関して画期的な合意に達し、リスクの分類、透明性の確保、テック企業への非遵守に対する罰則の金銭的処罰を推進するためのグローバルな基準になる可能性があります。欧州のAI法は、AIの進歩に監視が伴い、その最高リスクの使用が禁止されることを確保します。

4. GoogleのGemini AIデモ動画は捏造されました

Googleは、派手なGeminiデモ動画がモデルをより印象的に見せるために編集と指示を駆使していることを認めたことで批判を浴びています。BloombergのParmy Olsonが報じたところによれば、研究者たちはモデルに静止画像を与え、成功した応答を編集し合わせることで、モデルの能力を部分的に誤解させています。

5. Stability AIがStableLM Zephyr 3Bを発売

StableLM Zephyr 3Bは、StableLM 3B-4e1tモデルの拡張としてリリースされる、30億パラメータの新しいチャットモデルです。これはZephyr 7Bモデルからインスピレーションを得て設計されており、特に指示の追従やQ&Aの文脈で効率的なテキスト生成に使用され、Direct Preference Optimizationアルゴリズムを使用して複数のデータセットで微調整されています。

Geminiデモについてのご意見はありますか?コメントで共有してください!

学び続けるための5分間の記事/動画

  1. ジェンAIフロンティア:LLM研究論文2023年のトランスフォーメーション10選 LLaMAからGPT-4まで
https://www.topbots.com/top-llm-research-papers-2023/

2023年には、AI研究における大規模言語モデル(LLM)の進歩がありました。この記事では、言語モデルが洗練され、スケールダウンされ、さらには外部ツールと統合されることで、さまざまなタスクに取り組むための変革的な研究が垣間見えます。

2. Claude 2.1のための長いコンテキストプロンプティング

最新バージョンのClaude(Claude 2.1)は、200Kトークンのコンテキストウィンドウを持ち、情報を効果的に思い出すことができます。ただし、文書内に挿入されたり場違いな単文に基づいて質問に答えることには慎重です。このブログの実験では、プロンプト技術を使用してClaudeが最も関連性の高い文を思い出すためのガイドを作成しています。

3. RAG vs. コンテキストウィンドウのGPT-4:精度、コスト、およびレイテンシー

この記事では、著者がRAGとGPT-4-Turboのコンテキストウィンドウを3つのキーメトリックで「ハヤスタックの中の針」の圧力テストを行いました:精度、コスト、およびレイテンシー。彼らは2つの異なるRAGパイプラインをベンチマークにしました:Llama-IndexとOpenAIの新しいアシスタントAPIリトリーバルツール。これにより、RAGはわずか4%のコストでより優れたパフォーマンスを発揮することが示されました。

4. 作り方:マルチモーダルプロンプティングを介したGeminiとのインタラクション

GoogleのGeminiに関するブログでは、研究者がモデルに画像を表示し、正しい回答をするようにプロンプトと共に提示することで、マルチモーダルなプロンプティングを行った方法が説明されています。これはGeminiで可能なことを理解するための良い入門ガイドです。

5. StripedHyena-7B、トランスフォーマーを超えた世界を垣間見るオープンソースモデル

このブログ記事では、長いコンテキストのための新しいアーキテクチャ、改良されたトレーニング、および推論パフォーマンスがTransformerアーキテクチャよりも優れているStripedHyenaを紹介しています。

リポジトリとツール

1.MotionDirectorは、テキストからビデオの拡散モデルをカスタマイズして、望ましい動きのあるビデオを生成することができます。

2. Taskade カスタム AI エージェントは、研究、タスク管理、コンテンツ作成などのルーティン業務を自動化するための5つの AI ツールのスイートです。

3. Practical-tutorials/ project-based-learningは、異なる主要プログラミング言語を使用したプロジェクトベースのプログラミングチュートリアルの厳選されたリストです。

4. Mamba Chatは、状態空間モデルアーキテクチャに基づいたチャット言語モデルです。同じサイズのトランスフォーマーよりも優れた検索能力を持っています。

今週のトップ論文

  1. テキスト埋め込みは(ほぼ)テキストと同じ情報を示す

この研究では、「埋め込みの逆転」という概念が提案され、密なテキスト埋め込みから完全なテキストを再構築することが可能であることが示されています。研究者たちは、多段階の方法を用いて制御されたテキストを生成することにおいて高い成功率を達成しています。この研究はまた、テキスト埋め込みから機密性の高い個人データを抽出する可能性を示しており、機械学習における改善されたプライバシー対策の必要性を強調しています。

2. Mamba: セレクティブな状態空間を使用した直線時間系列モデリング

この研究では、長い系列に対するトランスフォーマーの効率の悪さを克服するためのハードウェアに適した並列アルゴリズムである Mamba が紹介されています。セレクティブな状態空間を実装することで、Mamba は高速な推論、線形なスケーラビリティ、およびより大きなトランスフォーマーのモデルと競合するパフォーマンスを実現しています。

3. MVDD: マルチビューデプス拡散モデル

この論文は、マルチビューデプスを活用し、拡散モデル MVDD を用いて複雑な3D形状を2Dデータ形式で表現することを提案しています。MVDD は、細かい詳細を持つ高品質で密なポイントクラウドを生成することができます。

4. アテンションなしの拡散モデル

DiffuSSM は、細部の品質を損なうことなく高解像度の画像を生成するための拡散モデルを高速化することを目指した新しいモデルです。アテンションメカニズムをスケーラブルな状態空間モデルバックボーンで置き換えることで、ImageNet と LSUN データセットでのパフォーマンスを向上させ、計算リソースを節約することができます。

5. SparQ Attention: バンド幅効率の良い LLM 推論

SparQ Attention は、メモリバンド幅の必要性を削減することで大規模言語モデルの効率を向上させる技術です。事前トレーニングや微調整への変更を必要とせず、注意リソースの要件を大幅に減少させることができます。

1. イーロン・マスクの AI スタートアップ X.AI が最大 10 億ドル調達するための株式公開を計画しています。SECの申告書によると、同社は4つの投資家から合計1億3500万ドルを調達し、最初の売却は11月29日に行われました。

2. Metaが Purple Llama を発表しました。これは、安全で責任ある生成型 AI エクスペリエンスの構築を促進することを目指す新しいプロジェクトです。研究と商業利用のための許可されたツール、評価、モデルを提供します。

3. IBM と Meta は AI アライアンスを設立しました。50人以上の創設メンバーや協力者が参加しており、このアライアンスはAIプロジェクトを推進し、ベンチマークを設定し、オープンモデルを向上させ、安全で有益なAIの開発を確保することを目指しています。

AI分野の求人情報

シニアソフトウェアエンジニア、フルスタック @Ledger Investing(リモート)

テクニカルプロダクトマネージャー @InStride Health(ボストン、マサチューセッツ州、アメリカ)

プロダクトオペレーションアソシエイト @Pathrise(リモート)

クラウドエンジニア @Dark Wolf Solutions(メルボルン、フロリダ州、アメリカ)

ユーザーエクスペリエンスリサーチャー @Cleo(リモート)

ソフトウェアエンジニア—API/アイデンティティマネジメント @Paidy Inc/Paidy(東京、日本)

求人情報を共有したい場合は、に連絡してください。

次の機械学習インタビューの準備をしている場合は、私たちのリーディングなインタビュー準備ウェブサイトconfettiをぜひチェックしてください!

https://www.confetti.ai/

友達も楽しんでくれると思いますか?ニュースレターを共有して会話に参加させましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ChatGPTとBard AIを活用するために、ソフトウェア開発者はどのように役立つことができるのでしょうか?」

以前は、開発者はコードやデバッグに多くの時間を費やしていましたが、今ではChatGPTやBard AIのおかげで、ソフトウェアエン...

機械学習

「Mozilla Common Voiceにおける音声言語認識 — 音声変換」

これは、Mozilla Common Voiceデータセットに基づく話し言葉認識に関する3番目の記事です第1部では、データの選択とデータの...

機械学習

このAI論文では、「PolyID:高性能バイオベースポリマーの発見における機械学習の先駆者」として、ポリ-ンにおける機械学習を紹介しています

人工知能は生活のあらゆる側面で使用されています。AIは生活のあらゆる方面で使用され、化学やポリマーなどさまざまな分野で...

機械学習

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」

人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施す...

機械学習

ショッピファイの製品推奨アプリに生成AIを導入する

ショッピファイの製品推薦アプリケーションであるSearch and DiscoveryにジェネレーティブAIがどのように実装されたかについ...

データサイエンス

『自分のデータでChatGPTを訓練する方法:ソフトウェア開発者向けガイド』

「MEMWALKERとの対話型リーディングにより、AIモデルの強化が行われ、より豊かで文脈を理解した対話が可能となり、現代のAIの...