このAIニュースレターがあれば、あなたは全てが揃った！＃70

『このAIニュースレターがあれば、美容とファッションに関する全てが手に入ります！＃70』

ルイによる今週のAIニュース

今週のAIニュースでは、2つの新しいエージェントモデルのリリースに特に興味を持っていました。NvidiaはEurekaというAIエージェントを発表しました。このエージェントは、複雑なタスクを自律的に実行するためにロボットをガイドするために設計されています。このエージェントはGPT-4によって駆動されており、83％のタスクで人間の専門家のパフォーマンスを上回る報酬関数を独自に生成することができ、平均的には52％の向上を達成しています。会社が共有した魅力的なデモでは、エージェントがロボティックハンドに迅速なペン回しの技を教える能力を示しています。このライブラリは、生成型AIと強化学習を利用して複雑なタスクを解決するために使用されます。

他のエージェントのニュースでは、Adeptの研究者がFuyuという名前のマルチモーダルなAIエージェントアーキテクチャを導入しました。このモデルは、8つのビリオンパラメータを持っています。このモデルは、画像とテキストを処理することができるデコーダーのみのアーキテクチャを採用しており、ネットワークの設計、スケーラビリティ、展開を簡素化することができます。さらに、既存のモデルとは異なり、異なる寸法の画像を受け入れることができるため、エージェントでの使用において貴重な追加となります。このモデルは、大きな画像に対する応答をわずか100ミリ秒で生成することができます。物理的およびオンラインアプリケーション用のAIエージェントの最近の進展にワクワクしています。商業化はまだ初期段階ですが、環境と複雑なタスクとの独立した相互作用が可能なエージェントは、新しいAI製品とアプリケーションの多くの機会を生み出します。

− ルイ・ピーターズ — Towards AI 共同創設者兼CEO

注目のニュース

OpenAI、Arrakisモデルの開発を中止

OpenAIは、ChatGPTなどのAIアプリケーションの計算費用を削減するためにAIモデルArrakisの開発計画を中止しました。しかし、この逆境にもかかわらず、OpenAIの成長勢いは続いており、年間売上高は13億ドルの予測です。ただし、Googleの今後のAIモデルGeminiやAI安全サミットにおける検証など、課題に直面する可能性もあります。

2. IBMチップがAIの速度を向上

IBMは、外部メモリへのアクセスを減らすことでAIの速度と効率を大幅に向上させる、脳の働きを模倣したコンピュータチップ（NorthPole）を開発しました。NorthPoleは、それぞれ独自のメモリを持つ256個の計算ユニット、またはコアから構成されています。

3. NVIDIAのブレイクスルー、ロボットが自己学習

NVIDIAの研究者たちは、Eurekaという名前のAIエージェントを作成しました。このエージェントは、ロボットを訓練するためのアルゴリズムを自動生成することができ、複雑なスキルをより速く学習することができます。Eurekaが生成した報酬プログラムは、80％以上のタスクで専門家によって書かれたものよりも優れた結果を出します。

4. AIエージェントのためのFuyu-8B：マルチモーダルアーキテクチャ

Adeptは、Fuyu-8Bという強力なオープンソースのビジョン・ランゲージモデルを紹介しました。このモデルは、画像、チャート、図表、ドキュメントに関する質問に対して理解し、応答する能力を持っています。Fuyu-8Bは、QWEN-VLとPALM-e-12Bに比べて2Bおよび4Bのパラメーターが少ないにも関わらず、3つのメトリックスのうち2つで改善されます。

5. ChatGPTの影響後、Stack Overflowは従業員の28％を解雇

Stack Overflowは、ChatGPTなどのAI技術の進歩により、従業員の28％を解雇します。ChatGPTのようなチャットボットは、Stack Overflowなどのサイトからのコンテンツに重点を置いて効率的なコーディング支援を提供します。ただし、データを収集するがソースに利益をもたらさないチャットボットの持続可能性について重要な問題が発生します。

5つの5分間の読み物/動画で学び続ける

トランスフォーマーマス101

この記事では、大規模な言語モデル（LLM）を扱う際に必要な数値や方程式について説明します。計算要件、計算の最適化、最小データセットのサイズ、最小ハードウェアパフォーマンス、推論のメモリ要件などのトピックをカバーしています。

2. LLaVa-1.5がオープンソースのAIにとって偉大な勝利である理由

LLaVa-1.5は、OpenAIのGPT-4 Visionの代わりとなる小型でありながらパワフルなオープンソースのモデルであり、大規模なマルチモーダルモデル（LMM）の可能性を証明しています。これはAIにおけるマルチモーダリティの理解の重要性を強調し、オープンソースのアプローチの実現可能性に関する疑念を払拭しています。

3. GPT-4 Visionプロンプトインジェクション

ビジョンプロンプトインジェクションは、攻撃者がOpenAIのGPT-4において画像を介して有害なデータをプロンプトに注入することができる脆弱性です。これにより、システムのセキュリティが危険にさらされ、攻撃者は認可されていない操作を実行したり、データを抽出したりすることが可能となります。この脆弱性への対処は複雑であり、モデルの利便性にも影響を及ぼす可能性があります。

4. GPT-4がより高速になっています

GPT-4は、特に99パーセンタイルにおいて応答速度を急速に向上させています。GPT-4とGPT-3.5は、低いレイテンシ-トークン比を維持しており、効率的なパフォーマンスを示しています。

5. ファウンデーションモデル透明性指数の紹介

スタンフォード大学、MIT、プリンストン大学の研究者チームが商用ファウンデーションモデルの透明性レベルを評価するために開発した透明性指数の紹介です。この指数は、ファウンデーションモデル企業の主要な透明性の100の異なる側面を評価し、結果は改善の余地があることを示しています。

論文とリポジトリ

BitNet：大規模言語モデルのための1ビットトランスフォーマーのスケーリング

BitNetは、大規模な言語モデル（LLMs）におけるメモリ効率の向上とエネルギー消費の削減を目的とした1ビットトランスフォーマーアーキテクチャです。8ビットおよびFP16量子化法を上回り、効率とパフォーマンスの利点を維持しながらより大きなLLMsに効果的にスケーリングする潜在能力を示しています。

2. HyperAttention：ほぼ線形時間での長いコンテキストに対する注意力

HyperAttentionは、言語モデルにおけるより長いコンテキストの計算上の課題に対処する革新的なソリューションです。ローカリティセンシティブハッシング（LSH）を利用した既存の手法を上回り、速度を大幅に向上させます。長いコンテキストのデータセットで優れた性能を発揮し、推論を高速化しながら適切な困惑度を維持します。

3. Self-RAG：自己反映を通じた検索、生成、批判の学習

この論文では、Self-RAGと呼ばれる新しいフレームワークを紹介しています。これは言語モデルが「反映トークン」を使用してパッセージに対して反省することで、検索を強化した生成（RAG）を改善するモデルです。この改善により、QA、推論、ファクトベリフィケーションなどの知識集約型タスクにおけるより良い応答が可能となります。

4. PaLI-3 Vision Language Models：より小型で、より高速、より強力

この論文では、PaLI-3という10倍大きな類似モデルと比較して有利な性能を持つ、より小型で、より高速で、より強力なビジョン言語モデル（VLM）を紹介しています。これはコントラスティブ目的で訓練されたViTモデルを活用し、マルチモーダルベンチマークで優れた成績を収めます。

5. DeepSparse：CPU上でGPUレベルの推論を可能にする

DeepSparseは、スパースカーネル、量子化、プルーニング、アテンションキー/バリューのキャッシュなどを組み込むことによって、CPU上のディープラーニングを強化する堅牢なフレームワークです。主流のCPU上でGPUのようなパフォーマンスを実現し、専用のアクセラレータなしでモデルを効率的かつ頑健に展開することができます。

これらの論文とニュースの要約を楽しんでいますか？メールで毎日の要約を受け取る！

学びのAIコミュニティセクション！

今週のミーム！

sikewalkによって共有されたミーム

Discordの注目コミュニティ投稿

G.huyは、CUDA-Cを使用した並列計算のコード例とリソースを含むリポジトリを作成しました。これは、初心者が並列計算の概念を理解し、GPUのパワーを利用して計算集中型のタスクを高速化するための出発点となります。まずGitHubでチェックして、他のコミュニティメンバーをサポートしましょう。フィードバックや質問はスレッドで共有してください。

今週のAI投票！

Discordのディスカッションに参加してください。

TAIキュレーションセクション

今週の記事

RAGアプリケーションデザインの実践的な考慮事項 by Kelvin Lu

RAG（Retrieval Augmented Generation）アーキテクチャは、LLM（Long-form Language Model）入力長の制限と知識の切り捨て問題を克服するために効果的であることが実証されています。現在のLLM技術スタックでは、RAGはディスカッションされたアプリケーションをローカルの知識に基づいて接地し、幻想を軽減し、LLMアプリケーションを監査可能にするための基盤の一つです。この記事では、RAGアプリケーション開発の実践的な詳細について説明しています。