このAIニュースレターはあなたが必要とするものです＃76

このAIニュースレターはあなたの必需品です＃76

ルイによる今週のAIニュース

今週は、トランスフォーマーや大規模言語モデル（LLMs）の領域を超えた重要なAIの進展に注目していました。最近の新しいビデオ生成拡散ベースのモデルのリリースの勢いは続いていますが、私たちが最も興奮したのはDeepMindの最新のマテリアルモデル、GNoMEです。

GNoMEは、新しい結晶材料構造を発見するために設計された大規模なグラフニューラルネットワークです。このモデルの結果は、DeepMindが今週公表し、提供しました。信じられないことに、これにより人類が知っている安定した材料の数が1週間で約10倍に増加しました！ GNoMEの220万件の材料の発見は、約800年分の知識に相当します。その220万件の予測のうち、約38万件は安定していると推定されており、実験的な合成の有望な候補となっています。人類の知識におけるこの大きな突破にもかかわらず、これらの材料を生産し、有用な特性をテストするために利用できるラボと専門家の数にはまだボトルネックが存在しています。しかし、AIを使ってこれらの材料の生産にも役立てる方法を示した2つ目の論文も公開されました。

なぜ気にする必要があるのか？

https://deepmind.google/discover/blog/millions-of-new-materials-discovered-with-deep-learning/

人類の歴史は常に新しい材料の発見と利用によって区切られ、説明されてきました。現在でも、クリーンエネルギーからコンピュータチップ、核融合電源、さらには常温超伝導体など、多くの新しい技術は新しい材料の発見によって推進される可能性があります。私たちは、DeepMindの最新のデータリリースの中にゲームチェンジングな新しい材料が含まれている可能性が非常に高いと考えていますが、有用な特性を持ち、大規模な生産が可能な新しい材料を見つけるにはまだ多くの時間がかかります。さらに広くは、ここでのグラフニューラルネットワークのスケーリングの成功は、最近のAI GPUの導入がLLMsのスケーリングの世界を超えたブレークスルーをもたらす可能性があることを示唆しています。

– Louie Peters — Towards AIの共同設立者兼CEO

注目のニュース

MetaがSeamlessを発表：リアルタイム表現力豊かな多言語翻訳

Metaは、SeamlessM4T v2というエンドツーエンドの表現力豊かな多言語翻訳を可能にするモデルファミリーを紹介しました。Seamlessは、自動音声翻訳を革新するシステムです。この高度なモデルは76言語間で翻訳でき、話者の個別の声のスタイルと韻律を保持し、より自然な会話を実現します。

2. SDXL Turboを紹介：リアルタイムのテキストから画像生成モデル

Stability AIがSDXL Turboを導入しました。この新しいテキストから画像生成モデルは、敵対的拡散蒸留（ADD）を使用して高品質な画像を素早く一度に生成します。512 x 512ピクセルの画像をわずか200ミリ秒以上で素早く正確に作成することができます。

3. Pika Labsがデビューで魅力的なAIビデオ生成ツールを発表

Pika Labsは印象的なAIビデオ生成ツール、Pika 1.0をリリースしました。Text-to-VideoやImage-to-Videoの変換などの高度な機能があります。同社はまた、Meta、Adobe、Stability AIなどの巨大企業に対抗するために5500万ドルの資金調達を行いました。

4. Starling-7B：LLMの有用性と無害性をRLAIFで向上させる

バークレーは、強力な言語モデルであるStarling-7Bを発表しました。このモデルはAIフィードバックからの強化学習（RLAIF）を利用しています。これはバークレーの新しいGPT-4ラベル付けランキングデータセットであるNectarの力を活用しています。このモデルは、MT-Benchを除くすべてのモデルを上回る性能を発揮しますが、OpenAIのGPT-4とGPT-4 Turboには及びません。

5. Amazon Unveils New Chips for Training and Running AI Models

AWSは、モデルのトレーニングおよび推論に使用するための次世代のAIチップ、Graviton4およびTrainium 2を発表しました。Trainium 2は、最大4倍のパフォーマンス向上と2倍のエネルギー効率の向上を実現するよう設計されており、Graviton4は以前の世代と比較して、最大30％の計算パフォーマンスの向上、コア数の増加50％、およびメモリ帯域幅の増加75％を提供します。

今週は、画像、音声、およびビデオ生成のためのいくつかの新しい生成モデルがリリースされました。どれが最も有望に見えますか？そして、なぜですか？ コメントで共有してください。

Five 5-minute reads/videos to keep you learning

LLM Visualizations

この記事は、nano GPT、GPT2、およびGPT3を含む有名なトランスフォーマーアーキテクチャの視覚的かつインタラクティブな表現を紹介しています。それは明確なビジュアルを提供し、すべてのブロックのつながりを説明しています。

2. How To Improve Your LLM?

このビデオでは、開発者とAI愛好家がLLMを改善する方法についてガイドしており、さまざまなマイナーや重要な進展の手法を提案しています。また、ゼロからのトレーニング、微調整、（高度な）プロンプトエンジニアリング、およびActiveloopのDeep Memoryを使用したリトリーバル増強生成（RAG）の選択にも役立ちます。

3. Looking Back at a Transformative Year for AI

OpenAIが静かにChatGPTをローンチしてから1年が経ちました。この記事では、過去1年間のAIの進化のタイムラインをたどり、これらの技術がクリエイティブな仕事や知識の仕事を私たちが知る方法を変革する可能性について説明しています。

4. Why Do AI Wrappers Get a Bad (W)rap?

AIラッパーは、AI APIを利用して出力を生成する実用的なツールであり、クリエイターにとって経済的に有益なことが証明されています。Formula BotやPhotoAIなどの例では、年間収益が$200,000から$900,000に及ぶことがあります。

5. 5 Ways To Leverage AI in Tech

FreshworksのCIOであるPrasad Ramakrishnan氏は、スタートアップにとって実用的なAIの使用方法についていくつか紹介しています。この記事では、ユーザーエクスペリエンスの改善からオンボーディングプロセスの最適化、データプラットフォームの最適化まで、組織がAIを効果的な問題解決に活用するための5つの方法を探求しています。

Repositories & Tools

Whisper Zero by Gladiaは、幻覚を排除するためにWhisper ASRを完全に改良したものです。
Taipyは、ウェブアプリケーションのフロントエンドとバックエンドを構築するためのオープンソースのPythonライブラリです。
GPT-fastは、Pythonの<1000 LOCでシンプルで効率的なpytorchネイティブのトランスフォーマーテキスト生成です。
GitBookは、チームのための知識ベースを一元化する技術的な知識管理プラットフォームです。

Top Papers of The Week

Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

GPT-4は、新しいMedpromptの手法を使って医療の質問においてMed-PaLM 2を超えました。3つの高度なプロンプティング戦略を活用することにより、GPT-4はMedQAデータセットにおいて驚異的な90.2％の正答率を達成しました。

2. マーリン: 先見のあるマルチモーダルLLM

FPTとFITが支援する新しいMLLM「マーリン」は、強化された視覚的理解力、将来的な推論力、および複数画像入力解析を実証しています。研究者は、既存の学習パラダイムに触発され、将来モデリングをマルチモーダルLLM（MLLM）に追加して、基本原理と被験者の意図の理解を向上させることを提案しています。これには、既存の学習パラダイムに触発されたForesight Pre-Training（FPT）およびForesight Instruction-Tuning（FIT）の技術が活用されています。

3. ドルフィン: ドライビング向けマルチモーダル言語モデル

「ドルフィン」は、会話型のドライビングアシスタントとして設計されたビジョン・ランゲージモデルです。ビデオデータ、テキスト指示、および過去の制御信号を用いてトレーニングされ、自動運転車に対する難しい運転シナリオを包括的に理解する能力を持っています。

4. 注意力を必要としない拡散モデル

この論文では、よりスケーラブルなステートスペースモデルバックボーンによって注目メカニズムを取って代わるアーキテクチャである「Diffusion State Space Model (DiffuSSM)」を紹介しています。このアプローチは、グローバルな圧縮を必要とせずにより高い解像度を効果的に処理し、拡散プロセス全体で詳細な画像表現を保持します。

5. 大規模言語モデルベースエージェントの台頭と潜在能力：調査研究

これはLLMベースのエージェントの包括的な調査です。哲学的な起源からAIでの開発に至るまで、エージェントの概念の軌跡をたどり、なぜLLMがエージェントの適切な基礎であるのかを説明します。また、LLMベースのエージェントのための一般的なフレームワークである「脳、知覚、行動」の3つの主要なコンポーネントを提案します。