このAIニュースレターはあなたが必要とするものです#76
このAIニュースレターはあなたの必需品です#76
ルイによる今週のAIニュース
今週は、トランスフォーマーや大規模言語モデル(LLMs)の領域を超えた重要なAIの進展に注目していました。最近の新しいビデオ生成拡散ベースのモデルのリリースの勢いは続いていますが、私たちが最も興奮したのはDeepMindの最新のマテリアルモデル、GNoMEです。
GNoMEは、新しい結晶材料構造を発見するために設計された大規模なグラフニューラルネットワークです。このモデルの結果は、DeepMindが今週公表し、提供しました。信じられないことに、これにより人類が知っている安定した材料の数が1週間で約10倍に増加しました! GNoMEの220万件の材料の発見は、約800年分の知識に相当します。その220万件の予測のうち、約38万件は安定していると推定されており、実験的な合成の有望な候補となっています。人類の知識におけるこの大きな突破にもかかわらず、これらの材料を生産し、有用な特性をテストするために利用できるラボと専門家の数にはまだボトルネックが存在しています。しかし、AIを使ってこれらの材料の生産にも役立てる方法を示した2つ目の論文も公開されました。
なぜ気にする必要があるのか?
人類の歴史は常に新しい材料の発見と利用によって区切られ、説明されてきました。現在でも、クリーンエネルギーからコンピュータチップ、核融合電源、さらには常温超伝導体など、多くの新しい技術は新しい材料の発見によって推進される可能性があります。私たちは、DeepMindの最新のデータリリースの中にゲームチェンジングな新しい材料が含まれている可能性が非常に高いと考えていますが、有用な特性を持ち、大規模な生産が可能な新しい材料を見つけるにはまだ多くの時間がかかります。さらに広くは、ここでのグラフニューラルネットワークのスケーリングの成功は、最近のAI GPUの導入がLLMsのスケーリングの世界を超えたブレークスルーをもたらす可能性があることを示唆しています。
– Louie Peters — Towards AIの共同設立者兼CEO
- 「推測を超えて:効果的な記事タイトル選択のためのベイジアン統計の活用」
- 「DreamSyncに会ってください:画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」
- 「大規模言語モデルの世界でどのように仕事に就く準備をするか?」
注目のニュース
Metaは、SeamlessM4T v2というエンドツーエンドの表現力豊かな多言語翻訳を可能にするモデルファミリーを紹介しました。Seamlessは、自動音声翻訳を革新するシステムです。この高度なモデルは76言語間で翻訳でき、話者の個別の声のスタイルと韻律を保持し、より自然な会話を実現します。
2. SDXL Turboを紹介:リアルタイムのテキストから画像生成モデル
Stability AIがSDXL Turboを導入しました。この新しいテキストから画像生成モデルは、敵対的拡散蒸留(ADD)を使用して高品質な画像を素早く一度に生成します。512 x 512ピクセルの画像をわずか200ミリ秒以上で素早く正確に作成することができます。
3. Pika Labsがデビューで魅力的なAIビデオ生成ツールを発表
Pika Labsは印象的なAIビデオ生成ツール、Pika 1.0をリリースしました。Text-to-VideoやImage-to-Videoの変換などの高度な機能があります。同社はまた、Meta、Adobe、Stability AIなどの巨大企業に対抗するために5500万ドルの資金調達を行いました。
4. Starling-7B:LLMの有用性と無害性をRLAIFで向上させる
バークレーは、強力な言語モデルであるStarling-7Bを発表しました。このモデルはAIフィードバックからの強化学習(RLAIF)を利用しています。これはバークレーの新しいGPT-4ラベル付けランキングデータセットであるNectarの力を活用しています。このモデルは、MT-Benchを除くすべてのモデルを上回る性能を発揮しますが、OpenAIのGPT-4とGPT-4 Turboには及びません。
5. Amazon Unveils New Chips for Training and Running AI Models
AWSは、モデルのトレーニングおよび推論に使用するための次世代のAIチップ、Graviton4およびTrainium 2を発表しました。Trainium 2は、最大4倍のパフォーマンス向上と2倍のエネルギー効率の向上を実現するよう設計されており、Graviton4は以前の世代と比較して、最大30%の計算パフォーマンスの向上、コア数の増加50%、およびメモリ帯域幅の増加75%を提供します。
今週は、画像、音声、およびビデオ生成のためのいくつかの新しい生成モデルがリリースされました。どれが最も有望に見えますか?そして、なぜですか? コメントで共有してください。
Five 5-minute reads/videos to keep you learning
この記事は、nano GPT、GPT2、およびGPT3を含む有名なトランスフォーマーアーキテクチャの視覚的かつインタラクティブな表現を紹介しています。それは明確なビジュアルを提供し、すべてのブロックのつながりを説明しています。
このビデオでは、開発者とAI愛好家がLLMを改善する方法についてガイドしており、さまざまなマイナーや重要な進展の手法を提案しています。また、ゼロからのトレーニング、微調整、(高度な)プロンプトエンジニアリング、およびActiveloopのDeep Memoryを使用したリトリーバル増強生成(RAG)の選択にも役立ちます。
3. Looking Back at a Transformative Year for AI
OpenAIが静かにChatGPTをローンチしてから1年が経ちました。この記事では、過去1年間のAIの進化のタイムラインをたどり、これらの技術がクリエイティブな仕事や知識の仕事を私たちが知る方法を変革する可能性について説明しています。
4. Why Do AI Wrappers Get a Bad (W)rap?
AIラッパーは、AI APIを利用して出力を生成する実用的なツールであり、クリエイターにとって経済的に有益なことが証明されています。Formula BotやPhotoAIなどの例では、年間収益が$200,000から$900,000に及ぶことがあります。
5. 5 Ways To Leverage AI in Tech
FreshworksのCIOであるPrasad Ramakrishnan氏は、スタートアップにとって実用的なAIの使用方法についていくつか紹介しています。この記事では、ユーザーエクスペリエンスの改善からオンボーディングプロセスの最適化、データプラットフォームの最適化まで、組織がAIを効果的な問題解決に活用するための5つの方法を探求しています。
Repositories & Tools
- Whisper Zero by Gladiaは、幻覚を排除するためにWhisper ASRを完全に改良したものです。
- Taipyは、ウェブアプリケーションのフロントエンドとバックエンドを構築するためのオープンソースのPythonライブラリです。
- GPT-fastは、Pythonの<1000 LOCでシンプルで効率的なpytorchネイティブのトランスフォーマーテキスト生成です。
- GitBookは、チームのための知識ベースを一元化する技術的な知識管理プラットフォームです。
Top Papers of The Week
GPT-4は、新しいMedpromptの手法を使って医療の質問においてMed-PaLM 2を超えました。3つの高度なプロンプティング戦略を活用することにより、GPT-4はMedQAデータセットにおいて驚異的な90.2%の正答率を達成しました。
FPTとFITが支援する新しいMLLM「マーリン」は、強化された視覚的理解力、将来的な推論力、および複数画像入力解析を実証しています。研究者は、既存の学習パラダイムに触発され、将来モデリングをマルチモーダルLLM(MLLM)に追加して、基本原理と被験者の意図の理解を向上させることを提案しています。これには、既存の学習パラダイムに触発されたForesight Pre-Training(FPT)およびForesight Instruction-Tuning(FIT)の技術が活用されています。
3. ドルフィン: ドライビング向けマルチモーダル言語モデル
「ドルフィン」は、会話型のドライビングアシスタントとして設計されたビジョン・ランゲージモデルです。ビデオデータ、テキスト指示、および過去の制御信号を用いてトレーニングされ、自動運転車に対する難しい運転シナリオを包括的に理解する能力を持っています。
この論文では、よりスケーラブルなステートスペースモデルバックボーンによって注目メカニズムを取って代わるアーキテクチャである「Diffusion State Space Model (DiffuSSM)」を紹介しています。このアプローチは、グローバルな圧縮を必要とせずにより高い解像度を効果的に処理し、拡散プロセス全体で詳細な画像表現を保持します。
5. 大規模言語モデルベースエージェントの台頭と潜在能力:調査研究
これはLLMベースのエージェントの包括的な調査です。哲学的な起源からAIでの開発に至るまで、エージェントの概念の軌跡をたどり、なぜLLMがエージェントの適切な基礎であるのかを説明します。また、LLMベースのエージェントのための一般的なフレームワークである「脳、知覚、行動」の3つの主要なコンポーネントを提案します。
クイックリンク
- アリババクラウドは、72兆のパラメータを持つ人工知能言語モデル「Qwen-72B」を紹介しました。Qwen-72BはOpenAIのChatGPTと競合し、英語、中国語、数学、およびコーディングで優れています。
- NvidiaのCEOジェンセン・ファンは会社のAIの成長をリードし、その結果価値が2000億ドル増加しました。AIとその産業への応用に重点を置いたNvidiaは、ウォルマートなどの主要企業を追い越しています。
- Googleは生成的AIツールと法的闘争からのプレッシャーに応えるために、検索体験を変更しています。検索結果への公開コメントのための「メモ」機能と、特定の検索トピックに対してユーザーが購読できる「フォロー」オプションのテストを行っています。
AIで採用中の企業
応用AI科学者 @Gusto, Inc. (サンフランシスコ, CA, アメリカ)
上級LLMエンジニア @RYTE Corporation (パリ, フランス/Freelancer)
アプリケーション開発者 – 専門家 – K0714 @TLA-LLC (バージニア, アメリカ)
コンサルタント(データ&プロセスアナリティクス)@セロニス(デンマーク)
QAエンジニアリングマネージャー@ブライトフラッグ(リモート)
こちらでの求人情報を共有したい方は、以下のメールアドレスにご連絡ください:[email protected]。
次の機械学習の面接に備えている方は、ぜひ私たちの主要な面接準備ウェブサイトコンフェティをチェックしてみてください!
友達にもこの情報が役立つと思ったら、ニュースレターをシェアして会話に参加させてください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「MMMUと出会おう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」
- なぜGPUはAIに適しているのか
- アマゾンセージメーカーとAWSバッチを使用して、ゲティールはモデルトレーニングの時間を90%短縮しました
- スタイルTTS 2 大規模スピーチ言語モデルを用いた人間レベルのテキスト音声変換
- 小さいが強力:大型言語モデルの時代における小型言語モデルの飛躍
- スタビリティAIがアドバーサリアルディフュージョンディスティレーション(ADD)を導入します:最小限のステップでの高精度、リアルタイムイメージ合成の画期的な手法
- 「ローカルCPU上の小規模言語モデルのためのステップバイステップガイド」