このAIニュースレターはあなたが必要とするものです#76

このAIニュースレターはあなたの必需品です#76

ルイによる今週のAIニュース

今週は、トランスフォーマーや大規模言語モデル(LLMs)の領域を超えた重要なAIの進展に注目していました。最近の新しいビデオ生成拡散ベースのモデルのリリースの勢いは続いていますが、私たちが最も興奮したのはDeepMindの最新のマテリアルモデル、GNoMEです。

GNoMEは、新しい結晶材料構造を発見するために設計された大規模なグラフニューラルネットワークです。このモデルの結果は、DeepMindが今週公表し、提供しました。信じられないことに、これにより人類が知っている安定した材料の数が1週間で約10倍に増加しました! GNoMEの220万件の材料の発見は、約800年分の知識に相当します。その220万件の予測のうち、約38万件は安定していると推定されており、実験的な合成の有望な候補となっています。人類の知識におけるこの大きな突破にもかかわらず、これらの材料を生産し、有用な特性をテストするために利用できるラボと専門家の数にはまだボトルネックが存在しています。しかし、AIを使ってこれらの材料の生産にも役立てる方法を示した2つ目の論文も公開されました。

なぜ気にする必要があるのか?

https://deepmind.google/discover/blog/millions-of-new-materials-discovered-with-deep-learning/

人類の歴史は常に新しい材料の発見と利用によって区切られ、説明されてきました。現在でも、クリーンエネルギーからコンピュータチップ、核融合電源、さらには常温超伝導体など、多くの新しい技術は新しい材料の発見によって推進される可能性があります。私たちは、DeepMindの最新のデータリリースの中にゲームチェンジングな新しい材料が含まれている可能性が非常に高いと考えていますが、有用な特性を持ち、大規模な生産が可能な新しい材料を見つけるにはまだ多くの時間がかかります。さらに広くは、ここでのグラフニューラルネットワークのスケーリングの成功は、最近のAI GPUの導入がLLMsのスケーリングの世界を超えたブレークスルーをもたらす可能性があることを示唆しています。

– Louie Peters — Towards AIの共同設立者兼CEO

注目のニュース

  1. MetaがSeamlessを発表:リアルタイム表現力豊かな多言語翻訳

Metaは、SeamlessM4T v2というエンドツーエンドの表現力豊かな多言語翻訳を可能にするモデルファミリーを紹介しました。Seamlessは、自動音声翻訳を革新するシステムです。この高度なモデルは76言語間で翻訳でき、話者の個別の声のスタイルと韻律を保持し、より自然な会話を実現します。

2. SDXL Turboを紹介:リアルタイムのテキストから画像生成モデル

Stability AIがSDXL Turboを導入しました。この新しいテキストから画像生成モデルは、敵対的拡散蒸留(ADD)を使用して高品質な画像を素早く一度に生成します。512 x 512ピクセルの画像をわずか200ミリ秒以上で素早く正確に作成することができます。

3. Pika Labsがデビューで魅力的なAIビデオ生成ツールを発表

Pika Labsは印象的なAIビデオ生成ツール、Pika 1.0をリリースしました。Text-to-VideoやImage-to-Videoの変換などの高度な機能があります。同社はまた、Meta、Adobe、Stability AIなどの巨大企業に対抗するために5500万ドルの資金調達を行いました。

4. Starling-7B:LLMの有用性と無害性をRLAIFで向上させる

バークレーは、強力な言語モデルであるStarling-7Bを発表しました。このモデルはAIフィードバックからの強化学習(RLAIF)を利用しています。これはバークレーの新しいGPT-4ラベル付けランキングデータセットであるNectarの力を活用しています。このモデルは、MT-Benchを除くすべてのモデルを上回る性能を発揮しますが、OpenAIのGPT-4とGPT-4 Turboには及びません。

5. Amazon Unveils New Chips for Training and Running AI Models

AWSは、モデルのトレーニングおよび推論に使用するための次世代のAIチップ、Graviton4およびTrainium 2を発表しました。Trainium 2は、最大4倍のパフォーマンス向上と2倍のエネルギー効率の向上を実現するよう設計されており、Graviton4は以前の世代と比較して、最大30%の計算パフォーマンスの向上、コア数の増加50%、およびメモリ帯域幅の増加75%を提供します。

今週は、画像、音声、およびビデオ生成のためのいくつかの新しい生成モデルがリリースされました。どれが最も有望に見えますか?そして、なぜですか? コメントで共有してください。

Five 5-minute reads/videos to keep you learning

  1. LLM Visualizations

この記事は、nano GPT、GPT2、およびGPT3を含む有名なトランスフォーマーアーキテクチャの視覚的かつインタラクティブな表現を紹介しています。それは明確なビジュアルを提供し、すべてのブロックのつながりを説明しています。

2. How To Improve Your LLM?

このビデオでは、開発者とAI愛好家がLLMを改善する方法についてガイドしており、さまざまなマイナーや重要な進展の手法を提案しています。また、ゼロからのトレーニング、微調整、(高度な)プロンプトエンジニアリング、およびActiveloopのDeep Memoryを使用したリトリーバル増強生成(RAG)の選択にも役立ちます。

3. Looking Back at a Transformative Year for AI

OpenAIが静かにChatGPTをローンチしてから1年が経ちました。この記事では、過去1年間のAIの進化のタイムラインをたどり、これらの技術がクリエイティブな仕事や知識の仕事を私たちが知る方法を変革する可能性について説明しています。

4. Why Do AI Wrappers Get a Bad (W)rap?

AIラッパーは、AI APIを利用して出力を生成する実用的なツールであり、クリエイターにとって経済的に有益なことが証明されています。Formula BotやPhotoAIなどの例では、年間収益が$200,000から$900,000に及ぶことがあります。

5. 5 Ways To Leverage AI in Tech

FreshworksのCIOであるPrasad Ramakrishnan氏は、スタートアップにとって実用的なAIの使用方法についていくつか紹介しています。この記事では、ユーザーエクスペリエンスの改善からオンボーディングプロセスの最適化、データプラットフォームの最適化まで、組織がAIを効果的な問題解決に活用するための5つの方法を探求しています。

Repositories & Tools

  1. Whisper Zero by Gladiaは、幻覚を排除するためにWhisper ASRを完全に改良したものです。
  2. Taipyは、ウェブアプリケーションのフロントエンドとバックエンドを構築するためのオープンソースのPythonライブラリです。
  3. GPT-fastは、Pythonの<1000 LOCでシンプルで効率的なpytorchネイティブのトランスフォーマーテキスト生成です。
  4. GitBookは、チームのための知識ベースを一元化する技術的な知識管理プラットフォームです。

Top Papers of The Week

  1. Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

GPT-4は、新しいMedpromptの手法を使って医療の質問においてMed-PaLM 2を超えました。3つの高度なプロンプティング戦略を活用することにより、GPT-4はMedQAデータセットにおいて驚異的な90.2%の正答率を達成しました。

2. マーリン: 先見のあるマルチモーダルLLM

FPTとFITが支援する新しいMLLM「マーリン」は、強化された視覚的理解力、将来的な推論力、および複数画像入力解析を実証しています。研究者は、既存の学習パラダイムに触発され、将来モデリングをマルチモーダルLLM(MLLM)に追加して、基本原理と被験者の意図の理解を向上させることを提案しています。これには、既存の学習パラダイムに触発されたForesight Pre-Training(FPT)およびForesight Instruction-Tuning(FIT)の技術が活用されています。

3. ドルフィン: ドライビング向けマルチモーダル言語モデル

「ドルフィン」は、会話型のドライビングアシスタントとして設計されたビジョン・ランゲージモデルです。ビデオデータ、テキスト指示、および過去の制御信号を用いてトレーニングされ、自動運転車に対する難しい運転シナリオを包括的に理解する能力を持っています。

4. 注意力を必要としない拡散モデル

この論文では、よりスケーラブルなステートスペースモデルバックボーンによって注目メカニズムを取って代わるアーキテクチャである「Diffusion State Space Model (DiffuSSM)」を紹介しています。このアプローチは、グローバルな圧縮を必要とせずにより高い解像度を効果的に処理し、拡散プロセス全体で詳細な画像表現を保持します。

5. 大規模言語モデルベースエージェントの台頭と潜在能力:調査研究

これはLLMベースのエージェントの包括的な調査です。哲学的な起源からAIでの開発に至るまで、エージェントの概念の軌跡をたどり、なぜLLMがエージェントの適切な基礎であるのかを説明します。また、LLMベースのエージェントのための一般的なフレームワークである「脳、知覚、行動」の3つの主要なコンポーネントを提案します。

  1. アリババクラウドは、72兆のパラメータを持つ人工知能言語モデル「Qwen-72B」を紹介しました。Qwen-72BはOpenAIのChatGPTと競合し、英語、中国語、数学、およびコーディングで優れています。
  2. NvidiaのCEOジェンセン・ファンは会社のAIの成長をリードし、その結果価値が2000億ドル増加しました。AIとその産業への応用に重点を置いたNvidiaは、ウォルマートなどの主要企業を追い越しています。
  3. Googleは生成的AIツールと法的闘争からのプレッシャーに応えるために、検索体験を変更しています。検索結果への公開コメントのための「メモ」機能と、特定の検索トピックに対してユーザーが購読できる「フォロー」オプションのテストを行っています。

AIで採用中の企業

応用AI科学者 @Gusto, Inc. (サンフランシスコ, CA, アメリカ)

上級LLMエンジニア @RYTE Corporation (パリ, フランス/Freelancer)

機械学習エンジニア @LiveChat (リモート)

アプリケーション開発者 – 専門家 – K0714 @TLA-LLC (バージニア, アメリカ)

データアナリスト @エンパワーリー(リモート)

コンサルタント(データ&プロセスアナリティクス)@セロニス(デンマーク)

QAエンジニアリングマネージャー@ブライトフラッグ(リモート)

こちらでの求人情報を共有したい方は、以下のメールアドレスにご連絡ください:

次の機械学習の面接に備えている方は、ぜひ私たちの主要な面接準備ウェブサイトコンフェティをチェックしてみてください!

https://www.confetti.ai/

友達にもこの情報が役立つと思ったら、ニュースレターをシェアして会話に参加させてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

分散システム設計におけるコンセンサスアルゴリズムの役割の探索

この記事では、信頼性、データの一貫性、および耐障害性を確保する責任を負う人々の重要性と役割について探求します

人工知能

「仕事を守るために自動化を避ける」

自動化は怖いです私のキャリアの最初のころ、私は何かを自動化しましたが、私が去ればすぐに廃止されました人々は仕事を失う...

データサイエンス

FraudGPT AIを活用したサイバー犯罪ツールの驚異的な台頭

インターネットの暗く不気味な一角で、サイバー犯罪者たちは再び人工知能の力を利用して悪意ある目的を追求しています。悪名...

人工知能

「AIガバナンスにおけるステークホルダー分析の包括的ガイド(パート1)」

「AIガバナンスジャーナルの前のエディションでは、AIガバナンスの12の基本原則を取り上げましたこれらの原則は、倫理的ジレ...

AIニュース

「Google Bardの拡張機能を無料で使用する方法」

「Bard拡張機能を使用すると、Google Maps、YouTube、およびGmailをより効果的に利用できます」

人工知能

ChatGPTから独自のプライベートなフランス語チューターを作成する方法

議論された外国語チューターのコードは、私のGitHubページの同梱リポジトリで見つけることができます非商業利用に限り、自由...