このAIニュースレターはあなたが必要なものです #68
このAIニュースレターはあなたに欠かせないものです #68
今週のAIニュース 〜 Louieによる報告〜
今週は、新しいオープンソースのマルチモーダルモデルであるLLaVA v1.5が登場しました。これはGPT-4に対抗するマルチモーダルな能力を持っており、学習済みのCLIP ViT-L/14ビジョンエンコーダーとVicuna LLMをシンプルな射影行列で接続しており、画像とテキストを処理する頑健なモデルとなっています。モデルは2つのステージでトレーニングされており、まずはCC3Mの一部を使用してより良い整列を実現するために射影行列を更新し、その後はVisual ChatとScience QAの2つの特定の用途に対してモデル全体を微調整し、後者のベンチマークで最先端の精度を達成しました。
さらに、無料で利用できるデモと一緒にリリースされたこのモデルは、その印象的なマルチモーダルな能力により注目を集めました。ユーザーは、モデルが食べ物の画像に基づいて料理のレシピを提案したり、CAPTCHAコードを解決したり、UIコードを生成したり、オブジェクトや動物を識別したりするなど、さまざまな用途での経験を共有しました。このモデルはすべてのタスクで優れたパフォーマンスを発揮し、GPT-4にとって有力な競争相手となっています。
マルチモーダル領域でオープンソースのモデルが登場したことを喜んでおり、これによって多くの新しいアプリケーションの実験が可能になることを期待しています。今後、GPT-4ビジョンモデルと話題のGoogle Geminiモデルの広範な展開を待ち、それらがどのように比較され、何が作られるのかを見守りたいと思います!
– ルイ・ピーターズ — Towards AIの共同創設者兼CEO
- 「分類メトリックの理解:モデルの精度評価ガイド」
- ソフトウェア開発のパラダイムシフト:GPTConsoleの人工知能AIエージェントが新たな地平を開く
- 「Dockerが「Docker AI」を発表:コンテキスト認識自動化が開発者の生産性に革新をもたらす」
私たちの「トレーニングとファインチューニングLLMの製品向け無料認定コース」が利用可能です!
私たちは、Towards AIとActiveloop、Intel Disruptor Initiativeとの共同で、第2弾の無料認定コースである「トレーニングとファインチューニングLLMの製品向けコース」をリリースすることを喜んでいます。このコースでは、LLMのトレーニング、ファインチューニング、およびこれらのモデルをAI製品にシームレスに統合するための詳細を学びます。このコースでは、LLMの製品向け準備のための最先端かつ費用効率の良いAIスタックの構築方法をご案内します。また、プロプライエタリモデルとオープンソースモデル、さまざまなLLMトレーニング方法、および製品の展開戦略など、重要なトピックもカバーしています。さらに、LoRA、QLoRA、SFT、RLHFなどの高度なファインチューニング技術や、Cohereを使用したカスタムモデルのトレーニングなども触れています。CohereとLambdaのパートナーのサポートのもと、対象の参加者は自分自身で例を実行するためのコンピューティングクレジットを受け取ることができます!~60のレッスンチュートリアル、~10の実用的なプロジェクト、9つの関連するビデオが、コースページで利用可能になっています。
最新ニュース
1. Metaが静かにLlama 2 Longを発表。GPT-3.5 TurboおよびClaude 2より優れた性能を持つAI
Metaは、Llama 2 Longをリリースしました。これはLlama 2の強化版であり、より長いトレーニングシーケンスとアップサンプルされた長いテキストでの継続的な事前トレーニングを行っています。4000億トークンを追加し、Rotary Positional Embedding(RoPE)にわずかな変更を加えたことで、Llama 2 Longはより長い情報シーケンスに対応し、モデルの知識ベースに関連性の低い情報を含めることができるようになりました。
2. マイクロソフトが独自のAIチップを発表。NVIDIAへの依存を減らす
マイクロソフトは来月、初めてのAIチップを発表する予定です。コードネーム「アテナ」と呼ばれるこのチップは、マイクロソフトがデータセンターにおけるAIの加速において、NVIDIAが設計したGPUに対する依存度を減らすことができる可能性があります。
OpenAIは、AIモデルのトレーニング用プロセッサの世界的な不足により、ChatGPT向けに自社のAIチップの開発を検討しています。この動きにより、ChatGPTの現在の1日あたりの高い運用費用、つまり70万ドルを削減することができるかもしれません。OpenAIの決定は、自社のパートナーであるマイクロソフトとは異なる方向に進むかもしれません。マイクロソフトもまた、独自のAIチップの開発に取り組んでいます。
4. Stable LM 3Bの紹介:持続可能な高性能言語モデルをスマートデバイスにもたらす
Stability AIは、スマートデバイス向けに設計された高性能言語モデルであるStable LM 3Bを紹介しました。30億のパラメータを持つこのモデルは最新の3Bモデルを凌駕し、運用コストと電力消費を削減します。このモデルにより、より幅広い範囲のスマートデバイス、PC、エッジコンピューティングアプリケーションが可能になります。
Replitは、2300万を超えるユーザー全員に対して、AIの機能を無料で提供します。コード補完やコード補助の機能はデフォルトで有効化されています。Replitはまた、replit-code-v1.5-3bという新しいモデルをトレーニングし、この大規模展開でこれらの新機能を動作させることができます。
学び続けるための5つの5分読み/動画
1. 終わりのない流暢さのためのLLMにおけるアテンションシンク
アテンションシンクトークンを使用したウィンドウ付きアテンションは、Llama、Mistral、MPT、Falcon、GPT-NeoX(Pythia)などのChatスタイルの大規模言語モデル(LLM)での流暢さを維持するための解決策です。この方法は、効果的にアテンションスコアを管理し、ウィンドウ外に最初のトークンが移動したときの流暢さの喪失を防ぎます。
2. Hugging FaceのPEFTライブラリを使用したプロンプトチューニングによるモデルの微調整
この記事では、Hugging FaceのPEFTライブラリを使用したプロンプトチューニングについて探求します。この技術と応用について、2つの異なるモデルの例を含むノートブックも詳しく調べます。
この記事では、LLMを活用した顧客セグメンテーションの包括的なガイドを提供しています。K-meansクラスタリングや外れ値検出のためのPyODライブラリ、エルボーメソッド、シルエット可視化など、最適なクラスターを決定するための技術、評価指標、テキスト埋め込みを抽出するためのPCA、T-SNE、LLMの使用などをカバーしています。
この論文は、MetaのLlamaやOpenAIのGPT-3.5 Turboなどの事前訓練済み大規模言語モデルをカスタマイズする際の潜在的な安全上の問題をハイライトしています。既存の安全アライメントインフラは、LLMの有害な振る舞いを制限することができますが、エンドユーザーに微調整特権が付与される場合の安全上のリスクはカバーされていません。
5. AIの教父ジェフリー・ヒントンが語る高度なAIの約束とリスク
ジェフリー・ヒントンは、AIシステムが私たちが知る以上に知的であり、機械が支配する可能性があると考えています。これは、AIのリスク、未来、自己認識AIなどについての彼の会話のトランスクリプトです。
論文とリポジトリ
MIT、メタAI、およびカーネギーメロンの研究者たちは、StreamingLLMというフレームワークを開発しました。このフレームワークは、高コストのファインチューニングなしでLLM内で無限の長さの言語モデリングを可能にします。この効率的なアプローチにより、GPT-3やPaLMのようなモデルが4百万トークンを超える文脈を処理できるようになり、アテンションシンクトークンを活用してパフォーマンスを大幅に向上させることができます。
この論文では、反応の長さの最適化がRLHFの報告された改善の重要な要素であることを示しています。それは、サイズを増やすことなくこれらの改善を複製するための介入を探求しますが、その効果は異なります。
3.MetaとINRIAの研究者がViTのアテンションスパイクを除去する明示的なレジスタ
MetaとINRIAの研究者たちは、Vision Transformers(ViTs)のアテンションスパイクに対処するための新しい手法を発見しました。一時的なストレージ用に専用の「レジスタ」トークンを導入することで、ViTsにおいてより滑らかなアテンションマップ、改善された下流パフォーマンス、そしてオブジェクトの発見能力が実現されました。
研究者たちは、CLIP-ViT-L-336pxとMLPプロジェクションを使用してLLaVa多モダルLLMを大幅に向上させました。学術的なタスク指向のVQAデータと反応プロンプトを組み込むことにより、最終的な13Bチェックポイントはさまざまなベンチマークで注目に値するパフォーマンスを実現しました。さらに、公開されているデータはわずか1.2Mであり、たった1日で単一の8-A100ノード上で完全にトレーニングすることができます。
5.話す前に考える:ポーズトークンを使用した言語モデルのトレーニング
最近の研究によると、言語モデルにポーズトークンを使用することで、次のトークンを生成する前により徹底した計算が可能になり、推論タスクのパフォーマンスが向上します。この研究では、質問に答えるなどのタスクで有意なスコアの向上が見られました。
これらの論文とニュースサマリーをお楽しみいただけましたか?メールでデイリーレキャップを受け取る!
共に学ぶAIコミュニティセクション!
週間AIポッドキャスト
この「What’s AI」ポッドキャストのエピソードでは、Louis Bouchardが素晴らしいAuxane Bochにインタビューをしています。AI倫理に焦点を当てたこの話では、専門家とともにAI倫理とガバナンスの世界を探求し、責任あるAIの実践、イノベーションと規制のバランス、AIの開発と展開における倫理の役割について探求します。Auxaneは、特にEUの規制が迫っている状況下で企業がこの分野を進む方法についての洞察を共有します。フルエピソードはYouTubeで視聴するか、お好きなストリーミングプラットフォームで聴くことができます。
週のミーム!
ミーム共有者:rucha8062
ディスコードからの注目コミュニティ投稿
DogecoinはInfoGPTというドキュメントからの質問に答えることができるチャットボットを作成しました。それはLangchain、LlamaCPP、Streamlit、ChromaDB、およびSentence Transformersで構築されています。PDF、TXT、CSV、およびDOCXファイルと互換性があります。こちらでGitHubで確認し、フェローのコミュニティメンバーをサポートしましょう!フィードバックや貢献をこのスレッドで共有してください。
週のAI投票!
ディスコードでの議論に参加してください。
TAIキュレーションセクション
週の記事
強化学習:関数近似とDeep Q-Network 其の四 by Tan Pengshi Alvin
この記事では2種類のValue Function Approximationについて探求します。第1は線型方程式とTemporal Difference法による確率的勾配降下法を用いた増分法です。記事はまた、人気のあるDeep Q-Networks(DQN)についても議論しています。Deep Q-NetworksはオフポリシーQ学習の関数近似拡張です。
必読の記事
データリークの対処:信頼性のある機械学習モデルの基本考慮事項 by Mala Deep
GANを知っていますか?それをトレーニングする方法も知っていますか? by Youssef Hosni
AI画像生成への包括的な紹介 by Youssef Hosni
Towards AIでの公開を希望する場合は、ガイドラインをご確認いただき、サインアップしてください。編集方針と基準を満たす場合、お客様の作品をネットワーク上で公開いたします。
求人情報
Promptエンジニア— 061023 @Sirion Pte Ltd(リモート/カナダ)
リードデータサイエンティスト(WA) @Tiger Analytics(シアトル、WA、USA)
Pythonジュニア開発者(一時的)@Clarity AI(リモート)
ここで求人情報を共有したい場合は、[email protected]までお問い合わせください。
次の機械学習の面接の準備をしているなら、ぜひ私たちのリーディングな面接対策ウェブサイト、confettiをチェックしてください!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このNVIDIAのAI論文は、検索補完と長い文脈の力を探求しています:どちらが優れているのか、そしてそれらは共存できるのか?
- ミストラルAIのミストラル7Bファンデーションモデルは、Amazon SageMaker JumpStartで利用可能です
- 私たちはどのように大規模な言語モデルをストリーミングアプリケーションで効率的に展開できるのでしょうか?このAI論文では、無限のシーケンス長のためのStreamingLLMフレームワークを紹介しています
- ウェイモのMotionLMを紹介します:最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル(LLM)が自動車の運転をサポートできるようにする可能性のあるものです
- CPR-CoachによるCPRトレーニングの革命:エラー認識と評価に人工知能を活用
- Amazon SageMakerのCanvas sentiment analysisとtext analysisモデルを使用して製品レビューから洞察を抽出するために、ノーコードの機械学習を使用してください
- 「Java での AI:Spring Boot と LangChain を使用して ChatGPT のクローンを構築する」