このAIニュースレターは、あなたが必要とするすべてです＃57

AIニュースレター＃57、必要な情報を提供

ルイによる今週のAIの出来事

AIの世界では、先週、LLMモデルのパフォーマンス評価が焦点となりました。特に、スタンフォード大学とバークレー大学の学生による最近の研究についての活発な議論がありました。この研究は、GPT-4モデルが時間の経過とともにパフォーマンスの低下、俗に言うところの「バカになる」現象を経験している可能性を示す証拠を提示しています。論文では、3月の97.6%から6月の2.4%にまで減少した素数の識別など、さまざまな評価が提供されました。また、コーディングの問題解決においても、52%から10%の精度に大幅な低下が見られました。

これにより、OpenAIが推論速度とコストをモデルのパフォーマンスよりも優先しているのではないかという議論が巻き起こりました。また、これらの主張の正確性についても議論が続いています。一部の調査結果では、後のモデルは出力のフォーマットを変更するだけで大幅にパフォーマンスが向上することが示されています。さらに、別の評価では、APIのいずれのバージョンも素数の分類問題において偶然の成績を上回ることはありませんでした。この新たな研究結果に対して、論文の著者たちは自らの意図を明確にし、OpenAIのAPIの品質の低下を示すことが実験の目的ではなかったと述べました。代わりに、彼らは不安定さの問題を明らかにし、基礎となるモデルの応答が変化するとアプリケーションがクラッシュする可能性についての認識を高めることを目指していました。さらに、OpenAIはこれらの主張に対応するためにブログ記事を公開し、APIの安定性を向上させるための取り組みを行っていることをユーザーに保証しました。彼らは開発者が特定のモデルバージョンを指定して利用できる機能を提供し、アプリケーションにより多くの制御と予測可能性をもたらしています。

今週のGPT-4の評価に関するさらなるポジティブなニュースとして、別の研究では臨床ケースの試験においてGPT-4が医学生よりも優れた成績を収めたことが示されました。研究では特別なプロンプティング技術は使用しなかったことを明記しています。著者の一人はTwitterで研究結果についての洞察を共有し、学生の評価の将来についての議論を巻き起こしました。

私たちはこれらの論文の両方を興味深く思い、GPT-4のパフォーマンスの低下の可能性は重要な議論を引き起こしました。私たちには一つはっきりしていることがあります。商業化された製品がLLM APIを使用する世界では、モデルが更新されるにつれて特定のタスクやプロンプトに対するLLMの変動するパフォーマンスと安定性は、開発者や企業が取り組む必要のある新たな課題です。そして、これは医療アプリケーションにとってさらに重要になるでしょう！また、私たちはLlama 2などの新しいオープンソースLLMのパフォーマンスを正確かつ一貫してベンチマーク化するために、LLMの評価基準にもっと取り組む必要があると考えています。

– ルイ・ピーターズ — Towards AI 共同創設者兼CEO

この号は以下のスポンサーの提供でお送りします:

業界をリードする人工知能カンファレンス、Ai4 2023に是非ご参加ください。8月7日から9日までラスベガスのMGMグランドで開催されます。2200人以上のAIリーダー、240人の講演者、100の最先端のAI展示に参加する最後のチャンスです。無料パスの申請または今すぐ登録して最終価格から12%割引で参加しましょう。

学び続けるための5つの5分間の読み物/動画

LLaMa 2 — 必要なすべてのリソース

このブログ記事には、LLaMa 2を始めるための関連するすべてのリソースが含まれています。LLaMa 2とは何か、モデルをテストできる場所、モデルの背後にある研究、モデルの性能などのトピックをまとめています。

2. AIにおける幻覚

AIにおける幻覚は、基本モデルやオープンソースに関して誇張された物語を広めています。信じるべきことや信頼できる人物を知るのは難しいです。このJohn Luttig氏による興味深い記事では、AIの中で誤解されやすい物語やトレンドについて掘り下げています。

3. AI WebTVの構築

AI WebTVプロジェクトでは、ZeroscopeやMusicGenなどのテキストからビデオを生成するモデルの潜在能力を紹介しています。Hugging Faceサービスを使用して作成され、ChatGPT、Zeroscope V2、FILMの組み合わせを使用して、付随する音楽と共に高品質のビデオクリップを作成します。

4. 誤ったものを恐れる

Mike Loukides氏は、AI支援プログラミングへの移行を怖れる必要はないと主張しています。彼はプログラミングの終わりについて話し、書いてきましたが、それは現実に何を意味するのでしょうか？この記事では、AIの利用が学問全体をどのように変えるのか、Mikeが共有する理由と方法を紹介しています。

5. AIビジュアルの一貫性を確保する方法

このチュートリアルでは、AIビジュアルの一貫性を生成することに焦点を当てています。Stable Diffusion、Midjourney、InsightFaceでの一貫性制御のための基本的なから高度な技術を提供しています。

論文とリポジトリ

FlashAttention-2: より速いアテンションとより良い並列処理とワークパーティショニング

Stanford Universityは、言語モデルでのアテンションの加速とメモリ使用量の削減を実現するFlashAttention-2というアルゴリズムを紹介しました。この更新版は元のバージョンより2倍速く動作し、より良い並列処理とワークパーティショニングの技術により、パフォーマンスが向上しています。

2. 真ん中で迷う：言語モデルが長いコンテキストをどのように利用するか

この研究では、言語モデルが質問応答や情報検索などのタスクにおいて長いコンテキストをどのように利用するかを調査しています。モデルは入力の先頭や末尾で関連情報を見つけることに優れていますが、長いコンテキストの中間部分へのアクセスではパフォーマンスが低下します。この研究は、効果的に長いコンテキストを利用するための課題を強調し、今後の改善の必要性を示しています。

3. 基盤モデルを持つ統一されたエージェントへ向けて

研究者たちは、強化学習エージェントに言語モデルとビジョン言語モデルを組み込むことで、この分野の重要な課題に対処できることを発見しました。これらのモデルに蓄積された知識を利用することで、エージェントはスパースリワード環境を効果的に探索し、学習のためのデータを再利用し、新しいタスクのためのスキルをスケジュールし、専門家の観察から学ぶことができます。

4. 大規模言語モデルのインコンテキストな例を検索するための学習

研究者たちは、密なリトリーバを使用して、LLMのインコンテキスト学習のための高品質な例を自動的に選択するためのフレームワークを開発しました。実験結果は、類似したコンテキストに関連性のある例をリトリーブすることで、LLMのパフォーマンスの向上に効果的であることを示しています。

5. ChatGPTの振る舞いは時間とともにどのように変化しているのか？

研究調査では、GPT-3.5とGPT-4のさまざまなタスクでのパフォーマンスを時間の経過とともに調査しました。2023年3月から6月にかけて、GPT-4の素数の特定の精度が低下するという重要な変動が見られました。さらに、両モデルとも、コード生成中のフォーマットのミスが増加していることが分かりました。

これらの論文とニュースの要約を楽しんでいますか？毎日の要約をメールで受け取りましょう！

Learn AI Togetherコミュニティセクション！

今週のミーム！

rucha8062が共有したミーム

Discordからの注目コミュニティ投稿

LouvivienはAlpacaにシームレスに接続し、ユーザーがポジション、注文、株式取引を行えるオープンソースのAIトレーディングアプリを開発しました。このアプリを使用すると、ユーザーは共同トレーディング戦略をインポートし、効率的にAIトレーディング資金を管理することができます。このプロジェクトはGitHubで探索でき、仲間のコミュニティメンバーをサポートすることができます。AIトレーディングに興味のある方は、こちらのスレッドでオープンソースプロジェクトに参加することができます。

今週のAI投票！

ディスコードでの議論に参加しましょう。

TAIキュレーションセクション

今週の記事

SimCLRの最大の問題を修正する — Boris MeinardusによるBYOL Paperの解説

SimCLRは対比学習のアイデアを成功裏に実装し、当時新たな最先端のパフォーマンスを達成しました。しかし、このアイデアには特定の拡張への感度や非常に大きなバッチサイズの要件など、根本的な弱点があります。DeepMindの研究者が開発したBootstrap Your Own Latent (BYOL)という新しい自己教師あり学習のアプローチは、自己教師ありモデルのトレーニングに完全に新しいアプローチを実装しています。

求人情報

Head of Content + Developer Relations @ngrok Inc. (リモート)

Senior Backend Engineer @Remote (リモート)

Senior Infrastructure Software Engineer @ClickHouse (リモート)

Product Developer @Shiru (Alameda, CA, USA)

Senior Software Test Engineer @Clari (バンガロール, インド)

Product Engineer @Encord (ロンドン, イギリス)

求人機会をここで共有したい場合は、[email protected]までお問い合わせください。

次の機械学習の面接に備えている場合は、トップの面接準備ウェブサイトconfettiをぜひご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceDeep learningMachine learningMachine Learning AiTowards Ai

Was this article helpful?

93 out of 132 found this helpful

このAIニュースレターは、あなたが必要とするすべてです＃57

ルイによる今週のAIの出来事

最新ニュース

学び続けるための5つの5分間の読み物/動画

論文とリポジトリ

Learn AI Togetherコミュニティセクション！

今週のミーム！

Discordからの注目コミュニティ投稿

今週のAI投票！

TAIキュレーションセクション

今週の記事

おすすめの記事

求人情報

Was this article helpful?

「AIフィードバックループ：AI生成コンテンツの時代におけるモデルの製品品質の維持」

「OpenAIの関数呼び出しの使い方」

機械学習

「LLMプロンプティングにおける思考の一端：構造化されたLLM推論の概要」

「ワイルドワイルドRAG…（パート1）」

コード生成のための5つのChatGPTの代替手段：超高速開発へのハイパードライブ

「AIと.NETの連携による現実世界のソリューションを強化する」

「APIのパワーを活用する：認証を通じて製品の開発ロードマップを形成し、ユーザー体験を向上させる」

AIによって設計されたカードゲーム、I/O FLIPをプレイしましょう

このAIニュースレターは、あなたが必要とするすべてです ＃57

ルイによる今週のAIの出来事

最新ニュース

学び続けるための5つの5分間の読み物/動画

論文とリポジトリ

Learn AI Togetherコミュニティセクション！

今週のミーム！

Discordからの注目コミュニティ投稿

今週のAI投票！

TAIキュレーションセクション

今週の記事

おすすめの記事

求人情報

Was this article helpful?

このAIニュースレターは、あなたが必要とするすべてです＃57