このAIニュースレターは、あなたが必要とするすべてです #57
AIニュースレター #57、必要な情報を提供
ルイによる今週のAIの出来事
AIの世界では、先週、LLMモデルのパフォーマンス評価が焦点となりました。特に、スタンフォード大学とバークレー大学の学生による最近の研究についての活発な議論がありました。この研究は、GPT-4モデルが時間の経過とともにパフォーマンスの低下、俗に言うところの「バカになる」現象を経験している可能性を示す証拠を提示しています。論文では、3月の97.6%から6月の2.4%にまで減少した素数の識別など、さまざまな評価が提供されました。また、コーディングの問題解決においても、52%から10%の精度に大幅な低下が見られました。
これにより、OpenAIが推論速度とコストをモデルのパフォーマンスよりも優先しているのではないかという議論が巻き起こりました。また、これらの主張の正確性についても議論が続いています。一部の調査結果では、後のモデルは出力のフォーマットを変更するだけで大幅にパフォーマンスが向上することが示されています。さらに、別の評価では、APIのいずれのバージョンも素数の分類問題において偶然の成績を上回ることはありませんでした。この新たな研究結果に対して、論文の著者たちは自らの意図を明確にし、OpenAIのAPIの品質の低下を示すことが実験の目的ではなかったと述べました。代わりに、彼らは不安定さの問題を明らかにし、基礎となるモデルの応答が変化するとアプリケーションがクラッシュする可能性についての認識を高めることを目指していました。さらに、OpenAIはこれらの主張に対応するためにブログ記事を公開し、APIの安定性を向上させるための取り組みを行っていることをユーザーに保証しました。彼らは開発者が特定のモデルバージョンを指定して利用できる機能を提供し、アプリケーションにより多くの制御と予測可能性をもたらしています。
今週のGPT-4の評価に関するさらなるポジティブなニュースとして、別の研究では臨床ケースの試験においてGPT-4が医学生よりも優れた成績を収めたことが示されました。研究では特別なプロンプティング技術は使用しなかったことを明記しています。著者の一人はTwitterで研究結果についての洞察を共有し、学生の評価の将来についての議論を巻き起こしました。
私たちはこれらの論文の両方を興味深く思い、GPT-4のパフォーマンスの低下の可能性は重要な議論を引き起こしました。私たちには一つはっきりしていることがあります。商業化された製品がLLM APIを使用する世界では、モデルが更新されるにつれて特定のタスクやプロンプトに対するLLMの変動するパフォーマンスと安定性は、開発者や企業が取り組む必要のある新たな課題です。そして、これは医療アプリケーションにとってさらに重要になるでしょう!また、私たちはLlama 2などの新しいオープンソースLLMのパフォーマンスを正確かつ一貫してベンチマーク化するために、LLMの評価基準にもっと取り組む必要があると考えています。
– ルイ・ピーターズ — Towards AI 共同創設者兼CEO
この号は以下のスポンサーの提供でお送りします:
業界をリードする人工知能カンファレンス、Ai4 2023に是非ご参加ください。8月7日から9日までラスベガスのMGMグランドで開催されます。2200人以上のAIリーダー、240人の講演者、100の最先端のAI展示に参加する最後のチャンスです。無料パスの申請または今すぐ登録して最終価格から12%割引で参加しましょう。
最新ニュース
- MetaがLlama 2をリリース
MetaはLlama-2をリリースしました。商用ライセンス付きのオープンソースモデルであり、ChatGPTと同様のパフォーマンスを示します。さまざまなパラメータサイズで2TトークンでトレーニングされたLlama-2は、FalconやMPTなどの他のオープンソースモデルを上回るパフォーマンスを発揮するため、さらなる微調整と改善が行われました。
2. LangSmithの発表:LLMアプリケーションの統合プラットフォーム
LangChainはLangSmithを開発しました。このプラットフォームは、開発者がプロトタイプと本番のギャップを埋めるのを支援するために設計されています。デバッグ、テスト、評価、モニタリングなどの重要な機能を提供することで、LangSmithはAIプロフェッショナルが予期しない結果、エラー、レイテンシなどの問題を特定し、解決するのを助けます。
3. AppleがChatGPTに似たAIチャットボットをテスト中
Appleは「Apple GPT」という名前のチャットボットを開発し、OpenAIとGoogleに挑戦しています。初期のセキュリティ上の懸念にも関わらず、チャットボットは現在、プロトタイピング目的でApple社員に広く利用されており、制限付きの使用と顧客向けの機能は許可されていません。
4. Cerebras Systemsは、G42との1億ドルの契約を締結し、Nvidiaの市場ポジションに挑戦する可能性のあるAIスーパーコンピューターの登場を示しています。展開を加速するため、Cerebrasはアメリカで3つのCondor Galaxyシステムを構築し、最初のスーパーコンピューターは今年オンラインになります。
5. ChatGPTのカスタムインストラクション
OpenAIは、ChatGPTのパーソナライズされたカスタムインストラクションを導入し、ユーザーがより個別化された適応性のある体験をすることができるようにしています。この機能は、多様なニーズに対応するためのカスタマイズの重要性を強調しています。カスタムインストラクションは、すべてのユーザーに段階的に展開され、最初はPlusプランのサブスクライバーにベータアクセスが提供されます。
学び続けるための5つの5分間の読み物/動画
- LLaMa 2 — 必要なすべてのリソース
このブログ記事には、LLaMa 2を始めるための関連するすべてのリソースが含まれています。LLaMa 2とは何か、モデルをテストできる場所、モデルの背後にある研究、モデルの性能などのトピックをまとめています。
2. AIにおける幻覚
AIにおける幻覚は、基本モデルやオープンソースに関して誇張された物語を広めています。信じるべきことや信頼できる人物を知るのは難しいです。このJohn Luttig氏による興味深い記事では、AIの中で誤解されやすい物語やトレンドについて掘り下げています。
3. AI WebTVの構築
AI WebTVプロジェクトでは、ZeroscopeやMusicGenなどのテキストからビデオを生成するモデルの潜在能力を紹介しています。Hugging Faceサービスを使用して作成され、ChatGPT、Zeroscope V2、FILMの組み合わせを使用して、付随する音楽と共に高品質のビデオクリップを作成します。
4. 誤ったものを恐れる
Mike Loukides氏は、AI支援プログラミングへの移行を怖れる必要はないと主張しています。彼はプログラミングの終わりについて話し、書いてきましたが、それは現実に何を意味するのでしょうか?この記事では、AIの利用が学問全体をどのように変えるのか、Mikeが共有する理由と方法を紹介しています。
5. AIビジュアルの一貫性を確保する方法
このチュートリアルでは、AIビジュアルの一貫性を生成することに焦点を当てています。Stable Diffusion、Midjourney、InsightFaceでの一貫性制御のための基本的なから高度な技術を提供しています。
論文とリポジトリ
- FlashAttention-2: より速いアテンションとより良い並列処理とワークパーティショニング
Stanford Universityは、言語モデルでのアテンションの加速とメモリ使用量の削減を実現するFlashAttention-2というアルゴリズムを紹介しました。この更新版は元のバージョンより2倍速く動作し、より良い並列処理とワークパーティショニングの技術により、パフォーマンスが向上しています。
2. 真ん中で迷う:言語モデルが長いコンテキストをどのように利用するか
この研究では、言語モデルが質問応答や情報検索などのタスクにおいて長いコンテキストをどのように利用するかを調査しています。モデルは入力の先頭や末尾で関連情報を見つけることに優れていますが、長いコンテキストの中間部分へのアクセスではパフォーマンスが低下します。この研究は、効果的に長いコンテキストを利用するための課題を強調し、今後の改善の必要性を示しています。
3. 基盤モデルを持つ統一されたエージェントへ向けて
研究者たちは、強化学習エージェントに言語モデルとビジョン言語モデルを組み込むことで、この分野の重要な課題に対処できることを発見しました。これらのモデルに蓄積された知識を利用することで、エージェントはスパースリワード環境を効果的に探索し、学習のためのデータを再利用し、新しいタスクのためのスキルをスケジュールし、専門家の観察から学ぶことができます。
4. 大規模言語モデルのインコンテキストな例を検索するための学習
研究者たちは、密なリトリーバを使用して、LLMのインコンテキスト学習のための高品質な例を自動的に選択するためのフレームワークを開発しました。実験結果は、類似したコンテキストに関連性のある例をリトリーブすることで、LLMのパフォーマンスの向上に効果的であることを示しています。
5. ChatGPTの振る舞いは時間とともにどのように変化しているのか?
研究調査では、GPT-3.5とGPT-4のさまざまなタスクでのパフォーマンスを時間の経過とともに調査しました。2023年3月から6月にかけて、GPT-4の素数の特定の精度が低下するという重要な変動が見られました。さらに、両モデルとも、コード生成中のフォーマットのミスが増加していることが分かりました。
これらの論文とニュースの要約を楽しんでいますか?毎日の要約をメールで受け取りましょう!
Learn AI Togetherコミュニティセクション!
今週のミーム!
rucha8062が共有したミーム
Discordからの注目コミュニティ投稿
LouvivienはAlpacaにシームレスに接続し、ユーザーがポジション、注文、株式取引を行えるオープンソースのAIトレーディングアプリを開発しました。このアプリを使用すると、ユーザーは共同トレーディング戦略をインポートし、効率的にAIトレーディング資金を管理することができます。このプロジェクトはGitHubで探索でき、仲間のコミュニティメンバーをサポートすることができます。AIトレーディングに興味のある方は、こちらのスレッドでオープンソースプロジェクトに参加することができます。
今週のAI投票!
ディスコードでの議論に参加しましょう。
TAIキュレーションセクション
今週の記事
SimCLRの最大の問題を修正する — Boris MeinardusによるBYOL Paperの解説
SimCLRは対比学習のアイデアを成功裏に実装し、当時新たな最先端のパフォーマンスを達成しました。しかし、このアイデアには特定の拡張への感度や非常に大きなバッチサイズの要件など、根本的な弱点があります。DeepMindの研究者が開発したBootstrap Your Own Latent (BYOL)という新しい自己教師あり学習のアプローチは、自己教師ありモデルのトレーニングに完全に新しいアプローチを実装しています。
おすすめの記事
ベクトルデータベースの力を活用する:Pere Martraによるパーソナライズされた情報を用いた言語モデルの影響
非ユークリッド空間での機械学習:Mastafa Foufaによる
10/7から16/7までのトップコンピュータビジョン論文:Youssef Hosniによる
Data Science Accelerated:Esmaeil AlizadehによるAIアシスタントとしてのChatGPTコードインタプリタ
Towards AIでの投稿に興味がある場合は、ガイドラインをご確認いただき、サインアップしてください。編集方針と基準を満たしていれば、当社のネットワークにあなたの作品を掲載します。
求人情報
Head of Content + Developer Relations @ngrok Inc. (リモート)
Senior Backend Engineer @Remote (リモート)
Senior Infrastructure Software Engineer @ClickHouse (リモート)
Product Developer @Shiru (Alameda, CA, USA)
Senior Software Test Engineer @Clari (バンガロール, インド)
Product Engineer @Encord (ロンドン, イギリス)
求人機会をここで共有したい場合は、[email protected]までお問い合わせください。
次の機械学習の面接に備えている場合は、トップの面接準備ウェブサイトconfettiをぜひご覧ください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- PaLM-Eをご紹介します:新たな5620億パラメータの具現化された多モーダル言語モデルで、ロボットの操作計画やビジュアルQAなどのタスクを実行します
- 学習曲線の航行:AIの記憶保持との闘い
- 「事前学習済みのテキストからイメージへの拡散モデルを用いたポイントクラウドの補完」
- OpenAIがBaby Llamaを発表 – 低電力デバイス向けのLLM!
- ジョージア工科大学のこのAI論文は、より速く信頼性の高い方法で潜在的な超伝導体の新しい候補を特定するための人工知能手法を提案しています
- 「ChatGPTなどの大規模言語モデル(LLM)がファインチューニングにおいて教師あり学習ではなく強化学習を使用する理由」の5つの理由
- 「はい!OpenTelemetryはシステムのセキュリティを確保するための重要な要素です」