「言語モデルがプログラマーを置き換えることはできるのか？プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」

「美とファッションの専門家による魅力的で活気のある記事を書く、言語モデルがプログラマーの代わりをすることはできるのか？プリンストン大学とシカゴ大学の研究者がGitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワーク「SWE-bench」を紹介」

言語モデルの実世界のソフトウェアエンジニアリングの課題への適用能力を評価することは、彼らの進歩にとって重要です。SWE-bench（SWEベンチ）は、PythonリポジトリのGitHubの課題とプルリクエストを使用し、これらのモデルがコーディングタスクや問題解決にどれだけ対処できるかを評価する革新的な評価フレームワークです。調査の結果、最も高度なモデルでも簡単な課題しか対処できないことが明らかになりました。これは、実用的かつインテリジェントなソフトウェアエンジニアリングのソリューションを可能にするために、言語モデルのさらなる進歩が喫緊の課題であることを強調しています。

以前の研究では、言語モデルの評価フレームワークが導入されていますが、これらはより多目的性が必要であり、実世界のソフトウェアエンジニアリングのタスクの複雑さに対処する必要があります。特にコード生成の既存のベンチマークは、これらの課題の深さを捉える必要があります。プリンストン大学とシカゴ大学の研究者によるSWE-benchフレームワークは、パッチ生成や複雑なコンテキスト推論などの実世界のソフトウェアエンジニアリングの課題に焦点を当て、ソフトウェアエンジニアリングの機能を向上させるためのより現実的かつ総合的な評価を提供することで際立っています。これは、ソフトウェアエンジニアリングの機械学習の分野で特に関連性があります。

言語モデル（LM）は広範に商業アプリケーションで使用されているため、その能力を評価するための堅牢なベンチマークの必要性が明らかになります。既存のベンチマークは、実世界のタスクを持つ言語モデルに対してチャレンジングであるように見直す必要があります。ソフトウェアエンジニアリングのタスクは、その複雑さと単体テストによる検証性により、説得力のあるチャレンジを提供します。SWE-benchフレームワークは、GitHubの課題と解決策を活用して、ソフトウェアエンジニアリングの文脈でLMを評価するための実用的なベンチマークを作成し、実世界での適用性と継続的な更新を促進します。

彼らの研究には、GitHubからの2,294の実世界のソフトウェアエンジニアリングの問題が含まれています。LMは、関数、クラス、ファイル全体にわたって課題を解決するためにコードベースを編集します。モデルの入力には、タスクの指示、課題のテキスト、取得したファイル、例のパッチ、プロンプトが含まれます。モデルの性能は、スパースな回収とオラクル回収の2つのコンテキスト設定で評価されます。

評価結果は、Claude 2やGPT-4のような最新鋭のモデルでも、実世界のソフトウェアエンジニアリングの課題に対して解決するのが困難であり、最高のコンテキスト回収方法でも合格率は4.8％や1.7％など非常に低いことを示しています。彼らのモデルは、より長いコンテキストからの問題やコンテキストのバリエーションに対して敏感であり、短くて整形されていないパッチファイルを生成する傾向があります。これは、複雑なコード関連のタスクの処理における課題を強調しています。

言語モデルが進化するにつれて、文献では実用的で実世界のシナリオでの包括的な評価の重要性が強調されています。評価フレームワークであるSWE-benchは、ソフトウェアエンジニアリングの文脈で次世代の言語モデルの能力を評価する厳しい現実的なテストベッドとして役立ちます。評価結果は、最先端の言語モデルでも複雑なソフトウェアエンジニアリングの課題に対処する能力には限界があることを示しています。彼らの貢献は、より実用的でインテリジェントで自律性のある言語モデルの開発の必要性を強調しています。

研究者はSWE-bench評価フレームワークのさらなる向上に向けていくつかの方法を提案しています。彼らの研究では、より幅広い範囲のソフトウェアエンジニアリングの問題を含むベンチマークの拡大が示唆されています。高度な回収技術やマルチモーダルラーニングアプローチの探索は、言語モデルのパフォーマンスを向上させることができます。複雑なコード変更の理解の制約や整形されたパッチファイルの生成の改善に対応することは、将来の探究の重要な領域として強調されています。これらのステップは、現実のソフトウェアエンジニアリングシナリオにおける言語モデルのより包括的かつ効果的な評価フレームワークを作成することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickMachine learningStaff

Was this article helpful?

93 out of 132 found this helpful

「言語モデルがプログラマーを置き換えることはできるのか？プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」

Was this article helpful?

「Decafと出会う：顔と手のインタラクションのための革新的な人工知能単眼変形キャプチャフレームワーク」

NVIDIA AIがSteerLMを発表：大規模言語モデル（LLMs）の推論中にユーザーが応答をカスタマイズできる新たな人工知能（AI）メソッド

AI研究

Amazon SageMakerを使用して電子メールのスパム検出器を構築する

「Transformerモデルの実践的な導入 BERT」

AIは発明できるのか？

機械学習プロジェクトのロードマップの設計方法

「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

「マルチタスクアーキテクチャ：包括的なガイド」

「言語モデルがプログラマーを置き換えることはできるのか？ プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」

Was this article helpful?

「言語モデルがプログラマーを置き換えることはできるのか？プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」