「言語モデルがプログラマーを置き換えることはできるのか? プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」

「美とファッションの専門家による魅力的で活気のある記事を書く、言語モデルがプログラマーの代わりをすることはできるのか? プリンストン大学とシカゴ大学の研究者がGitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワーク「SWE-bench」を紹介」

言語モデルの実世界のソフトウェアエンジニアリングの課題への適用能力を評価することは、彼らの進歩にとって重要です。SWE-bench(SWEベンチ)は、PythonリポジトリのGitHubの課題とプルリクエストを使用し、これらのモデルがコーディングタスクや問題解決にどれだけ対処できるかを評価する革新的な評価フレームワークです。調査の結果、最も高度なモデルでも簡単な課題しか対処できないことが明らかになりました。これは、実用的かつインテリジェントなソフトウェアエンジニアリングのソリューションを可能にするために、言語モデルのさらなる進歩が喫緊の課題であることを強調しています。

以前の研究では、言語モデルの評価フレームワークが導入されていますが、これらはより多目的性が必要であり、実世界のソフトウェアエンジニアリングのタスクの複雑さに対処する必要があります。特にコード生成の既存のベンチマークは、これらの課題の深さを捉える必要があります。プリンストン大学とシカゴ大学の研究者によるSWE-benchフレームワークは、パッチ生成や複雑なコンテキスト推論などの実世界のソフトウェアエンジニアリングの課題に焦点を当て、ソフトウェアエンジニアリングの機能を向上させるためのより現実的かつ総合的な評価を提供することで際立っています。これは、ソフトウェアエンジニアリングの機械学習の分野で特に関連性があります。

言語モデル(LM)は広範に商業アプリケーションで使用されているため、その能力を評価するための堅牢なベンチマークの必要性が明らかになります。既存のベンチマークは、実世界のタスクを持つ言語モデルに対してチャレンジングであるように見直す必要があります。ソフトウェアエンジニアリングのタスクは、その複雑さと単体テストによる検証性により、説得力のあるチャレンジを提供します。SWE-benchフレームワークは、GitHubの課題と解決策を活用して、ソフトウェアエンジニアリングの文脈でLMを評価するための実用的なベンチマークを作成し、実世界での適用性と継続的な更新を促進します。

彼らの研究には、GitHubからの2,294の実世界のソフトウェアエンジニアリングの問題が含まれています。LMは、関数、クラス、ファイル全体にわたって課題を解決するためにコードベースを編集します。モデルの入力には、タスクの指示、課題のテキスト、取得したファイル、例のパッチ、プロンプトが含まれます。モデルの性能は、スパースな回収とオラクル回収の2つのコンテキスト設定で評価されます。

評価結果は、Claude 2やGPT-4のような最新鋭のモデルでも、実世界のソフトウェアエンジニアリングの課題に対して解決するのが困難であり、最高のコンテキスト回収方法でも合格率は4.8%や1.7%など非常に低いことを示しています。彼らのモデルは、より長いコンテキストからの問題やコンテキストのバリエーションに対して敏感であり、短くて整形されていないパッチファイルを生成する傾向があります。これは、複雑なコード関連のタスクの処理における課題を強調しています。

言語モデルが進化するにつれて、文献では実用的で実世界のシナリオでの包括的な評価の重要性が強調されています。評価フレームワークであるSWE-benchは、ソフトウェアエンジニアリングの文脈で次世代の言語モデルの能力を評価する厳しい現実的なテストベッドとして役立ちます。評価結果は、最先端の言語モデルでも複雑なソフトウェアエンジニアリングの課題に対処する能力には限界があることを示しています。彼らの貢献は、より実用的でインテリジェントで自律性のある言語モデルの開発の必要性を強調しています。

研究者はSWE-bench評価フレームワークのさらなる向上に向けていくつかの方法を提案しています。彼らの研究では、より幅広い範囲のソフトウェアエンジニアリングの問題を含むベンチマークの拡大が示唆されています。高度な回収技術やマルチモーダルラーニングアプローチの探索は、言語モデルのパフォーマンスを向上させることができます。複雑なコード変更の理解の制約や整形されたパッチファイルの生成の改善に対応することは、将来の探究の重要な領域として強調されています。これらのステップは、現実のソフトウェアエンジニアリングシナリオにおける言語モデルのより包括的かつ効果的な評価フレームワークを作成することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ソニーの研究者がBigVSANを提案:GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化

ニューラルネットワークの発展とそれに伴う人気の増加により、音声合成技術の大幅な改善がもたらされました。音声合成システ...

AIニュース

ChatGPTは現在、話された言葉で応答することができます

オープンAIの最新バージョンのChatGPTチャットボットは、ユーザーと音声で対話するだけでなく、画像にも応答することができます

人工知能

NVIDIAがFlexiCubesを導入:フォトグラメトリーや生成AIなどのニューラルワークフローから高品質のメッシュを生成するための新しいアプローチ

人工知能(AI)は、次世代のAIパイプラインの登場により、驚くべき成功を収めながら、複雑で高精度な3Dモデルの作成の可能性...

機械学習

このAI論文では、新しい個別化留留過程を紹介していますクローズドソース相手からの適応的な学習により、オープンソースLLMsの強化を行います

シンガポールの南洋理工大学とセールスフォース・リサーチの研究者らは、学生モデルの初期の課題解決の試みと教師モデルによ...

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...

機械学習

「時を歩く:SceNeRFlowは時間的一貫性を持つNeRFを生成するAIメソッドです」

ニューラル レディアンス フィールド(NeRF)は、最近3D領域で革新的なコンセプトとして浮上しました。それは、3Dオブジェク...