「言語モデルがプログラマーを置き換えることはできるのか? プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」

「美とファッションの専門家による魅力的で活気のある記事を書く、言語モデルがプログラマーの代わりをすることはできるのか? プリンストン大学とシカゴ大学の研究者がGitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワーク「SWE-bench」を紹介」

言語モデルの実世界のソフトウェアエンジニアリングの課題への適用能力を評価することは、彼らの進歩にとって重要です。SWE-bench(SWEベンチ)は、PythonリポジトリのGitHubの課題とプルリクエストを使用し、これらのモデルがコーディングタスクや問題解決にどれだけ対処できるかを評価する革新的な評価フレームワークです。調査の結果、最も高度なモデルでも簡単な課題しか対処できないことが明らかになりました。これは、実用的かつインテリジェントなソフトウェアエンジニアリングのソリューションを可能にするために、言語モデルのさらなる進歩が喫緊の課題であることを強調しています。

以前の研究では、言語モデルの評価フレームワークが導入されていますが、これらはより多目的性が必要であり、実世界のソフトウェアエンジニアリングのタスクの複雑さに対処する必要があります。特にコード生成の既存のベンチマークは、これらの課題の深さを捉える必要があります。プリンストン大学とシカゴ大学の研究者によるSWE-benchフレームワークは、パッチ生成や複雑なコンテキスト推論などの実世界のソフトウェアエンジニアリングの課題に焦点を当て、ソフトウェアエンジニアリングの機能を向上させるためのより現実的かつ総合的な評価を提供することで際立っています。これは、ソフトウェアエンジニアリングの機械学習の分野で特に関連性があります。

言語モデル(LM)は広範に商業アプリケーションで使用されているため、その能力を評価するための堅牢なベンチマークの必要性が明らかになります。既存のベンチマークは、実世界のタスクを持つ言語モデルに対してチャレンジングであるように見直す必要があります。ソフトウェアエンジニアリングのタスクは、その複雑さと単体テストによる検証性により、説得力のあるチャレンジを提供します。SWE-benchフレームワークは、GitHubの課題と解決策を活用して、ソフトウェアエンジニアリングの文脈でLMを評価するための実用的なベンチマークを作成し、実世界での適用性と継続的な更新を促進します。

彼らの研究には、GitHubからの2,294の実世界のソフトウェアエンジニアリングの問題が含まれています。LMは、関数、クラス、ファイル全体にわたって課題を解決するためにコードベースを編集します。モデルの入力には、タスクの指示、課題のテキスト、取得したファイル、例のパッチ、プロンプトが含まれます。モデルの性能は、スパースな回収とオラクル回収の2つのコンテキスト設定で評価されます。

評価結果は、Claude 2やGPT-4のような最新鋭のモデルでも、実世界のソフトウェアエンジニアリングの課題に対して解決するのが困難であり、最高のコンテキスト回収方法でも合格率は4.8%や1.7%など非常に低いことを示しています。彼らのモデルは、より長いコンテキストからの問題やコンテキストのバリエーションに対して敏感であり、短くて整形されていないパッチファイルを生成する傾向があります。これは、複雑なコード関連のタスクの処理における課題を強調しています。

言語モデルが進化するにつれて、文献では実用的で実世界のシナリオでの包括的な評価の重要性が強調されています。評価フレームワークであるSWE-benchは、ソフトウェアエンジニアリングの文脈で次世代の言語モデルの能力を評価する厳しい現実的なテストベッドとして役立ちます。評価結果は、最先端の言語モデルでも複雑なソフトウェアエンジニアリングの課題に対処する能力には限界があることを示しています。彼らの貢献は、より実用的でインテリジェントで自律性のある言語モデルの開発の必要性を強調しています。

研究者はSWE-bench評価フレームワークのさらなる向上に向けていくつかの方法を提案しています。彼らの研究では、より幅広い範囲のソフトウェアエンジニアリングの問題を含むベンチマークの拡大が示唆されています。高度な回収技術やマルチモーダルラーニングアプローチの探索は、言語モデルのパフォーマンスを向上させることができます。複雑なコード変更の理解の制約や整形されたパッチファイルの生成の改善に対応することは、将来の探究の重要な領域として強調されています。これらのステップは、現実のソフトウェアエンジニアリングシナリオにおける言語モデルのより包括的かつ効果的な評価フレームワークを作成することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「チャンドラヤーン3の着陸:AIとセンサーがISROの壮大な月探査を支援」

宇宙探査の魅惑的な広がりの中で、すべてのミッションは未知へのサイコロのような賭けです。インドの国立宇宙機関であるイン...

機械学習

新しい - Amazon SageMaker Canvasで利用可能なノーコード生成AI機能が追加されました

2021年に発売されたAmazon SageMaker Canvasは、ビジネスアナリストや市民データサイエンティストが使いやすいビジュアルなポ...

データサイエンス

新しいAI研究がAttrPromptを紹介します:ゼロショット学習における新しいパラダイムのためのLLM-as-Training-Data-Generator

大規模な言語モデル(LLM)のパフォーマンスは、多くの自然言語処理(NLP)アプリケーションで印象的でした。最近の研究では...

データサイエンス

「OpenAIが企業向けAIの扉を開放」

「ビジネスの自動化、カスタマイズ、コンプライアンスにおいて、OpenAIのエンタープライズソリューションを活用してください...

AIニュース

Amazonの後、アメリカの製造業を加速させる野心

ジェフ・ウィルク氏は、Amazonの世界的な消費者ビジネスの元CEOであり、LGOプレイブックを彼の新しい使命である米国の製造業...

機械学習

人間の理解と機械学習のギャップを埋める:説明可能なAIを解決策として

この記事は、説明可能なAI(XAI)の重要性、解釈可能なAIモデルを構築する上での課題、および企業がXAIモデルを構築するため...