このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

『Amazon最新の機械学習に関するAI論文で明らかにされたバグコードの大規模言語モデル』

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル（Code-LLMs）はコード補完に役立つために開発されていますが、コードの文脈に潜んでいるバグを見落とすことがあります。この問題に対応するために、ウィスコンシン大学マディソン校とAmazon Web Servicesの研究者が、コード生成中に潜在的なバグを検出するためのLLMsの性能向上についての研究を行いました。

コード-LLMsを活用した自動プログラム修正の研究は、プログラミングのバグの特定と修正の負担を軽減することを目指しています。他のドメインの敵対的な例と同様に、意味を保持したままの小さなコード変換は、コード学習モデルの性能を低下させることがあります。CodeXGLUE、CodeNet、HumanEvalなどの既存のベンチマークは、コード補完とプログラム修復の研究に重要な役割を果たしています。データの利用可能性を高めるために、バグを生成するためのコードミュータントやバグを作成する方法などが開発されています。

統合開発環境における重要な機能であるコード補完は、コードをベースとするTransformerベースの言語モデルの進化とともに進化してきました。しかし、これらのモデルはソフトウェア開発でよく起こるバグの存在を見落とすことが多いです。この研究では、コードの文脈に潜在的なバグが存在するバギーコード補完（bCC）の概念を紹介し、そのようなシナリオでのCode-LLMsの振る舞いを探求しています。バグを含んだデータセットであるバギーHumanEvalとバギーFixEvalを導入し、合成的なバグと現実的なバグの存在下でCode-LLMsの評価を行い、著しい性能低下が明らかになりました。この問題に対処するために、ポストミティゲーション手法が探求されています。

提案されたミティゲーション手法には、バギーフラグメントを削除する「削除して補完」、補完後にバグを修正する「補完して書き直す」、補完前にコード行を書き直してバグを解決する「書き直して補完する」などがあります。合格率によって測定されるパフォーマンスは、補完して書き直すと書き直して補完するが有利です。これらの手法では、RealiTやINCODER-6BのようなCode-LLMsがコードフィクサーとして機能します。

潜在的なバグの存在は、Code-LLMsの生成パフォーマンスを著しく低下させます。1つのバグにつき合格率が50％以上減少します。バグの場所の知識を持つヒューリスティックオラクルは、バギーHumanEvalとバギーFixEvalの間に顕著なパフォーマンスギャップを示し、バグの位置の重要性を強調しています。尤度ベースの手法は、2つのデータセットで異なるパフォーマンスを示し、バグの性質が集約方法の選択に影響を与えることを示しています。バグの存在下でのパフォーマンス改善を提案する削除して補完や書き直して補完などのポストミティゲーション手法もありますが、まだギャップが存在し、潜在的なバグとのコード補完の改善についてのさらなる研究の必要性を示しています。

この研究では、以下の要点でまとめることができます：

この研究では、bCCと呼ばれる新しいタスクが紹介されています。
bCCは、潜在的なバグが存在するコードの文脈から機能的な実装を生成します。
この研究は、バギーHumanEvalとバギーFixEvalという2つのデータセットで評価されています。
Code-LLMsのパフォーマンスは著しく低下し、テストケースの合格率が5％以下になります。
削除して補完、書き直して補完などのポストミティゲーション手法が提案されていますが、まだパフォーマンスのギャップが存在します。
この研究は、bCCにおけるCode-LLMsの理解を向上させるものです。
この研究は、潜在的なバグの存在下でコード補完を改善する方法を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceDeep learningEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

Was this article helpful?

カールスルーエ工科大学（KIT）の研究者たちは、深層学習を用いた降水マッピングに取り組み、空間および時間の分解能向上に向けて進化させました

２０２４年に探索するべきトップ１２の生成 AI モデル

機械学習

NVIDIAは、AIプロセッサの供給において日本を優先しています

「ChatGPTは人間の創造性テストでトップ1%のスコアを獲得」

「データの血統と現代データ管理におけるその重要性」

赤い猫&アテナAIは夜間視認能力を備えた知能化軍用ドローンを製造する

「GATE DA 2024のサンプル問題集」

リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか