このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

『Amazon最新の機械学習に関するAI論文で明らかにされたバグコードの大規模言語モデル』

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル(Code-LLMs)はコード補完に役立つために開発されていますが、コードの文脈に潜んでいるバグを見落とすことがあります。この問題に対応するために、ウィスコンシン大学マディソン校とAmazon Web Servicesの研究者が、コード生成中に潜在的なバグを検出するためのLLMsの性能向上についての研究を行いました。

コード-LLMsを活用した自動プログラム修正の研究は、プログラミングのバグの特定と修正の負担を軽減することを目指しています。他のドメインの敵対的な例と同様に、意味を保持したままの小さなコード変換は、コード学習モデルの性能を低下させることがあります。CodeXGLUE、CodeNet、HumanEvalなどの既存のベンチマークは、コード補完とプログラム修復の研究に重要な役割を果たしています。データの利用可能性を高めるために、バグを生成するためのコードミュータントやバグを作成する方法などが開発されています。

統合開発環境における重要な機能であるコード補完は、コードをベースとするTransformerベースの言語モデルの進化とともに進化してきました。しかし、これらのモデルはソフトウェア開発でよく起こるバグの存在を見落とすことが多いです。この研究では、コードの文脈に潜在的なバグが存在するバギーコード補完(bCC)の概念を紹介し、そのようなシナリオでのCode-LLMsの振る舞いを探求しています。バグを含んだデータセットであるバギーHumanEvalとバギーFixEvalを導入し、合成的なバグと現実的なバグの存在下でCode-LLMsの評価を行い、著しい性能低下が明らかになりました。この問題に対処するために、ポストミティゲーション手法が探求されています。

提案されたミティゲーション手法には、バギーフラグメントを削除する「削除して補完」、補完後にバグを修正する「補完して書き直す」、補完前にコード行を書き直してバグを解決する「書き直して補完する」などがあります。合格率によって測定されるパフォーマンスは、補完して書き直すと書き直して補完するが有利です。これらの手法では、RealiTやINCODER-6BのようなCode-LLMsがコードフィクサーとして機能します。

潜在的なバグの存在は、Code-LLMsの生成パフォーマンスを著しく低下させます。1つのバグにつき合格率が50%以上減少します。バグの場所の知識を持つヒューリスティックオラクルは、バギーHumanEvalとバギーFixEvalの間に顕著なパフォーマンスギャップを示し、バグの位置の重要性を強調しています。尤度ベースの手法は、2つのデータセットで異なるパフォーマンスを示し、バグの性質が集約方法の選択に影響を与えることを示しています。バグの存在下でのパフォーマンス改善を提案する削除して補完や書き直して補完などのポストミティゲーション手法もありますが、まだギャップが存在し、潜在的なバグとのコード補完の改善についてのさらなる研究の必要性を示しています。

この研究では、以下の要点でまとめることができます:

  • この研究では、bCCと呼ばれる新しいタスクが紹介されています。
  • bCCは、潜在的なバグが存在するコードの文脈から機能的な実装を生成します。
  • この研究は、バギーHumanEvalとバギーFixEvalという2つのデータセットで評価されています。
  • Code-LLMsのパフォーマンスは著しく低下し、テストケースの合格率が5%以下になります。
  • 削除して補完、書き直して補完などのポストミティゲーション手法が提案されていますが、まだパフォーマンスのギャップが存在します。
  • この研究は、bCCにおけるCode-LLMsの理解を向上させるものです。
  • この研究は、潜在的なバグの存在下でコード補完を改善する方法を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復...

人工知能

中間旅程のタトゥープロンプト

次のタトゥーのインスピレーションを探している場合は、Midjourneyを使用してみてください

データサイエンス

「CassIO OpenAIに触発されたジェネラティブAIのための最高のライブラリ」

ChatGPTは直感的で使いやすいライブラリを備えているため、開発者のエクスペリエンスを変革しましたそのため、あなたの開発ニ...

機械学習

AI導入の迷宮を進む

「過去5年間、複数の企業と協力し、彼らがAIソリューションを展開するのを支援してきましたその過程で、いくつかの共通のパタ...

人工知能

ノイズ除去オートエンコーダの公開

はじめに デノイジングオートエンコーダーは、ノイズの混入したデータまたはノイズのあるデータから元のデータを再構築するこ...

データサイエンス

オラクルと一緒にXRを開発しよう、エピソード6 AIサマライザー+ジェネレーター

このチュートリアルでは、ユーザーの周囲からのさまざまな入力を使用し、それをAIで処理し、要約/生成AIを返すミックスドリア...