このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

『Amazon最新の機械学習に関するAI論文で明らかにされたバグコードの大規模言語モデル』

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル(Code-LLMs)はコード補完に役立つために開発されていますが、コードの文脈に潜んでいるバグを見落とすことがあります。この問題に対応するために、ウィスコンシン大学マディソン校とAmazon Web Servicesの研究者が、コード生成中に潜在的なバグを検出するためのLLMsの性能向上についての研究を行いました。

コード-LLMsを活用した自動プログラム修正の研究は、プログラミングのバグの特定と修正の負担を軽減することを目指しています。他のドメインの敵対的な例と同様に、意味を保持したままの小さなコード変換は、コード学習モデルの性能を低下させることがあります。CodeXGLUE、CodeNet、HumanEvalなどの既存のベンチマークは、コード補完とプログラム修復の研究に重要な役割を果たしています。データの利用可能性を高めるために、バグを生成するためのコードミュータントやバグを作成する方法などが開発されています。

統合開発環境における重要な機能であるコード補完は、コードをベースとするTransformerベースの言語モデルの進化とともに進化してきました。しかし、これらのモデルはソフトウェア開発でよく起こるバグの存在を見落とすことが多いです。この研究では、コードの文脈に潜在的なバグが存在するバギーコード補完(bCC)の概念を紹介し、そのようなシナリオでのCode-LLMsの振る舞いを探求しています。バグを含んだデータセットであるバギーHumanEvalとバギーFixEvalを導入し、合成的なバグと現実的なバグの存在下でCode-LLMsの評価を行い、著しい性能低下が明らかになりました。この問題に対処するために、ポストミティゲーション手法が探求されています。

提案されたミティゲーション手法には、バギーフラグメントを削除する「削除して補完」、補完後にバグを修正する「補完して書き直す」、補完前にコード行を書き直してバグを解決する「書き直して補完する」などがあります。合格率によって測定されるパフォーマンスは、補完して書き直すと書き直して補完するが有利です。これらの手法では、RealiTやINCODER-6BのようなCode-LLMsがコードフィクサーとして機能します。

潜在的なバグの存在は、Code-LLMsの生成パフォーマンスを著しく低下させます。1つのバグにつき合格率が50%以上減少します。バグの場所の知識を持つヒューリスティックオラクルは、バギーHumanEvalとバギーFixEvalの間に顕著なパフォーマンスギャップを示し、バグの位置の重要性を強調しています。尤度ベースの手法は、2つのデータセットで異なるパフォーマンスを示し、バグの性質が集約方法の選択に影響を与えることを示しています。バグの存在下でのパフォーマンス改善を提案する削除して補完や書き直して補完などのポストミティゲーション手法もありますが、まだギャップが存在し、潜在的なバグとのコード補完の改善についてのさらなる研究の必要性を示しています。

この研究では、以下の要点でまとめることができます:

  • この研究では、bCCと呼ばれる新しいタスクが紹介されています。
  • bCCは、潜在的なバグが存在するコードの文脈から機能的な実装を生成します。
  • この研究は、バギーHumanEvalとバギーFixEvalという2つのデータセットで評価されています。
  • Code-LLMsのパフォーマンスは著しく低下し、テストケースの合格率が5%以下になります。
  • 削除して補完、書き直して補完などのポストミティゲーション手法が提案されていますが、まだパフォーマンスのギャップが存在します。
  • この研究は、bCCにおけるCode-LLMsの理解を向上させるものです。
  • この研究は、潜在的なバグの存在下でコード補完を改善する方法を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Rows AI:エクセルスプレッドシートの終焉か?

Rows AIは、非常に複雑なデータ分析のための信じられないほどのスプレッドシートを数分で構築することができます

機械学習

コンテンツクリエーターに必要不可欠なChatGPTプラグイン

「CodeGenius、StoryWeaver、およびFactFinderなどの必須のChatGPTプラグインを見つけて、コンテンツ作成プロセスを向上させ...

データサイエンス

「LLMsが幻覚を見るのを止めることはできますか?」

ほぼすべての人々の注目を集めている大規模言語モデル(LLM)ですが、このような技術の広範な展開は、それに関連するやや厄介...

機械学習

「Appleが『AppleGPT』チャットボットを使った生成AI競争に参入」

テック大手のAppleは、大いに期待されているAI搭載チャットボット「AppleGPT」という仮の名前で進んでいます。この革新的なプ...

人工知能

「ChatGPTの使い方:高度なプロンプトエンジニアリングの方法」

「ChatGPTからより良い結果を得たい場合は、より良いChatGPTプロンプトの書き方を学ぶ必要があります以下には7つの実行可能な...