イリノイ大学の研究者は、コードのための完全なオープンソース大規模言語モデル(LLM)のシリーズであるマジコーダを紹介しました

イリノイ大学研究者が、マジコーダという完全なオープンソースの大規模言語モデル(LLM)シリーズの開発を紹介

イリノイ大学アーバナ・シャンペーン校と清華大学の研究者チームは、オープンソースのコードスニペットからの低バイアスと高品質なコーディングチャレンジの生成の課題に取り組むために、Magicoderを導入しました。Magicoderは、Pythonテキストからコードを生成する、多言語のコーディング、データサイエンスプログラムの言語モデルを含むさまざまなコーディングベンチマークで、既存のLLMよりも優れたパフォーマンスを発揮します。

CodeGen、CodeT5、StarCoder、CODELLAMAなどのような主要なベースモデルは、LLMのコード生成と理解の基本的な能力を確立しています。事前学習されたLLMを改善するためには、自己指導とEvol-Instructのような手法を使った指示の調整が提案されており、HumanEval、MBPP、APPS、およびCodeContestsなどの既存のコードベンチマークは、自然言語の説明から単一機能プログラムを開発する際のLLMの評価に利用されます。

Magicoderは、コードのための完全なオープンソースのLLMシリーズであり、OSS-INSTRUCTを使用して75,000件の合成指示データでトレーニングされています。これは、GitHubのシードコードスニペットから多様性と現実世界の関連性を確保しながら、LLMにコーディングの問題と解決策を引き起こすように促します。評価には、HumanEvalとMBPPのようなベンチマークが使用され、pass1メトリックに焦点が当てられます。INSTRUCTORは、埋め込みの類似性に基づいてOSS-INSTRUCT生成データを分類するために使用されます。データのクリーニング技術、含められているのは浄化とプロンプトのフィルタリングなどがあり、堅牢性が向上しています。

Magicoderは、最大でも70億を超える控えめなパラメータサイズで、優れたパフォーマンスを示しています。OSS-INSTRUCTを使用して75,000件の合成指示データをトレーニングしたMagicoderは、Pythonテキストからコードを生成する、多言語のコーディング、データサイエンスプログラムの言語モデリングなど、先進的なコードモデルよりも優れたパフォーマンスを発揮します。拡張版のMagicoderSは、コード生成性能をさらに向上させ、さまざまなベンチマークで同じまたはより大きなサイズの他のモデルを上回ります。MagicoderS-CL-7Bは、コードモデルの中で最先端の結果を同時に達成し、堅牢で優れたコード生成能力を示します。

まとめると、この研究では、オープンソースのコードスニペットからコーディングチャレンジを生成するためにLLMを利用する効果的な手法であるOSS-INSTRUCTの有用性が強調されています。OSS-INSTRUCTを使用して訓練されたMagicoderは、大きなパラメータを持つ他のLLMよりもさまざまなコーディングベンチマークで優れたパフォーマンスを発揮します。また、Evol-Instructと組み合わせると、ChatGPTのような先進的なモデルと同様に、HumanEvalベンチマークで印象的なパフォーマンスを発揮するMagicoderSモデルを向上させます。この研究では、将来のLLMに関する研究や、OSS-INSTRUCTを拡大してより高品質なデータを生成するために、モデルの重み、トレーニングデータ、およびソースコードをオープンソース化することを推奨しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「6つの人工知能の神話を解明:事実とフィクションの分離」

「人気のあるAIの神話の真実を見つけ出し、今日の世界における生成型AIの本当の能力と影響に深く没頭してください」

データサイエンス

「データプライバシーとその経営への影響」

「データ管理がプライバシー法と統合され、ビジネスイノベーションを推進する一方で、消費者の権利を保護する方法を探求する」

AI研究

Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました

セマンティックセグメンテーションとして知られるコンピュータビジョンのタスクの目的は、画像内の各ピクセルにクラスまたは...

AIニュース

「Nvidiaの画期的なAIイメージパーソナライゼーション:灌流法」

AIアート作成の絶えず進化する世界において、NvidiaはPerfusionと呼ばれる革命的なテキストから画像への個人化手法を発表しま...

AI研究

「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸...

機械学習

「Lineが『japanese-large-lm』をオープンソース化:36億パラメータを持つ日本語言語モデル」

2020年11月以来、LINEは日本語に特化した先進的な大規模言語モデルの研究開発に取り組んできました。この旅の重要なマイルス...