このAI論文は、オープンソースライブラリの既存の機能を最大限に活用するために開発された新しい人工知能アプローチ、ML-BENCHを提案しています

「既存のオープンソースライブラリの機能を最大限に活用する新しいアプローチ、ML-BENCHを提案するAI論文」

LLMモデルは、さまざまなプログラミング関連の活動を実行できる強力な言語エージェントとして、ますます展開されています。これらの驚異的な進展にもかかわらず、静的な実験環境でこれらのモデルが示した能力と、実際のプログラミングシナリオの絶えず変化する要求との間には、相当な隔たりがあります。

標準のコード生成ベンチマークは、LLMがゼロから新しいコードを生成する能力をテストします。しかし、プログラミングの慣行は滅多にすべてのコードコンポーネントをゼロから生成する必要はありません。

実世界のアプリケーションのコードを書く際には、既存の公開されているライブラリを使用することが一般的な慣習です。これらの開発済みライブラリは、さまざまな課題に対する堅牢で実践済みの回答を提供します。そのため、コードLLMの成功は、機能の生成だけでなく、正しいパラメータの使用方法でオープンソースライブラリから派生したコードの実行能力など、さまざまな方法で評価されるべきです。

イェール大学、南京大学、北京大学の新しい研究では、ML-BENCHという現実的で包括的なベンチマークデータセットを提案しています。このデータセットは、LLMの利用者の指示を理解し、GitHubのリポジトリをナビゲートし、実行可能なコードを生成する能力を評価するものです。ML-BENCHは、指示の要件を満たす高品質で指示可能な正解コードを提供しています。ML-BENCHは、130のタスクと14の人気のある機械学習のGitHubリポジトリからなる9,444の例を含んでいます。

研究者たちは、Pass@kとParameter Hit Precisionを調査の指標として使用しています。これらのツールを使用して、彼らはGPT-3.5-16k、GPT-4-32k、Claude 2、およびCodeLlamaがML-BENCH環境での能力を探求します。ML-BENCHはLLMのための新しいテストを提案しています。経験的な結果は、GPTモデルとClaude 2がCodeLlamaを大きく上回っていることを示しています。GPT-4は他のLLMよりも明らかに性能が向上していますが、実験でのタスクのうち39.73%しか完了していません。他のよく知られたLLMは幻覚を経験し、期待通りの成果を上げていません。調査の結果からは、LLMはコードの記述だけでなく、長いドキュメンテーションの理解も必要としていることが示唆されています。その主要な技術的貢献は、彼らのエラー分析を通じて発見された不足点に対処するために設計された自律型の言語エージェントであるML-AGENTの提案です。これらのエージェントは、人間の言語と指示を理解し、効率的なコードを生成し、困難なタスクを遂行する能力を持っています。

ML-BenchとML-Agentは、自動化された機械学習プロセスの最先端の進歩を表しています。研究者たちは、この成果が他の研究者や実務家にも興味を持ってもらえることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

APIワールド2023:API、AI、および秘密のセキュリティを結集する

「API World 2023は、ベストプラクティスの洞察を共有し、すべての資産を考慮すること、そしてAPI駆動型の世界におけるAIとAP...

データサイエンス

生成AI:シームレスなデータ転送のための倫理的かつ創造的なイノベーション

この記事は、データエンリッチメントにおける生成AIの変革的な影響について掘り下げ、より正確な洞察と意思決定を促進します

機械学習

マルチモーダル医療AI

Google ResearchのHealth AI部門の責任者であるGreg Corradoと、Engineering and ResearchのVPであるYossi Matiasによって投...

機械学習

最速の道 AIを使用して手術室でがん細胞を分析するヘルスケアスタートアップ

医療機器会社のInvenio Imagingは、手術室で組織生検を評価することができる技術を開発しており、サンプル採取後すぐに、病理...

AI研究

「UCSCとTU Munichの研究者が、余震を予測するための新しいディープラーニングベースのモデルであるRECASTを提案する」

人工知能はほぼすべての可能な分野に進出しています。この領域では広範な研究が行われています。私たちはまだまだ発見すべき...

機械学習

「メタのMusicGenを使用してColabで音楽を生成する」

「ColabでMusicGenをセットアップする方法を学びましょうこの先進のテキストから音楽へ変換するモデルは、人工知能アルゴリズ...