このAI論文は、オープンソースライブラリの既存の機能を最大限に活用するために開発された新しい人工知能アプローチ、ML-BENCHを提案しています

「既存のオープンソースライブラリの機能を最大限に活用する新しいアプローチ、ML-BENCHを提案するAI論文」

LLMモデルは、さまざまなプログラミング関連の活動を実行できる強力な言語エージェントとして、ますます展開されています。これらの驚異的な進展にもかかわらず、静的な実験環境でこれらのモデルが示した能力と、実際のプログラミングシナリオの絶えず変化する要求との間には、相当な隔たりがあります。

標準のコード生成ベンチマークは、LLMがゼロから新しいコードを生成する能力をテストします。しかし、プログラミングの慣行は滅多にすべてのコードコンポーネントをゼロから生成する必要はありません。

実世界のアプリケーションのコードを書く際には、既存の公開されているライブラリを使用することが一般的な慣習です。これらの開発済みライブラリは、さまざまな課題に対する堅牢で実践済みの回答を提供します。そのため、コードLLMの成功は、機能の生成だけでなく、正しいパラメータの使用方法でオープンソースライブラリから派生したコードの実行能力など、さまざまな方法で評価されるべきです。

イェール大学、南京大学、北京大学の新しい研究では、ML-BENCHという現実的で包括的なベンチマークデータセットを提案しています。このデータセットは、LLMの利用者の指示を理解し、GitHubのリポジトリをナビゲートし、実行可能なコードを生成する能力を評価するものです。ML-BENCHは、指示の要件を満たす高品質で指示可能な正解コードを提供しています。ML-BENCHは、130のタスクと14の人気のある機械学習のGitHubリポジトリからなる9,444の例を含んでいます。

研究者たちは、Pass@kとParameter Hit Precisionを調査の指標として使用しています。これらのツールを使用して、彼らはGPT-3.5-16k、GPT-4-32k、Claude 2、およびCodeLlamaがML-BENCH環境での能力を探求します。ML-BENCHはLLMのための新しいテストを提案しています。経験的な結果は、GPTモデルとClaude 2がCodeLlamaを大きく上回っていることを示しています。GPT-4は他のLLMよりも明らかに性能が向上していますが、実験でのタスクのうち39.73%しか完了していません。他のよく知られたLLMは幻覚を経験し、期待通りの成果を上げていません。調査の結果からは、LLMはコードの記述だけでなく、長いドキュメンテーションの理解も必要としていることが示唆されています。その主要な技術的貢献は、彼らのエラー分析を通じて発見された不足点に対処するために設計された自律型の言語エージェントであるML-AGENTの提案です。これらのエージェントは、人間の言語と指示を理解し、効率的なコードを生成し、困難なタスクを遂行する能力を持っています。

ML-BenchとML-Agentは、自動化された機械学習プロセスの最先端の進歩を表しています。研究者たちは、この成果が他の研究者や実務家にも興味を持ってもらえることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AutoGenを使った戦略的AIチームビルディングが簡単になりました」

イントロダクション デジタルフロンティアが無限の領域に達し、AutoGenは変革的なパラダイムの設計者として現れます。異なる...

データサイエンス

「ディープラーニングの謎を解明する:CIFAR-10データセットを用いたCNNアーキテクチャの秘密の解明」

「人工知能の絶えず進化する世界において、畳み込みニューラルネットワーク(CNN)は革命的なテクノロジーとして登場し、コン...

データサイエンス

「力強いコネクティビティ:IoTにおけるエッジコンピューティングの復興」

エッジコンピューティングとIoTがリアルタイムの効率化、帯域幅の最適化、およびイノベーションのために結集します課題はまだ...

機械学習

「オーディオ機械学習入門」

「現在、音声音声認識システムを開発しているため、それに関する基礎知識を再確認する必要がありましたこの記事はその結果で...

データサイエンス

「機械学習におけるデータの重要性:AI革命の推進力」

マシンラーニングの進歩やAI革命を促進する上でデータの重要な役割を探求し、その意義を明らかにします

人工知能

LLM SaaSのためのFastAPIテンプレート パート1 — Authとファイルのアップロード

最近、FastAPIはPythonバックエンド開発者コミュニティで注目を集めていますそのシンプルさ、非同期性、ネイティブのSwagger ...