このAI論文は、オープンソースライブラリの既存の機能を最大限に活用するために開発された新しい人工知能アプローチ、ML-BENCHを提案しています

「既存のオープンソースライブラリの機能を最大限に活用する新しいアプローチ、ML-BENCHを提案するAI論文」

LLMモデルは、さまざまなプログラミング関連の活動を実行できる強力な言語エージェントとして、ますます展開されています。これらの驚異的な進展にもかかわらず、静的な実験環境でこれらのモデルが示した能力と、実際のプログラミングシナリオの絶えず変化する要求との間には、相当な隔たりがあります。

標準のコード生成ベンチマークは、LLMがゼロから新しいコードを生成する能力をテストします。しかし、プログラミングの慣行は滅多にすべてのコードコンポーネントをゼロから生成する必要はありません。

実世界のアプリケーションのコードを書く際には、既存の公開されているライブラリを使用することが一般的な慣習です。これらの開発済みライブラリは、さまざまな課題に対する堅牢で実践済みの回答を提供します。そのため、コードLLMの成功は、機能の生成だけでなく、正しいパラメータの使用方法でオープンソースライブラリから派生したコードの実行能力など、さまざまな方法で評価されるべきです。

イェール大学、南京大学、北京大学の新しい研究では、ML-BENCHという現実的で包括的なベンチマークデータセットを提案しています。このデータセットは、LLMの利用者の指示を理解し、GitHubのリポジトリをナビゲートし、実行可能なコードを生成する能力を評価するものです。ML-BENCHは、指示の要件を満たす高品質で指示可能な正解コードを提供しています。ML-BENCHは、130のタスクと14の人気のある機械学習のGitHubリポジトリからなる9,444の例を含んでいます。

研究者たちは、Pass@kとParameter Hit Precisionを調査の指標として使用しています。これらのツールを使用して、彼らはGPT-3.5-16k、GPT-4-32k、Claude 2、およびCodeLlamaがML-BENCH環境での能力を探求します。ML-BENCHはLLMのための新しいテストを提案しています。経験的な結果は、GPTモデルとClaude 2がCodeLlamaを大きく上回っていることを示しています。GPT-4は他のLLMよりも明らかに性能が向上していますが、実験でのタスクのうち39.73%しか完了していません。他のよく知られたLLMは幻覚を経験し、期待通りの成果を上げていません。調査の結果からは、LLMはコードの記述だけでなく、長いドキュメンテーションの理解も必要としていることが示唆されています。その主要な技術的貢献は、彼らのエラー分析を通じて発見された不足点に対処するために設計された自律型の言語エージェントであるML-AGENTの提案です。これらのエージェントは、人間の言語と指示を理解し、効率的なコードを生成し、困難なタスクを遂行する能力を持っています。

ML-BenchとML-Agentは、自動化された機械学習プロセスの最先端の進歩を表しています。研究者たちは、この成果が他の研究者や実務家にも興味を持ってもらえることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

リアルタイムなSlackボットを生成的AIで構築する

「Apache NiFi、LLM、Foundation Models、およびストリーミングを使用して、クールなSlackbotを構築する方法を学びましょうモ...

機械学習

デシAIは、DeciDiffusion 1.0を公開しました:820億パラメータのテキストから画像への潜在的拡散モデルで、安定した拡散と比べて3倍の速度です

問題の定義 テキストから画像を生成することは、人工知能において長い間の課題でした。テキストの説明を鮮明でリアルな画像に...

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

機械学習

M42がMed42を導入:医療知識へのアクセス拡大のためのオープンアクセスクリニカル大規模言語モデル(LLM)

M42ヘルスは、アブダビ、UAEに拠点を置き、有望な新しいオープンアクセスの臨床大規模言語モデルであるMed42を発表しました。...

AIニュース

「解説者に続いて、ウィンブルドンでAIがライン審判を置き換える可能性がある」

ウィンブルドンは、豊かな伝統と名声あるテニスの試合で知られており、ゲームを革命化する可能性のある大きな変化を検討して...

人工知能

「スマートな会話インターフェースのためのChatGPTとReactJSの統合」

このブログでは、Kommunicateプラットフォームを使用してChatGPTをReactJSに統合する方法について探っていきますこれにより、...