「LEVER(リーバー)とは、生成されたプログラムの実行結果を検証することを学習することで、言語からコードへの変換を改善するためのシンプルなAIアプローチです」
LEVERは、プログラムの実行結果を検証してコード変換を改善するためのシンプルなAIアプローチです
大規模言語モデル(LLM)は最近、大きな進歩を遂げました。これらのモデルは、人工知能の領域を大幅に向上させ、さまざまなタイプのタスクを完了するための非常に大きなポテンシャルを持っています。LLMは、質問に答えたり、コンテンツを作成したりすることで人間を模倣したり、テキストの段落を要約したり、言語を翻訳したりすることができます。仮想アシスタント、ロボティクス制御、データベースインターフェイス、その他のAIアプリケーションは、すべて自然言語の説明を実行可能なコードに変換する能力に依存しています。コードLLM、つまりコード上で事前にトレーニングされたモデルは、インコンテキストのフューショットラーニングにおいて優れたパフォーマンスを示していますが、これらのモデルのパフォーマンスは改善される可能性があり、最適化するには計算コストがかかる場合があります。
LLMは、フューショットの状況では精度に苦労するかもしれませんが、十分なサンプルが与えられるとき、つまりサンプルがスケールで描かれるときには、多数決とテストケースによるフィルタリングによってそのパフォーマンスを大幅に向上させることができます。データ型、値の範囲、変数のプロパティは、プログラムの正確性の強力な指標であり、モデルソリューションの豊かな意味論的要素です。最近の研究では、研究者チームがLearning to Verify(LEVER)という、コードLLMを使用した言語からコードへの生成手法を紹介しました。
LEVERは、自然言語の説明、プログラムの表面形式、実行結果の組み合わせ表現を使用して、検証者が誤ったプログラムを特定して拒否するためにトレーニングされます。検証確率とLLM生成確率は結合され、集計確率を作成するために、同じ実行結果を持つプログラムは周辺化されます。正しい結果を提供する最も可能性の高いプログラムが、再ランキングスコアとしてこの確率を使用して出力として選択されます。
LEVERは、LLMからサンプリングされたプログラムが正確であるかどうかを判断することによって、言語からコードの作成を改善するために提案されています。LEVERは、作成されたプログラムをチェックすることによって、出力の精度と正確性を向上させることを目指しています。評価のために、テーブルQA、数学QA、基礎的なPythonプログラミングを含む4つのデータセットで実験が実施され、コード-davinci-002を使用したパフォーマンスの利点は4.6%から10.9%まで範囲があり、結果は常にベースのコードLLMを上回りました。すべてのデータセットで、LEVERはまったく新しい最先端の結果を達成し、自然言語の説明から正確で文脈に即したコードを生成する優位性を示しています。
結論として、LEVER技術は、自然言語の説明を実行可能なコードに変換するためのコードLLMの能力を向上させます。この方法は、実行結果を考慮に入れる検証者を使用することで、より伝統的な実行エラーの剪定戦略よりも精度が向上します。その成果は、さまざまな言語からコードへのタスクにおける効率性を示し、データベースインターフェイス、ロボティクス制御、仮想アシスタントなど、さまざまなAIアプリケーションの向上の可能性を示唆しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「メーカーに会う:開発者がAI搭載ピットドロイドの背後にNVIDIA Jetsonを使う」
- 「チューリングテストと中国の部屋の議論に基づく大規模言語モデル」
- 「GPTCacheとは:LLMクエリセマンティックキャッシュの開発に役立つライブラリを紹介します」
- Amazon SageMakerとAmazon Rekognitionを使用して、画像内の車の位置を検出するためのコンピュータビジョンモデルを構築してトレーニングする
- 「機械学習の未来:新興トレンドと機会」
- 「マッキンゼー・レポートからの5つの重要な洞察:創発的AIの未来への影響」
- このAI論文は、大規模なビジョン・ランゲージ・ナビゲーション(VLN)トレーニングのための効果的なパラダイムを提案し、パイプライン内の各コンポーネントの影響を定量的に評価しています