「SelFeeに会いましょう:自己フィードバック生成によって強化された反復的自己修正LLM」
SelFee Reinforced Iterative Self-Correcting LLM through Self-Feedback Generation
最近の研究では、自然言語フィードバックが言語モデルの性能向上に効果的であることが示されています。KAISTの研究チームは、自己フィードバックと自己修正の生成に特化した新しいSelFeeモデルを紹介しました。従来の手法とは異なり、SelFeeは高品質な応答を生成するために外部の大規模な言語モデルやタスク固有のモデルを必要としません。
SelFeeは、単一の推論内で高品質な応答を達成するまで、回答を継続的に修正するためのファインチューニングされたLLaMAベースの指示従順モデルです。与えられた指示に基づいて、モデルは初期解と自己フィードバックシーケンスを生成します。生成されたフィードバックの内容を分析することで、モデルは修正が必要かどうかを判断します。修正が必要な場合、フィードバックに基づいて修正された回答を生成します。この反復的な修正プロセスは、既存のLLaMAベースのモデルと比較して改善された解をもたらします。
研究者たちは、ShareGPT、Alpaca、Math、Code、Flan Collectionなど、さまざまなソースから多様な指示データを収集しました。フィードバックと修正データの不足に対処するために、彼らはChatGPTという教師モデルからの蒸留プロセスを使用してデータセットを拡張しました。このアプローチにより、より手頃なコストでフィードバックと修正のインスタンスを生成することができました。
モデルをトレーニングするために、研究者たちはOpenAI APIを使用したデータ拡張技術を利用しました。彼らは複数のソースから指示を収集し、それらをChatGPTに入力して対応する回答を生成しました。次に、生成された回答に対してChatGPTにクエリを行い、フィードバックを得ました。修正が必要とされる場合、ChatGPTは自己生成のフィードバックに基づいて回答を修正しました。このプロセスは、さらなる修正が不要になるまで繰り返されました。
SelFeeはFastChatフレームワークを使用してトレーニングされました。指示に基づいて、モデルは回答とフィードバックの連鎖、修正を生成するためにファインチューニングされました。研究者たちは、推論プロセス中に必要な最小の修正を増やすことで回答の品質が向上することを観察しました。3回の修正が最も良いパフォーマンスを示し、修正の必要がない13BのSelFeeモデルよりも少なくとも3回の修正を生成する7BのSelFeeモデルの方が性能が優れていることがわかりました。
評価について、研究者たちはVicuna評価設定を採用しました。これには80の異なるクエリが含まれています。人間の評価ではなく、GPT-4を評価者として使用したパイロット評価を行いました。GPT-4の位置バイアスを考慮して、ChatGPTとの相対スコアを報告しました。
SelFeeはVicuna評価設定でChatGPTと同等のパフォーマンスを示しましたが、数学、推論、事実、コーディングなどの分野においてChatGPTと比べて知識が不足していることがわかりました。
全体的に、SelFeeは言語モデルの自己フィードバックと自己修正の生成において革新的なアプローチを提供します。モデルを継続的に回答を修正するようにファインチューニングすることで、SelFeeは既存のモデルと比較して改善されたパフォーマンスを実現します。研究の結果は、反復的な修正が言語モデルの応答の品質向上において重要であり、モデルの推論コンピューテーションを増やすことが単にサイズを増やすよりも効果的であることを示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「AIを活用した言語学習のためのパーソナルボイスボット」
- 「DenseDiffusionとの出会い:テキストから画像生成における密なキャプションとレイアウト操作に対処するためのトレーニング不要のAI技術」
- 「Amazon LexとAmazon Kendra、そして大規模な言語モデルを搭載したAWSソリューションのQnABotを使用して、セルフサービス型の質問応答を展開してください」
- 「クラスの不均衡:ランダムオーバーサンプリングからROSEへ」
- 深層学習フレームワークの比較
- 「IoT企業のインテリジェントビデオアナリティクスプラットフォームを搭載したAIがベンガルール空港に到着」
- スマートインフラストラクチャのリスク評価における人間とAI・MLの協力