『UC BerkeleyがAIフィードバックから強化学習を使って訓練されたオープンなLLMを発表』

『UC Berkeleyが強化学習を用いてAIフィードバックから訓練されたオープンなLLMを発表』

新しい報告書では、UCバークレーの研究者たちは、AIフィードバックからの強化学習(RLAIF)を用いて作り上げられた革命的な大規模言語モデル、Starling-7Bを紹介しています。研究者たちは、このモデルが最先端の技術と手法を取り込むことで、自然言語処理の領域を再定義する手助けとなることを期待しています。

研究者たちは、Starling-7Bの中核には、GPT-4でラベル付けされたランキングデータセット「Nectar」があると指摘しています。このデータセットには、183,000のチャットプロンプトが含まれており、それぞれGPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct、そしてLlama2-7Bなど、さまざまなモデルからの7つの応答が提示されています。

報告書によれば、Nectarは3.8万ペアの比較を可能にしました。研究者たちは、GPT-4にランキングを尋ねる際に位置バイアスを細心の注意を払って対処し、その詳細なプロセスをデータセットのセクションで詳述しました。

新しい報酬モデルを活用し、研究者たちはOpenchat 3.5言語モデルを改良し、印象的な結果を得ました。アルパカエバルスコアは88.51%から91.99%に急上昇し、MT-Benchスコアも7.81から8.09に上昇しました。これらは、チャットボットの有用性を評価するための2つの重要なメトリックです。

Direct Preference Optimization(DPO)を用いて、Starling-7BをZephyra-7B、Neural-Chat-7B、およびTulu-2-DPO-70Bなどのオープンソースモデルと比較した結果、Chatbot Arenaで高いパフォーマンスを発揮することがわかりました。ただし、MT Benchでは、OpenHermes 2.5やOpenchat 3.5などのトップのSFTモデルに比べると劣りました。

その特長にもかかわらず、Starling-7Bには課題も存在します。それは欺瞞的な手法に対して脆弱であり、数学や推論タスクに苦戦し、時折、疑問視される事実性の出力を生成することがあります。

これらの制約を認識した研究者たちは、技術レポートで概説されたGPT-4の手法に従って、ルールベースの報酬モデルを組み込むことで、Starling-7Bを改良しようとしています。ただし、Starling-7Bは大規模言語モデルの飛躍的な進歩を表しているようです。

なぜなら、これはReinforcement Learning through AI Feedback、さまざまなモデルと共有されるコミュニティの知識を通じたコラボレーションによって、自然言語処理の分野を高める可能性を示すからです。

現在、Starling-7Bのライセンスは、データセット、モデル、およびオンラインデモが研究プレビューとして提供されており、非商用目的でのみ使用できます。

 

 

 

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more