「UCバークレーの研究者たちは、スターリング-7Bを発表しました:AIフィードバックからの強化学習でトレーニングされたオープンな大規模言語モデル(LLM)です(RLAIF)」

『UCバークレーの研究者がスターリング-7Bを発表!AIフィードバックから学んだオープンな大規模言語モデル(LLM)』(RLAIF)

大規模言語モデル(LLM)は、自然言語処理タスクのための人工知能モデルです。これらのモデルは膨大なデータセットでトレーニングされ、人間のようなテキストを理解し、生成することができます。彼らは人間のようなテキストを理解し、生成する能力によって自然言語処理を変革しました。その役割は、生活のあらゆる分野に及んでいます。

UCバークレーの研究者たちは、Reinforcement Learning from AI Feedback(RLAIF)によってトレーニングされたオープンな大規模言語モデル(LLM)であるStarling-7Bを開発しました。このモデルは、最近開発された報酬訓練およびポリシーチューニングパイプライン、新しいGPT-4ラベル付きランキングデータセットNectar、最先端の報酬訓練およびポリシーチューニングパイプラインの機能を活用しています。

https://starling.cs.berkeley.edu/

Starling-7Bの基盤は、GPT-4のラベル付きランキングデータセットNectarにあります。このデータセットには183,000のチャットプロンプトが含まれており、各プロンプトにはGPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct、およびLlama2-7Bなどのさまざまなモデルからの7つの応答があります。これにより、380万組の比較が可能となります。研究者たちは、GPT-4の順位付けを求める際に位置バイアスを軽減するためにかなりの努力を注いでおり、データセットのセクションで詳細に説明しています。

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

彼らは学習報酬モデルを使用してOpenchat 3.5言語モデルを洗練させ、結果は印象的であると結論づけました。アルパカ評価スコアは88.51%から91.99%に向上し、MT-Benchスコアは7.81から8.09に向上しました。これらのメトリックは、チャットボットの有用性を評価する基準として機能します。

研究者たちは、Direct Preference Optimization(DPO)を使用してZephyra-7B、Neural-Chat-7B、およびTulu-2-DPO-70Bなどの既存のオープンソースモデルとモデルを比較しました。これらのモデルはChatbot Arenaで良いパフォーマンスを発揮しましたが、MT BenchではOpenHermes 2.5やOpenchat 3.5などのトップSFTモデルと比較してRLHFの完全なポテンシャルには及びませんでした。

研究者たちは、このモデルには特定の課題があると強調しました。それは欺瞞的または操作的な手法に対して脆弱です。また、モデルは数学的または推論タスクに苦労し、出力の事実的な正確性は時々しか保証されません。彼らはまた、モデルが時折冗長になり、ジェイルブレイキングプロンプトに対しても脆弱であることを指摘しました。これらの欠点に対しては、Starling-7Bの改善に引き続き取り組んでいます。

この問題に対処するために、彼らはGPT-4をガイドとして使用するルールベースの報酬モデルを利用して、モデルをさらに洗練することを提案しました。GPT-4の技術レポートで概説されている技術を使用します。

まとめると、Starling-7Bは、LLMにおける重要な進歩を示し、AIフィードバックからの強化学習の可能性を示しています。自然言語処理の分野は、これらのモデルとコミュニティの共有知識の協力によって向上しています。研究者たちは、モデルのパフォーマンスを向上させ、制限を解決するために取り組んでいます。

この投稿は、UCバークレーの研究者によるStarling-7Bの紹介:AIフィードバックからの強化学習によってトレーニングされたオープンな大規模言語モデル(LLM)が最初に掲載されたMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

マイクロソフトがデータフォーミュレータを導入:データ変換の課題に取り組むためのコンセプト駆動型の可視化作成ツールで、人工知能AIエージェントを活用しています

データの可視化は、データ内のパターン、傾向、洞察を理解するために、データを図形や画像の形式で表示することを指します。...

機械学習

CoDiに会おう:任意対任意合成のための新しいクロスモーダル拡散モデル

ここ数年、テキストからテキスト、画像、音声など、別の情報を生成する堅牢なクロスモーダルモデルが注目されています。注目...

AI研究

SalesForce AI 研究 BannerGen マルチモダリティ バナー生成のためのオープンソース ライブラリ

効果的なグラフィックデザインは成功したマーケティングキャンペーンの基盤です。それはデザイナーと視聴者の間のコミュニケ...

AIニュース

「VRは私たちを健康にするために自然の力を模倣できるのか?」

科学者たちは、仮想現実が自然にいることのいくつかの健康上の利益を提供できるかどうかを調査しています

データサイエンス

データセットシフトのフレームワークを整理する

私たちはモデルを訓練し、それらを使用して特定の結果を予測します入力のセットが与えられた場合に、それが機械学習のゲーム...