「UCバークレーの研究者たちは、スターリング-7Bを発表しました:AIフィードバックからの強化学習でトレーニングされたオープンな大規模言語モデル(LLM)です(RLAIF)」

『UCバークレーの研究者がスターリング-7Bを発表!AIフィードバックから学んだオープンな大規模言語モデル(LLM)』(RLAIF)

大規模言語モデル(LLM)は、自然言語処理タスクのための人工知能モデルです。これらのモデルは膨大なデータセットでトレーニングされ、人間のようなテキストを理解し、生成することができます。彼らは人間のようなテキストを理解し、生成する能力によって自然言語処理を変革しました。その役割は、生活のあらゆる分野に及んでいます。

UCバークレーの研究者たちは、Reinforcement Learning from AI Feedback(RLAIF)によってトレーニングされたオープンな大規模言語モデル(LLM)であるStarling-7Bを開発しました。このモデルは、最近開発された報酬訓練およびポリシーチューニングパイプライン、新しいGPT-4ラベル付きランキングデータセットNectar、最先端の報酬訓練およびポリシーチューニングパイプラインの機能を活用しています。

https://starling.cs.berkeley.edu/

Starling-7Bの基盤は、GPT-4のラベル付きランキングデータセットNectarにあります。このデータセットには183,000のチャットプロンプトが含まれており、各プロンプトにはGPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct、およびLlama2-7Bなどのさまざまなモデルからの7つの応答があります。これにより、380万組の比較が可能となります。研究者たちは、GPT-4の順位付けを求める際に位置バイアスを軽減するためにかなりの努力を注いでおり、データセットのセクションで詳細に説明しています。

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

彼らは学習報酬モデルを使用してOpenchat 3.5言語モデルを洗練させ、結果は印象的であると結論づけました。アルパカ評価スコアは88.51%から91.99%に向上し、MT-Benchスコアは7.81から8.09に向上しました。これらのメトリックは、チャットボットの有用性を評価する基準として機能します。

研究者たちは、Direct Preference Optimization(DPO)を使用してZephyra-7B、Neural-Chat-7B、およびTulu-2-DPO-70Bなどの既存のオープンソースモデルとモデルを比較しました。これらのモデルはChatbot Arenaで良いパフォーマンスを発揮しましたが、MT BenchではOpenHermes 2.5やOpenchat 3.5などのトップSFTモデルと比較してRLHFの完全なポテンシャルには及びませんでした。

研究者たちは、このモデルには特定の課題があると強調しました。それは欺瞞的または操作的な手法に対して脆弱です。また、モデルは数学的または推論タスクに苦労し、出力の事実的な正確性は時々しか保証されません。彼らはまた、モデルが時折冗長になり、ジェイルブレイキングプロンプトに対しても脆弱であることを指摘しました。これらの欠点に対しては、Starling-7Bの改善に引き続き取り組んでいます。

この問題に対処するために、彼らはGPT-4をガイドとして使用するルールベースの報酬モデルを利用して、モデルをさらに洗練することを提案しました。GPT-4の技術レポートで概説されている技術を使用します。

まとめると、Starling-7Bは、LLMにおける重要な進歩を示し、AIフィードバックからの強化学習の可能性を示しています。自然言語処理の分野は、これらのモデルとコミュニティの共有知識の協力によって向上しています。研究者たちは、モデルのパフォーマンスを向上させ、制限を解決するために取り組んでいます。

この投稿は、UCバークレーの研究者によるStarling-7Bの紹介:AIフィードバックからの強化学習によってトレーニングされたオープンな大規模言語モデル(LLM)が最初に掲載されたMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

エッジにおける生涯学習

「忘れない方法を学ぶことは重要なスキルです」

データサイエンス

マルチモーダルデータ統合:人工知能ががん治療を革命へ導く

最近、私はこの記事(リンク)を読みましたそれは癌のための人工知能(AI)との多模式データ統合についてのものでした扱われ...

AIニュース

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

人工知能の絶え間なく進化する世界で、OpenAIは革命的なアップデートを解放しました。それは、私たちが機械とどのようにイン...

AIニュース

AlphaFold、類似のツールが次のパンデミックの準備に役立つ可能性があります

「研究者たちは、将来のパンデミックに備えるために、ますます人工知能を利用しています」

機械学習

アリババのChatGPTの競合相手、統一千文と出会ってください:その大規模言語モデルは、Tmall Genieスマートスピーカーや職場メッセージングプラットフォームのDingTalkに組み込まれる予定です

人工知能は、過去数年間で急速に人気と重要性が高まっており、企業はAIの研究開発に大きな投資を行っています。AIが波を起こ...

データサイエンス

「機械学習アルゴリズムとGAN」

「GANとさまざまな機械学習アルゴリズムについて詳しく学びましょう」(GANとさまざまなきかいがくしゅうアルゴリズムについて...