Learn more about Search Results RLHF - Page 6

ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム

大型言語モデル(LLM)は、高レベルの計画に優れていますが、ペン回しのような低レベルのタスクに対するサポートが必要です。しかし、NVIDIA、UPenn、Caltech、UT Austinの研究者チームは、EUREKAと呼ばれるアルゴリズムを開発しました。EUREKAは、GPT-4などの高度なLLMを使用して、強化学習を通じた複雑なスキル獲得のための報酬関数を作成します。EUREKAは、人間が設計した報酬よりも安全で高品質なヒントを提供し、ヒューマンフィードバックに基づいた勾配のない文脈学習により、画期的な成果を上げました。このブレイクスルーは、シミュレートされたShadow Handがペン回しのトリックを習得するというLLMを活用したスキル獲得の道を開くものです。 強化学習における報酬の設計は課題となっており、既存の手法では手動のトライアンドエラー、逆強化学習など、よりスケーラブルで適応性のある手法が必要とされています。EUREKAは、LLMを利用してリアルタイムで報酬を向上させるために解釈可能な報酬コードを生成する方法を提案しています。以前の研究では意思決定のためにLLMが用いられてきましたが、EUREKAは低レベルのスキル学習タスクへの適用において画期的であり、初期の候補やフューショットのプロンプトを必要とせず、LLMと進化アルゴリズムを組み合わせた報酬設計を先駆的に行っています。 LLMは高レベルの計画に秀でていますが、ペン回しのような低レベルのスキルにはサポートが必要です。強化学習における報酬設計はしばしば時間のかかるトライアンドエラーに頼っています。彼らの研究は、GPT-4などの高度なコーディングLLMを活用し、自律的にさまざまなタスクの報酬関数を作成して、多様な環境で人間による報酬を上回る成果を収めました。EUREKAはまた、ヒューマンフィードバックからの文脈学習を可能にし、報酬の品質と安全性を向上させます。これにより、マニュアルによる報酬設計では不可能な緻密な操作タスクへの取り組みを可能にしています。 EUREKAは、GPT-4などのLLMによって駆動される報酬設計アルゴリズムであり、29の強化学習環境において優れた成果を収めています。モデルの更新を必要とせず、ヒューマンフィードバック(RLHF)からの文脈学習を活用して報酬の品質と安全性を向上させます。EUREKAの報酬は、シミュレートされたShadow Handがペン回しや高速のペン操作をマスターするためのトレーニングを可能にします。これにより、進化アルゴリズムとLLMを組み合わせた報酬設計が実現され、初期の候補やフューショットのプロンプトが不要となり、強化学習の重要な進歩を示しています。 EUREKAは、L2Rを上回り、報酬の生成表現性を示しています。EUREKAは一貫して改善し、最良の報酬は最終的には人間の基準を上回ります。それは、人間と弱い相関を持つユニークな報酬を作成し、直感に反する設計原則を明らかにする可能性があります。報酬の反映は、高次元のタスクでのパフォーマンスを向上させます。カリキュラム学習と共に、EUREKAはシミュレートされたShadow Handを使って緻密なペン回しのタスクに成功します。 EUREKAは、LLMの力を借りて人間レベルの報酬生成を達成し、タスクの83%で平均52%の向上を遂げます。LLMを進化アルゴリズムと組み合わせることは、困難で開放的な問題における報酬設計のための多目的かつスケーラブルなアプローチを証明します。EUREKAの器用さは、カリキュラム学習を使って緻密なペン回しのような複雑なタスクを解決することで明らかです。その適応性と劇的な性能向上は、多様な強化学習と報酬設計の応用において有望です。 将来の研究の方向性には、EUREKAの適応性と性能をさらに多様で複雑な環境や異なるロボット設計で評価することが含まれます。シミュレーションを超えた現実世界での適用可能性を評価することは重要です。モデルベースの手法やメタ学習などの強化学習技術との相乗効果を探求することで、EUREKAの機能をさらに向上させることができます。EUREKAが生成した報酬関数の解釈可能性についての調査は、その意思決定プロセスの理解のために不可欠です。人間のフィードバックの統合を強化し、ロボット技術以外のさまざまな領域でのEUREKAの可能性を探求することは、有望な方向性です。

16/10から22/10の週の重要なLLM論文のトップ

大規模言語モデル(LLMs)は最近急速に進歩しています新しい世代のモデルが開発されるにつれ、研究者やエンジニアが最新の進歩について情報を得ることが重要です...

このAI論文は、大規模な言語モデルを最適化する秘訣を明らかにします:報酬のバランスと過剰最適化の防止

UC Berkeley、UCL、CMU、Google Deepmindの研究者チームは、複数の単純な報酬モデルから導かれた合成報酬モデルを使用して、大規模な言語モデルの最適化の課題に取り組んでいます。これらのハイブリッドモデルは、成分モデルの適切な重み付けの支援を必要とすることが多く、報酬が高いほど人間の評価が悪くなる過度の最適化が起こります。彼らの方法は、制約付き強化学習を使用して、エージェントが各成分モデルの有用性の閾値を超えないようにする解決策を提案しています。 この研究は、制約を強化学習に統合するための広範な研究の歴史を参照しています。Borkar、Padakandla、Cheung、Lecarpentierなどの著者の研究を挙げています。また、報酬関数の非定常性に取り組む重要性を強調し、Moskovitz、O’Donoghue、Tarbouriechの研究を引用しています。さらに、正則化ポリシーオプティマイゼーションの使用についても議論しています。 LLM(大規模言語モデル)は自然言語処理において優れた性能を発揮しますが、安全な展開や人間の好みとの整合性に問題があります。人間のフィードバックからの強化学習(RLHF)は、人間の選択を模倣した報酬モデルを使用してLLMを適応させます。しかし、報酬モデルの過度の最適化はテキストの品質低下につながることがあります。彼らの研究では、過度の最適化を解決するための合成報酬モデルを提案し、プロキシポイントを特定し、制約付き最適化を使用しています。動的な重み付けは、各報酬モデルが学習プロセスに与える影響を制御します。 この分析では、Lagrange乗数を使用して合成報酬モデルにおける過度の最適化を管理する制約付き強化学習を紹介しています。成分報酬モデルに制約を課し、効果的な人間評価範囲内に保ちます。プロキシポイントを特定し、報酬モデルの過剰使用を防ぐための適応的な勾配フリーな最適化手法が提示されています。KL divergenceを含む、さまざまなタスク報酬および制約の閾値の定式化も考慮されています。 彼らのアプローチは、合成報酬モデルにおける過度の最適化に関する初めての研究を行い、相関の重要性が過度の最適化ポイントに与える影響を明らかにしています。報酬モデルの閾値を超えることを防ぐために、適応的な勾配フリーな最適化手法が使用されています。制約付き強化学習の実装には、PPO-SATやAll-PPOを含むPPOアルゴリズムが議論されています。さまざまなタスク報酬および制約の閾値の定式化をカバーする詳細な疑似コードも提供されています。 この研究は、言語品質評価に影響を与える合成報酬モデルの最適化の課題を解決することに焦点を当てています。過度の最適化ポイントを特定し、最適化するために適応的な勾配フリーな最適化手法を使用しています。PPO-SATやAll-PPOなどのPPOアルゴリズムの実装について探究し、成分報酬モデル間の適切な重み付けと相関の考慮の重要性を強調しています。 今後の研究では、ReLOADなどの信頼性のある手法を適用して、合成報酬モデルにおける過度の最適化に取り組むことが検討されるべきです。確定的な最適ポリシーのない場合にモデルの出力問題を防ぐためにCMDPの形式を利用することの有用性を探求することが重要です。さまざまなドメインや複雑な合成報酬モデルを対象とした幅広いテストが必要です。代替の強化学習手法の調査や、重み付け戦略や相関指標が提案手法の性能に与える影響を評価することは、さらなる進展に重要です。

PEFTの概要:最先端のパラメータ効率の良い微調整の概要

「LoRAなどのパラメーター効率の高いファインチューニングテクニックを学んで、限られた計算リソースを使って大規模な言語モデルを効率的に適応させる方法を習得しましょう」

AIにおける継続的学習の現状について

なぜchatGPTは2021年までの訓練しかされていないのですか?この記事では、深層学習における継続的な学習の現状を解説し、特に大規模な言語モデルとチャットボットに焦点を当てています

「大型言語モデル(LLM)のマスターに至る7つのステップ」

大型言語モデル(LLM)は、自然言語処理の新時代を開拓しましたでは、それについてもっと学びましょうこのガイドを使用して、大型言語モデルの基礎から始めて、7つの簡単なステップでLLMアプリを構築して展開する方法を学びましょう

「このAIニュースレターはあなたが必要とするもの全てです #69」

Googleは、MicrosoftやAdobeといった企業に続き、彼らが提供するAIサービスの利用者を知的財産権侵害に関する訴訟から保護することに取り組むことを発表しました...

NVIDIA AIがSteerLMを発表:大規模言語モデル(LLMs)の推論中にユーザーが応答をカスタマイズできる新たな人工知能(AI)メソッド

人工知能の絶えず進化する風景の中で、開発者やユーザーの双方を悩ませる課題があります: 大規模言語モデルからよりカスタマイズされたニュアンス豊かな応答が求められる需要です。Llama 2などのこれらのモデルは、人間のようなテキストを生成できますが、個々のユーザーの固有の要求に対応するために本当に柔軟な回答が必要です。現在のアプローチである教師あり fine-tuning(SFT)や人間のフィードバックからの強化学習(RLHF)には限界があり、機械的で複雑な回答につながる可能性があります。 NVIDIA Researchは、これらの課題に対応する画期的な手法であるSteerLMを発表しました。SteerLMは、大規模言語モデルの応答をカスタマイズする革新的かつユーザーセントリックなアプローチを提供し、ユーザーがモデルの振る舞いを指針とする主要属性を定義することにより、より多くの制御を提供します。 SteerLMは、大規模言語モデルのカスタマイズを簡素化する4段階の教師あり fine-tuningプロセスを介して動作します。まず、人間によって注釈付けされたデータセットを使用してAttribute Prediction Modelをトレーニングし、有用性、ユーモア、創造性などの品質を評価します。次に、このモデルを使用してさまざまなデータセットに注釈を付け、言語モデルがアクセスできるデータのバラエティを向上させます。その後、SteerLMは属性条件付きの教師あり fine-tuningを使用して、指定された属性(品質など)に基づいて応答を生成するようにモデルをトレーニングします。最後に、ブートストラップトレーニングを通じてモデルを洗練し、多様な応答を生成し、最適な合わせに向けて微調整します。 SteerLMの素晴らしい機能の一つは、リアルタイムの調整可能性です。これにより、ユーザーは推論中に属性を微調整し、その場で特定のニーズに合わせることができます。この驚くべき柔軟性により、ゲーミングや教育、アクセシビリティなど、さまざまな潜在的な応用が可能となります。SteerLMにより、企業は1つのモデルから個別のアプリケーションごとにモデルを再構築する必要なく、複数のチームに対してパーソナライズされた機能を提供することができます。 SteerLMのシンプルさとユーザーフレンドリーさは、メトリクスとパフォーマンスにも明らかです。実験では、SteerLM 43BがChatGPT-3.5やLlama 30B RLHFなどの既存のRLHFモデルを凌駕し、Vicunaベンチマークで優れた結果を示しました。インフラやコードの最小限の変更で簡単な fine-tuningプロセスを提供することで、SteerLMは手間をかけずに優れた結果を提供し、AIカスタマイズの分野での重要な進展となっています。 NVIDIAは、SteerLMをNVIDIA NeMoフレームワーク内のオープンソースソフトウェアとして公開することで、高度なカスタマイズを民主化する大きな一歩を踏み出しています。開発者は、コードにアクセスしてこの技術を試す機会を得ることができます。Hugging Faceなどのプラットフォームで利用できるカスタマイズされた13B Llama 2モデルに関しても、詳細な手順が提供されています。 大規模言語モデルが進化し続ける中で、SteerLMのようなソリューションの必要性はますます重要となります。SteerLMを使用することで、よりカスタマイズ可能で適応性のあるAIシステムを提供し、ユーザーの価値観と一致した本当に助けになるAIを実現する方向に、AIコミュニティは大きな一歩を踏み出します。

「AIの民主化:MosaicMLがオープンソースLLM運動に与える影響」

最近、私たちはオープンソースの大規模言語モデル(LLM)の作成に関する多くの最新の研究を概観しましたこのすべての研究の中で、共通のフレームワークを使用してモデルが作成されますが、そのうちのいくつかは…

「2/10から8/10までの週のトップ重要なLLM論文」

大規模言語モデル(LLMs)は最近急速に進化しています新しい世代のモデルが開発されるにつれて、研究者やエンジニアは最新の進歩について情報を得ることが重要です...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us