Search Results RLHF

ランチェーン 101：パート2d. 人間のフィードバックでLLMの微調整

これは、LangChain 101コースのモデルセクションの2Dパートであり、最後のパートですこの記事の文脈をより理解するために、最初の2つのパートを確認することを強くお勧めしますRLHF...

マンチェスター大学の研究者たちは、MentalLLaMAを導入しましたこれは、読みやすい精神健康分析のためのオープンソースLLMシリーズで、指導に従う能力を持っています

PTSDとその他の精神的健康問題は、グローバルに公衆衛生に影響を与えています。社会的な偏見のため、多くの人々は素早く精神科の援助を求めませんが、これには壊滅的な影響があります。オンライン技術の進歩により、ソーシャルメディアは人々の日常生活に浸透しています。ソーシャルメディアのテキストは、多くの精神的健康障害を抱えた人々がネガティブな感情を伝え、ストレスを表現するためにTwitterやRedditなどのサイトを利用するため、精神的健康分析の優れた情報源です。しかしながら、ソーシャルメディアのメッセージの急増により、ポストの手動分析は実現不可能です。そのため、多数の研究が自然言語処理（NLP）手法を使用して、ソーシャルメディアを精神的健康について自動的に分析しています。精神的健康に関する自然言語処理（NLP）の従来のアプローチでは、精神的健康のソーシャルメディア分析をテキスト分類の問題としてモデル化し、識別的なドメイン固有の事前学習済み言語モデル（PLM）が最先端のパフォーマンスを達成しました。その主な欠点の1つは、これらのアルゴリズムが解釈可能性が少なく、ブラックボックス的な予測結果を提供することであり、実際の使用時の信頼性を著しく低下させています。最新の大規模言語モデル（LLM）であるChatGPT2やLLaMAを含む効果的な精神的健康疾患の同定と、Chain-of-Thought（CoT）アプローチを使用したその選択の詳細な説明の評価も最近行われました。また、人間のテストも実施し、ChatGPTが正しい分類の説明を人間と同等のものとして提供できることを示し、精神的健康分析の可読性の向上の可能性を示しました。しかし、ChatGPTは現在、ゼロショットまたはフューショット学習環境で最先端の教師ありアルゴリズムのパフォーマンスには及びません。実際の状況での応用に制約を与えます。実用的な方法は、限られたデータで基盤のLLMを対象ドメインと整列させることにより、それらを微調整することです。理解可能な精神的健康分析のためのLLMの開発には、2つの主要な障壁があります。まず、LLMを最適化するために、良いトレーニングデータが必要です。ソーシャルメディア上の精神的健康の調査に関するいくつかのデータセットは、短い抽出のみを含みますが、検出結果に対する徹底した信頼性と正当性を提供するオープンソースのデータはまだ存在しません。繊細な研究対象と専門家によって書かれた説明の高い費用が、これらの主な原因です。次に、利用可能なインタープリタブルな精神的健康分析のオープンソースLLMはほんの一部しか存在しません。ただし、ChatGPTなどのクローズドソースのLLMを促進または微調整することは非常に高価です。高いコストとリソースの不足により、関連する研究コミュニティの成長を改善する必要があります。彼らは、これらのギャップを埋めるために、105,000件のデータサンプルを備えた初めてのマルチタスクおよびマルチソースの理解可能な精神的健康指導（IMHI）データセットを作成しました。まず、8つのタスクをカバーする10の既存のソースからトレーニングデータを収集しています。これらのタスクには、バイナリの精神的健康検出タスク、マルチクラスの精神的健康検出タスク、精神的健康原因/要因検出タスク、および精神的リスクとウェルネス要因検出タスクが含まれています。図1は、MentalLLaMAのパフォーマンスの一部を示し、精神的健康分析を含んでいます。また、MentalLLaMAのトレーニングデータと基礎モデルを要約しています。データには、ソーシャルメディアの投稿とそれに付随するラベルが含まれています。第二に、各ラベルには注釈付きで詳細な正当化が付けられます。専門家によって作成されたフューショットの質問と収集されたラベルを使用して、ChatGPTをインスパイアし、その返信から説明を引き出します。セルフインストラクトの成功から着想を得ています。すべての取得データに自動評価を行い、説明の品質を保証します。これらの評価では、予測の正確性、ラベルと説明の対応、および説明の総合的な品質を評価します。さらに、専門家による注意事項戦略で、一部の収集データに対して人間の評価も実施します。第三に、彼らはルールベースのアプローチを利用して、収集されたすべてのソーシャルメディアの投稿、ラベル、説明を命令ベースのクエリ-回答ペアに変換します。これらは、IMHIデータセットのトレーニングデータと評価ベンチマークの作成に使用されます。マンチェスター大学の研究者は、IMHIデータセットに基づいた解釈可能なメンタルヘルス分析のためのオープンソースLLMシリーズであるMentalLLaMAを紹介しています。LLLaMA2の基礎モデルは、MentalLLaMAモデルのトレーニングの基礎として機能します。具体的には、MentalLLaMA-7B、MentalLLaMA-chat-7B、およびMentalLLaMA-chat-13Bモデルを微調整しています。図1は、MentalLLaMAの優れた性能のいくつかのインスタンスを表示しています。さらに、彼らはMentalLLaMAモデルがIMHI評価基準に対してどれだけ優れているかを徹底的に評価しています。彼らは、分類結果を最先端の識別テクニックと他の生成言語モデルと比較することで、MentalLLaMAの予測精度を評価しています。研究結果によると、MentalLLaMA-chat-13Bは、テストセットの10個中7個で、最先端のレベルと同等かそれ以上の正確性を発揮します。生成される説明の質も評価しています。結果は、命令の調整、人間のフィードバックからの強化学習（RLHF）、およびモデルの拡大により、説明の品質が向上することを示しています。彼らは、ソーシャルメディア上の解釈可能なメンタルヘルス分析のための最初のマルチタスクおよびマルチソースの命令調整データセットであるInterpretable Mental Health Instruction（IMHI）データセットを作成しました。 • 彼らは、メンタルヘルスの理解可能な分析を行うためにオープンソースの最初の命令従順の大規模言語モデルであるMentalLLaMAを提案しています。MentalLLaMAはソーシャルメディアデータを使用して心理の分析を行うことができ、その結論に納得のいく根拠を提示することができます。 • 8つのタスクと10のテストセットを含む19Kのテストサンプルで、理解可能なメンタルヘルス分析のための最初の包括的な評価基準を提示しています。このベンチマークでは、現在使用されている技術とMentalLLaMAを比較しています。結果と分析から、MentalLLaMAが優れていることが示されており、将来の研究は理解可能なメンタルヘルス分析のためのLLMの改善に焦点を当てる予定です。

Uncategorized

このAIニュースレターはあなたが必要なものです #68

今週は、マルチモーダルの能力を持つ GPT-4 に対抗する候補として、新しいオープンソースのマルチモーダルモデルである LLaVA v1.5 の登場を目撃しましたそれはシンプルな...

人工知能の無料コース「”Train & Fine-Tune LLMs for Production”のローンチに向けて進む

「Towards AI」は、無料で包括的なコース「大規模言語モデル（LLM）のトレーニングと微調整」のローンチを喜んで発表しますこれはGen AI 360の第二弾です...

「ChatGPTがGPT-4V（Vision）とともに視覚を獲得することで、マルチモーダルAIが進化します」

「OpenAIのGPT-4におけるマルチモーダルAIの進歩、その先見性のある機能、AIによる相互作用におけるテキストとビジュアルの融合の変革的な影響を探索してください」

「LLMOps対MLOps 違いを理解する」

大規模言語モデルは現在非常に人気があり、それに伴ってより良い管理、組織、計画が必要とされています機械学習がMLOpsにつながるように、LLM（大規模言語モデル）もLLMOps（大規模言語モデルオペレーションズ）につながっていますLLMOpsとMLOpsはデータのクリーンさを確保するという点など多くの類似点がありますが、...

大型言語モデルへの優しい導入

こんにちは、この「大規模言語モデル（LLM）の簡単な紹介」にたどり着いてうれしいですさて、ここにいるということは、おそらく髪を引き抜いてしまうほど悩んでいるのでしょうね...

AIにおける幻覚の克服：事実に基づく強化学習ハイブリッドフレームワークが大規模な多モーダルモデルのビジョン・言語の整合性を最適化する方法

追加の事前訓練による画像とテキストのペアリング、または専門的なビジュアルインストラクションチューニングデータセットでの微調整を通じて、大規模言語モデルは多様なモーダルドメインに潜入し、パワフルな大規模マルチモーダルモデルを生み出すことができます。しかし、LMM（Large Multimodal Models）を構築する上で障害があります。特に、多様なデータとテキストのみのデータセットの質と量の間には食い違いがあります。例えば、LMMモデルLLaVAは、事前訓練されたビジュアルエンコーダとインストラクション用に調整された言語モデルを初期化したものです。このモデルは、1800のタスクに対して100M以上の例を使用するテキストのみのモデルと比較して、はるかに少ないインスタンスでトレーニングされます。具体的には、このモデルはわずか150Kの人工的な画像ベースの会話でトレーニングされます。このようなデータ制約のため、ビジュアルと言語のモダリティが正確に整列しない場合があります。その結果、LMMは、画像が与える文脈と不正確に関連付けられた幻覚的な出力を生成する可能性があります。UC Berkeley、CMU、UIUC、UW-Madison、UMass Amherst Microsoft Research、MIT-IBM Watson AI Labの研究者たちは、LLMMトレーニングのための高品質なビジュアルインストラクションチューニングデータの不在によって引き起こされる問題に対処するために、改良されたマルチモーダル整列のために訓練されたビジョン言語モデルLLaVA-RLHFを提示しています。彼らの主な貢献の1つは、マルチモーダルの整列を強化するために、強化学習からの人間のフィードバックによって報酬信号をキャリブレーションすることです。この手法では、幻覚の認識に焦点を当てた人間の好みを収集し、それらの好みを強化学習に使用します。この戦略により、比較的安価（例えば、10Kの人間の好みを収集するために$3000）でマルチモーダルの整列が改善される可能性があります。彼らの知識と既存の人間の好みデータに基づいて、報酬モデルが既存の言語モデルを適切に使用できるようにすることを試みる、よりデータ効率の良いオプションが提案されています。図1：LLMMトレーニングの教示された微調整（SFT）フェーズ中の幻覚の可能性と、報酬モデルの容量が低い問題に対処するために、事実に基づくRLHFがSFTモデルから初期化される方法を示すダイアグラムです。まず、より高解像度の優れたビジュアルエンコーダと大きな言語モデルを使用して、報酬モデルの全体的な機能を向上させます。第二に、図1に示すように、写真の説明や確定的なマルチチョイスオプションなどの追加情報で報酬信号を補完するファクチュアル・オーグメントドRLHFアルゴリズムを提案します。さらに、Supervised Fine-Tuningステージでは、既存の高品質な人間によるマルチモーダルデータを会話形式に変換して、合成ビジョンインストラクションチューニングデータを拡張することで、LMMの一般的な能力を向上させます。具体的には、Flickr30kをスポットキャプショニングの課題に変換し、VQA-v2とA-OKVQAをマルチラウンドQAタスクに変換し、新しいデータセットを使用してLLaVA-SFT+モデルをトレーニングします。最後に、実世界の状況でのLMMのマルチモーダルの整列を評価する方法について考えます。特に、幻覚を罰することに注意を払います。彼らが開発したベンチマーク質問であるMMHAL-BENCHは、COCOの12の主要なオブジェクトカテゴリを網羅し、8つのジョブ種別から成ります。彼らの分析によると、このベンチマークデータセットは、特に反幻覚のためのスコアが考慮される場合、人間の評価に非常に近いものです。RLHFでトレーニングされた最初のLMMとして、LLaVA-RLHFは実験的評価で優れたパフォーマンスを発揮しました。LLaVA-Benchでは94%の改善、MMHAL-Benchでは60%の改善、MMBenchでは52.4%の新記録、POPEでは82.7% F1の新記録を達成しました。GitHubでは、コード、モデル、データを一般に提供しています。

中国の研究者が「ImageReward」という画期的な人工知能アプローチを発表人間の好みフィードバックを利用してテキストから画像のモデルを最適化する方法です

最近の数年間で、テキストから画像を生成するモデルの進歩は著しいものがあります（具体的には、自己回帰型や拡散ベースの手法など）。これらのモデルは、適切な言語の記述（つまり、プロンプト）が与えられた場合に、多様なトピックに関連する高品質で意味的に適切な視覚的な情報を生成することができます。その結果、可能性のある使用方法や効果について、大いなる関心が生まれています。しかし、現在の自己教師あり事前学習済み生成器は、まだ改善の余地があります。事前学習の分布がノイズの多いものであり、実際のユーザープロンプトの分布と異なるため、モデルを人間の好みに合わせることは非常に困難です。その結果、次のような、写真におけるよく知られた問題が生じますが、これに限定されません: ・テキストと画像の整合性のエラー：図1(a)(b)に示されるように、テキストプロンプトで述べられたオブジェクトの数、品質、特性、および関係をうまく描写できないこと。・身体の問題：図1(e)(f)に示されるように、四肢や他の捻れた、欠落した、重複した、または異常な人間や動物の身体の部分を表示してしまうこと。・人間の美的感覚：一般的な或いは主流の美的好みから逸脱すること、図1(c)(d)に示されるように。・有害性とバイアス：攻撃的、暴力的、性的、差別的、違法、または不快なコンテンツを含むこと、図1(f)に示されるように。図1：（上）いくつかのテキスト-画像スコアラーによって判断された64世代のうち、トップ1の生成画像（下）ReFLトレーニングに続いてImageRewardをフィードバックに使用した1ショットの生成。斜体はスタイルや機能を示し、太字は一般的にプロンプトの内容を示します（実際のユーザーから抜粋）。ただし、これらの普遍的な問題を克服するために、モデルの設計や事前学習データを改善するだけ以上の取り組みが必要です。研究者たちは自然言語処理（NLP）における人間のフィードバックからの強化学習（RLHF）を使用して、大規模な言語モデルを人間の好みや価値観に向ける手法を開発してきました。この手法は、人間の好みを捉えるために、極めて多くのエキスパートによるモデル出力の比較を用いて報酬モデル（RM）を学習することに依存しています。その効果にもかかわらず、アノテーションプロセスは費用と困難を伴います。ラベリング基準を定義し、エキスパートを雇い、教育し、返信を検証し、RMを生成するには数ヶ月かかるからです。清華大学と北京郵電大学の研究者たちは、このような生成モデルの困難に取り組むことの重要性を認識し、最初の汎用的なテキストから画像への人間の嗜好RMであるImageRewardを発表し、提供しています。ImageRewardは、実際のユーザープロンプトと対応するモデル出力に基づく137,000ペアの専門家による比較でトレーニングおよび評価されています。彼らはまた、努力に基づいて拡散生成モデルを改善するための直接最適化戦略であるReFLについての研究も続けています。 •彼らは、テキストから画像への人間の嗜好アノテーションのパイプラインを開発しました。その際には、難点の体系的な特定、定量的評価とアノテーターのトレーニングのための基準の確立、ラベリング効率の向上、品質の確認などを行いました。彼らは、パイプラインベースのテキストから画像への比較データセットを作成し、ImageRewardモデルをトレーニングしました。 •詳細な研究とテストを通じて、彼らはImageRewardが他のテキスト-画像スコアリング技術（CLIPより38.6%、Aestheticより39.6%、BLIPより31.6%）を凌駕して人間の好みの理解において優れていることを示しました。さらに、ImageRewardは上記の問題に対してかなりの改善が見られ、人間の欲望を生成モデルに組み込むための示唆に富んだ情報を提供しています。 •彼らは、自動化されたテキストから画像への評価指標であるImageRewardが有用であると主張しています。ImageRewardは、実際のユーザーからのプロンプトやMS-COCO 2014に基づくFIDとCLIPスコアと比較して、一貫して人間の嗜好ランキングに合致し、モデルとサンプル間で優れた識別性を示しています。・人間の好みスコアに関する微調整拡散モデルのために、Reward Feedback Learning（ReFL）が提案されています。拡散モデルは生成物に対して確率を提供しないため、ImageRewardの品質の特定性が後のノイズリダクションフェーズで直接的なフィードバック学習を可能にします。ReFLは自動的および手動で広範に評価され、データ拡張や損失再量化など他の方法と比較してその利点が示されています。

「TRLを介してDDPOを使用して、安定したディフュージョンモデルを微調整する」

導入拡散モデル（例：DALL-E 2、Stable Diffusion）は、特に写真のような写真のリアルな画像を生成することで広く成功している生成モデルの一種です。ただし、これらのモデルによって生成される画像は常に人間の好みや意図と一致しているわけではありません。これが整合性の問題が生じます。つまり、「品質」といった人間の好みやプロンプトを介しては表現しにくい意図との整合性がモデルの出力と一致していることを確認する方法は何でしょうか？そこで、強化学習が登場します。大規模言語モデル（LLM）の世界では、強化学習（RL）はモデルを人間の好みに合わせるための非常に効果的なツールとして証明されています。それはChatGPTのようなシステムが優れたパフォーマンスを発揮するための主要なレシピの一つです。より具体的には、ChatGPTが人間のようにチャットするためのReinforcement Learning from Human Feedback（RLHF）の重要な要素です。 Blackらは、「Training Diffusion Models with Reinforcement Learning, Black」という論文で、拡散モデルをRLを活用して目的関数に対して微調整する方法を示しています。これはDenoising Diffusion Policy Optimization（DDPO）と呼ばれる手法を使用します。このブログ記事では、DDPOが生まれた経緯、その動作方法の簡単な説明、およびRLHFワークフローにDDPOを組み込んで人間の美意識により整合したモデルの出力を達成する方法について説明します。そして、新たに統合されたDDPOTrainerとtrlライブラリを使用してモデルにDDPOを適用する方法について、Stable Diffusionでの実行結果を検討します。 DDPOの利点 DDPOは、RLを使用して拡散モデルを微調整する方法に関する唯一の有効な回答ではありません。入る前に、他のRLソリューションとの利点の理解に関して覚えておくべき2つの重要なポイントがあります。…

Learn more about Search Results RLHF - Page 7