Learn more about Search Results SFT - Page 5
- You may be interested
- 「Zoomのプライバシーの微調整が、通話内...
- 混沌からの彫刻芸術:拡散モデル — SMLD
- ローカルLLM推論を10倍速く実行する(244 ...
- ChatGPTにおけるCSVファイルのクエリパフ...
- 「Inflection AIが22,000のGPUを搭載した...
- 「生データから洗練されたデータへ:デー...
- 小さなオーディオ拡散:クラウドコンピュ...
- 「ホラーアイコンのスティーヴン・キング...
- サイボーグとAIの違いは何ですか?
- H1Bビザはデータ分析の洞察に基づいて承認...
- マルチヘッドアテンションを使用した注意...
- データバックフィリングの謎を解く
- 化学エンティティ認識の自動化:ChemNERモ...
- 「アメリカのトップ10データサイエンス企業」
- リアルタイムで命を救うビッグデータ:IoV...
AIにおける幻覚の克服:事実に基づく強化学習ハイブリッドフレームワークが大規模な多モーダルモデルのビジョン・言語の整合性を最適化する方法
追加の事前訓練による画像とテキストのペアリング、または専門的なビジュアルインストラクションチューニングデータセットでの微調整を通じて、大規模言語モデルは多様なモーダルドメインに潜入し、パワフルな大規模マルチモーダルモデルを生み出すことができます。しかし、LMM(Large Multimodal Models)を構築する上で障害があります。特に、多様なデータとテキストのみのデータセットの質と量の間には食い違いがあります。例えば、LMMモデルLLaVAは、事前訓練されたビジュアルエンコーダとインストラクション用に調整された言語モデルを初期化したものです。このモデルは、1800のタスクに対して100M以上の例を使用するテキストのみのモデルと比較して、はるかに少ないインスタンスでトレーニングされます。具体的には、このモデルはわずか150Kの人工的な画像ベースの会話でトレーニングされます。このようなデータ制約のため、ビジュアルと言語のモダリティが正確に整列しない場合があります。 その結果、LMMは、画像が与える文脈と不正確に関連付けられた幻覚的な出力を生成する可能性があります。UC Berkeley、CMU、UIUC、UW-Madison、UMass Amherst Microsoft Research、MIT-IBM Watson AI Labの研究者たちは、LLMMトレーニングのための高品質なビジュアルインストラクションチューニングデータの不在によって引き起こされる問題に対処するために、改良されたマルチモーダル整列のために訓練されたビジョン言語モデルLLaVA-RLHFを提示しています。彼らの主な貢献の1つは、マルチモーダルの整列を強化するために、強化学習からの人間のフィードバックによって報酬信号をキャリブレーションすることです。この手法では、幻覚の認識に焦点を当てた人間の好みを収集し、それらの好みを強化学習に使用します。 この戦略により、比較的安価(例えば、10Kの人間の好みを収集するために$3000)でマルチモーダルの整列が改善される可能性があります。彼らの知識と既存の人間の好みデータに基づいて、報酬モデルが既存の言語モデルを適切に使用できるようにすることを試みる、よりデータ効率の良いオプションが提案されています。 図1:LLMMトレーニングの教示された微調整(SFT)フェーズ中の幻覚の可能性と、報酬モデルの容量が低い問題に対処するために、事実に基づくRLHFがSFTモデルから初期化される方法を示すダイアグラムです。 まず、より高解像度の優れたビジュアルエンコーダと大きな言語モデルを使用して、報酬モデルの全体的な機能を向上させます。第二に、図1に示すように、写真の説明や確定的なマルチチョイスオプションなどの追加情報で報酬信号を補完するファクチュアル・オーグメントドRLHFアルゴリズムを提案します。さらに、Supervised Fine-Tuningステージでは、既存の高品質な人間によるマルチモーダルデータを会話形式に変換して、合成ビジョンインストラクションチューニングデータを拡張することで、LMMの一般的な能力を向上させます。具体的には、Flickr30kをスポットキャプショニングの課題に変換し、VQA-v2とA-OKVQAをマルチラウンドQAタスクに変換し、新しいデータセットを使用してLLaVA-SFT+モデルをトレーニングします。 最後に、実世界の状況でのLMMのマルチモーダルの整列を評価する方法について考えます。特に、幻覚を罰することに注意を払います。彼らが開発したベンチマーク質問であるMMHAL-BENCHは、COCOの12の主要なオブジェクトカテゴリを網羅し、8つのジョブ種別から成ります。彼らの分析によると、このベンチマークデータセットは、特に反幻覚のためのスコアが考慮される場合、人間の評価に非常に近いものです。RLHFでトレーニングされた最初のLMMとして、LLaVA-RLHFは実験的評価で優れたパフォーマンスを発揮しました。LLaVA-Benchでは94%の改善、MMHAL-Benchでは60%の改善、MMBenchでは52.4%の新記録、POPEでは82.7% F1の新記録を達成しました。GitHubでは、コード、モデル、データを一般に提供しています。
清華大学研究者がOpenChatを導入:ミックス品質データでオープンソース言語モデルを拡張する新しい人工知能AIフレームワークを紹介
自然言語処理の急速な進化において、大規模な言語モデルの能力は指数関数的に成長しています。研究者や組織は世界中で、これらのモデルの性能を向上させるために、さまざまな自然言語理解と生成のタスクで、これらのモデルの限界に挑戦し続けています。これらのモデルの進展の中でも重要な要素の一つは、それらが依存するトレーニングデータの品質です。この記事では、オープンソースの言語モデルの品質向上への取り組みについての研究論文について詳しく解説します。この研究では、混合品質のデータを使用してオープンソースの言語モデルを向上させる方法とその技術、自然言語処理への影響について探求しています。 エキスパートが生成したデータと最適でないデータなどの混合品質のデータは、言語モデルのトレーニングにおいて重要な課題です。GPT-4のような最新のモデルによって生成されるエキスパートデータは通常高品質であり、トレーニングのゴールドスタンダードとして機能します。一方、GPT-3.5のような古いモデルからの最適でないデータは品質が低く、トレーニング中に課題を提供します。この議論対象の研究では、この混合品質のデータのシナリオに対処し、オープンソースの言語モデルの指示に従う能力を向上させることを目指しています。 提案された方法に入る前に、現在の言語モデルのトレーニングで使用されている現行の方法とツールについて簡単に触れてみましょう。これらのモデルを向上させる一つの一般的なアプローチは、教師ありのFine-Tuning(SFT)です。SFTでは、高品質のエキスパートデータを使用して、指示に従うタスクでモデルをトレーニングし、正しい応答の生成を導きます。さらに、強化学習Fine-Tuning(RLFT)の方法が人気を集めています。RLFTは人間からの好みのフィードバックを収集し、これらの好みに基づいて報酬を最大化するようモデルをトレーニングします。 清華大学は、オープンソースの言語モデルを混合品質のデータを使用して向上させる革新的な方法を提案しました。その中心には、Conditioned Reinforcement Learning Fine-Tuning(C-RLFT)という新しいトレーニング方法があり、このトレーニング方法はトレーニングプロセスを簡素化し、報酬モデルへの依存を減らします。 C-RLFTは、品質に基づいて異なるデータソースを区別することにより、言語モデルの入力情報を豊かにします。この区別は、クラス条件付きポリシーの実装によって達成されます。このポリシーは、モデルがエキスパートが生成した高品質のデータと最適でないデータ(品質が低い)を区別するのに役立ちます。これにより、C-RLFTはモデルに明示的な信号を提供し、指示に従う能力を向上させることが可能です。 OpenChat、特にopen chat-13 bモデルのパフォーマンスは、さまざまなベンチマークで評価されています。その中でも注目すべきベンチマークの一つは、AlpacaEvalです。ここでは、モデルの指示に従う能力がテストされます。Openchat-13bは、LLaMA-2などの13兆パラメータのオープンソースモデルよりも優れた結果を示し、指示に従うタスクで高い勝率と優れたパフォーマンスを達成し、C-RLFT方法の有効性を示しています。 研究チームが強調するデータの品質の重要性は、重要な点です。数量は限られていますが、エキスパートデータは言語モデルのパフォーマンスを向上させるために重要な役割を果たします。エキスパートデータと最適でないデータを区別し、C-RLFTの方法と組み合わせることで、モデルのパフォーマンスを劇的に向上させることができます。この結果は、言語モデルのトレーニングの成功を保証するために、品質の高いトレーニングデータを選定することの重要性を強調しています。 意義と今後の研究 OpenChatのフレームワークとC-RLFTメソッドは、自然言語処理の将来において有望です。このアプローチは、トレーニングプロセスを簡素化し、複雑な報酬モデルへの依存度を低減することにより、研究や開発の新たな可能性を開拓します。また、品質の異なるデータへの対応も課題とされており、多様なトレーニングデータを効果的に活用する手段を提供します。 まとめると、OpenChatは品質の異なるデータを活用してオープンソースの言語モデルを強化する革新的な解決策を提案しています。C-RLFTメソッドを導入することで、このアプローチはベンチマークでのパフォーマンスに表れているように、優れた指示に従う能力を実現しています。自然言語処理が進化し続ける中で、OpenChatのような革新的な技術はより効率的かつ効果的な言語モデルのトレーニングを可能にします。
「Amazon SageMakerを使用したRLHFによるLLMsの改善」
このブログ投稿では、人気のあるオープンソースのRLHFリポTrlxを使用して、Amazon SageMaker上でRLHFを実行する方法を説明します私たちの実験を通じて、Anthropicが提供する公開可能なHelpfulness and Harmlessness(HH)データセットを使用して、大規模な言語モデルの役立ち度または無害性を向上させるためにRLHFを使用する方法を示しますこのデータセットを使用して、ml.p4d.24xlargeインスタンスで実行されているAmazon SageMaker Studioノートブックを使用して実験を行います最後に、私たちの実験を再現するためのJupyterノートブックを提供します
無料でGoogle Colab上でQLoraを使用してLLAMAv2を微調整する
「Google Colabで最も影響力のあるオープンソースモデルの微調整方法を無料で学びましょう」
「Llama 2内のストップ生成の課題」
メタによるLlama 2の発売は、コミュニティ内で興奮を引き起こし、以前は...を通じてのみアクセス可能だった優れた大規模言語モデルの時代の幕開けを告げています
このAI研究は、DISC-MedLLMという包括的な解決策を提案し、大規模言語モデル(LLM)を活用して正確な医療応答を提供します
テレメディシンの台頭により、医療の提供方法が変わり、プロフェッショナルネットワークを広げ、価格を下げ、遠隔医療相談を可能にしました。さらに、知的医療システムにより、医療情報抽出、薬物推奨、自動診断、健康問い合わせなどの機能が追加され、オンライン医療サービスが改善されました。知的医療システムの構築には進歩がありましたが、これまでの研究は特定の問題や疾患に焦点を当てたものであり、実験的な開発と実世界での使用との間にはギャップがあります。このギャップを埋めるためには、さまざまな医療シナリオに対する完全なソリューションと、消費者向けの最高水準のエンドツーエンドの会話型医療サービスが必要です。 最近の大規模言語モデルは、人間と意味のある対話を行い、指示に従う驚異的な能力を示しています。これらの進展は、医療相談のシステム開発の新たな可能性を創出しました。ただし、医療相談に関わる状況は通常複雑であり、一般領域のLLMの範囲外です。図1は実世界の医療相談のイラストです。この図は2つの特性を示しています。まず、各段階で会話を理解し、適切に応答するために、詳細で信頼性のある医学知識が必要です。一般領域のLLMは、特定のケースに関連しない出力を提供し、重大な幻想の懸念が生じます。 次に、医療相談には通常、患者の健康状態に関する詳細な知識を得るために何度かの対話が必要であり、各対話ラウンドには目標があります。しかし、広範な領域のLLMは、ユーザーの健康状態の詳細に関する限定的なマルチターンのクエリング能力を持ち、シングルターンのエージェントです。これらの2つの発見に基づいて、Fudan University、Northwestern Polytechnical University、University of Torontoの研究者らは、医療LLMが徹底的で信頼性のある医学知識をエンコードし、実世界の医療会話の分布に準拠するべきだと主張しています。彼らはInstruction Tuningの成功に触発され、医療LLMのトレーニングのための高品質な監督付きファインチューニングデータセットの作成方法を調査し、医学の知識と相談行動のパターンを含めることを検討しています。 実際の実践では、彼らは3つの異なる方法を使用してサンプルを作成します: ・医学知識グラフに基づくサンプルの開発。実世界の相談データセットから収集した患者のクエリ分布に従って、部門指向のアプローチを使用して医学知識ネットワークから知識トリプルを選択します。各トリプルに対してGPT-3.5を使用してQAのペアをfew-shot作成します。その結果、50,000のサンプルが得られます。 ・実世界の対話の再構築。LLMの改善のために、医療フォーラムから収集した相談記録は適切な情報源です。これらの文書で使用される言語はカジュアルであり、専門用語は一貫して提示されず、さまざまな医療従事者によって異なる表現スタイルが使われます。そのため、実際のケースを使用してGPT-3.5を使用してディスカッションを再作成します。その結果、420,000のサンプルが得られます。 ・サンプルの収集後、人間の嗜好。さまざまな相談セッティングを網羅する実世界の医療対話記録から、限られたエントリのグループを手動で選択し、特定の例を人間の意図に合わせて書き直します。また、人間によるガイド付き再構築後の各ディスカッションの全体的な品質を保証します。その結果、2,000のサンプルが得られます。DISC-MedLLMは、13Bのパラメータを持つ一般領域の中国語LLMの上に新たに作成されたSFTデータセットを使用して、2段階のトレーニングプロセスでトレーニングされます。モデルのパフォーマンスを2つの観点から評価し、マルチターンのディスカッションでの体系的な相談能力とシングルターンの対話での正確な応答能力を確認します。 図1: 患者と実際の医師との会話の一例。医師の応答で言及される医療エンティティは青色でハイライトされています。各ラウンドでは、医師のアクションには特定の意図が示されます:(1)ラウンド1では、潜在的なシナリオを特定するのに役立つデータを収集するためにさらなる調査が行われます。(2)ラウンド2では、予備的な診断が行われ、適切なアドバイスが提供されます。(3)ラウンド3では、医療状態に応じて特定の治療選択肢が提示されます。 彼らは、3つの公開医療データセットから収集された複数選択問題のベンチマークを作成し、このベンチマークを使用してモデルの正確性を単一ターンの評価について評価します。マルチターンのレビューのために、まずGPT-3.5を使用して優れたコンサルテーションケースの小さなコレクションを作成し、患者をシミュレートしてモデルと対話します。GPT-4を使用して、モデルの積極性、正確性、助けになる度、および言語的品質を評価します。実験結果は、DISCMedLLMがGPT-3.5に劣るものの、同じパラメータを持つ医療大規模HuatuoGPTよりも平均10%以上優れていることを示しています。 さらに、DISC-MedLLMは、GPT-3.5、HuatuoGPT、BianQueなどのベースラインモデルよりも、シミュレートされた医療相談設定全体で優れたパフォーマンスを発揮します。特に医療部門と患者の意図が関わるケースでは、DISC-MedLLMは他の中国の医療LLMに比べて優れた結果を出します。
「Google Researchが探求:AIのフィードバックは、大規模な言語モデルの効果的な強化学習において人間の入力を置き換えることができるのか?」
人間のフィードバックは、機械学習モデルを改善し最適化するために不可欠です。近年、人間のフィードバックからの強化学習(RLHF)は、大規模な言語モデル(LLM)を人間の好みに合わせるのに非常に効果的であることが証明されていますが、高品質の人間の好みのラベルを収集するという重要な課題があります。Google AIの研究者たちは、研究の中でRLHFとAIフィードバックからの強化学習(RLAIF)を比較しようと試みました。 RLAIFは、人間のアノテーターに頼らずに事前に訓練されたLLMによって優先順位が付けられる技術です。 この研究では、研究者たちは要約タスクの文脈でRLAIFとRLHFを直接比較しました。彼らは、テキストが与えられた場合に2つの候補応答の優先順位ラベルを提供することを課されました。これには、市販の大規模言語モデル(LLM)を利用して推測された優先順位に基づいて報酬モデル(RM)をトレーニングし、対照的な損失を組み込むことが含まれています。最後のステップでは、強化学習の技術を用いてポリシーモデルを微調整することが求められました。上記の画像は、RLAIF(上)とRLHF(下)を示すダイアグラムを示しています。 上記の画像は、Redditの投稿に対してSFT、RLHF、RLAIFのポリシーによって生成された例の要約を示しています。SFTはキーポイントを捉えることができず、RLHFとRLAIFはより高品質の要約を生成しました。 この研究で示された結果は、次の2つの異なる方法で評価された場合に、RLAIFがRLHFと同等のパフォーマンスを達成していることを示しています: まず、RLAIFとRLHFのポリシーはそれぞれの場合において、監視された微調整(SFT)ベースラインよりも人間の評価者から好意を受け取ったことが71%と73%のケースで観察されました。重要なことに、統計分析によって2つのアプローチ間の勝率に有意差は見られませんでした。 次に、RLAIFとRLHFによって生成された結果を直接比較するように人間に求めた場合、両方に対して同等の好みが表明され、それぞれの方法について50%の勝率となりました。これらの結果から、RLAIFは人間の注釈に依存せず、魅力的なスケーラビリティ特性を持つRLHFの代替手段であることが示唆されます。 この研究では要約タスクのみを探求しており、他のタスクへの一般化についてのオープンな問題が残されています。さらに、この研究では、費用対効果の観点から人間のラベリングと比較して大規模言語モデル(LLM)の推論がどれほど費用対効果があるかの推定は含まれていません。研究者は将来的にこの領域を探求することを望んでいます。
「Amazon SageMaker JumpStartでのテキスト生成のために、Llama 2を微調整する」
「本日は、Amazon SageMaker JumpStartを使用して、MetaによってLlama 2モデルを微調整する機能を発表できることを喜んでお知らせしますLlama 2ファミリーの大規模言語モデル(LLM)は、事前学習および微調整された生成テキストモデルのコレクションで、7億から700億のパラメータのスケールで提供されていますLlama-2-chatと呼ばれる微調整されたLLMは、対話の使用事例に最適化されています」
「大規模な言語モデルの探索-パート3」
「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップしたり、自分が興味を持っている分野を探求するために、自由に進めてください以下にはいくつかの...」
「Llama 2:ChatGPTに挑むオープンソースの深層ダイブ」
「プログラミングや創造的な文章作成などの特定の領域で有望な複雑な推論タスクをこなす大規模言語モデル(LLM)が存在しますしかし、LLMの世界はただプラグアンドプレイの楽園ではありません使いやすさ、安全性、計算要件において課題があります本記事では、Llama 2の能力について詳しく掘り下げながら、[…]を提供します」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.