Search Results RLHF

新しいAIの研究は、事前学習済みおよび指示微調整モデルのゼロショットタスクの一般化性能を改善するために、コンテキスト内の指導学習（ICIL）がどのように機能するかを説明しています

Large Language Models (LLMs)は、few-shot demonstrations、またはin-context learningとしても知られるプロセスによって、推論中にターゲットタスクに適応できることが示されています。この能力は、モデルのサイズが拡大するにつれて、LLMsが新たな特徴を表示することでますます明らかになっています。その中でも、指示に従って未知のタスクに一般化する能力は注目されています。そのためには、Instruction tuning、またはRLHFと呼ばれる教示学習アプローチが、この能力を高めるために提案されています。しかしながら、これまでの研究は主にfine-tuningに基づく教示学習技術に焦点を当ててきました。モデルは、多くのタスクと指示に基づいてマルチタスクでfine-tuningされており、多くのバックプロパゲーション手順が必要です。 KAISTとLG Researchの研究者グループは、in-context learningを通じて推論中に指示に従う学習（ICIL）が、既存の事前学習モデルや特定の指示に従うように特別に調整されたモデルの両方にとって有利であることを示しています（図1参照）。ICILで使用されるプロンプトには、タスクの教育、入力、出力の各インスタンスである多くのクロスタスクの例が含まれています。デモンストレーションに使用される機能を評価セットから完全に除外し、すべての評価タスクに対して同じ一連のプロンプトを使用するため、ICILはゼロショット学習アプローチです（図2参照）。図1： SUPERNIベンチマークを使用して評価された119の評価ジョブの平均パフォーマンス。事前学習済みおよび指示に基づいたfine-tuningされたLLMsの両方がICILから利益を得ることができます。ICILのためのいくつかの例セットの標準偏差エラーバーと平均スコアを示しています。彼らは、さまざまなダウンストリームタスクやモデルサイズに適したシンプルなヒューリスティックベースのサンプリング方法を使用して、固定された例セットを作成します。すべてのジョブに対して同じ固定されたデモンストレーションセットを先頭に追加することで、新しいターゲットタスクやモデルのベースラインのゼロショットパフォーマンスを評価および複製することができます。図1は、指示に従うようにfine-tuningされていないさまざまな事前学習済みLLMsのゼロショットチャレンジでの一般化性能を大幅に向上させることを示しています。図2：コンテキスト学習教示（ICIL）の概要。すべてのタスクに対して事前学習済みおよび指示に基づいたfine-tuningされたLLMsを評価するために、指示、入力、出力の各インスタンスで構成される事前定義済みのデモンストレーションセットを構築します。デモンストレーションに含まれるタスクと評価されるタスクが厳密に留保されることにより、ゼロショットの一般化シナリオが保証されます。彼らのデータは、指示に明確な応答オプションを備えた分類タスクの選択が、ICILの成功の鍵であることを示しています。重要なことは、ICILを使用した小さいLLMsでも、ICILを使用しない大きな言語モデルよりも優れたパフォーマンスを発揮することです。たとえば、6BサイズのICIL GPT-Jは、175Bサイズの標準的なゼロショットGPT-3 Davinciよりも30以上優れています。さらに、ICILを教示に基づいたfine-tuningされたLLMsに追加することで、特に100B以上の要素を持つモデルに対するゼロショットの指示に従う能力が向上することを示しています。これは、ICILの影響が指示の修正の影響と加算的であることを示唆しています。これは、以前の研究がfew-shot in-context learningにはターゲットタスクと類似した例を取得する必要があると示唆していたのとは対照的に、生成ターゲットタスクにも当てはまります。さらに驚くべきことに、各例の入力インスタンス分布にランダムなフレーズを代わりに使用しても、パフォーマンスに顕著な影響はありません。このアプローチに基づいて、LLMsは指示中で提供される応答オプションと各デモンストレーションの生成との対応関係を推論中に学ぶため、指示、入力、出力の複雑な関係に依存するのではなく、ICILがLLMsを目標指示に集中させ、目標タスクの応答分布の信号を見つけるのを支援することが目的です。以下のPaperとGithubをご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している15k+ ML SubReddit、Discordチャンネル、およびEmailニュースレターにもぜひご参加ください。…

「UCバークレーの研究者たちは、Chain of Hindsight（CoH）という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」

過去数年間、大規模なニューラルネットワークが研究者の注目を集めています。これは、自然言語理解や難解な数学の方程式の解決、さらにはタンパク質構造の予測など、さまざまなタスクで優れたパフォーマンスを発揮するためです。しかし、これらのモデルが社会に建設的な貢献をするためには、人間の価値観に合致し、人間の好みを考慮することが重要です。ヒューマンフィードバックの利用は、これを達成するための最も重要な要素の一つであり、正確性、公平性、バイアスなどの幅広い指標に基づいてこれらのモデルのパフォーマンスを評価し、より倫理的な出力を生成するための改善方法を提供します。ユーザーフィードバックの組み込み効率を向上させるために、研究者たちは過去数年間にさまざまなヒューマンインザループシステムのアプローチを試行してきました。その結果、ChatGPTとInstructGPTは、ヒューマンフィードバックを利用して驚くべき結果を示しました。これらの言語モデリングのパフォーマンスの向上は、主に教師ありファインチューニング（SFT）と人間のフィードバックによる強化学習（RLHF）アプローチによる戦略によるものとされています。これらの戦略は、言語モデルのパフォーマンスに関する有望な結果を達成する上で大きく貢献していますが、それぞれに固有の欠点があります。SFTは主に人間の注釈に頼っており、これらのモデルは使用が困難でデータの利用効率も低いです。一方、強化学習は報酬関数に基づいて動作するため、これらのモデルを最適化することは非常に困難です。これらの問題に対処するため、カリフォルニア大学バークレー校の研究者たちは、フィードバックを文に変換し、モデルがフィードバックを理解するためにファインチューニングするという新しい技術を開発しました。この技術は、言語で提供される大量のフィードバックを人間がどのように処理するかに大いに触発されたものです。この技術の設計時の研究者の目標は、強化学習を使用せずにすべてのフィードバックを十分に活用する一方で、SFTとRLHFの強みを組み合わせることで、モデルがより正確かつ効果的にさまざまなタスクを実行できるようにすることでした。研究者たちは、人間は言語形式の豊かなフィードバックから効果的に学ぶことができるという事実を利用しました。事前学習された言語モデルが文脈で効果的に学習する能力が優れていることを考えると、すべてのフィードバックを文に変換し、モデルにフィードバックに従うように学習させる可能性について研究者たちは疑問を抱きました。具体的には、研究者たちはモデルをファインチューニングして結果を予測させる一方で、1つ以上のソートされた結果とそのフィードバックを比較の形式で使用することを提案しました。CoHは、訓練中にランダムに1つ以上のモデルの出力を選択し、比較の形で肯定的なフィードバックと否定的なフィードバックの両方を含む文を構築するためにそれらを利用します。例えば、2つの例文は「以下は悪い要約です」と「以下の要約はより良いです」となります。モデルは推論時に肯定的なフィードバックを使用して望ましい出力を生成します。 CoHのアプローチにより、モデルは肯定的なフィードバックと否定的なフィードバックの両方から学習することができ、否定的な属性やエラーを特定して修正することができます。この戦略には、より有機的なスタイルのフィードバックやトレーニングシステムなど、さまざまな利点があります。また、CoH技術は、研究者による数多くの実験的評価において、言語モデルと人間の好みの相関において以前のアプローチを大幅に上回る成果を behしました。この方法はヒューマン評価で好まれ、要約やディスカッションのタスクでも非常に優れた結果を behしました。カリフォルニア大学バークレー校のチームは、CoHが将来的に自動や数値のフィードバックなど、さまざまなタイプのフィードバックを使用する際に大きな潜在能力を持つと強く信じています。

「ChatGPTなどの大規模言語モデル(LLM)がファインチューニングにおいて教師あり学習ではなく強化学習を使用する理由」の5つの理由

過去数ヶ月間でのGenerative Artificial Intelligenceの大成功により、Large Language Modelsは絶えず進化と改善を遂げています。これらのモデルは、いくつかの注目に値する経済的および社会的変革に貢献しています。OpenAIが開発した人間と同様に有意義なテキストを生成できる自然言語処理モデルであるChatGPTは、質問に答えたり、長い段落を要約したり、コードやメールを作成したりすることができます。Pathways Language Model（PaLM）、Chinchillaなどの他の言語モデルも、人間を模倣する上で優れたパフォーマンスを示しています。 Large Language Modelsは、fine-tuningに強化学習を使用しています。強化学習は、報酬システムに基づくフィードバック駆動の機械学習手法です。エージェントは、特定のタスクを完了し、その行動の結果を観察することで、環境でのパフォーマンスを学習します。エージェントは、良いタスクごとに正のフィードバックを受け取り、悪い行動ごとにペナルティを受けます。ChatGPTのようなLLMは、強化学習のおかげで優れたパフォーマンスを発揮しています。 ChatGPTは、モデルのバイアスを最小化するためにHuman Feedbackからの強化学習（RLHF）を使用しています。しかし、なぜ教師あり学習ではなく強化学習を使用するのでしょうか？基本的な強化学習のパラダイムは、モデルをトレーニングするために使用されるラベルで構成されています。しかし、なぜこれらのラベルを教師あり学習のアプローチで直接使用できないのでしょうか？AIおよびMLの研究者であるSebastian Raschkaは、なぜ教師あり学習の代わりにfine-tuningに強化学習が使用されるのかについて、いくつかの理由を彼のツイートで共有しています。教師あり学習を使用しない最初の理由は、それがランクのみを予測するためです。それは整合性のある応答を生成しないだけでなく、モデルはトレーニングセットに似た応答に高いスコアを与えることを学習します。一方、RLHFはランキングスコアだけでなく、生成された応答の品質を推定するように訓練されます。 Sebastian Raschkaは、教師あり学習を使用してタスクを制約最適化問題として再定式化するアイデアを共有しています。損失関数は、出力テキストの損失と報酬スコアの項を組み合わせます。これにより、生成された応答とランクの品質が向上します。ただし、このアプローチは、正しく質問-回答のペアを生成することを目的とする場合にのみ成功します。しかし、ユーザーとChatGPTの間で整合性のある会話を可能にするためには、累積報酬も必要であり、これは教師あり学習では提供できません。教師あり学習は、トークンレベルの損失を最適化するためにクロスエントロピーを使用します。テキストパッセージのトークンレベルでは、応答の個々の単語を変更しても全体の損失にはほとんど影響がありませんが、整合性のある会話を生成するという複雑なタスクでは、単語が否定されると文脈が完全に変わる可能性があります。したがって、文脈と一貫性を考慮するためには、教師あり学習に頼ることは十分ではなく、RLHFが必要です。教師あり学習はモデルをトレーニングするために使用できますが、経験的にはRLHFの方が優れたパフォーマンスを発揮することがわかっています。2022年の論文「Learning to Summarize from Human Feedback」は、RLHFがSLよりも優れた性能を発揮することを示しています。その理由は、RLHFが整合性のある会話の累積報酬を考慮する一方、SLはトークンレベルの損失関数のために捉えることができないためです。 InstructGPTやChatGPTなどのLLMは、教師あり学習と強化学習の両方を使用しています。この2つの組み合わせは、最適なパフォーマンスを得るために重要です。これらのモデルでは、モデルはまずSLを使用して基本的な構造と内容を学習し、その後RLを使用してさらに更新されます。SLステージでは、モデルはタスクの基本的な構造と内容を学習しますが、RLHFステージでは、モデルの応答をより正確に洗練します。…

KAIST（韓国科学技術院）からの新しいAI研究、FLASK（スキルセットに基づく言語モデルの細かい評価フレームワーク）を紹介

驚くべきことに、LLMは人間の価値観と一致し、役立ち、正直な、無害な応答を提供することが証明されています。特に、この能力は、事前学習済みLLMをさまざまなタスクやユーザーの好みに合わせて微調整する方法、例えば指示調整や人間のフィードバックからの強化学習（RLHF）によって大幅に向上しています。最近の研究では、バイナリの人間/機械の選択に基づいてモデルを評価することで、プロプライエタリなLLMからデータセット蒸留によってトレーニングされたオープンソースのモデルが、プロプライエタリなLLMとの性能差を縮めることができると示唆されています。自然言語処理（NLP）の研究者は、現在の評価設定の欠点に対処するために、FLASK（Fine-grained Language Model Evaluation based on Alignment Skill Sets）と呼ばれる新しい評価プロトコルを提案しています。このプロトコルは、従来の粗いスコアリングプロセスをより詳細なスコアリング設定に洗練させ、与えられた指示に応じてインスタンスごとのタスク非依存のスキル評価を可能にします。言語モデルのパフォーマンスを徹底的に評価するために、研究者は以下の4つの主要な能力を定義し、さらに12の詳細なスキルに分解します：論理的な推論（正確で堅牢で効果的な意味で）事実と常識は背景知識の例です。問題解決（把握、洞察、完了、メタ認知）ユーザーの好みとの整合性（簡潔さ、読みやすさ、安全性）研究者はまた、インスタンスに関するドメイン、難易度のレベル、および関連するスキルセット（スキルセット）の情報をアノテートします。その後、人間の評価者または最先端のLLM1が各インスタンスの与えられたスキルに1から5のスコアを付けます。スキルセット、ターゲットドメイン、難易度に基づいてモデルのパフォーマンスを詳細に研究することにより、FLASKはLLMのパフォーマンスの包括的なイメージを提供します。彼らはモデルベースの評価と人間に基づく評価の両方にFLASKを使用して、異なるオープンソースとプロプライエタリソースからのLLMを評価および対比します。各ソースには、モデルサイズと微調整の方法があります。研究者はいくつかの結果を示しています：彼らは、最も先進的なオープンソースのLLMでも、論理的思考と背景知識の能力においてプロプライエタリなLLMと比べて約25％と10％性能が低いことを発見しました。彼らはまた、さまざまなスキルを学ぶためには、異なるサイズのモデルが必要であることに気付いています。例えば、簡潔さや洞察力などのスキルは、ある一定のサイズに達した後で天井に達しますが、より大きなモデルは論理的な正確性のトレーニングからより多くの恩恵を受けます。彼らはまた、最先端のプロプライエタリLLMでも、FLASK-HARDセット（FLASK評価セットの難しい例のみを使用）で最大50％のパフォーマンス低下があることを示しています。研究者と実践者の両方がLLMのFLASKによる徹底した分析に利益を得ることができます。FLASKはモデルの現在の状態を正確に理解し、モデルの整合性を向上させるための明示的な手順を提供します。例えば、FLASKの結果によれば、プライベートLLMを作成する企業は、FLASK-HARDセットで高いスコアを獲得するモデルを開発する必要があります。同時に、オープンソースコミュニティは、論理的思考と背景知識の能力が高い基本的なモデルの作成に取り組むべきです。FLASKは、LLMの詳細な比較を提供することにより、実践者が自分のニーズに最も適したモデルを推奨するのに役立ちます。研究者は、ユーザーの指示に忠実に従うために重要な以下の4つのコアタレントを、合計12のスキルに分解して特定しました： 1. 推論の安定性…

LLMのトレーニングの異なる方法

大規模言語モデル（LLM）の領域では、さまざまなトレーニングメカニズムがあり、異なる手段、要件、目標がありますそれぞれが異なる目的を果たすため、混同しないようにすることが重要です...

ラミニAIに会ってください：開発者が簡単にChatGPTレベルの言語モデルをトレーニングすることができる、革命的なLLMエンジン

LLMをゼロから教えることは難しいです。なぜなら、微調整されたモデルがなぜ失敗するのかを理解するのには時間がかかり、小さなデータセットに対する微調整の反復サイクルは通常数ヶ月かかるからです。一方、プロンプトの調整の反復サイクルは数秒で行われますが、数時間後には性能が安定します。倉庫のギガバイトのデータはプロンプトのスペースに収まりません。 Laminiライブラリのわずか数行のコードを使うことで、機械学習に精通していない開発者でも、巨大なデータセット上でChatGPTと同等の高性能LLMをトレーニングすることができます。Lamini.aiによってリリースされたこのライブラリの最適化は、プログラマが現在利用できるものを超えており、RLHFなどの複雑な技術や幻想抑制などの簡単な技術も含まれています。OpenAIのモデルからHuggingFaceのオープンソースのモデルまで、Laminiは1行のコードでさまざまなベースモデルの比較を実行することを簡単にします。 LLMを開発するための手順： Laminiは、微調整されたプロンプトとテキストの出力が可能なライブラリです。 Laminiライブラリを使用して簡単に微調整やRLHFを行うこれは、指示に従うLLMをトレーニングするために必要なデータを作成するために商業利用が承認された最初のホストされたデータジェネレータです。上記のソフトウェアを使用して指示に従うためのデータを作成するための最小限のプログラミング作業で無料でオープンソースのLLMを使用できます。ベースモデルの英語の理解力は、一般の使用には十分です。しかし、自分の業界の専門用語や標準を教える場合、プロンプトの調整だけでは不十分であり、ユーザーは独自のLLMを開発する必要があります。 LLMは、以下の手順に従うことでChatGPTのようなユーザーケースを処理できます： ChatGPTのプロンプトの調整または他のモデルの使用。チームは使いやすさを最適化し、LaminiライブラリのAPIを使用してモデル間を素早くプロンプト調整し、1行のコードでOpenAIとオープンソースのモデルを切り替えることができます。大量の入出力データを作成。これにより、それが受け取ったデータにどのように反応すべきかを示します。Laminiライブラリを使用してわずか100個から50,000個のデータポイントを生成するための数行のコードを含むリポジトリをリリースしました。このリポジトリには、パブリックで利用可能な50,000のデータセットが含まれています。豊富なデータを使用して開始モデルを調整。データジェネレータに加えて、合成データでトレーニングされたLamini調整LLMも共有しています。微調整済みモデルをRLHFに通す。 Laminiは、RLHFを操作するために大規模な機械学習（ML）および人間のラベリング（HL）スタッフを必要としなくなります。クラウドに置く。アプリケーションでAPIのエンドポイントを呼び出すだけです。 37,000個の生成された指示（70,000個のフィルタリング後）でPythia基本モデルをトレーニングした後、オープンソースの指示に従うLLMをリリースしました。Laminiは、従来の手間をかけずにRLHFと微調整の利点をすべて提供します。まもなく、手続き全体を管理するようになるでしょう。チームは、エンジニアリングチームのトレーニングプロセスを簡素化し、LLMのパフォーマンスを大幅に向上させることに興奮しています。反復サイクルをより速く効率的に行うことができれば、より多くの人々がプロンプトの調整だけでなく、これらのモデルを構築できるようになることを願っています。

「回答付きのトップ50のAIインタビューの質問」

はじめに AIの面接の準備をしており、トップ50のAI面接質問の包括的なリストをお探しですか？それなら、探す必要はありません！このガイドでは、人工知能のさまざまな側面をカバーするさまざまな質問をまとめました。求職者、学生、または単にAIに興味がある方に、これらの質問のコレクションは知識を磨き、AIの面接で成功するのに役立ちます。これらの質問は、初級から上級のトピックまで、AIの理解をテストします。トップ50のAI面接質問面接で成功するためのトップ50のAI面接質問のリストです。AIのエキサイティングな世界に飛び込んで、面接の結果を成功させるために自分自身を装備しましょう。人工知能基礎レベルの面接質問 Q1. 人工知能とは何ですか？回答：人工知能（AI）は、人間の知能を機械にシミュレートし、問題解決、学習、意思決定など、通常人間の知能を必要とするタスクを実行できるようにすることを指します。 Q2. AIにおけるデータ前処理の重要性を説明してください。回答：データの前処理はAIにおいて重要であり、生データをクリーニング、変換、整理して、AIアルゴリズムに適した品質の高いデータにすることを含みます。データの前処理により、ノイズを除去し、欠損値を処理し、データを標準化し、次元を削減することができます。これにより、AIモデルの精度と効率が向上します。 Q3. ニューラルネットワークにおける活性化関数の役割は何ですか？回答：活性化関数は、ニューラルネットワークにおいて重要な役割を果たします。活性化関数は入力の重み付き和を変換し、ニューロンの出力を決定します。活性化関数により、ニューラルネットワークは複雑な関係をモデル化し、非線形性を導入し、学習と収束を促進することができます。 Q4. 教師あり学習、教師なし学習、強化学習を定義してください。回答：教師あり学習は、入力データが対応する目的の出力やターゲットとペアになったラベル付きの例を使用してモデルを訓練することを指します。教師なし学習は、ラベルのないデータからパターンや構造を見つけることを目的とします。強化学習は、報酬と罰を使ってエージェントを訓練し、環境での行動から学習することを目的とします。 Q5. 機械学習における次元の呪いとは何ですか？回答：次元の呪いとは、高次元のデータを扱う際の課題を指します。次元の数が増えると、データはますますまばらになり、データ点間の距離は意味をなさなくなります。これにより、分析や正確なモデルの構築が容易になります。 Q6. AIで使用される異なる探索アルゴリズムについて説明してください。回答：AIで使用される異なる探索アルゴリズムには、深さ優先探索、幅優先探索、一様費用探索、A*探索、ヒューリスティック探索、遺伝的アルゴリズムなどがあります。これらのアルゴリズムは、探索空間を系統的に探索することで、最適または近似最適な解を見つけるのに役立ちます。 Q7.…

「Llama 2が登場しました – Hugging Faceで手に入れましょう」

はじめに Llama 2は、Metaが本日リリースした最新のオープンアクセスの大規模言語モデルのファミリーです。私たちはHugging Faceとの包括的な統合を完全にサポートすることで、このリリースを支援しています。Llama 2は非常に寛容なコミュニティライセンスでリリースされ、商業利用も可能です。コード、事前学習モデル、ファインチューニングモデルはすべて本日リリースされます🔥 私たちはMetaとの協力により、Hugging Faceエコシステムへのスムーズな統合を実現しています。Hubで12のオープンアクセスモデル（3つのベースモデルと3つのファインチューニングモデル、オリジナルのMetaチェックポイントを含む）を見つけることができます。リリースされる機能と統合の中には、以下のものがあります：モデルカードとライセンスを備えたHub上のモデル。 Transformersの統合単一のGPUを使用してモデルの小さなバリアントをファインチューニングするための例高速かつ効率的なプロダクションレディの推論のためのテキスト生成インファレンスとの統合インファレンスエンドポイントとの統合目次 Llama 2を選ぶ理由デモインファレンス Transformersを使用する場合インファレンスエンドポイントを使用する場合 PEFTによるファインチューニング追加リソース結論 Llama 2を選ぶ理由…

メタからのLlama 2基盤モデルは、Amazon SageMaker JumpStartで利用可能になりました

「本日、Metaによって開発されたLlama 2 ファウンデーションモデルがAmazon SageMaker JumpStartを通じてお客様に提供できることを喜んでお知らせしますLlama 2 ファミリーは、7兆から700兆のパラメータを持つ事前学習および微調整済みの生成テキストモデルのコレクションです微調整済みのLLMはLlama-2-chatと呼ばれています」

「Hugging Faceにおけるオープンソースのテキスト生成とLLMエコシステム」

テキスト生成と対話技術は古くから存在しています。これらの技術に取り組む上での以前の課題は、推論パラメータと識別的なバイアスを通じてテキストの一貫性と多様性を制御することでした。より一貫性のある出力は創造性が低く、元のトレーニングデータに近く、人間らしさに欠けるものでした。最近の開発により、これらの課題が克服され、使いやすいUIにより、誰もがこれらのモデルを試すことができるようになりました。ChatGPTのようなサービスは、最近GPT-4のような強力なモデルや、LLaMAのようなオープンソースの代替品が一般化するきっかけとなりました。私たちはこれらの技術が長い間存在し、ますます日常の製品に統合されていくと考えています。この投稿は以下のセクションに分かれています：テキスト生成の概要ライセンス Hugging FaceエコシステムのLLMサービス用ツールパラメータ効率の良いファインチューニング（PEFT）テキスト生成の概要テキスト生成モデルは、不完全なテキストを完成させるための目的で訓練されるか、与えられた指示や質問に応じてテキストを生成するために訓練されます。不完全なテキストを完成させるモデルは因果関係言語モデルと呼ばれ、有名な例としてOpenAIのGPT-3やMeta AIのLLaMAがあります。次に進む前に知っておく必要がある概念はファインチューニングです。これは非常に大きなモデルを取り、このベースモデルに含まれる知識を別のユースケース（下流タスクと呼ばれます）に転送するプロセスです。これらのタスクは指示の形で提供されることがあります。モデルのサイズが大きくなると、事前トレーニングデータに存在しない指示にも一般化できるようになりますが、ファインチューニング中に学習されたものです。因果関係言語モデルは、人間のフィードバックに基づいた強化学習（RLHF）と呼ばれるプロセスを使って適応されます。この最適化は、テキストの自然さと一貫性に関して行われますが、回答の妥当性に関しては行われません。RLHFの仕組みの詳細については、このブログ投稿の範囲外ですが、こちらでより詳しい情報を見つけることができます。例えば、GPT-3は因果関係言語のベースモデルですが、ChatGPTのバックエンドのモデル（GPTシリーズのモデルのUI）は、会話や指示から成るプロンプトでRLHFを用いてファインチューニングされます。これらのモデル間には重要な違いがあります。 Hugging Face Hubでは、因果関係言語モデルと指示にファインチューニングされた因果関係言語モデルの両方を見つけることができます（このブログ投稿で後でリンクを提供します）。LLaMAは最初のオープンソースLLMの1つであり、クローズドソースのモデルと同等以上の性能を発揮しました。Togetherに率いられた研究グループがLLaMAのデータセットの再現であるRed Pajamaを作成し、LLMおよび指示にファインチューニングされたモデルを訓練しました。詳細についてはこちらをご覧ください。また、Hugging Face Hubでモデルのチェックポイントを見つけることができます。このブログ投稿が書かれた時点では、オープンソースのライセンスを持つ最大の因果関係言語モデルは、MosaicMLのMPT-30B、SalesforceのXGen、TII UAEのFalconの3つです。テキスト生成モデルの2番目のタイプは、一般的にテキスト対テキスト生成モデルと呼ばれます。これらのモデルは、質問と回答または指示と応答などのテキストのペアで訓練されます。最も人気のあるものはT5とBARTです（ただし、現時点では最先端ではありません）。Googleは最近、FLAN-T5シリーズのモデルをリリースしました。FLANは指示にファインチューニングするために開発された最新の技術であり、FLAN-T5はFLANを使用してファインチューニングされたT5です。現時点では、FLAN-T5シリーズのモデルが最先端であり、オープンソースでHugging Face Hubで利用可能です。入力と出力の形式は似ているかもしれませんが、これらは指示にファインチューニングされた因果関係言語モデルとは異なります。以下は、これらのモデルがどのように機能するかのイラストです。より多様なオープンソースのテキスト生成モデルを持つことで、企業はデータをプライベートに保ち、ドメインに応じてモデルを適応させ、有料のクローズドAPIに頼る代わりに推論のコストを削減することができます。Hugging…

Learn more about Search Results RLHF - Page 11