「UCバークレーの研究者たちは、Chain of Hindsight(CoH)という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」

UC Berkeley researchers propose a new technology called Chain of Hindsight (CoH) that allows LLMs to learn from feedback in all forms and improve model performance.

過去数年間、大規模なニューラルネットワークが研究者の注目を集めています。これは、自然言語理解や難解な数学の方程式の解決、さらにはタンパク質構造の予測など、さまざまなタスクで優れたパフォーマンスを発揮するためです。しかし、これらのモデルが社会に建設的な貢献をするためには、人間の価値観に合致し、人間の好みを考慮することが重要です。ヒューマンフィードバックの利用は、これを達成するための最も重要な要素の一つであり、正確性、公平性、バイアスなどの幅広い指標に基づいてこれらのモデルのパフォーマンスを評価し、より倫理的な出力を生成するための改善方法を提供します。ユーザーフィードバックの組み込み効率を向上させるために、研究者たちは過去数年間にさまざまなヒューマンインザループシステムのアプローチを試行してきました。その結果、ChatGPTとInstructGPTは、ヒューマンフィードバックを利用して驚くべき結果を示しました。

これらの言語モデリングのパフォーマンスの向上は、主に教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF)アプローチによる戦略によるものとされています。これらの戦略は、言語モデルのパフォーマンスに関する有望な結果を達成する上で大きく貢献していますが、それぞれに固有の欠点があります。SFTは主に人間の注釈に頼っており、これらのモデルは使用が困難でデータの利用効率も低いです。一方、強化学習は報酬関数に基づいて動作するため、これらのモデルを最適化することは非常に困難です。

これらの問題に対処するため、カリフォルニア大学バークレー校の研究者たちは、フィードバックを文に変換し、モデルがフィードバックを理解するためにファインチューニングするという新しい技術を開発しました。この技術は、言語で提供される大量のフィードバックを人間がどのように処理するかに大いに触発されたものです。この技術の設計時の研究者の目標は、強化学習を使用せずにすべてのフィードバックを十分に活用する一方で、SFTとRLHFの強みを組み合わせることで、モデルがより正確かつ効果的にさまざまなタスクを実行できるようにすることでした。

研究者たちは、人間は言語形式の豊かなフィードバックから効果的に学ぶことができるという事実を利用しました。事前学習された言語モデルが文脈で効果的に学習する能力が優れていることを考えると、すべてのフィードバックを文に変換し、モデルにフィードバックに従うように学習させる可能性について研究者たちは疑問を抱きました。具体的には、研究者たちはモデルをファインチューニングして結果を予測させる一方で、1つ以上のソートされた結果とそのフィードバックを比較の形式で使用することを提案しました。CoHは、訓練中にランダムに1つ以上のモデルの出力を選択し、比較の形で肯定的なフィードバックと否定的なフィードバックの両方を含む文を構築するためにそれらを利用します。例えば、2つの例文は「以下は悪い要約です」と「以下の要約はより良いです」となります。モデルは推論時に肯定的なフィードバックを使用して望ましい出力を生成します。

CoHのアプローチにより、モデルは肯定的なフィードバックと否定的なフィードバックの両方から学習することができ、否定的な属性やエラーを特定して修正することができます。この戦略には、より有機的なスタイルのフィードバックやトレーニングシステムなど、さまざまな利点があります。また、CoH技術は、研究者による数多くの実験的評価において、言語モデルと人間の好みの相関において以前のアプローチを大幅に上回る成果を behしました。この方法はヒューマン評価で好まれ、要約やディスカッションのタスクでも非常に優れた結果を behしました。カリフォルニア大学バークレー校のチームは、CoHが将来的に自動や数値のフィードバックなど、さまざまなタイプのフィードバックを使用する際に大きな潜在能力を持つと強く信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

2023年に知っておく必要のある2つの重要なSQL CASE WHENの例

eコマースの実際のデータアナリストの仕事面接でのSQLの問題ですCASE WHEN式を使用して解決する必要がありますアプローチ方法...

AIニュース

「共感を人工的に作り出す」

科学者たちは、人工知能に他人の感情を理解する能力を追加しようと努力しています

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...

機械学習

「自分の武器を選ぶ:うつ病AIコンサルタントの生存戦略」

最新のターミネーターの映画が最近公開されましたこの新しいエピソードでは、未来の人間の抵抗組織がロボットを過去に送り、O...

人工知能

プロンプトエンジニアリングの芸術:ChatGPTのデコード

OpenAIとDeepLearning.AIのコースを受講して、AIとの相互作用の原理と実践をマスターする