「UCバークレーの研究者たちは、Chain of Hindsight(CoH)という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」

UC Berkeley researchers propose a new technology called Chain of Hindsight (CoH) that allows LLMs to learn from feedback in all forms and improve model performance.

過去数年間、大規模なニューラルネットワークが研究者の注目を集めています。これは、自然言語理解や難解な数学の方程式の解決、さらにはタンパク質構造の予測など、さまざまなタスクで優れたパフォーマンスを発揮するためです。しかし、これらのモデルが社会に建設的な貢献をするためには、人間の価値観に合致し、人間の好みを考慮することが重要です。ヒューマンフィードバックの利用は、これを達成するための最も重要な要素の一つであり、正確性、公平性、バイアスなどの幅広い指標に基づいてこれらのモデルのパフォーマンスを評価し、より倫理的な出力を生成するための改善方法を提供します。ユーザーフィードバックの組み込み効率を向上させるために、研究者たちは過去数年間にさまざまなヒューマンインザループシステムのアプローチを試行してきました。その結果、ChatGPTとInstructGPTは、ヒューマンフィードバックを利用して驚くべき結果を示しました。

これらの言語モデリングのパフォーマンスの向上は、主に教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF)アプローチによる戦略によるものとされています。これらの戦略は、言語モデルのパフォーマンスに関する有望な結果を達成する上で大きく貢献していますが、それぞれに固有の欠点があります。SFTは主に人間の注釈に頼っており、これらのモデルは使用が困難でデータの利用効率も低いです。一方、強化学習は報酬関数に基づいて動作するため、これらのモデルを最適化することは非常に困難です。

これらの問題に対処するため、カリフォルニア大学バークレー校の研究者たちは、フィードバックを文に変換し、モデルがフィードバックを理解するためにファインチューニングするという新しい技術を開発しました。この技術は、言語で提供される大量のフィードバックを人間がどのように処理するかに大いに触発されたものです。この技術の設計時の研究者の目標は、強化学習を使用せずにすべてのフィードバックを十分に活用する一方で、SFTとRLHFの強みを組み合わせることで、モデルがより正確かつ効果的にさまざまなタスクを実行できるようにすることでした。

研究者たちは、人間は言語形式の豊かなフィードバックから効果的に学ぶことができるという事実を利用しました。事前学習された言語モデルが文脈で効果的に学習する能力が優れていることを考えると、すべてのフィードバックを文に変換し、モデルにフィードバックに従うように学習させる可能性について研究者たちは疑問を抱きました。具体的には、研究者たちはモデルをファインチューニングして結果を予測させる一方で、1つ以上のソートされた結果とそのフィードバックを比較の形式で使用することを提案しました。CoHは、訓練中にランダムに1つ以上のモデルの出力を選択し、比較の形で肯定的なフィードバックと否定的なフィードバックの両方を含む文を構築するためにそれらを利用します。例えば、2つの例文は「以下は悪い要約です」と「以下の要約はより良いです」となります。モデルは推論時に肯定的なフィードバックを使用して望ましい出力を生成します。

CoHのアプローチにより、モデルは肯定的なフィードバックと否定的なフィードバックの両方から学習することができ、否定的な属性やエラーを特定して修正することができます。この戦略には、より有機的なスタイルのフィードバックやトレーニングシステムなど、さまざまな利点があります。また、CoH技術は、研究者による数多くの実験的評価において、言語モデルと人間の好みの相関において以前のアプローチを大幅に上回る成果を behしました。この方法はヒューマン評価で好まれ、要約やディスカッションのタスクでも非常に優れた結果を behしました。カリフォルニア大学バークレー校のチームは、CoHが将来的に自動や数値のフィードバックなど、さまざまなタイプのフィードバックを使用する際に大きな潜在能力を持つと強く信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「マイクロソフトのAzure AIモデルカタログが革新的な人工知能モデルで拡大」

“`html <img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2...

機械学習

『Google Vertex AI Search&Conversationを使用してRAGチャットボットを構築する』

「Googleは最近、彼らの管理されたRAG(Retrieval Augmented Generator)サービス、Vertex AI Search&ConversationをGA(一...

機械学習

もし、口頭および書面によるコミュニケーションが人間の知能を発展させたのであれば... 言語モデルは一体どうなっているのでしょうか?

人間の知能は、その非凡な認知能力によって、他の種に比べて比類のない存在ですこの知的優位性の原動力は、言語の出現に遡る...

機械学習

AIHelperBotとの出会い 秒単位でSQLクエリを構築する人工知能(AI)ベースのSQLエキスパート

現代のデジタルテクノロジーの魅力的な世界では、人工知能(AI)チャットボットが人々のオンライン体験を向上させます。人工...

機械学習

「Bingチャットは、最新のリアルタイムな知識を提供する点でChatGPTを上回るのか? 検索補完強化ジェネレーション(RAG)によるご紹介」

近年、大規模言語モデル(LLM)の開発により、人工知能(AI)と機械学習の分野において革新的な変化がもたらされました。これ...

機械学習

SAM-PTとは SAM(Segment Anything Model)の機能を拡張し、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです

ロボティクス、自動運転、ビデオ編集など、多くのアプリケーションはビデオセグメンテーションの恩恵を受けています。深層ニ...