「Huggingface 🤗を使用したLLMsのためのRLHFトレーニングパイプライン」

「美容とファッションの専門家が活用するRLHFトレーニングパイプライン」

Jongsun LeeさんによるUnsplashでの写真

Pythonハンズオンガイドを使って、独自のドメイン固有のLLMを開発する方法を学びましょう

著者

このブログ記事はMarcello PolitiVijayasri Iyerによって書かれました。

はじめに

現在、誰もが生成型AIと大規模言語モデルについて話しています。ChatGPTやGrokなどのモデルは、今では一般的なネームとなり、多くの人がこれらのテクノロジーに基づいたソリューションを採用してビジネスを改善したいと望んでいます。

しかしながら、これらのモデルの言語能力は素晴らしいものの、まだ完全ではありません。未解決の大きな問題がたくさんあります。

LLM(大規模言語モデル)は、全ての機械学習/ディープラーニングモデルと同様に、データから学習します。したがって、ゴミ入れゴミ出しの法則を回避することはできません。つまり、低品質のデータでモデルを訓練すると、推論時の出力の品質も同じく低くなります

このことが、LLMとの会話中に偏見や先入観のある回答が発生する主な理由です。

しかし、モデルのレスポンスが正確かつ一貫性があり、開発者とユーザーの観点から安全で倫理的かつ望ましいものとなるように、モデルの調整を保証するためのテクニックがあります。最も一般的に使用されるテクニックは、強化学習を使用することです

人間のフィードバックを用いた強化学習

著者によるイメージ

人間のフィードバックを用いた強化学習(RLHF)は、最近注目を集め、特に大規模言語モデル(LLM)のNLP領域でRL技術の新しい革命を始めました。このブログでは、Huggingfaceライブラリを使ったLLMの完全なRLHFトレーニングパイプラインを学びます

RLHFパイプラインは3つのフェーズで構成されます:

  • ドメイン固有の事前トレーニング:Causalを使用して生のテキストに対して事前トレーニングされたLLMを微調整する…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...