「Huggingface 🤗を使用したLLMsのためのRLHFトレーニングパイプライン」

「美容とファッションの専門家が活用するRLHFトレーニングパイプライン」

Jongsun LeeさんによるUnsplashでの写真

Pythonハンズオンガイドを使って、独自のドメイン固有のLLMを開発する方法を学びましょう

著者

このブログ記事はMarcello PolitiVijayasri Iyerによって書かれました。

はじめに

現在、誰もが生成型AIと大規模言語モデルについて話しています。ChatGPTやGrokなどのモデルは、今では一般的なネームとなり、多くの人がこれらのテクノロジーに基づいたソリューションを採用してビジネスを改善したいと望んでいます。

しかしながら、これらのモデルの言語能力は素晴らしいものの、まだ完全ではありません。未解決の大きな問題がたくさんあります。

LLM(大規模言語モデル)は、全ての機械学習/ディープラーニングモデルと同様に、データから学習します。したがって、ゴミ入れゴミ出しの法則を回避することはできません。つまり、低品質のデータでモデルを訓練すると、推論時の出力の品質も同じく低くなります

このことが、LLMとの会話中に偏見や先入観のある回答が発生する主な理由です。

しかし、モデルのレスポンスが正確かつ一貫性があり、開発者とユーザーの観点から安全で倫理的かつ望ましいものとなるように、モデルの調整を保証するためのテクニックがあります。最も一般的に使用されるテクニックは、強化学習を使用することです

人間のフィードバックを用いた強化学習

著者によるイメージ

人間のフィードバックを用いた強化学習(RLHF)は、最近注目を集め、特に大規模言語モデル(LLM)のNLP領域でRL技術の新しい革命を始めました。このブログでは、Huggingfaceライブラリを使ったLLMの完全なRLHFトレーニングパイプラインを学びます

RLHFパイプラインは3つのフェーズで構成されます:

  • ドメイン固有の事前トレーニング:Causalを使用して生のテキストに対して事前トレーニングされたLLMを微調整する…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

人工知能

「マーシャンの共同創設者であるイータン・ギンスバーグについてのインタビューシリーズ」

エタン・ギンズバーグは、マーシャンの共同創業者であり、すべてのプロンプトを最適なLLMに動的にルーティングするプラットフ...

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

ファイデムのチーフ・プロダクト・オフィサー、アルパー・テキン-インタビューシリーズ

アルパー・テキンは、FindemというAI人材の獲得と管理プラットフォームの最高製品責任者(CPO)ですFindemのTalent Data Clou...