「LLMアライメントの活用:AIをより利用しやすくする」

「LLMアライメントの活用:AIの利用をより簡単で効果的にする方法」

編集者の注:Sinan Ozdemirは、10月30日から11月2日までのこのODSC Westのスピーカーです。彼のトーク、「フィードバックからの強化学習によるオープンソースLLMの整合化」を要チェックです!

2020年、世界はOpenAIのGPT-3というAI分野の驚異に初めて出会いました。しかし、その完全なポテンシャルは2022年、OpenAIがそのGPT-3の指示に従ったバージョンである”InstructGPT”を発表したときに、世界は本当に注目するようになりました。そのイノベーションはAIの整合性にとってだけでなく、強化学習の力を利用してAIをより多くの人々に利用できるようにすることを示すものでした。

期待の整合化

広義には、整合化は人間が望むように振る舞うAIシステムを作るプロセスです。整合性は単にAIに指示に従うようにトレーニングすることではありません。既にパワフルなAIモデルを使用可能で、技術的に習熟したユーザーだけでなく、誰かが誕生日パーティーの計画を手助けするのに役立つようにするシステムを設計することです。これこそが整合化の非常に重要な側面であり、LLM(大規模言語モデル)の魔力を広範な観客に抽出することを可能にしました。

整合化がLLMの使いやすさの鍵であるなら、それを保つためには何が必要でしょうか?それが、強化学習(RL)の入念なダンスが登場する場所です。一部の人々にとって、”整合化”という用語は強化学習と同義であるかもしれませんが、それは表面には多くのものがあります。次のトークン予測の範囲内で人間の感情、倫理、ジョークの多面的な側面を捉えることは巨大な課題ですし、おそらく不可能です。”中立性”や”倫理的な行動”を効果的にプログラムする方法はありますか?議論の余地があるとすれば、できる方法はありません。それが厳密にエンコードされない限り、RLはこれらの微妙なニュアンスをモデル化するためのダイナミックな方法として浮上します。

RLHF(Reinforcement Learning from Human Feedback)は、OpenAIが元々InstructGPTモデルを整合化するために使用した技術であり、LLMを整合化するための主要な手段としてAI愛好家の間で頻繁に議論されますが、それは整合化のための多くのツールの中の1つに過ぎません。RLHFの核心原則は、高品質な人間のフィードバックを取得し、それを使ってLLMのタスクパフォーマンスにフィードバックを与え、ループの終わりまでにAIがよりユーザーフレンドリーに話すことを期待するというものです。

しかし、日常的なLLMの作業では、AIにすべての質問に答えてほしいわけではありません。私たちや私たちのビジネス/プロジェクトに関連するタスクを解決してほしいのです。私たちはRLの旅を通じて、人間の好みに依存しない他のフィードバックメカニズムを活用してRLHFに対する代替手法を探求します。

事例研究 – より中立的な要約を作成するためのFLAN-T5の整合化

Hugging Faceから2つの分類器を使用して、ニュース記事の要約を文法的に洗練された状態で一貫して中立的に作成するためにFLAN-T5モデルの能力を向上させる例を見てみましょう。

以下のコードは、予めファインチューニングされた感情分類器を使用して、中立クラスのロジットを取得し、FLAN-T5に中立なトーンで話すように報酬を与え、そうでない場合にペナルティを与えるためのフィードバックを定義します:

sentiment_pipeline = pipeline(  'text-classification',   'cardiffnlp/twitter-roberta-base-sentiment')def get_neutral_scores(texts):  scores = []  # function_to_apply='none' returns logits which can be negative  results = sentiment_pipeline(texts, function_to_apply='none', top_k=None)  for result in results:    for label in result:      if label['label'] == 'LABEL_1': # logit for neutral class        scores.append(label['score'])    return scores>> get_neutral_scores(['こんにちは', '大好きです!', '嫌いです']) >> [0.85, -0.75, -0.57]

私たちはこの分類器を、テキストの文法的正確性を分類する別の分類器とともに使用して、FLAN-T5モデルを整列させ、要約を生成する方法を選択します。

フィードバックからの強化学習のループは、次のようになります:

  1. FLAN-T5に要約するためのニュース記事のバッチを与える(生の記事のみを使用して、https://huggingface.co/datasets/argilla/news-summaryから取得)
  2. 以下の報酬の加重合計を割り当てる:
    1. textattack/roberta-base-CoLAから文法の正確性を判断するCoLAモデル
    2. cardiffnlp/twitter-roberta-base-sentimentから中立性を判断する感情モデル
  3. 報酬を使用して、FLAN-T5モデルをTRLパッケージを使って更新する。更新されたモデルが元のパラメータからどれだけ逸脱したかも考慮する。
  4. 繰り返す

以下は、ワークショップで構築するトレーニングループのサンプルです:

for epoch in tqdm(range(2)):  for batch in tqdm(ppo_trainer.dataloader):    #### summarizeトークンを先頭に挿入    game_data["query"] = ['summarize: ' + b for b in batch["text"]]    #### リファレンスと現在のflan-t5からの応答を取得    input_tensors = [_.squeeze() for _ in batch["input_ids"]]    # ....    for query in input_tensors:      response = ppo_trainer.generate(query.squeeze(), **generation_kwargs)      response_tensors.append(response.squeeze())            #### 報酬システム    game_data["response"] = [flan_t5_tokenizer.decode(...)    game_data['cola_scores'] = get_cola_scores(    game_data["clean_response"])    game_data['neutral_scores'] = get_neutral_scores(    game_data["clean_response"])    #### PPOトレーニングを実行して統計を記録    stats = ppo_trainer.step(input_tensors, response_tensors, rewards)    stats['env/reward'] = np.mean([r.cpu().numpy() for r in rewards])    ppo_trainer.log_stats(stats, game_data, rewards)

スペースを節約するため、このループのいくつかの行を省略しましたが、もちろんループ全体を見るために私のワークショップに参加していただくこともできます!

結果

数エポックのトレーニングの後、私たちのFLAN-T5は、文法的に正確で中立な要約により近い傾向を示し始めます。以下は、データセットの検証データを使用して異なる要約のサンプルです:

RLの前後のFLAN-T5のサンプル。RLで微調整されたモデルでは、「廃止」のような用語ではなく、「アナウンス」のような単語が使用されていることがわかります。

アラインメントされていないベースのFLAN-T5モデルとアラインメントされたバージョンの両方をバリデーションセット全体で実行すると、CoLAモデルと感情モデルの両方の報酬がわずかに増加することが示されます。

モデルはシステムからの報酬を増やし始め、調査の結果、要約生成に微妙な変化が見られます。ただし、基本モデルと比較して、その基本的な要約能力はほとんど変化していません。

結論

アラインメントには、データ収集とLLMがどのようなものを望んでいるかを理解するだけでなく、ツールや方法論も含まれます。アラインメントの目標は変わらず、「人間の感性に共鳴する出力を持つファッションLLM」を作り上げることです。AIはエンジニアのためのツールだけでなく、すべての人の仲間になる存在です。AIの愛好家であるか、この世界に興味を持つ人であれば、皆さんに役立つ情報がここにあります。今年のODSCで私たちに参加してみてください。一緒にLLMアラインメントの景色を見渡してみましょう!

著者について/ODSCウェストスピーカー:

Sinan Ozdemirは、数学者、データサイエンティスト、NLP専門家、講師、そして成功した作家です。現在、私は創立者兼CTOのLoopGeniusとして、AIと大規模言語モデル(LLM)の豊富な知識と経験を活かし、起業家やスタートアップが製品やサービスをマーケティングする方法を変革しています。

同時に、イノベーティブな投資会社であるTola Capitalに対して、AIとLLMのアドバイザリーサービスを提供しています。また、Addison WesleyとPearsonのAI著者としても活動し、プロフェッショナルがAIとLLMの複雑な分野をナビゲートするための包括的なリソースを作成してきました。

以前は、Directlyでデータサイエンス部門のディレクターを務め、彼の仕事は同社の戦略的な方向性に大きな影響を与えました。また、2017年から2021年までのForbes Technology Councilの公式メンバーとして、AI、機械学習、NLP、新興技術に関連するビジネスプロセスに関する洞察を共有しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more