ローカルで質問応答(QA)タスク用にLLMを微調整する方法

ローカルでQAタスク用にLLMを微調整する方法

カスタムデータから情報を抽出するための実践的なステップバイステップガイド:質問による

質問応答タスクには3つの主要なタイプがあります。

抽出型QA:システムが与えられたテキスト(入力テキスト)から質問の答えを抽出するタスクです。これは最も一般的なQAシステムの形式であり、AlexaやGoogle検索などの一般的な目的の自動化システムの一部です。

オープン生成型QA:システムが自然言語で回答を生成するタスクです。回答は純粋な情報抽出よりも自然な感じにすることに焦点があります。ただし、オープン生成型QAタスクではコンテキストが提供される必要があり、回答はコンテキストから生成されます(ほとんどの場合はホールシネーションを覚えておいてください)

クローズド生成型QA:これはコンテキストが提供されず、回答がモデルから純粋に生成されるタスクです。

Photo by Severin Höin on Unsplash

抽出型QAの実践的なガイド

今日は、独自のカスタムデータを使用してモデルを微調整する方法について簡単なウォークスルーを行います。私は独自のデータを生成してモデルを微調整することを支持しています!では、始めましょう

  1. トレーニング用のデータを作成する方法
  2. 適切な形式に変換する方法-前処理
  3. トークン化する方法
  4. コンピューターを使用して微調整する方法
  5. ボーナス- hugging faceのようなクラウドAPIを微調整する方法

私はこのチュートリアルを書き直す必要がありました。HuggingFaceのドキュメントはかなり古く、依存関係が壊れています。彼らのチュートリアルのすべての問題を修正し、簡単にフォローできる完全な動作バージョンを共有しました。乾杯!

カスタムデータの作成

例としてSQuADデータを使用します。SQuAD(Stanford Question Answering Dataset)について詳しくはこちらをご覧ください。

この実験をJupyter Notebook/Ipython notebookで実行していることを前提とします。

データセットをインストールします(データの見た目を確認できるため)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

人工知能

「Kognitosの創設者兼CEO、ビニー・ギル- インタビューシリーズ」

ビニー・ギルは、複数の役職と企業を横断する多様で幅広い業務経験を持っていますビニーは現在、Kognitosの創設者兼CEOであり...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...