ローカルで質問応答(QA)タスク用にLLMを微調整する方法
ローカルでQAタスク用にLLMを微調整する方法
カスタムデータから情報を抽出するための実践的なステップバイステップガイド:質問による
質問応答タスクには3つの主要なタイプがあります。
抽出型QA:システムが与えられたテキスト(入力テキスト)から質問の答えを抽出するタスクです。これは最も一般的なQAシステムの形式であり、AlexaやGoogle検索などの一般的な目的の自動化システムの一部です。
オープン生成型QA:システムが自然言語で回答を生成するタスクです。回答は純粋な情報抽出よりも自然な感じにすることに焦点があります。ただし、オープン生成型QAタスクではコンテキストが提供される必要があり、回答はコンテキストから生成されます(ほとんどの場合はホールシネーションを覚えておいてください)
クローズド生成型QA:これはコンテキストが提供されず、回答がモデルから純粋に生成されるタスクです。
抽出型QAの実践的なガイド
今日は、独自のカスタムデータを使用してモデルを微調整する方法について簡単なウォークスルーを行います。私は独自のデータを生成してモデルを微調整することを支持しています!では、始めましょう
- トレーニング用のデータを作成する方法
- 適切な形式に変換する方法-前処理
- トークン化する方法
- コンピューターを使用して微調整する方法
- ボーナス- hugging faceのようなクラウドAPIを微調整する方法
私はこのチュートリアルを書き直す必要がありました。HuggingFaceのドキュメントはかなり古く、依存関係が壊れています。彼らのチュートリアルのすべての問題を修正し、簡単にフォローできる完全な動作バージョンを共有しました。乾杯!
カスタムデータの作成
例としてSQuADデータを使用します。SQuAD(Stanford Question Answering Dataset)について詳しくはこちらをご覧ください。
この実験をJupyter Notebook/Ipython notebookで実行していることを前提とします。
データセットをインストールします(データの見た目を確認できるため)
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles