ローカルで質問応答（QA）タスク用にLLMを微調整する方法

ローカルでQAタスク用にLLMを微調整する方法

カスタムデータから情報を抽出するための実践的なステップバイステップガイド：質問による

質問応答タスクには3つの主要なタイプがあります。

抽出型QA：システムが与えられたテキスト（入力テキスト）から質問の答えを抽出するタスクです。これは最も一般的なQAシステムの形式であり、AlexaやGoogle検索などの一般的な目的の自動化システムの一部です。

オープン生成型QA：システムが自然言語で回答を生成するタスクです。回答は純粋な情報抽出よりも自然な感じにすることに焦点があります。ただし、オープン生成型QAタスクではコンテキストが提供される必要があり、回答はコンテキストから生成されます（ほとんどの場合はホールシネーションを覚えておいてください）

クローズド生成型QA：これはコンテキストが提供されず、回答がモデルから純粋に生成されるタスクです。

抽出型QAの実践的なガイド

今日は、独自のカスタムデータを使用してモデルを微調整する方法について簡単なウォークスルーを行います。私は独自のデータを生成してモデルを微調整することを支持しています！では、始めましょう

トレーニング用のデータを作成する方法
適切な形式に変換する方法-前処理
トークン化する方法
コンピューターを使用して微調整する方法
ボーナス- hugging faceのようなクラウドAPIを微調整する方法

私はこのチュートリアルを書き直す必要がありました。HuggingFaceのドキュメントはかなり古く、依存関係が壊れています。彼らのチュートリアルのすべての問題を修正し、簡単にフォローできる完全な動作バージョンを共有しました。乾杯！

カスタムデータの作成

例としてSQuADデータを使用します。SQuAD（Stanford Question Answering Dataset）について詳しくはこちらをご覧ください。

この実験をJupyter Notebook/Ipython notebookで実行していることを前提とします。

データセットをインストールします（データの見た目を確認できるため）

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

ローカルで質問応答（QA）タスク用にLLMを微調整する方法

カスタムデータから情報を抽出するための実践的なステップバイステップガイド：質問による

抽出型QAの実践的なガイド

カスタムデータの作成

Was this article helpful?

「GPT4Readability — リードミーをもう一度書く必要はありません」

「大規模言語モデルは本当にそのすべての層が必要なのか？このAI研究がモデルの効率を明らかにする：大規模言語モデルにおける必須コンポーネントの追求」

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ