中国の研究者たちは、構造化データ上でのLLMのゼロショット推論能力を向上させるためにStructGPTを提案しています

中国の研究者はStructGPTを提案して、LLMのゼロショット推論能力を向上させる

大規模言語モデル(LLM)は、最近、自然言語処理(NLP)の分野で大きな進展を遂げています。既存の研究によれば、LLMは、タスク固有の微調整なしで、特に作成されたプロンプトの支援を受けて、さまざまなタスクを完了するためのゼロショットおよびフューショットの能力を持っています。効果的であるにもかかわらず、現在の研究によれば、LLMは事実に基づかない情報を生成する可能性があり、ドメイン固有のまたはリアルタイムの専門知識を習得する能力に欠ける場合があります。これらの問題は、外部の知識源をLLMに追加して誤った生成を修正することで直接解決することができます。

データベースや知識グラフなどの構造化データは、さまざまなリソース間でLLMが必要とする知識を伝達するために定期的に使用されています。しかし、構造化データはプレトレーニング中にLLMが接触していない固有のデータ形式やスキーマを使用するため、それらを理解するために支援が必要な場合があります。構造化データは、プレーンテキストとは異なり、一貫した方法で配置され、特定のデータモデルに従います。データテーブルは行ごとに列インデックス化されたレコードとして配置されますが、知識グラフ(KG)はヘッドとテールのエンティティ間の関係を記述するファクトトリプルとして頻繁に構成されます。

構造化データのボリュームは頻繁に膨大ですが、入力プロンプトにすべてのデータレコードを収容することは不可能です(たとえば、ChatGPTでは最大コンテキスト長が4096です)。構造化データをLLMが簡単に理解できるようにするために、構造化データを文に直線化するというシンプルな解決策があります。ツール操作の技術は、LLMの前述の困難に関する能力を向上させるために彼らを活気づけるものです。彼らの戦略の基本的なアイデアは、特殊なインターフェースを使用して構造化データレコードを変更すること(たとえば、テーブルの列を抽出することなど)です。これらのインターフェースの助けを借りて、彼らは特定の活動を完了するために必要な証拠をより正確に特定し、データレコードの検索範囲を成功裡に制限することができます。

中国人民大学、北京市ビッグデータ管理および分析方法研究所、中国電子科技大学の研究者たちは、この研究で、特定のタスクに適したインターフェースを設計し、それらをLLMの推論に使用することに焦点を当てています。これは、インターフェースを拡張した手法を適用するために解決する必要のある2つの主要な問題です。この方法により、LLMはインターフェースから収集した証拠に基づいて意思決定を行うことができます。そのため、彼らはこの研究で、StructGPTと呼ばれる反復的な読み取り-推論(IRR)メソッドを提供しています。この方法は、構造化データに基づいたタスクを解決するために使用されます。彼らの方法は、さまざまな活動を完了するために2つの主要な責任を考慮しています:関連するデータを収集すること(読み取り)と、正しい応答を仮定するか、次のアクションの戦略を策定すること(推論)。

彼らの知る限り、これは異なる形式の構造化データ(テーブル、KG、DBなど)に対してLLMの推論を支援する方法について初めて研究したものです。基本的に、彼らはLLMの読み取りと推論のプロセスを分離しています:彼らは構造化データインターフェースを使用して正確で効果的なデータアクセスとフィルタリングを実現し、次の動作やクエリへの回答を決定するために彼らの推論能力に依存しています。外部インターフェースを使用することで、彼らは特定のインターフェースとの連動した直線化生成プロセスを提案し、LLMが構造化データを理解し、意思決定を行うのを支援することができます。このプロセスを提供されたインターフェースで繰り返すことで、彼らは徐々にクエリに対する望ましい応答に近づくことができます。

彼らは、その手法の効果を評価するために、さまざまなタスク(KGに基づいた質問応答、テーブルに基づいた質問応答、テキストからSQLへの変換など)で包括的な試験を行っています。8つのデータセットでの実験結果は、彼らの提案手法が構造化データにおけるChatGPTの推論パフォーマンスを大幅に向上させることが示されており、完全データの教師付き調整手法と競合するレベルにまで達することがわかりました。

• KGQA. 彼らの手法により、KGQAチャレンジのWebQSPでのHits@1が11.4%向上しました。彼らの手法の支援を受けて、ChatGPTのマルチホップKGQAデータセット(MetaQA-2hopおよびMetaQA-3hopなど)におけるパフォーマンスは、それぞれ62.9%と37.0%向上することができます。

• QAテーブル. TableQAチャレンジでは、ChatGPTを直接利用する場合と比較して、彼らの手法によりWTQとWikiSQLでの指示の正確性が約3%から5%向上します。TabFactでは、テーブルの事実検証における正確性が4.2%向上します。

• テキストからSQLへ。テキストからSQLへのチャレンジでは、彼らの手法はChatGPTを直接利用する場合に比べて、3つのデータセットで実行精度を約4%向上させます。

著者はSpiderとTabFactのコードを公開しており、これらはStructGPTのフレームワークを理解するのに役立ちますが、全体のコードベースはまだ公開されていません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more