中国の研究者たちは、構造化データに対するLLMのゼロショット推論能力を向上させるために、StructGPTを提案しています
Chinese researchers propose StructGPT to improve the zero-shot inference capability of LLM for structured data.
大規模言語モデル(LLM)は、最近自然言語処理(NLP)で大きな進歩を遂げています。既存の研究は、LLMが特定のタスクにおいて、タスク固有の微調整なしで特に作成されたプロンプトの支援を受けて、ゼロショットおよびフューショットの能力を持ってさまざまなタスクを完了することが示されています。しかし、現在の研究によると、LLMは事実に反する不正確な情報を生成することがあり、ドメイン固有のまたはリアルタイムの専門知識を習得する能力には欠けているという問題があります。これらの問題は、LLMに外部の知識源を追加して間違った生成を修正することで直接解決できます。
データベースや知識グラフなどの構造化データは、さまざまなリソース間でLLMが必要とする知識を伝えるために定期的に使用されています。ただし、構造化データはLLMが事前学習中に触れることのなかった固有のデータ形式やスキーマを使用するため、理解するための支援が必要な場合があります。構造化データは、プレーンテキストとは異なり、一貫した方法で配置され、特定のデータモデルに従います。データテーブルは列インデックスのレコードで行ごとに配置され、知識グラフ(KG)は頭と末尾のエンティティ間の関係を記述する事実のトリプルとして頻繁に構成されます。
構造化データのボリュームはしばしば膨大ですが、入力プロンプトにすべてのデータレコードを収容することは不可能です(たとえば、ChatGPTは最大コンテキスト長が4096です)。構造化データをLLMが簡単に理解できる文に線形化することは、この問題に対する簡単な解決策です。ツール操作技術は、LLMが上記の困難に関する能力を向上させるために彼らを動機付けます。彼らの戦略の基本的な考え方は、特殊なインターフェースを使用して構造化データレコードを変更することです(たとえば、テーブルの列を抽出することによって)。これらのインターフェースの助けを借りて、特定のアクティビティを完了するために必要な証拠をより正確に特定し、データレコードの検索範囲を制限することができます。
本研究では、中国人民大学、北京市ビッグデータ管理と分析方法重点実験室、中国電子科技大学の研究者たちは、特定のタスクに適したインターフェースを設計し、LLMに推論を行うために使用することに焦点を当てています。これは、インターフェースを拡張した手法を適用するために解決する必要のある2つの主要な問題です。この方法では、LLMはインターフェースから収集した証拠に基づいて判断を下すことができます。彼らは、本研究でStructGPTと呼ばれるイテレーティブな読み取り-推論(IRR)メソッドを提供しています。このメソッドは、構造化データに基づいてタスクを解決するためのものです。彼らの方法では、さまざまな活動を完了するために2つの主要な責任が考慮されます:関連データの収集(読み取り)と正しい応答の仮定または次のアクションに対する戦略の策定(推論)。
彼らの知る限り、これは単一のパラダイムを使用してLLMがさまざまな形式の構造化データ(テーブル、KG、およびDBなど)を推論するためにどのように支援するかを調査する最初の研究です。基本的には、LLMの読み取りと推論のプロセスを分離しています:構造化データインターフェースを使用して正確かつ効果的なデータアクセスとフィルタリングを実現し、クエリの次の動きまたは回答を決定するために彼らの推論能力に依存します。外部インターフェースを使用することで、彼らはLLMが構造化データを理解し、意思決定するのを支援するための呼び出し-線形化生成プロセスを提案しています。このプロセスを提供されたインターフェースで繰り返すことで、彼らは徐々にクエリに対する望ましい応答に近づくことができます。
彼らは、自分たちの手法の効果を評価するためにさまざまなタスク(KGベースの質問応答、テーブルベースの質問応答、テキストからSQLへのDBベースの変換など)で包括的な試験を行っています。8つのデータセットでの実験結果は、彼らの提案手法が構造化データにおけるChatGPTの推論パフォーマンスを大幅に改善できることを示しています。さらに、完全データの教師チューニングアプローチと競合するレベルまで改善されることもあります。
• KGQA. 彼らの手法は、KGQAチャレンジのWebQSPにおいてHits@1が11.4%向上します。彼らの手法の支援を受けて、ChatGPTのマルチホップKGQAデータセット(MetaQA-2hopおよびMetaQA-3hopなど)のパフォーマンスを62.9%および37.0%向上させることができます。
• QAテーブル. TableQAチャレンジでは、ChatGPTを直接使用する場合と比較して、WTQおよびWikiSQLで示されるよりも約3%から5%の指示精度が向上します。 TabFactでは、テーブル事実の検証における正確さが4.2%向上します。
• テキストからSQLへ。Text-to-SQLの課題では、彼らの手法はChatGPTを直接利用する場合と比較して、3つのデータセット全体で実行の正確性を約4%向上させました。
著者はSpiderとTabFactのコードを公開しており、これによりStructGPTのフレームワークを理解するのに役立ちますが、全体のコードベースはまだ公開されていません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles