「大規模な言語モデルは本当に複雑な構造化データを生成するのに優れているのか?このAI論文では、Struc-Benchを紹介し、LLMの能力を評価し、構造に注意したFine-Tuningの解決策を提案します」
This AI paper introduces Struc-Bench to evaluate the ability of large language models (LLMs) to generate truly complex structured data and proposes a solution for fine-tuning with attention to structure.
大規模言語モデル(LLM)は、他の自然言語処理のタスクとともに、テキスト生成のタスクで重要な進展を遂げています。生成能力の基本的な要素である、構造化データの生成能力は、以前の研究で大いに注目されてきました。しかし、LLMは、複雑な構造化出力を生成する能力において、依然として苦労しています。これは、自動レポート作成からコーディング支援まで、さまざまなアプリケーションにおいて重要なスキルです。さらに、LLMの構造化出力の能力を評価するための研究は、比較的少ないです。LLMの評価のほとんどは、自発的なテキストやコードの開発に焦点を当てています。これは、LLMがどれだけ複雑な構造化データを生成できるのかという問題を提起します。
イェール大学、浙江大学、ニューヨーク大学、ETHチューリッヒの研究者たちは、このようなオープンな問いについて徹底的な分析を行い、それに取り組むことを目指しています。まず、LLMの複雑な構造化データの生成能力に関するより包括的な研究が必要です。これまでのLLMの評価は、関係の抽出、イベントの認識、名前付きエンティティの識別など、単純な情報抽出(IE)タスクに焦点を当てたものが主でした。この場合、IEタスクの目的は、抽出されたデータを整理された形で収集することです。以前の研究は、LLMに比べてタスク中心のアプローチでした。テキストからデータを生成するBARTやT5などの事前学習モデルを使用し、主な焦点はテキストからデータへの問題でした。次に、LLMのパフォーマンスを包括的に評価するための評価基準やメトリックが必要です。
既存のベンチマークは、単語の重複などの単純な客観的メトリックを使用して、機械が生成したコンテンツが情報を適切に分類できるかどうかを評価しています。LLMが構造化された出力を提供できるかどうかを判断するためには、情報の形式も考慮すべきです。さらに、現在のLLMは、人間の自然言語の入力に正確に従い、正確な形式とエラーのないコンテンツを提供することができるのでしょうか?この研究は、文献のこれらのギャップを埋め、LLMが構造化された出力を生成するためのトレーニングデータセットと評価基準を向上させることを試みています。
以下は、彼らの貢献のリストです:(1) 彼らはSTRUCBENCHと呼ばれるベンチマークを作成しました。このベンチマークは、生のテキスト、HTML、LaTeX形式の構造化テキストの生成に焦点を当てています。彼らはまた、有名なLLMの能力を注意深く評価し、内容の正確さ、フォーマット、数値推論、長いテーブルの管理の問題を特定しました。(2) 彼らは、構造化テキスト生成のベンチマークで有名なLLMを実証評価し、注目すべきデータセットを組み込み、さまざまな領域に拡大しました。これにより、一般的な誤りの種類と欠陥の次元についてより深い理解が得られました。彼らの結果は、GPT-3.5とGPT-4が正確な出力を提供するための支援が必要であり、問題は主に誤ったコンテンツ、不十分なフォーマット、数値推論スキルの不足、長いテーブルの管理能力の欠如によるものです。(3) 彼らは、これらの問題を解決するために、構造認識の指示調整を使用し、ChatGPTを使用してフォーマットの指示を作成した後、LLaMAモデルをトレーニングしてこれらのフォーマットに従うようにしました。視覚的および隠れたデータ上の良好な結果は、これがLLMの構造化された出力を提供する能力を大幅に向上させる可能性があることを示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles