「LG AI Researchが提案するQASA:新しいAIベンチマークデータセットと計算アプローチ」

QASA New AI benchmark dataset and computational approach proposed by LG AI Research

人間は推論が得意であり、これが他の生物との違いです。推論には連想思考と論理的思考が含まれます。推論の一つの単純な方法は、何、いつ、どこ、なぜなどの質問をすることです。この推論によって、新たな発見や革新的なアイデアへと導かれることがあります。

さて、自分自身が自分自身の科学論文を書く際に行き詰まり、適切な好奇心のある質問をすることに困難を感じたと想像してください。科学論文や専門記事の量が増加しているため、従来のプロセスは時間がかかるため実現不可能となっています。科学論文を読むことで質問が生まれ、テストや深い質問が含まれることがありますが、これらはフルスタックの推論を必要とします。このような自然な高度な質問に答えるために、LGの研究者は科学論文に対する質問応答(QASA)アプローチを提案しています。これはフルスタックの認知推論を含んでいます。

研究者は、読者と著者が抽象的な部分だけでなく、科学論文全体を読みながら質問をするための3つのステップの手法を設計しました。最初は、読者が高度な表面的な質問、テスト、深い質問をすることを許可することです。次に、これらの質問と回答は、専門の読者が行った質問と比較されます。最後に、読者と著者は収集された質問に対して多面的な長文回答を提案するよう招待されます。

研究者によると、QASAにはAI/ML論文に関する1798の質問応答ペアが含まれています。平均して、各論文には15.1から29の質問があり、39.4%が深い推論レベルの質問です。彼らのQASAアプローチには、段落から関連情報を抽出するための連想的選択、各抽出段落から根拠のみを把握するための根拠生成、および根拠を包括的な回答に関連付けるための体系的な構成が含まれています。

現実的な質問を確保するために、質問者は自分の選んだ論文を選び、深い読書と呼ばれるすべてのセクションを読むか、スキム読書と呼ばれる特定のセクションを読むかを選択し、回答を含まない質問を準備することが許されています。回答者も、質問者が取り組んだ論文から関連する回答を提供するために論文を選ぶことができます。回答者は、選択した段落から自己生成された根拠に基づいて包括的な文章として回答するようにガイドされます。

研究者は、評価者が同じ質問に対して2つの回答を比較するペアワイズ評価手法を実施しました。評価者には、QASAスキームからの回答とInstructGPTからの回答の2つを提供しました。フルスタックのQAからの回答は、InstructGPTからの回答よりもより完全で根拠がある傾向があります。

QASAアプローチは、事前学習された言語モデル(LM)を使用して各サブタスクをモデリングします。公開および合成データは、科学論文と原稿におけるフルスタックの認知推論を提供するためのテストベッドとして機能することができます。これにより、有用な情報を手動で読み取り、再ランキングする労力が軽減されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more