このAI論文は、大規模な言語モデルにおける長期的な会話の一貫性を向上させるための再帰的なメモリ生成手法を提案しています

This AI paper proposes a recursive memory generation method to improve long-term conversation consistency in large-scale language models.

チャットボットや他のオープンドメインのコミュニケーションシステムは、近年の関心と研究の急増を見ています。長期的な議論の設定は、前回の会話の重要なポイントを知り、覚える必要があるため、困難です。

ChatGPTやGPT-4などの大規模言語モデル(LLM)は、最近の自然言語タスクで励みになる結果を示しています。その結果、オープンドメイン/タスクチャットボットは、LLMの能力をプロンプティングに利用して作成されます。しかし、長時間の議論では、ChatGPTでも文脈を見失い、一貫性のない回答を提供することがあります。

中国科学院とシドニー大学の研究者は、ラベル付きデータや追加のツールなしでLLMを長期的な会話に効果的に使用できるかどうかを調査しています。研究者は、メモリとして再帰的な要約を構築するためにLLMを使用し、進行中の会話から重要な情報を保存します。これは、メモリ拡張アプローチからのインスピレーションを得ています。実際の使用では、LLMにはまず簡単な背景を与え、それを要約するように求めます。次に、以前の文と後続の文を組み合わせて新しい要約/メモリを生成します。最後に、LLMに最新の情報に基づいて決定するように指示します。

提案されたスキーマは、非常に長いコンテキスト(対話セッション)をモデル化するために現在のLLMを可能にするための実現可能なソリューションとして機能する可能性があります。設定の最大長さのコスト増加や長期的な論述のモデリングは必要ありません。

提案されたスキーマの有用性は、簡単に使用できるLLM API ChatGPTとtext-davinci-003を使用して公開の長期データセットで実験的にデモンストレーションされています。さらに、研究は、単一のラベル付きサンプルを使用することで提案された戦略のパフォーマンスを大幅に向上させることを示しています。

研究者は、メモリ管理と回答生成のタスクを任された任意の大規模言語モデルについて調査しています。前者は進行中の会話の重要な詳細を反復的に要約する役割を担い、後者はメモリを組み込んで適切な回答を生成します。

この研究では、提案された手法の効果を判断するために自動的な指標のみを使用していますが、これはオープンドメインのチャットボットに最適ではありません。実際のアプリケーションでは、巨大なモデルを呼び出すコストを無視することはできません。これは彼らの解決策には考慮されていません。

将来、研究者は、彼らのアプローチがストーリープロダクションを含む他の長期コンテキストのモデリングにおいてどのように効果的かをテストする予定です。また、高価なオンラインAPIではなく、ローカルに監督された微調整されたLLMを使用して、彼らの手法の要約能力を向上させる予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「言語復興のための生成型AI」

はじめに 言語は単なるコミュニケーション手段ではなく、文化、アイデンティティ、遺産の保管庫でもあります。しかし、多くの...

機械学習

自然言語処理における転移学習:テキスト分類のための事前学習済みモデルの活用

この記事では、転移学習の概念について説明し、いくつかの人気のある事前学習済みモデルを探求し、テキスト分類に使用する方...

AI研究

「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」

ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声...

機械学習

「NVIDIAのグレース・ホッパー・スーパーチップがMLPerfの推論ベンチマークを席巻する」

MLPerf業界ベンチマークに初登場したNVIDIA GH200 Grace Hopperスーパーチップは、すべてのデータセンターインファレンステス...

データサイエンス

「確信せよ、ただし検証せよ」

非決定的なソフトウェアの開発、テスト、および監視の課題を理解することこれは、可観測性のための新しいかつ重要な課題です ...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...