このAI論文は、大規模な言語モデルにおける長期的な会話の一貫性を向上させるための再帰的なメモリ生成手法を提案しています

This AI paper proposes a recursive memory generation method to improve long-term conversation consistency in large-scale language models.

チャットボットや他のオープンドメインのコミュニケーションシステムは、近年の関心と研究の急増を見ています。長期的な議論の設定は、前回の会話の重要なポイントを知り、覚える必要があるため、困難です。

ChatGPTやGPT-4などの大規模言語モデル(LLM)は、最近の自然言語タスクで励みになる結果を示しています。その結果、オープンドメイン/タスクチャットボットは、LLMの能力をプロンプティングに利用して作成されます。しかし、長時間の議論では、ChatGPTでも文脈を見失い、一貫性のない回答を提供することがあります。

中国科学院とシドニー大学の研究者は、ラベル付きデータや追加のツールなしでLLMを長期的な会話に効果的に使用できるかどうかを調査しています。研究者は、メモリとして再帰的な要約を構築するためにLLMを使用し、進行中の会話から重要な情報を保存します。これは、メモリ拡張アプローチからのインスピレーションを得ています。実際の使用では、LLMにはまず簡単な背景を与え、それを要約するように求めます。次に、以前の文と後続の文を組み合わせて新しい要約/メモリを生成します。最後に、LLMに最新の情報に基づいて決定するように指示します。

提案されたスキーマは、非常に長いコンテキスト(対話セッション)をモデル化するために現在のLLMを可能にするための実現可能なソリューションとして機能する可能性があります。設定の最大長さのコスト増加や長期的な論述のモデリングは必要ありません。

提案されたスキーマの有用性は、簡単に使用できるLLM API ChatGPTとtext-davinci-003を使用して公開の長期データセットで実験的にデモンストレーションされています。さらに、研究は、単一のラベル付きサンプルを使用することで提案された戦略のパフォーマンスを大幅に向上させることを示しています。

研究者は、メモリ管理と回答生成のタスクを任された任意の大規模言語モデルについて調査しています。前者は進行中の会話の重要な詳細を反復的に要約する役割を担い、後者はメモリを組み込んで適切な回答を生成します。

この研究では、提案された手法の効果を判断するために自動的な指標のみを使用していますが、これはオープンドメインのチャットボットに最適ではありません。実際のアプリケーションでは、巨大なモデルを呼び出すコストを無視することはできません。これは彼らの解決策には考慮されていません。

将来、研究者は、彼らのアプローチがストーリープロダクションを含む他の長期コンテキストのモデリングにおいてどのように効果的かをテストする予定です。また、高価なオンラインAPIではなく、ローカルに監督された微調整されたLLMを使用して、彼らの手法の要約能力を向上させる予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIを使用して、自分の目で直接拡張現実(AR)を体験してみましょう

技術の飛躍により、Brilliant Labsは最先端のオープンソースARレンズ「Monocle」で拡張現実市場を変革しました。この革新的な...

AIテクノロジー

「Voicemod AIで自分自身のAIボイスを作成しましょう」

自分自身と会話できる世界を想像してみてください。実際には、あなたの声はあなたが望むものになることができます。それは、V...

AIニュース

Googleはチャットボットの使用について従業員に警告、ここにその理由があります

Googleの親会社であるAlphabet Inc.は、ChatGPTや自社製品であるBardを含むチャットボットの使用について従業員に注意を促し...

機械学習

印象的なパフォーマンス:TensorRT-LLMを使用したRTXで最大4倍高速化された大規模言語モデル(LLM) for Windows

Generative AIは、個人コンピューティングの歴史で最も重要なトレンドの一つであり、ゲーミング、創造性、ビデオ、生産性、開...

機械学習

ID対マルチモーダル推奨システム:転移学習の視点

この記事は、移転可能な推薦システムの開発状況と代表的な作業(IDベース、モダリティベース、および大規模言語モデルベース...

データサイエンス

「リアルタイムの高度な物体認識を備えたLego Technicソーターの構築」

「Nullspace Roboticsでのインターンシップ中、私は会社の能力を高めるプロジェクトに取り組む機会を得ました物体検出と機械...